You are on page 1of 56

Tema 1- Regresin lineal simple.

1.1. Introduccin
1.2. Especificacin del modelo de regresin lineal simple en la poblacin.
1.2.1. Estructura de los modelos de regresin
1.2.2. Hiptesis bsicas
1.3. Estimacin de los parmetros del modelo de regresin lineal simple
1.3.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
1.3.2. La recta de regresin en puntuaciones diferenciales
1.3.3. La recta de regresin en puntuaciones tpicas
1.3.4. Relacin entre la pendiente de la recta y el coeficiente de
correlacin
1.3.5. Interpretacin de los coeficientes de la recta de regresin
1.4. El contraste de la regresin
1.4.1.Componentes de variabilidad y bondad de ajuste
1.4.2. Validacin del modelo
1.4.3. Significacin de parmetros
1.5. Diagnosis del modelo: Anlisis de residuos
1.6. Prediccin
Tema 1- Regresin lineal simple.
1.1. Introduccin
1.1.1. Ejemplos de investigaciones en las que puede ser
adecuado utilizar el modelo de regresin simple.
1.1.2. El concepto de relacin entre variables: naturaleza y
tipos de relacin.
1.1.3. Herramientas para evaluar la relacin entre dos
variables
1.1.3.1. El diagrama de dispersin
1.1.3.2. La covarianza
1.1.3.3. El coeficiente de correlacin de Pearson
1.1. I ntroduccin
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el
modelo de regresin simple.

Se pretende estudiar si la competencia escolar de nios, medida en
una escala entre 1 y 4, depende del tiempo en meses que llevan
viviendo con un progenitor

Variable dependiente o criterio (endgena): competencia escolar
Variable independiente o predictora (exgena): meses de
monoparentalidad

Se pretende estudiar si el ajuste emocional de nios, medido por un
test de ajuste que proporciona puntuaciones en una escala entre 0 y
10, depende del mbito rural o urbano en el que vive la familia

Variable dependiente o criterio: ajuste emocional
Variable independiente o predictora: mbito geogrfico
1.1. I ntroduccin

1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el
modelo de regresin simple.

Se pretende estudiar la relacin entre estrs laboral y la variable
trabajo a turno

Variable dependiente o criterio: estrs laboral
Variable independiente o predictora: tipo de turno: fijo o variable

Se pretende estudiar si las notas en Anlisis de Datos II dependen de
Anlisis de Datos I

Variable dependiente o criterio: Anlisis de Datos II
Variable independiente o predictora: Anlisis de datos I
Para estudiar empricamente estas relaciones medimos, en una muestra de sujetos, los valores
de las variables incluidas en la relacin. Genricamente, la informacin de un sujeto cualquiera de
la muestra S
i
, vendr dada por el par (X
i
, Y
i
). El conjunto de pares constituye la matriz de datos
de la investigacin y para los ejemplos propuestos tendr el siguiente formato.
Tabla o matriz de datos
Anlisis de datos I Anlisis de datos II
1 2
2 1
3 3
4 4
5 2
0 3
7 5
8 6
9 8
10 9
Meses comp escolar
2 4
18 4
108 3.66
24 2.83
132 2
60 3.5
16 2.16
9 2.66
84 2.5
comp escolar mbito
4 1
4 1
3.66 1
2.83 1
2 1
3.5 0
2.16 0
2.66 0
2.5 0
1.83 0
Turno estrs
0 65
0 76
0 50
0 89
0 57
1 45
1 34
1 56
1 55
1 61
N=10
N=9
N=10 N=10
Observar que las variable
mbito y turno aunque
no son mtricas las hemos
codificado como numricas.
Hemos elegido el 0 y el 1
para diferenciar entre
las categoras de las variables.
Este tipo de codificacin,
muy frecuente en estadstica,
se conoce como codificacin
dummy o ficticia
1.1.2. El concepto de relacin entre variables.
Naturaleza y tipos de relacin: el grfico de dispersin
0
5
10
15
20
25
0 2 4 6 8 10 12 -20
-15
-10
-5
0
5
0 2 4 6 8 10 12
0
1
2
3
4
0 2 4 6 8 10 12
1.1.2. El concepto de relacin entre variables: naturaleza y
tipos de relacin.

0
20
40
60
80
100
0 1
-15
-10
-5
0
5
10
0
5
10
15
20
25
30
0
5
10
15
20
25
30
35
40
0 5 10 15 20
0
50
100
150
200
250
300
0 5 10 15 20
1.1.2. El concepto de relacin entre variables: naturaleza y
tipos de relacin.

19
21
23
25
27
29
31
0 2 4 6 8 10 12
0
5
10
15
20
25
30
35
0 2 4 6 8 10 12
1.1.3.2. La covarianza

( )( )
S
X X Y Y
N
SPC
N
xy
i
i
N
i
=

1
1 1
La covarianza puede tomar valores entre (-,+) de manera que si:
S
xy
= 0 independencia lineal

S
xy
> 0 relacin lineal directa o positiva

S
xy
< 0 relacin lineal inversa o negativa

Vamos a ver, utilizando el grfico de dispersin, porque las relaciones
De orden anteriores estn relacionadas con el tipo de relacin lineal.

Sxy> 0 relacin lineal directa o
positiva

X
Y

X X -
Y Y -
Sxy< 0 relacin lineal inversa o negativa
X X -
Y Y -
X
Y

Sxy= 0 independencia lineal
X X -
Y Y -
X
Y

Anlisis de datos I Anlisis de datos II
1 2 -3.9 -2.3 8.97
2 1 -2.9 -3.3 9.57
3 3 -1.9 -1.3 2.47
4 4 -0.9 -0.3 0.27
5 2 0.1 -2.3 -0.23
0 3 -4.9 -1.3 6.37
7 5 2.1 0.7 1.47
8 6 3.1 1.7 5.27
9 8 4.1 3.7 15.17
10 9 5.1 4.7 23.97
Sumas 49 43 0 0 73.3
Medias 4.9 4.3 8.14444444
X X - Y Y -
( )( )
X X Y Y - -
S
xy
1.1.3.2. La covarianza: dependencia de escalas
1.1.3.3. El coeficiente de correlacin de Pearson

( )( )
( ) ( )
r
S
S S
X X Y Y
X X Y Y
xy
xy
x y
i
i
N
i
i
i
N
i
i
N
= =


=
= =


1
2
1
2
1
s s + 1 1 r
xy
0
5
10
15
20
25
0 2 4 6 8 10 12
r
xy
= 1
-20
-15
-10
-5
0
5
0 2 4 6 8 10 12
r
xy
= -1
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
r
xy
= 0.88
r
xy
= -0.88
0
2
4
6
8
10
12
0 2 4 6 8 10 12
r
xy
= 0
r
xy
= 0
1.2. Especificacin del modelo de regresin lineal simple en la
poblacin.

X
i
i
c
Expresin matemtica del modelo en la poblacin

( ) Y f X X Y
Y X
Y Y
i i i i i i i
i i
i i i
= + = + + = +
= +
=
c | | c c
| |
c
0 1
0 1

predictora criterio
independiente dependiente
exgena endgena
explicativa explicada
En el modelo hay dos variables observadas: X e Y y dos parmetros
la ordenada en el origen de la recta de regresin y la pendiente
Interpretacin de los parmetros:
|
0 |
1
1.2.1. Estructura de los modelos de regresin

Puntuacin predicha por la recta de regresin verdadera
Residuo o error de prediccin
Y
i
Interpretacin de los parmetros:

X X Y 3 , 0 70

1 0
+ = + = | |
i
c
Esperanza
de vida
Ejercicio
fsico

i
c
Esperanza
de vida
Consumo
de tabaco


X X Y 04 , 0 70

1 0
= + = | |
1.2.2. Hiptesis bsicas


2. Homocedasticidad: la varianza del trmino de error es constante:
1. El trmino de Error es una variable aleatoria con media cero:
4. Los errores son independientes entre s.
3. Los errores se distribuyen normalmente:
3. La distribucin de Y es normal para cada X:
4. Las observaciones Y
i
son independientes entre s.
Las hiptesis anteriores pueden formularse de manera equivalente
en trminos de la variable criterio. As,
2. La varianza de Y es constante:
2 ) / ( o = i X Y Var
i i X X Y E | o + = ) / (
1. La media de Y depende linealmente de X:
i i X X Y E | o + = ) / (
2
) / ( o =
i
X Y Var
i i
X X Y E | o + = ) / (
) , ( /
2
o | o
i i
X N X Y + ~
0 ) ( =
i
E c
2
) ( o c =
i
Var
) , 0 (
2
o c N
i
~
Resumen grfico de las hiptesis bsicas
formuladas en trminos de la variable criterio





X
1
, X
2
, X
3
, X
4



Distribucin Normal
2
/
2
/
2
/
2
/
4 3 2 1
x y x y x y x y
o o o o = = =
Resumen grfico de las hiptesis bsicas
formuladas en trminos de los residuos
0
X
1
, X
2
, X
3
, X
4




El objetivo del anlisis de regresin ser estimar los
parmetros del modelo presentado y contrastar las
hiptesis de partida todo ello a partir de una muestra.
1.3. Estimacin de los parmetros del modelo de regresin
lineal simple

1.3.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
1.3.2. La recta de regresin en puntuaciones diferenciales
1.3.3. La recta de regresin en puntuaciones tpicas
1.3.4. Relacin entre la pendiente de la recta y el coeficiente de
correlacin
1.3.5. Interpretacin de los coeficientes de la recta de regresin
1.3.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
Partimos de una muestra de sujetos extrados de una poblacin
en la que se han tomado valores de las variables X e Y. La situacin
ms frecuente es que los puntos estn dispersos en el plano definido
por X e Y. La primera pregunta a plantearnos es de las infinitas rectas
que podemos ajustar a la nube de puntos Cul estimar mejor los
parmetros?. Existen diferentes criterios.
1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones
directas y principales propiedades
Y a bX e Y e
Y b b X e Y e
Y b b X
e Y Y
i i i i i
i i i i i
i i
i i i
= + + = +
= + + = +
= +
=

0 1
0 1
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00
X: Anlisis de datos I
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
Y
:

A
n

l
i
s
i
s

d
e

D
a
t
o
s

I
I

Criterio de mnimos cuadrados:


( ) ( ) ( )
( ) ( )
( ) ( )
e Y Y Y a bX
a
Y a bX
b
Y a bX
i
i
N
i i i i
i
N
i
N
i i
i
N
i i
i
N
2
1
2
2
1 1
2
1
2
1
0
0
= = + =
+ =
+ =
= = =
=
=

min
c
c
c
c
1.3.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
Recta de regresin mnimo cuadrtica (puntuaciones directas):



( )( )
( )
( )
a Y bX
b
X X Y Y
X X
S
S
r
S
S
Y a bX Y b X X
i
i
N
i
i
i
N
xy
x
xy
y
x
i i i
=
=

= =
= + = +
=
=

1
1
2 2

1.4.1. La recta de regresin de mnimos cuadrados en puntuaciones


directas y principales propiedades
Ejemplo de clculo de la recta de regresin de
mnimos cuadrados
56,5

82,5 0 0 41 55
17,55 20,25 3,9 4,5 8 10
6,65 12,25 1,9 3,5 6 9
7,25 6,25 2,9 2,5 4 8
1,35 2,25 0,9 1,5 5 7
-0,55 0,25 -1,1 0,5 3 6
1,05 0,25 -2,1 -0,5 2 5
0,15 2,25 -0,1 -1,5 4 4
2,75 6,25 -1,1 -2,5 3 3
10,85 12,25 -3,1 -3,5 1 2
9,45 20,25 -2,1 -4,5 2 1
y x
X X
Y Y
( )( ) X XY Y
( ) X X
2
Recta de regresin mnimo cuadrtica:



( )( )
( )
a Y bX
b
X X Y Y
X X
Y X
i
i
N
i
i
i
N
i i
= = =
=

= =
= +
=
=

4 1 0 743 55 0 021
56 50
82 50
0 743
0 021 0 743
1
1
2
, , , ,
,
,
,
-
, ,
1.4.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
i
X Y 742 , 0 021 , 0

+ =
dependencia de escalas.xls
Propiedades de la Recta de regresin mnimo cuadrtica:



1.4.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
1) La media de las puntuaciones predichas es igual
a la media de Y
2) Los errores tienen media cero
3) La recta de mnimos cuadrados pasa por el
punto:
4) Los errores no correlacionan ni con la variable predictora
ni con las puntuaciones predichas


1.4.2. La recta de regresin de mnimos cuadrados en
puntuaciones diferenciales
a) Modelo y recta en puntuaciones diferenciales
( )
( )
bx y
e bx y
e X X b Y Y
e bX X b Y e bX a Y
=
+ =
+ =
+ + = + + =

1.4.2. La recta de regresin de mnimos cuadrados en


puntuaciones estandarizadas
a) Modelo y recta en puntuaciones estandarizadas
xi xy i
ei xi xy yi
y
i
x
i
xy
y
i
i i
x
y
xy i
Z r Z
Z Z r Z
S
e
S
x
r
S
y
e x
S
S
r y
e bx y
=
+ =
+ =
+
|
|
.
|

\
|
=
+ =

i
X Y 742 , 0 021 , 0

+ =
x y 742 , 0 =
x
Z Z 86 , 0

=

Recta de regresin en diferenciales y en tipificadas. Relacin
entre b y r. Interpretacin de los coeficientes de la regresin
a) En puntuaciones directas
b) En puntuaciones diferenciales
c) En puntuaciones estandarizadas
y
x
xy
S
S
b r =
X
3 2 1 0 -1 -2
Y
3
2
1
0
-1
-2
-3
X
2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
-3
X
1,5 1,0 , 5 0,0 -,5 -1, 0
Y
1,5
1,0
, 5
0,0
-,5
-1, 0
-1, 5
-2, 0
1.4. El contraste de la regresin: introduccin
X
1,5 1,0 , 5 0,0 -,5 -1, 0 -1, 5 -2, 0
Y
3
2
1
0
-1
-2
-3
X
2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
X
3 2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
-3
1.4. El contraste de la regresin: introduccin
X
3 2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
-3
X
3 2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
-3
1.4. El contraste de la regresin: introduccin
X
3 2 1 0 -1 -2 -3 -4
Y
3
2
1
0
-1
-2
-3
-4
1.4. El contraste de la regresin: introduccin
X
i
Y
i
1.4. El contraste de la regresin: introduccin
i i
bX a Y + =

X
i
Y
i
Y
Desviacin Desviacin Desviacin
total explicada residual
i i
bX a Y + =

1.4.1.Componentes de variabilidad y bondad de ajuste


( ) ( ) ( )
i i i i
Y Y Y Y Y Y

+ =
1.4.1. Componentes de variabilidad y bondad de ajuste
X
i
SCSC SC
t res
= +
exp
Variacin
Total
Variacin
Explicada
Variacin
Residual
( ) ( ) ( )
2
1
2
1
2
1


= = =
+ =
N
i
i i
N
i
i
N
i
Y Y Y Y Y Y
( ) ( ) SC Y Y y Y
Y
N
N S
t i
i
N
i
i
N
i
i
i
N
i
N
y
= = =
|
\

|
.
|
=
= =
=
=

1
2
2
1
2
1
2
1
2
1
1.4.1. Componentes de variabilidad y bondad de ajuste
( ) ( ) ( )
2 2
1
2
1 2 2
1
2 2
2
1
2
2
1
exp
1

x
N
i
N
i
i
i
N
i
i
N
i
N
i
S N b
N
X
X b x b X X b Y Y SC =
|
|
|
|
|
.
|

\
|
|
.
|

\
|
= = = =



=
=
= = =
Frmulas para calcular las sumas de cuadrados en
puntuaciones directas y diferenciales:
( )
exp
1
2
2
1

SC SC e Y Y SC
t
N
i
i
N
i
i i res
= = =

= =
1.4.1. Componentes de variabilidad y bondad de ajuste
Frmulas para calcular las sumas de cuadrados en
tipificadas:
SCSC SC
t res
= +
exp
( )
( )( )
2
2
1
2 2
1
2
exp
1
2
1 1
1

1
xy res
xy
N
i
x xy
N
i
i
N
i
y t
r N SC
N r Z r Z SC
N Z SC
=
= = =
= =

= =
=
1.4.1. Componentes de variabilidad y bondad de
ajuste
Bondad de ajuste o Coeficiente de
determinacin
( )
SC
SC
SC
SC
SC
SC
R R
t
t t
res
t
= +
= +
exp
1 1
2 2
( )
( )
( )
( )
2
2
2 2
1
2
2
2
1
2
1
2
exp 2

xy
y
x
N
i
i
N
i
i
N
i
i
t
r
S
S b
Y Y
X X b
Y Y
Y Y
SC
SC
R = =

= =

= =
=
1.4.1. Componentes de variabilidad y bondad de
ajuste

r
2
xy
= 1
r
2
xy
= 0
r
2
xy
Representacin en diagramas de Venn
Y X
Y
X
X Y
Esquema del Contraste de Hiptesis
Contrastar una Hiptesis Estadsticamente es juzgar si cierta
propiedad supuesta para una poblacin es compatible con lo
observado en una muestra de ella.
1.4.2. Validacin del modelo
Elementos de una Prueba de Hiptesis
1.- Hiptesis Nula (H
0
), Hiptesis
Alternativa.
2.- Estadstico de Contraste (Discrepancia).
3.- Regin de Rechazo (Regin Crtica):
nivel de significacin.
4.- Regla de Decisin.
1.4.2. Validacin del modelo

1.- Hiptesis Nula (H
0
), Hiptesis Alternativa.
2.- Estadstico de Contraste (Discrepancia).
F
S
S
SC
k
SC
N K
r
K
r
N K
res
res
xy
xy
= =

=


exp
exp
2
2
2
2
1
1
1
( )
( )
i i i i
i i
X Y X X Y E H
Y X Y E H
c | | | |
c |
+ + = + =
+ = = =
1 0 1 0 1
0 0
/ :
/ :
1.4.2. Validacin del modelo

3.- Regin de Rechazo (Regin Crtica):
nivel de significacin.
Regin de aceptacin de H
0
Regin de rechazo de H
0
1-
F
c
4.- Regla de Decisin.
1.4.2. Validacin del modelo

Se rechaza la H
0
si:
F >F
c

o de manera equivalente si:
p <
Por el contrario, se acepta la H
0
si:
F F
c

o de manera equivalente si:
p
Tabla F
Tabla F
1.4.3. Significacin de parmetros
1.- Hiptesis Nula (H
0
), Hiptesis Alternativa.
2.- Estadstico de Contraste (Discrepancia).
( )
t
b
S
b
S
X X
b
S
X
X
N
r
r
N
b
res
i
i
N
res
i
i
i
N
i
N
xy
xy
=

=

|
\

|
.
|
=

=
=
=

|

1
2
2
1
2
2
1
2
1
2
1
2
H H
H H
0 1 1 1
0 1
0 0
0 0
: :
: :
| |

= =
= =
Nota: en regresin simple t
2
= F
1.4.3. Significacin de parmetros
3.- Regin de Rechazo (Regin Crtica):
nivel de significacin.

F
c
Regin de aceptacin de H
0
Regiones de rechazo de H
0
o
2
o
2 1o
4.- Regla de Decisin.
Se rechaza la H
0
si:
t >+t
c

o de manera equivalente si:
p <
Por el contrario, se acepta la H
0
si:
t +t
c

o de manera equivalente si:
p
1.4.3. Significacin de parmetros
http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html
Tabla t de Student
The t-Distribution Table

Calculadoras estadsticas en internet
http://faculty.vassar.edu/lowry/VassarStats.htm

http://davidmlane.com/hyperstat/t_table.html

http://davidmlane.com/hyperstat/F_table.html

http://calculators.stat.ucla.edu/cdf/

http://members.aol.com/johnp71/pdfs.html

http://www.psychstat.missouristate.edu/introbook/tdist.htm

http://www.psychstat.missouristate.edu/introbook/fdist.htm

1.6. Prediccin

I ntervalos de prediccin:
( )
( )
( )
Y Y t S
N
X X
X X
o
N K
res
o
i
i
N
:

,
+ +

|
\

|
.
|
|
|
|

=

o 1
2
2
2
1
1
1

You might also like