You are on page 1of 28

Estadstica II

Estadstica inferencial

Regresin lineal simple
Introduccin
Regresin lineal simple
Anlisis de regresin. Procedimiento de
pronstico que utiliza la metodologa de los
mnimos cuadrados en una o ms variables
independientes para desarrollar un modelo de
pronstico.

Regresin lineal simple. Anlisis de regresin
donde interviene una variable independiente y
una variable dependiente; en ella, la relacin
entre las variables se aproxima mediante una
recta.
Regresin lineal simple
El anlisis de regresin se usa con propsitos de
prediccin.

Tiene como objeto estudiar cmo los cambios en
una variable, no aleatoria, afectan a una variable
aleatoria, en el caso de existir una relacin
funcional entre ambas variables que puede ser
establecida por una expresin lineal.

Su representacin grfica es una lnea recta.

La naturaleza de la relacin entre dos variables
puede tomar muchas formas, que van desde
algunas funciones matemticas sencillas a otras en
extremo complicadas.

Regresin lineal simple
El anlisis de correlacin, al contrario del anlisis
de regresin, se usa para medir la fuerza de
asociacin entre las variables numricas.

Normalmente, el primer paso es mostrar los datos
en un diagrama de dispersin.

El diagrama de dispersin es una grfica que
representa la relacin entre dos variables.
Regresin lineal simple
Relacin lineal positiva
0
5
10
15
20
25
30
35
40
1 2 3 4 5 6 7 8 9 10
Variable independiente
V
a
r
i
a
b
l
e

d
e
p
e
n
d
i
e
n
t
e
Regresin lineal simple
Regresin lineal simple
No hay relacin entre X y Y
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5
Variable independiente
V
a
r
i
a
b
l
e

d
e
p
e
n
d
i
e
n
t
e
Regresin lineal simple
Regresin lineal simple
El modelo de relacin en lnea recta (lineal) se
puede representar como:
Modelo de regresin lineal simple



variable dependiente (variable de respuesta)
variable independiente (variable predictora o explicativa)
ordenada al origen
pendiente de la poblacin
error aleatorio en Y para la observacin i
i i i
X Y c + | + | =
1 0
= |
0
= |
1
= c
i
=
i
Y
=
i
X
Regresin lineal simple
Los valores verdaderos de la ordenada al origen y de la
pendiente no se conocen por anticipado, por lo cual se
estiman utilizando datos de muestra.


Ecuacin del modelo de regresin lineal simple
de la muestra



valor pronosticado de Y para la observacin i
valor de X para la observacin i
i i
X b b Y
1 0

+ =
=
i
Y

=
i
X
Regresin lineal simple
El anlisis de regresin lineal simple se refiere a
encontrar la lnea recta que mejor se ajuste a
los datos.
El mejor ajuste puede definirse de varias
maneras.
La ms sencilla es encontrar la lnea recta para
la cual las diferencias entre los valores reales y
los pronosticados a partir de la recta ajustada
de regresin sean tan pequeas como sea
posible.
Regresin lineal simple
Una tcnica matemtica que determina los
valores de b
o
y b
1
que minimizan esta diferencia
se conoce como mtodos de mnimos
cuadrados.

Cualesquiera valores de b
o
y b
1
diferentes que
los determinados por el mtodo de mnimos
cuadrados darn como resultado una mayor de
los cuadrados de las diferencias entre el valor
de Y y el valor pronosticado de Y.
Regresin lineal simple
Recta que minimiza las diferencias
200
250
300
350
400
450
500
25 30 35 40 45 50
Variable independiente
V
a
r
i
a
b
l
e

d
e
p
e
n
d
i
e
n
t
e
Regresin lineal simple
Coeficiente de correlacin es la medida
de la intensidad de la relacin lineal entre
dos variables.
Un coeficiente de correlacin de 1.00 o de
+1.00 indica una correlacin perfecta
(negativa o positiva).

2
2
2
2

=
Y Y n X X n
Y X XY n
r
Regresin lineal simple
2
2
1
X X n
Y X XY n
b
n
X
b
n
Y
b
1 0
Pendiente y ordenada al origen de la ecuacin
estimada de regresin
Regresin lineal simple
Herramientas para anlisis
Haga clic en el botn de Microsoft Office y, a
continuacin, haga clic en Opciones de Excel.
Haga clic en Complementos y, en el cuadro Administrar,
seleccione Complementos de Excel.
Haga clic en Ir.
En el cuadro Complementos disponibles, active la casilla de
verificacin Herramientas para anlisis y, a continuacin,
haga clic en Aceptar. Sugerencia Si Herramientas para
anlisis no aparece en la lista del cuadro Complementos
disponibles, haga clic en Examinar para buscarlo.
Si se le indica que Herramientas para anlisis no est
instalado actualmente en el equipo, haga clic en S para
instalarlo.
Regresin lineal simple
Diagrama de dispersin. Un diagrama de
dispersin ofrece una idea bastante aproximada
sobre el tipo de correlacin existente entre dos
variables.

Un diagrama de dispersin tambin puede utilizarse
como una forma de cuantificar el grado de relacin
lineal existente entre dos variables: basta con
observar el grado en el que la nube de puntos se
ajusta a una lnea recta.
Regresin lineal simple
Coeficiente de correlacin mltiple. Una medida
relacionada con el coeficiente de determinacin es el
coeficiente de correlacin. Esta medida tambin
expresa el grado de solidez de la relacin lineal.
Generalmente se expresa como r y puede tener
cualquier valor entre +1 y -1.

Es negativo si la pendiente es negativa, y si la
pendiente es positiva es positivo.
Regresin lineal simple
Coeficiente de determinacin r
2
. Se trata de una medida
estandarizada que toma valores entre 0 y 1 (0 cuando las
variables son independientes y 1 cuando entre ellas existe
relacin perfecta).

Este coeficiente posee una interpretacin muy intuitiva:
representa el grado de ganancia que podemos obtener al
predecir una variable basndonos en el conocimiento que
tenemos de otra u otras variables.

La r
2
expresa la proporcin de varianza de la variable
dependiente que est explicada por la variable
independiente. En nuestro ejemplo, r
2
toma un valor muy
alto (su mximo es 1); y r
2
nos indica que el 90.2% de la
variacin de las ventas est explicada por la poblacin de
estudiantes.
Regresin lineal simple
Coeficiente de determinacin r
2
ajustado o corregido.
Es una correccin a la baja de r
2
que se basa en el
nmero de casos y de variables independientes.


En una situacin con pocos casos y muchas
variables independientes, r
2
puede ser artificialmente
alta. En tal caso, el valor de r
2
corregida ser
sustancialmente ms bajo que el de r
2
. En nuestro
ejemplo, como hay 10 casos y una sola variable
independiente, los dos valores de r
2
(el corregido y el
no corregido) son prcticamente iguales.
( ) ( ) ( ) 1 1
2 2 2
= p n / -r p r r
corregida
Regresin lineal simple
Error tpico. Devuelve el error tpico del valor de y
previsto para cada x de la regresin. El error tpico
es una medida de la cuanta de error en el
pronstico del valor de y para un valor individual de
x.

Se supone que los errores tienen una varianza
constante (
2
), usualmente desconocida. Puede
calcularse a partir de los resultados de la muestra.
La estimacin de
2
es el cuadrado medio (MSE)
que se denota mediante s
2
. MSE es la suma de los
cuadrados debido a los errores divididos entre los
grados de libertad.
Regresin lineal simple
Estadstico F. Para ver si existe una relacin lineal entre
X y Y, se realiza una prueba de hiptesis estadstica. La
hiptesis nula es que no existe una relacin lineal entre
las dos variables (por ejemplo, =0), y la hiptesis
alternativa es que s existe una relacin lineal (por
ejemplo, 0). Si se puede rechazar la hiptesis nula,
entonces se ha demostrado que s existe una relacin
lineal.

Cuando el valor F es grande el nivel de significancia es
pequeo, lo cual indica que esto no pudo haber ocurrido
por casualidad. Cuando el nivel de significancia es
pequeo podemos rechazar la hiptesis nula de que no
existe una relacin lineal.
Regresin lineal simple
Ecuacin de regresin. El coeficiente
correspondiente a la Intercepcin es el origen de la
recta de regresin (lo que hemos llamado
0
u
ordenada al origen).

Y el coeficiente correspondiente a Variable X
1
es la
pendiente de la recta de regresin (lo que hemos
llamado
1
).
X Y 5 60

+ =
Regresin lineal simple
Pruebas de significacin. los estadsticos t y sus
niveles crticos (Sig.) nos permiten contrastar las
hiptesis nulas de que los coeficientes de regresin
valen cero en la poblacin. Estos estadsticos t se
obtienen dividiendo los coeficientes de regresin
0
y

1
entre sus correspondientes errores tpicos.

Estos estadsticos t se distribuyen segn el modelo
de probabilidad t de Student con n - 2 grados de
libertad. Por tanto, pueden ser utilizados para decidir
si un determinado coeficiente de regresin es
significativamente distinto de cero y, en
consecuencia, si la variable independiente est
significativamente relacionada con la dependiente.
Regresin lineal simple
Puesto que en regresin simple slo trabajamos con una
variable independiente, el resultado del estadstico t es
equivalente al del estadstico F de la tabla del ANOVA (de
hecho, t
2
= F).

A partir de los resultados de la tabla 18.3, podemos llegar a las
siguientes conclusiones:
1. El origen poblacional de la recta de regresin (
0
) es
significativamente distinto de cero (generalmente, contrastar la
hiptesis
0
=0" carece de utilidad, pues no contiene
informacin sobre la relacin entre X
i
e Y
i
).
2. La pendiente poblacional de la recta de regresin (el
coeficiente de regresin
1
correspondiente a la poblacin de
estudiantes) es significativamente distinta de cero, lo cual nos
permite concluir que entre las ventas trimestrales y el nmero
de estudiantes existe relacin lineal significativa.
Regresin lineal simple
Intervalo de confianza. Recordemos que las
estimaciones puntuales no dan ninguna informacin de la
precisin asociada con la estimacin. Para este fin se
determinan estimaciones de intervalo de confianza de
modo parecido al de medias y proporciones.

El primer tipo de estimaciones de intervalo es la
estimacin de intervalo de confianza; es una estimacin
del valor medio de y para determinado valor de x. El
segundo tipo es la estimacin de intervalo de prediccin,
que se usa cuando deseamos una estimacin de
intervalo de un valor individual y que corresponde a un
determinado valor de x. La ecuacin de regresin
determina una estimacin puntual del valor medio de y
para determinado valor de x.
Regresin lineal simple
Anlisis de residuales. El residual en la observacin i es
la diferencia entre el valor observado de la variable
dependiente (yi) y el valor estimado de esa variable (i).
En otras palabras, el i-esimo residual es el error debido al
uso de la ecuacin de regresin para predecir el valor de
y.
x
y -
r
e
s
i
d
u
a
l

Forma adecuada
Regresin lineal simple
x
y -
r
e
s
i
d
u
a
l

x
y -
r
e
s
i
d
u
a
l

Varianza no constante
Forma inadecuada
del modelo

You might also like