Professional Documents
Culture Documents
INDICE
LA REGRESIN LINEAL SIMPLE..3
UNA DEFINICIN FORMAL DE LA R.L.S.4 EL DIAGRAMA DE DISPERSIN5 TIPOS DE MODELOS DE REGRESIN5 DETERIMNACIN DE LA ESCUACIN DE LA R.L.S6
EL MTODO DE MNIMOS CUADRADOS6 DETERIMNACIN DE LOS COEFICIENTES 0 Y 1..7 AJUSTE E INTERPRETACIN DE LA RECTA.7
ERROR ESTNDAR DE LA MEDICIN.8 PRUEBA t DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIN DE LA REGRESIN) 9
.11
CORRELACIN13
* SCT (SST), SCR (SSR), SCE (SSE) ..13 CLCULO DEL COEFICIENTE E INTERPRETACIN.14
EL ANLISIS DE CORRELACIN14
ANTECEDENTES
El trmino "regresin" fue acuado por Sir Francis Galton (1822-1911), primo de Charles Darwin. Galton estudiaba la eugnica, trmino tambin introducido por s mismo para definir el estudio de la mejora de la raza humana a partir de los caracteres hereditarios. Galton estudi la altura de los hijos con relacin a la altura de sus padres, y prob que la altura de hijos altos regresaba hacia la media de la altura de la poblacin a lo largo de sucesivas generaciones. En otras palabras, hijos de padres extraordinariamente altos tendan a ser en promedio ms bajos que sus padres, e hijos de padres muy bajos tendan a ser en promedio ms altos que sus padres. En la actualidad, el trmino de regresin se utiliza siempre que se busca predecir una variable en funcin de otra, y no implica que se est estudiando si se est produciendo una regresin a la media. Anteriormente a Galton se debe mencionar a Legendre (1752-1833), quien introdujo el mtodo de los mnimos cuadrados utilizndolos para definir la longitud de 1 metro como una diez millonsima parte del arco meridional. Con posterioridad a Galton, las propiedades de las tcnicas de regresin fueron estudiadas por Edgeworth, Pearson y Yule. La tcnica de regresin lineal simple est indicada cuando se pretende explicar una variable respuesta cuantitativa en funcin de una variable explicativa
5
cuantitativa tambin llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podra intentar explicar el peso en funcin de la altura. El modelo intentara aproximar la variable respuesta mediante una funcin lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las tcnicas de regresin lineal son:
El modelo propuesto es lineal (es decir existe relacin entre la variable explicativa y la variable explicada, y esta relacin es lineal).
La variable explicativa se ha medido sin error. Para estudiar la validez del modelo es necesario confirmar estas hiptesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicacin es necesario realizar transformaciones a las variables, o bien para obtener una relacin lineal o bien para homogeneizar la varianza.
Tcnicas univariables:
Tcnicas Bivariables
Establece relacin o asociacin entres dos variables y mide su intensidad. Relaciones descriptivas de asociacin (sexo y categora de comprador)
Relaciones causales (causa-efecto), experimentacin.
Tcnicas multivariables
Dependencia: Analizan una o ms variables dependientes a travs de dos o ms variables independientes, para explicar un fenmeno y/o realizar un anlisis como base de una prediccin.
6
Independencia: estudian la interrelacin entre todas las variables como un conjunto. Su objetivo puede ser organizar los datos reduciendo su dimensionalidad y hacindolos ms manejables para el investigador y ofrecer una mayor comprensin global de su estructura subyacente. UNA DEFINICIN FORMAL DE LA R.L.S Es un mtodo de modelacin que usa una ecuacin de regresin lineal para relacionar la variable conocida (X) es decir la independiente, con la variable dependiente (Y). Para determinar a primera instancia la relacin entre las dos variables se har el diagrama de dispersin, que es la representacin grfica de los datos observados. EL DIAGRAMA DE DISPERSIN Es una grfica representada por un conjunto de puntos que se encuentran cercanos a una lnea recta, lo que indica que la suposicin de linealidad entre dos variables parece ser razonable. TIPOS DE MODELOS DE REGRESIN Se pueden clasificar los tipos de regresin segn diversos criterios:
a) En funcin del nmero de variables independientes:
Regresin lineal: cuando f(x) es una funcin lineal. Regresin no lineal: cuando f(x) no es una funcin lineal.
Este mtodo encuentra las estimaciones para los parmetros en la ecuacin seleccionada mediante la minimizacin de la suma de cuadrados de las diferencias entre los valores observados de la variable de respuesta y de aquellos proporcionados por la ecuacin de prediccin. Estos valores se conocen como los estimadores por mnimos cuadrados (EMC) de los parmetros. Usando la ecuacin expresarse como: yi = 0 + 1 x i + i , i = 1, 2,., n Y la suma de los cuadrados de las desviaciones de las observaciones de la verdadera recta de regresin es:
yi = 0 + 1 x i + i , las n observaciones de la muestra pueden
L = = ( yi 0 + 1 x 1 )
i=1 2 j i =1
0 xi + 1 x 2i = y i x i
i =1 i =1 i =1
Se ha seleccionado la forma correcta de la ecuacin de regresin. Esto implica que cualquier variabilidad de la variable de respuesta que no pueda explicarse mediante el empleo de la ecuacin de regresin, se debe a un error aleatorio. Por ejemplo, se sabe que la distancia de que recorre un objeto en un tiempo t, est dada por la siguiente relacin:
d = 0 + 1 t
Donde
es la velocidad promedio y
no fuese posible medir d en forma precisa para un valor dado de t, pero se observ un valor:
y =d +
Donde es el error aleatorio, se ha seleccionado la forma correcta de la ecuacin de regresin y el problema se reduce a estimar los valores de embargo, rara es la vez que el problema resulta ser tan sencillo. 0 y 1 . Sin
modelo en la observacin i,
Las estimaciones de mnimos cuadrados de la ordenada al origen y la pendiente del modelo de regresin lineal simple son:
0 = y 1 x
1 = i=1
y i x i
n 2
( )( )
yi
i =1 n i =1
xi
x 1
i =1
( )
i =1
xi
n
n n
Donde:
y=
1 n
) yi y x=( 1n ) x1
i= 1 i =1
SUPOSICIONES DE LA R.L.S Suponen errores aleatorios con distribucin normal, media cero y varianza
3
INFERENCIAS EN LA R.L.S
Estimar relacin lineal entre x y y con propsito de prediccin En la pendiente y en la interseccin Construccin de intervalos de confianza
mide la disparidad
10
T 0=
1 1,0 2
S xx H 0= 1 1,0 . Se
t 0> t ,n 2
2
T 0=
1 1,0 2
S xx
El denominador de la ecuacin anterior es el error estndar de la pendiente, por lo que el estadstico de la prueba podra escribirse como: T 0= 1 1,0 se ( 1 )
Puede ser un procedimiento similar para probar hiptesis cerca de la ordenada al origen. Para probar:
H 0= 0 = 0,0
T 0=
0 0,0
[ ]
2 2 1 + x n S xx
0 0,0 se ( 0 )
Puede usarse un mtodo llamada anlisis de varianza para probar la significacin de una regresin. En el procedimiento se hace la particin de la variabilidad total de la variable de respuesta en componentes significativos como base de la prueba. El anlisis de identidad de la varianza es el siguiente:
2 y1 y ) + ( y1 yi ) ( y 1 y ) = ( i =1 i=1 i= 1 n 2 n 2 n
Las dos componentes del miembro derecho de la ecuacin anterior miden, respectivamente, la cantidad de variabilidad en yi explicada por la recta de
regresin y la variacin residual que queda sin explica por la recta de regresin.
Bajo el supuesto de que las observaciones tienen una distribucin normal e independiente, un intervalo de confianza del 100(1-) por ciento para la pendiente 1 en una regresin lineal simple es: 1 t
2
, n 2
2 2 1 1+ t , n 2 S S xx xx 2
De manera similar, un intervalo de confianza del 100(1-) por ciento para la ordenada al origen 0 es:
12
0 t
2
,n 2
[ ]
2
2
1 x 1 x + 0 0 + t 2 + , n 2 n S xx n S xx 2
[ ]
2
I. DE C. PARA LA MEDIA
y,x
Puede construirse un intervalo de confianza a partir de la respuesta media en un valor especificado de x, por ejemplo, x0. ste es un intervalo de confianza alrededor de E ( Y x 0 ) = y x , al que suele llamrsele intervalo de confianza
0
alrededor de la recta de regresin. Puesto que puede obtenerse una estimacin puntual de como: y x = 0 + 1 x0
0
E ( Y x0 ) = y x = 0 + 1 x0 ,
0 0
Entonces
0 y 1
y x
y x , ya que
0
Un intervalo de confianza del 100(1-) por ciento alrededor de la respuesta media en el valor de x = x0, simbolizando y x ,
0
y x t
0
, n2
[
2
x) x) ( x0 1 ( x0 2 1 + y x y x + t + , n 2 n S xx n S xx 2
0 0
Donde: y x = 0 + 1 x0
0
13
Una aplicacin importante de los modelos de regresin es predecir observaciones nuevas o futuras Y que correspondan a un nivel de especificado de la variable de regresin x. Si x0 es el valor de la variable de regresin de inters, entonces:
0= Y 0 + 1 x 0
Es el estimador puntual del valor nuevo o futuro de la respuesta Y 0 Se considera ahora cmo obtener la estimacin de un intervalo para esta observacin futura Y0. Esta nueva observacin es independiente de las observaciones utilizadas para desarrollar el modelo de regresin. Por lo tanto, el intervalo de confianza para y x
0
EVALUACIN DE LA ADECUACIN DEL MODELO DE REGRESIN El ajuste de un modelo de regresin requiere varios supuestos. La estimacin de los parmetros del modelo requiere el supuesto de que los errores son variables aleatorias no correlacionadas con media cero y varianza constante. Las pruebas de hiptesis y la estimacin de intervalos requieren que los errores tengan una distribucin normal. Adems, se supone que el orden del modelo es correcto; es decir, si se ajusta un modelo de regresin lineal simple, entonces se est suponiendo que el fenmeno se comparta en realidad de manera lineal o de primer orden. El analista deber considerar siempre la validacin de estos supuestos, deber ser precavido y llevar a cabo anlisis a fin de examinar la adecuacin del modelo que se ha propuesto de manera tentativa.
ANLISIS RESIDUAL
14
yi
yi
con el modelo de regresin. El anlisis de los residuales con frecuencia resulta de utilidad para verificar el supuesto de que los errores siguen una distribucin normal aproximada con varianza constante, as como para determinar si sera conveniente incluir trminos adiciones en el mtodo. Como verificacin aproximada de la normalidad, el experimentador puede construir un histograma de frecuencias de los residuales o una grfica de probabilidad normal de los residuales.
EL COEFICIENTE DE DETERMINACIN
INTRODUCCIN
El estadstico R2 deber usarse con cuidado, ya que siempre es posible hacer R 2 igual a la unidad mediante la simple adicin de trminos suficientes al modelo. Por ejemplo, puede obtenerse un ajuste perfecto para n datos o puntos observados con un polinomio de grado n-1. Adems, R 2 siempre incrementar si se agrega una variable al modelo, aunque esto no implica necesariamente que el nuevo modelo sea superior al original. A menos que la suma de cuadrados de los errores del nuevo modelo tenga una reduccin por una cantidad igual al cuadrado medio del error original, el nuevo modelo tendr un cuadrado medio del error mayor que original, debido a la prdida de un grado de libertad del error. Por tanto, el nuevo modelo ser en realidad peor que el original. Hay varias concepciones errneas en cuanto a R 2. En general, R2 no mide la magnitud de la pendiente de la recta de regresin. Un valor grande de R 2 no implica una pendiente pronunciada. Por otra parte, R2 no mide la adecuacin del modelo, ya que puede inflarse artificialmente agregando al modelo trminos polinmicos en x de orden superior.
15
Incluso si y y x estn relacionadas en una forma no lineal, R2 con frecuencia ser grande
Suma de cuadrados
SS R= 1 S xy
Grados de libertad 1 n2 n1
F0 MSR/MSE
SS E = SS T 1 S xy
SS T
R 2=
SS R SS =1 E SS T SS T
Se le llama coeficiente de determinacin y se usa con frecuencia para juzgar la adecuacin de un modelo de regresin. Ms adelante se ver que en que en el caso en que X y Y son variables aleatorias con una distribucin conjunta.
Con frecuencia los modelos de regresin se ajustan a los datos para proporcionar un modelo emprico cuando la verdadera relacin entre las variables Y y x es desconocida. Naturalmente, a uno le interesa saber si el orden del modelo propuesto de manera tentativa es el correcto.
16
Se presenta ahora una prueba de la bondad de ajuste del modelo de regresin. Especficamente, las hiptesis que quieren probarse son:
H0: El modelo de regresin lineal simple es correcto H1: El modelo de regresin lineal simple no es correcto
SS E = SS PE + SS LOF
Donde
SS PE
SS LOF
es
la suma de los cuadrados atribuible a la falta de ajuste del modelo. Para calcular
SS PE , deben tenerse observaciones repetidas de la respuesta Y para al menos
INTRODUCCIN
En el anlisis de regresin desarrollado aqu se ha propuesto que x es una variable matemtica medida con mayo omisible, y que Y es una variable aleatoria. Muchas aplicaciones del anlisis de regresin incluyen situaciones en las que tanto X como Y son variables aleatorias. En estas situaciones, es comn suponer que las observaciones (Xi, Yi), i = 1,2,, n, son variables aleatorias con una distribucin conjunta que se obtiene de la distribucin f(x,y). Por ejemplo, suponga que quiere desarrollarse un modelo de regresin que relacione la resistencia al corte de los puntos de soldadura con el dimetro de los mismos. En este ejemplo, el dimetro de la soldadura no puede controlarse. Al analista le gustara seleccionar aleatoriamente n puntos de soldadura y observar el dimetro (Xi) y la resistencia al corte (Yi) de cada uno de ellos. Por lo tanto (Xi, Yi) son variables aleatorias con una distribucin conjunta.
17
es el coeficiente de
Donde xy
es la covarianza entre Y y X.
[ (
)]
2
1 =
y x
P. DE H. E INTERPRETACIN
18
H 1= 0
TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA Se presenta cuando la regresin es no lineal. A tales modelos ni lineales se les conoce como: intrnsecamente lineales. BIBLIOGRAFA: Probabilidad y estadstica aplicada a la ingeniera, 2da edicin, Montgomery, Runger, Limusa Wiley, Mxico, 2011. Probabilidad y estadstica para ingenieros, 6ta edicin, Prentice-Hall Hispanoamericana, S.A. Walpole, Ronald E., Mxico, 1999.
19