You are on page 1of 6

ESTADISTICA INFERENCIAL I

ING. INDUSTRIAL.

Instituto Tecnolgico de Orizaba

Estadstica Inferencial I Profesor: Magno ngel Gonzales Huerta Unidad V. Regresin lineal simple y mltiple. Equipo: Jorge Luis Sosa Tapia Amparo Monserrat Hernndez Cardoso Roberto Hernndez Contreras Lourdes Martnez Vallejo Anbal Daniel Herrera Flores

ESTADISTICA INFERENCIAL I REGRESIN LINEAL

ING. INDUSTRIAL.

El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin entre variables. Se adapta a una amplia variedad de situaciones. En la investigacin social, el anlisis de regresin se utiliza para predecir un amplio rango de fenmenos, desde medidas econmicas hasta diferentes aspectos del comportamiento humano. Tanto en el caso de dos variables (regresin simple) como en el de ms de dos variables (regresin mltiple), el anlisis de regresin lineal puede utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente o criterio (Y), y una o ms variables llamadas independientes o predictoras (X1, X2, Xi), as como para desarrollar una ecuacin lineal con fines predictivos. El anlisis de regresin lleva asociados una serie de procedimientos de diagnstico que informan sobre la estabilidad y capacidad del anlisis que proporcionan pistas sobre como perfeccionarlo. Un modelo de regresin lineal tiene el aspecto: Y: Es la variable dependiente. Los trminos Xi representan las variables independientes o explicativas. Los coeficientes del modelo bi son calculados por el programa estadstico, de modo que se minimicen los residuos. Para ajustar el modelo, la variable respuesta debe ser numrica. El modelo de regresin lineal simple es un proceso experimental en el que intervienen dos variables: Una variable dependiente Y, que no es controlada por el experimento, y que depende de otra variable independiente X, que si es controlada por el experimento, por lo que sta no es una variable aleatoria. Para estudiar la relacin de dependencia entre estas variables, se dispone de una muestra aleatoria de tamao N, que se va a representar por {(Xi, Yi)} i= 1, 2,N. Cuando se toman distintas muestras para un mismo valor de X, se espera que varen los correspondientes valores de Y; por ello, el valor yi del par (xi, yi), se puede considerar como valor de una variable aleatoria Y que corresponde al valor fijado x. Se va a representar a esta variable aleatoria por Yx, que tendr una media M (Yx) y una varianza V (Yx). Por lo tanto, para x=xi, se tiene una variable aleatoria a la que se va a designar por Yi, que tendr una media M (Yi) y una varianza V (Yi). Admitir el modelo de regresin lineal supone aceptar que la media de la variable aleatoria M (Yx), est relacionada linealmente con la variable x por medio de la ecuacin de la regresin de la poblacin, es decir:

Donde y son los parmetros de la poblacin. M (Yx), es la respuesta promedio; para simplificar la terminologa, vamos a designarla por P. Los parmetros de la recta de regresin poblacional, y , son desconocidos, y deben ser estimados mediante los valores a y b en la recta de regresin muestral, que se obtienen a partir de los datos de la muestra de acuerdo con las formulas desarrolladas. Una vez evaluadas a y b, una estimacin de la respuesta promedio P es:

Que es la recta de regresin muestral o linea de regresin ajustada; particular de la respuesta promedio P.

es una estimacin

ESTADISTICA INFERENCIAL I

ING. INDUSTRIAL.

REGRESIN LINEAL SIMPLE En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Hay una sola variable de regresin independiente x y una sola variable aleatoria dependiente Y, los datos se pueden representar mediante los pares de observaciones {(Xi, Yi)} i= 1, 2,N. Este modelo puede ser expresado como: Modelo de regresin lineal simple: Lnea de regresin estimada o ajustada: El par de observaciones anterior satisface la relacin: Se denomina residuo y describe el error en el ajuste del modelo.

REGRESIN LINEAL MLTIPLE Se utiliza la regresin lineal mltiple cuando se estudia la posible relacin en varias variables independientes (predictoras o explicativas) y otra variable dependiente (criterio, respuesta). Otra fuente de aplicacin o uso es cuando se utiliza para describir la relacin entre variables independientes (colinealidad). La tcnica de regresin mltiple se usa frecuentemente en investigacin Se aplica al caso en que la variable respuesta es de tipo numrico. Cuando la respuesta es de tipo dicotmico (dividido, separado) como muere/vive, enferma/no enferma, se utiliza otra tcnica denominada regresin logstica. Aplicaciones La regresin mltiple se utiliza para la prediccin de respuestas a partir de variables explicativas. Pero no es esta realmente la aplicacin que se suele dar en investigacin. Los usos que se le da con mayor frecuencia se encuentra que son: Identificacin de variables explicativas: Ayuda a crear un modelo donde se seleccionan las variables que pueden influir en la respuesta, descartando aquellas que no aporten informacin. Deteccin de interacciones: Este caso ocurre entre variables independientes que afectan la variable respuesta.

ESTADISTICA INFERENCIAL I

ING. INDUSTRIAL.

Identificacin de variables confusoras: Es un problema complicado el de su deteccin, pero de inters en investigacin no experimental, ya que el investigador frecuentemente no tiene control sobre las variables independientes. Requisitos y Limitaciones Existen requerimientos necesarios para poder utilizar la tcnica de regresin mltiple: Linealidad: Se supone que la variable respuesta depende linealmente de las variables explicativas. Si la respuesta no aparenta ser lineal, se debe introducir en el modelo componentes no lineales (como incluir transformaciones no lineales de las variables independientes en el modelo). Otro tipo de respuesta no lineal es la interaccin. Para ello se ha de incluir en el modelo trminos de interaccin, que equivalen a introducir nuevas variables explicativas que en realidad son el producto de dos o ms de las independientes. Normalidad y equidistribucin de los residuos: Se llaman residuos a las diferencias entre los valores calculados por el modelo y los realmente observados en la variable dependiente. Para tener un buen modelo de regresin no es suficiente con que los residuos sean pequeos. La validez del modelo requiere que los mismos se distribuyan de modo normal y con la misma dispersin para cada combinacin de valores de las variables independientes, puesto que para cada combinacin de variables independientes se tendr normalmente ninguna o una respuesta. Es decir, hay una serie de reglas que ayudan a decidir si se va a aceptar o no el modelo de regresin, pero no estn basadas en diferencias de hiptesis, es la experiencia del investigador observando residuos con la que decide usarla o no. Numero de variables independientes: Se puede incluir en el modelo cualquier cosa que se tenga en una base de datos, con la esperanza de incluir ms variables. Si se encuentra esta tentacin, se debe recordar que corre el riesgo de cometer el error tipo I. Otra razn es que si se espera ajustar pocas observaciones usando muchas variables, probablemente resulte una aproximacin muy artificial y adems muy sensible a los valores observados. La inclusin de una nueva observacin puede cambiar completamente el valor de los coeficientes del modelo. Una regla que se suele recomendar es la de incluir al menos 20 observaciones por cada variable independiente que se estime en el modelo. Nmeros inferiores llevaran posiblemente a no poder obtener conclusiones y errores de tipo II. Colinealidad: Si dos variables independientes estn estrechamente relacionadas y ambas son incluidas en el modelo, posiblemente ninguna de las dos sea considerada significativa. Hay diferentes tcnicas para para detectar la colinealidad pero que requieren profundizar en documentos ms sofisticados. Para ello se deben examinar los coeficientes del modelo para ver si se vuelven inestables al introducir una nueva variable, si es as posiblemente habr colinealidad entre la nueva variable y las anteriores. Observaciones anmalas: Est relacionada con la cuestin de los residuos; se debe poner especial cuidado en identificarlas y descartarlas si procede, ya que tienen gran influencia en el resultado. Las observaciones anmalas son solo errores en la entrada de datos, pero de gran consecuencia en el anlisis, hay tcnicas de regresin robustas que permiten minimizar su efecto.

ESTADISTICA INFERENCIAL I

ING. INDUSTRIAL.

Variables Confusoras Dos o ms variables son confusoras cuando sus efectos sobre la variable dependiente no pueden ser separados, cuando estando relacionada con alguna variable independiente, a su vez afecta a la dependiente.

ESTIMACIN DE LOS PARMETROS DEL MODELO Se parte de una muestra de valores de X e Y medidos sobre n individuos: (x1, y1), (x2, y2), (xn, yn). Y se quieren estimar los valores en Y segn el modelo en Y = 0 + 1x, donde 0 y 1 son por el momento desconocidos. Se debe encontrar entonces de entre todas las rectas la que mejor se ajuste a los datos observados, se deben buscar aquellos valores de 0 + 1 que hagan mnimos los errores de estimacin. Para un valor xi, el modelo estima un valor en E igual a yi = 0 + 1xi y el valor observado en Y es igual yi, con lo cual el error de estimacin en ese caso vendra dado por ei = yi yi = yi (0 + 1xi). Entonces se tomaran como estimaciones de 0 + 1, que se notaran por 0 + 1, aquellos valores que hagan mnima la suma de los errores al cuadrado, que viene dado por:

De ah que al mtodo de estimacin se le llame mtodo de mnimos cuadrados. La solucin se

obtiene por el mecanismo habitual, derivando SSE con respecto a 0 y 1 e igualando a 0. Los estimadores resultan: Siendo:

A la recta resultante Y = 0 + 1x se le llama recta de regresin lineal de Y sobre X. Un ltimo parmetro a estimar en el modelo es la varianza de errores (2). A su estimador se le denomina varianza residual y viene dada por:

ESTADISTICA INFERENCIAL I EJEMPLOS

ING. INDUSTRIAL.

1. Las calificaciones de un grupo de nueve estudiantes en un reporte del examen parcial del trimestre (x) y del examen final (y) son las siguientes: x 77 50 71 72 81 94 96 99 67 y 82 66 78 34 47 85 99 99 68 a) Estime la regresin lineal. b) Estime la calificacin del examen final de un estudiante que obtiene 85 en el reporte del examen parcial de mitad del trimestre. xi 77 50 71 72 81 94 96 99 67 = 707 N= 9 a) 12.0623 y 0.7771 b) Y= 78.1193 yi 82 66 78 34 47 85 99 99 68 =658 xi * yi 6314 3300 5538 2448 3807 7990 9504 9801 4556 = 53258 xi * xi 5929 2500 5041 5184 6561 8836 9216 9801 4489 = 57557

You might also like