You are on page 1of 19

INSTITUTO TECNOLGICO DE CAMPECHE

DEPARTAMENTO DE INGENIERA INDUSTRIAL


CARRERA: INGENIERA INDUSTRIAL SEMESTRE: CUARTO GRUPO: VI-4 MATERIA: ESTADSTICA INFERENCIAL II TITULO DEL TRABAJO: ANLISIS DEL EJERCICIO 10-65 ALUMNO: SCAR IVN RIVERA DZIB MATRICULA: 11470334 MAESTRO: ING. RAMN AGUSTN BOCOS PATRN

SAN FRANCISCO DE CAMPECHE 2012

INDICE
LA REGRESIN LINEAL SIMPLE..3

ANTECEDENTES3 MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES..4

UNA DEFINICIN FORMAL DE LA R.L.S.4 EL DIAGRAMA DE DISPERSIN5 TIPOS DE MODELOS DE REGRESIN5 DETERIMNACIN DE LA ESCUACIN DE LA R.L.S6

EL MTODO DE MNIMOS CUADRADOS6 DETERIMNACIN DE LOS COEFICIENTES 0 Y 1..7 AJUSTE E INTERPRETACIN DE LA RECTA.7

INTERPRETACIN DE LA PENDIENTE DEL MODELO.8 SUPOSICIONES DE LA R.L.S..8 INFERENCIAS EN LA R.L.S.8


ERROR ESTNDAR DE LA MEDICIN.8 PRUEBA t DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIN DE LA REGRESIN) 9

ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIN DE LA REGRESIN..10

I. DE C. PARA 1 Y 0 (PENDIENTE Y ORDENADA DEL MODELO) ...10 I. DE C. PARA LA MEDIA


y,x

.11

I. DE C. DE PREDICCIN PARA UNA OBSERVACIN FUTURA Y i .11

EVALUACIN DE LA ADECUACIN DEL MODELO DE REGRESIN12


ANLISIS RESIDUAL..12 EL COEFICIENTE DE DETERMINACIN13


INTRODUCCIN..13 MEDIDAS DE VARIACIN EN LA REGRESIN Y

CORRELACIN13
* SCT (SST), SCR (SSR), SCE (SSE) ..13 CLCULO DEL COEFICIENTE E INTERPRETACIN.14

PRUEBA DE FALTA DE AJUSTE..14

EL ANLISIS DE CORRELACIN14

INTRODUCCIN...14 CLCULO DEL COEFICIENTE..15 P. DE H. E INTERPRETACIN...16

TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA...16 BIBLIOGRAFA.17

LA REGRESIN LINEAL SIMPLE

ANTECEDENTES

El trmino "regresin" fue acuado por Sir Francis Galton (1822-1911), primo de Charles Darwin. Galton estudiaba la eugnica, trmino tambin introducido por s mismo para definir el estudio de la mejora de la raza humana a partir de los caracteres hereditarios. Galton estudi la altura de los hijos con relacin a la altura de sus padres, y prob que la altura de hijos altos regresaba hacia la media de la altura de la poblacin a lo largo de sucesivas generaciones. En otras palabras, hijos de padres extraordinariamente altos tendan a ser en promedio ms bajos que sus padres, e hijos de padres muy bajos tendan a ser en promedio ms altos que sus padres. En la actualidad, el trmino de regresin se utiliza siempre que se busca predecir una variable en funcin de otra, y no implica que se est estudiando si se est produciendo una regresin a la media. Anteriormente a Galton se debe mencionar a Legendre (1752-1833), quien introdujo el mtodo de los mnimos cuadrados utilizndolos para definir la longitud de 1 metro como una diez millonsima parte del arco meridional. Con posterioridad a Galton, las propiedades de las tcnicas de regresin fueron estudiadas por Edgeworth, Pearson y Yule. La tcnica de regresin lineal simple est indicada cuando se pretende explicar una variable respuesta cuantitativa en funcin de una variable explicativa
5

cuantitativa tambin llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podra intentar explicar el peso en funcin de la altura. El modelo intentara aproximar la variable respuesta mediante una funcin lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las tcnicas de regresin lineal son:

El modelo propuesto es lineal (es decir existe relacin entre la variable explicativa y la variable explicada, y esta relacin es lineal).

La variable explicativa se ha medido sin error. Para estudiar la validez del modelo es necesario confirmar estas hiptesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicacin es necesario realizar transformaciones a las variables, o bien para obtener una relacin lineal o bien para homogeneizar la varianza.

MEDICIONES UNIVARIALES, BIVARIABLES Y MULTIVARIABLES

Tcnicas univariables:

Se analiza cada variable de forma aislada.

Tcnicas Bivariables

Establece relacin o asociacin entres dos variables y mide su intensidad. Relaciones descriptivas de asociacin (sexo y categora de comprador)
Relaciones causales (causa-efecto), experimentacin.

Las ms utilizadas en Marketing son X2 y el anlisis de la varianza

Tcnicas multivariables

Dependencia: Analizan una o ms variables dependientes a travs de dos o ms variables independientes, para explicar un fenmeno y/o realizar un anlisis como base de una prediccin.
6

Tcnicas: regresin mltiple, anlisis de varianza y conjunto

Independencia: estudian la interrelacin entre todas las variables como un conjunto. Su objetivo puede ser organizar los datos reduciendo su dimensionalidad y hacindolos ms manejables para el investigador y ofrecer una mayor comprensin global de su estructura subyacente. UNA DEFINICIN FORMAL DE LA R.L.S Es un mtodo de modelacin que usa una ecuacin de regresin lineal para relacionar la variable conocida (X) es decir la independiente, con la variable dependiente (Y). Para determinar a primera instancia la relacin entre las dos variables se har el diagrama de dispersin, que es la representacin grfica de los datos observados. EL DIAGRAMA DE DISPERSIN Es una grfica representada por un conjunto de puntos que se encuentran cercanos a una lnea recta, lo que indica que la suposicin de linealidad entre dos variables parece ser razonable. TIPOS DE MODELOS DE REGRESIN Se pueden clasificar los tipos de regresin segn diversos criterios:
a) En funcin del nmero de variables independientes:

Regresin simple: Cuando la variable Y depende nicamente de una nica variable X.

Regresin mltiple: Cuando la variable Y depende de varias variables (X 1, X2,., Xr)

b) En funcin del tipo de funcin f(x):

Regresin lineal: cuando f(x) es una funcin lineal. Regresin no lineal: cuando f(x) no es una funcin lineal.

DETERIMNACIN DE LA ESCUACIN DE LA R.L.S


7

EL MTODO DE MNIMOS CUADRADOS

Este mtodo encuentra las estimaciones para los parmetros en la ecuacin seleccionada mediante la minimizacin de la suma de cuadrados de las diferencias entre los valores observados de la variable de respuesta y de aquellos proporcionados por la ecuacin de prediccin. Estos valores se conocen como los estimadores por mnimos cuadrados (EMC) de los parmetros. Usando la ecuacin expresarse como: yi = 0 + 1 x i + i , i = 1, 2,., n Y la suma de los cuadrados de las desviaciones de las observaciones de la verdadera recta de regresin es:
yi = 0 + 1 x i + i , las n observaciones de la muestra pueden

L = = ( yi 0 + 1 x 1 )
i=1 2 j i =1

Los estimadores de mnimos cuadrados de satisfacer: L 0 , 1=2 ( y i 0+ 1 x i ) =0 0 i=1 L 0 , 1 = 2 ( y i 0 + 1 xi ) xi =0 1 i =1


n n

0 y 1 , por ejemplo 0 y 1 , deben

Al simplificar estas dos ecuaciones se obtiene: n 0 + 1 x i = ( y i )


i =1 i =1 n n n n n

0 xi + 1 x 2i = y i x i
i =1 i =1 i =1

DETERIMNACIN DE LOS COEFICIENTES 0 Y 1


8

Se ha seleccionado la forma correcta de la ecuacin de regresin. Esto implica que cualquier variabilidad de la variable de respuesta que no pueda explicarse mediante el empleo de la ecuacin de regresin, se debe a un error aleatorio. Por ejemplo, se sabe que la distancia de que recorre un objeto en un tiempo t, est dada por la siguiente relacin:
d = 0 + 1 t

Donde

es la velocidad promedio y

es la posicin del objeto para t=0. Si

no fuese posible medir d en forma precisa para un valor dado de t, pero se observ un valor:
y =d +

Donde es el error aleatorio, se ha seleccionado la forma correcta de la ecuacin de regresin y el problema se reduce a estimar los valores de embargo, rara es la vez que el problema resulta ser tan sencillo. 0 y 1 . Sin

AJUSTE E INTERPRETACIN DE LA RECTA

La recta de regresin ajustada o estimada es:


yi = 0+ 1 x

Obsrvese que cada par de observaciones satisface la relacin: yi = 0+ 1 x + e1 ,


yi Donde e i = y i

i =1,2, , n se le llama residual. El residual describe el error del ajuste del yi .

modelo en la observacin i,

INTERPRETACIN DE LA PENDIENTE DEL MODELO

Las estimaciones de mnimos cuadrados de la ordenada al origen y la pendiente del modelo de regresin lineal simple son:
0 = y 1 x

1 = i=1

y i x i
n 2

( )( )
yi
i =1 n i =1

xi

x 1
i =1

( )
i =1

xi

n
n n

Donde:

y=

1 n

) yi y x=( 1n ) x1
i= 1 i =1

SUPOSICIONES DE LA R.L.S Suponen errores aleatorios con distribucin normal, media cero y varianza
3

INFERENCIAS EN LA R.L.S
Estimar relacin lineal entre x y y con propsito de prediccin En la pendiente y en la interseccin Construccin de intervalos de confianza

ERROR ESTNDAR DE LA MEDICIN


YX

El error estndar de la estimacin designado por s siguiente formula.

mide la disparidad

"promedio" entre los valores observados y los valores estimados de . Se utiliza la

10

Son las races cuadradas de los estimadores de las varianzas resultantes.

PRUEBA t DE INDEPENDENCIA ENTRE LAS VARIABLES (SIGNIFICACIN DE LA REGRESIN)

T 0=

1 1,0 2

S xx H 0= 1 1,0 . Se

Sigue una distribucin t con n-2 grados de libertad bajo: rechazaran


H 0= 1 1,0 si:

t 0> t ,n 2
2

Donde t 0 se calcula con la ecuacin

T 0=

1 1,0 2

S xx

El denominador de la ecuacin anterior es el error estndar de la pendiente, por lo que el estadstico de la prueba podra escribirse como: T 0= 1 1,0 se ( 1 )

Puede ser un procedimiento similar para probar hiptesis cerca de la ordenada al origen. Para probar:
H 0= 0 = 0,0

H 0= 0 0,0 Se usara el estadstico:


11

T 0=

0 0,0

[ ]
2 2 1 + x n S xx

0 0,0 se ( 0 )

ENFOQUE DEL ANDEVA P/LA PRUEBA DE SIGNIFICACIN DE LA REGRESIN

Puede usarse un mtodo llamada anlisis de varianza para probar la significacin de una regresin. En el procedimiento se hace la particin de la variabilidad total de la variable de respuesta en componentes significativos como base de la prueba. El anlisis de identidad de la varianza es el siguiente:
2 y1 y ) + ( y1 yi ) ( y 1 y ) = ( i =1 i=1 i= 1 n 2 n 2 n

Las dos componentes del miembro derecho de la ecuacin anterior miden, respectivamente, la cantidad de variabilidad en yi explicada por la recta de

regresin y la variacin residual que queda sin explica por la recta de regresin.

I. DE C. PARA 1 Y 0 (PENDIENTE Y ORDENADA DEL MODELO)

Bajo el supuesto de que las observaciones tienen una distribucin normal e independiente, un intervalo de confianza del 100(1-) por ciento para la pendiente 1 en una regresin lineal simple es: 1 t
2

, n 2

2 2 1 1+ t , n 2 S S xx xx 2

De manera similar, un intervalo de confianza del 100(1-) por ciento para la ordenada al origen 0 es:

12

0 t
2

,n 2

[ ]
2
2

1 x 1 x + 0 0 + t 2 + , n 2 n S xx n S xx 2

[ ]
2

I. DE C. PARA LA MEDIA

y,x

Puede construirse un intervalo de confianza a partir de la respuesta media en un valor especificado de x, por ejemplo, x0. ste es un intervalo de confianza alrededor de E ( Y x 0 ) = y x , al que suele llamrsele intervalo de confianza
0

alrededor de la recta de regresin. Puesto que puede obtenerse una estimacin puntual de como: y x = 0 + 1 x0
0

E ( Y x0 ) = y x = 0 + 1 x0 ,
0 0

y x a partir del modelo ajustado

Entonces
0 y 1

y x

es un estimador puntual insesgados de


0 y 1

y x , ya que
0

son estimadores insesgados de

Un intervalo de confianza del 100(1-) por ciento alrededor de la respuesta media en el valor de x = x0, simbolizando y x ,
0

est dado por:

y x t
0

, n2

[
2

x) x) ( x0 1 ( x0 2 1 + y x y x + t + , n 2 n S xx n S xx 2
0 0

Donde: y x = 0 + 1 x0
0

Se calcula a partir del modelo de regresin ajustado.

13

I. DE C. DE PREDICCIN PARA UNA OBSERVACIN FUTURA Y i

Una aplicacin importante de los modelos de regresin es predecir observaciones nuevas o futuras Y que correspondan a un nivel de especificado de la variable de regresin x. Si x0 es el valor de la variable de regresin de inters, entonces:
0= Y 0 + 1 x 0

Es el estimador puntual del valor nuevo o futuro de la respuesta Y 0 Se considera ahora cmo obtener la estimacin de un intervalo para esta observacin futura Y0. Esta nueva observacin es independiente de las observaciones utilizadas para desarrollar el modelo de regresin. Por lo tanto, el intervalo de confianza para y x
0

EVALUACIN DE LA ADECUACIN DEL MODELO DE REGRESIN El ajuste de un modelo de regresin requiere varios supuestos. La estimacin de los parmetros del modelo requiere el supuesto de que los errores son variables aleatorias no correlacionadas con media cero y varianza constante. Las pruebas de hiptesis y la estimacin de intervalos requieren que los errores tengan una distribucin normal. Adems, se supone que el orden del modelo es correcto; es decir, si se ajusta un modelo de regresin lineal simple, entonces se est suponiendo que el fenmeno se comparta en realidad de manera lineal o de primer orden. El analista deber considerar siempre la validacin de estos supuestos, deber ser precavido y llevar a cabo anlisis a fin de examinar la adecuacin del modelo que se ha propuesto de manera tentativa.

ANLISIS RESIDUAL

14

y i , i = 1,2, , n , donde Los residuales de un modelo de regresin son e i = y i

yi

es una observacin real y

yi

es el valor ajustado correspondientemente

con el modelo de regresin. El anlisis de los residuales con frecuencia resulta de utilidad para verificar el supuesto de que los errores siguen una distribucin normal aproximada con varianza constante, as como para determinar si sera conveniente incluir trminos adiciones en el mtodo. Como verificacin aproximada de la normalidad, el experimentador puede construir un histograma de frecuencias de los residuales o una grfica de probabilidad normal de los residuales.

EL COEFICIENTE DE DETERMINACIN
INTRODUCCIN

El estadstico R2 deber usarse con cuidado, ya que siempre es posible hacer R 2 igual a la unidad mediante la simple adicin de trminos suficientes al modelo. Por ejemplo, puede obtenerse un ajuste perfecto para n datos o puntos observados con un polinomio de grado n-1. Adems, R 2 siempre incrementar si se agrega una variable al modelo, aunque esto no implica necesariamente que el nuevo modelo sea superior al original. A menos que la suma de cuadrados de los errores del nuevo modelo tenga una reduccin por una cantidad igual al cuadrado medio del error original, el nuevo modelo tendr un cuadrado medio del error mayor que original, debido a la prdida de un grado de libertad del error. Por tanto, el nuevo modelo ser en realidad peor que el original. Hay varias concepciones errneas en cuanto a R 2. En general, R2 no mide la magnitud de la pendiente de la recta de regresin. Un valor grande de R 2 no implica una pendiente pronunciada. Por otra parte, R2 no mide la adecuacin del modelo, ya que puede inflarse artificialmente agregando al modelo trminos polinmicos en x de orden superior.
15

Incluso si y y x estn relacionadas en una forma no lineal, R2 con frecuencia ser grande

MEDIDAS DE VARIACIN EN LA REGRESIN Y CORRELACIN


SCT (SST), SCR (SSR), SCE (SSE)

Fuente de variacin Regresin Error Total

Suma de cuadrados
SS R= 1 S xy

Grados de libertad 1 n2 n1

Cuadrado medio MSR MSE

F0 MSR/MSE

SS E = SS T 1 S xy
SS T

CLCULO DEL COEFICIENTE E INTERPRETACIN A la cantidad:

R 2=

SS R SS =1 E SS T SS T

Se le llama coeficiente de determinacin y se usa con frecuencia para juzgar la adecuacin de un modelo de regresin. Ms adelante se ver que en que en el caso en que X y Y son variables aleatorias con una distribucin conjunta.

R 2 es el cuadro del coeficiente de correlacinentre X y Y.

PRUEBA DE FALTA DE AJUSTE

Con frecuencia los modelos de regresin se ajustan a los datos para proporcionar un modelo emprico cuando la verdadera relacin entre las variables Y y x es desconocida. Naturalmente, a uno le interesa saber si el orden del modelo propuesto de manera tentativa es el correcto.

16

Se presenta ahora una prueba de la bondad de ajuste del modelo de regresin. Especficamente, las hiptesis que quieren probarse son:

H0: El modelo de regresin lineal simple es correcto H1: El modelo de regresin lineal simple no es correcto
SS E = SS PE + SS LOF

Donde

SS PE

es la suma de los cuadrados atribuible al error puro, y

SS LOF

es

la suma de los cuadrados atribuible a la falta de ajuste del modelo. Para calcular
SS PE , deben tenerse observaciones repetidas de la respuesta Y para al menos

un nivel de x. EL ANLISIS DE CORRELACIN

INTRODUCCIN

En el anlisis de regresin desarrollado aqu se ha propuesto que x es una variable matemtica medida con mayo omisible, y que Y es una variable aleatoria. Muchas aplicaciones del anlisis de regresin incluyen situaciones en las que tanto X como Y son variables aleatorias. En estas situaciones, es comn suponer que las observaciones (Xi, Yi), i = 1,2,, n, son variables aleatorias con una distribucin conjunta que se obtiene de la distribucin f(x,y). Por ejemplo, suponga que quiere desarrollarse un modelo de regresin que relacione la resistencia al corte de los puntos de soldadura con el dimetro de los mismos. En este ejemplo, el dimetro de la soldadura no puede controlarse. Al analista le gustara seleccionar aleatoriamente n puntos de soldadura y observar el dimetro (Xi) y la resistencia al corte (Yi) de cada uno de ellos. Por lo tanto (Xi, Yi) son variables aleatorias con una distribucin conjunta.

CLCULO DEL COEFICIENTE

17

Se supone que la distribucin de Xi y Yi es la distribucin normal de dos variables,


2 y que y y y son la media y la varianza de X, y que

es el coeficiente de

correlacin entre Y y X. Recurdese que el coeficiente de correlacin se define como:


= xy x y

Donde xy

es la covarianza entre Y y X.

La distribucin condicional de y para un valor dado de X=x es: 1 1 y 0 + 1 x f y x= exp 2 y x 2 y x Donde:


0 = y x y x

[ (

)]
2

1 =

y x

Y la varianza de la distribucin condicional de Y dada X=x es:


2 2 2 y x = y ( 1 )

Es decir, la distribucin condicional de Y dada X ) x es normal con media: E ( Y x ) = 0 + 1 x

P. DE H. E INTERPRETACIN

Con frecuencia es til probar las hiptesis:


H 0 : = 0

18

H 1= 0

El estadstico para la prueba apropiado para estas hiptesis es: T 0= R n 2 1 R 2

TRANSFORMACIONES QUE LLEVAN A UNA LINEA RECTA Se presenta cuando la regresin es no lineal. A tales modelos ni lineales se les conoce como: intrnsecamente lineales. BIBLIOGRAFA: Probabilidad y estadstica aplicada a la ingeniera, 2da edicin, Montgomery, Runger, Limusa Wiley, Mxico, 2011. Probabilidad y estadstica para ingenieros, 6ta edicin, Prentice-Hall Hispanoamericana, S.A. Walpole, Ronald E., Mxico, 1999.

19

You might also like