You are on page 1of 11

Valores atpicas y observaciones influyentes En esta investigacin se ve el uso del anlisis de residuales para identificar observaciones que se pueden

clasificar como observaciones atpicas o como observaciones especialmente influyentes sobre la ecuacin de regresin estimada. Tambin se discuten algunas de las medidas que han de tomarse cuando se presentan tales observaciones. a) Deteccin de valores atpicas: La siguiente figura es un diagrama de dispersin de un conjunto de datos que contiene una observacin atpica, un dato (una observacin) que no sigue la tendencia del resto de los datos. Las observaciones atpicas son observaciones que son sospechosas y que requieren un anlisis cuidadoso. Puede tratarse de datos errneos; si es as, esos datos deben ser corregidos. Puede tratarse de una violacin a las suposiciones del modelo; si es as, habr que considerar otro modelo. Por ltimo, puede tratarse, simplemente, de valores inusuales que se presenten por casualidad. En ese caso, esos valores debern conservarse.

Para mostrar cmo se detectan las observaciones atpicas, considrense los datos de la tabla 14:11, y en la siguiente figura se muestra el diagrama de dispersin de estos datos. Con excepcin de la observacin 4 (X4 = 3, y4 = 75), estos datos parecen seguir
1

un patrn que indicar una relacin lineal negativa. En efecto, dado el patrn que parece seguir el resto de los datos, se esperara que Y4, fuera mucho ms pequeo, por lo que a esta observacin se le considera como un dato atpico. En el caso de la regresin lineal simple, las observaciones atpicas pueden detectarse mediante un simple examen del diagrama de dispersin.

Tabla 14.11 Conjunto de datos para ilustrar el efecto de una observacin atpica Xi 1 1 2 3 3 3 4 4 5 Yi 45 55 50 75 40 45 30 35 25

15

Para detectar observaciones atpicas tambin se pueden usar los residuales estandarizados. Si una observacin se aleja mucho del patrn del resto de los datos (por ejemplo, la observacin atpica de la figura 14.16), el valor absoluto del correspondiente residual estandarizado ser grande. Muchos paquetes de software identifican de manera automtica las observaciones cuyos residuales tienen un valor absoluto grande. En la figura 14.18 se presentan los resultados dados por Minitab para el anlisis de regresin de los datos de la tabla 14.11. En el penltimo rengln de los resultados dados por Minitab se lee que el residual estandarizado de la observacin 4 es 2.67. Minitab identifica como una observacin inusual toda observacin cuyo residual estandarizado sea menor a -2 o mayor a +2; en tales casos la observacin aparece en un rengln aparte con una R al lado del residual estandarizado, como se observa en la figura 14.18. Si los errores estn distribuidos normalmente, solo 5% de los residuales estandarizados se encontraran fuera de estos lmites. Para decidir qu hacer con una observacin atpica, primero hay que verificar si es una observacin correcta. Puede ser que se trate de un error al anotar los datos o al ingresarlos a la computadora. Supngase, por ejemplo, que al verificar la observacin atpica de la tabla 14.17, se encuentra que hubo un error; el valor correcto de la observacin 4 era X4 = 3, y4 = 30. En la figura 14.19 se presenta el resultado que proporciona Minitab una vez corregido el valor de y4. Se observa que el dato incorrecto afecta sustancialmente la bondad de ajuste. Con el dato correcto, el valor de R-sq aumenta de 49.7% a 83.8% y el valor de b0 disminuye de 64.958 a 59.237. La

pendiente de la recta cambia de -7.33 a -6.949. La identificacin de los datos atpicos permite corregir errores en los datos y mejora los resultados de la regresin.

b) Deteccin de observaciones influyentes Algunas veces una o ms de las observaciones tienen una influencia fuerte sobre los resultados que se obtienen. En la figura 14.20 se muestra un ejemplo de una observacin influyente en una regresin lineal simple. La recta de regresin estimada
4

tiene pendiente negativa, pero si la observacin influyente se elimina del conjunto de datos, la pendiente de la recta de regresin estimada cambia de negativa a positiva y la interseccin con el eje y es menor. Es claro que esta sola observacin tiene mucha ms influencia sobre la recta de regresin estimada que cualquiera otra observacin; el efecto que tiene la eliminacin de cualquiera de las otras observaciones sobre la ecuacin de regresin estimada es muy pequeo.

Cuando solo se tiene una variable independiente, las observaciones influyentes pueden identificarse mediante un diagrama de dispersin. Una observacin influyente puede ser una observacin atpica (una observacin cuyo valor de y se desva sustancialmente de la tendencia general), puede ser un valor de x muy alejado de la media (por ejemplo, ver la figura 14.20) o puede tratarse de la combinacin de estas dos cosas (un valor de y algo fuera de la tendencia y un valor de x un poco extremo). Las observaciones influyentes deben examinarse cuidadosamente dado el gran efecto que tienen sobre la ecuacin de regresin estimada. Lo primero que hay que hacer es verificar que no se haya cometido algn error al recolectar los datos. Si se cometi algn error, si se cometi se corrige y se obtiene una nueva ecuacin de regresin estimada. Si la observacin es correcta, puede uno considerarse afortunado de tenerla. Tal dato, cuando es correcto, contribuye a una mejor comprensin del modelo adecuado y conduce a una mejor ecuacin de regresin estimada. En la figura 14.20, la

presencia de la observacin influyente, si es correcta, llevara a tratar de obtener datos con valores x intermedios, que permitan comprender mejor la relacin entre x y y. Las observaciones en las que la variable independiente toma valores extremos de denominan datos (puntos, observaciones) de gran influencia. La observacin influyente de la figura 14.20 es un punto de gran influencia. La influencia de una observacin depende que tan lejos est el valor de la variable independiente de su media. En el caso de una sola variable independiente, la influencia (leverage) de la observacin i, que se denota hi, se calcula mediante la ecuacin (14.33).
INFLUENCIA DE LA OBSERVACION i Hi = 1/n + (Xi- x)2 (Xi- x)2 (14.33)

De acuerdo con esta frmula, es claro que entre ms alejada se encuentre xi de su media mayor ser la influencia (laverage) de la observacin i.

Muchos de los paquetes para estadstica identifican automticamente, como parte de los resultados estndar de regresin, los puntos de gran influencia. Para ilustrar como
6

identifica Minitab los puntos de gran influencia, se considerara el conjunto de datos de la tabla 14.12. Tabla 14.12 Conjunto de datos con una observacin de gran influencia Xi 10 10 15 20 20 25 70 Yi 125 130 120 115 120 110 100

Observando la figura 14.21, que es el diagrama de dispersin del conjunto de datos presentando en la tabla 14.12, se ve que la observacin 7 (x = 70, y = 100) es una observacin en la que el valor de x es un valor extremo. Por lo tanto, es de esperarse que sea identificado como un punto de gran influencia. La influencia de esta observacin se calcula usando la ecuacin (14.33).

En el caso de la regresin lineal simple, Minitab identifica como observaciones de gran influencia las observaciones para las que hi > 6/n 0 hi = 0.99, lo que sea menor. En el conjunto de datos de la tabla 14.12, 6/n = 6/7 = 0.86. Como h 7 = 0.94 > 0.86. Minitab identificar la observacin 7 como una observacin cuyo valor x tiene una gran influencia. En la figura 14.22 se presenta el resultado que da Minitab del anlisis de regresin de este conjunto de datos. A la observacin 7 (x = 70, y = 100) la identifica como una observacin de gran influencia; esta observacin la presenta en un rengln aparte en la parte inferior de los resultados con una X en el margen derecho.

Las observaciones influyentes debidas a la interaccin de una observacin de gran influencia y de residuales grandes, suelen ser difciles de detectar. Existen procedimientos de diagnostico que para determinar si una observacin es influyente toman en cuenta ambas cosas.

c) Problemas de aplicacin 1.- Considerense los datos siguientes para las variables x y y. Xi Yi 135 145 110 100 130 120 145 120 175 130 160 130 120 110

a. Calcule los residuales estandarizados de estos datos. Hay entre los datos alguna observacin atpica? Explique. b. Haga una grafica de residuales estandarizados contra y. Se observa en esta grafica la presencia de alguna observacin atpica?

c. Con estos datos elabore un diagrama de dispersin. Se observa en el diagrama de dispersin la presencia de alguna observacin atpica? En general, Qu consecuencias tienen, para la regresin lineal simple, estos hallazgos? Respuesta: Usando Minitab se obtiene la ecuacin de regresin estimada y = 66.1 + 0.402x; en la siguiente figura se muestra parte de los resultados que da Minitab. Se presentan los valores ajustados y los residuales estandarizados: Xi Yi Yi Residuales estandarizados 135 110 130 145 175 160 120 145 100 120 120 130 130 110 120.41 110.35 118.40 124.43 136.50 130.47 114.38 2.11 -1.08 0.14 -0.38 -0.78 -0.04 -0.41

La grafica de residuales estandarizados indica que la observacin x = 135, y = 145 puede ser una observacin atpica; note que esta observacin tiene un residual estandarizado de 2.11
9

El diagrama de dispersin tambin indica que la observacin x = 135, y =145 es una observacin atpica; en la regresin lineal simple, las observaciones atpicas pueden identificarse observando el diagrama de dispersin.

10

2.- Considrense los datos siguientes para las variables x y y . Xi Yi 4 12 5 14 7 16 8 15 10 18 12 20 12 24 22 19

a. Calcule los residuales estandarizados de estos datos. Hay entre los datos alguna observacin atpica? Explique b. Calcule las observaciones de influencia que haya en estos datos. Entre estos datos, parece haber alguna observacin influyente? Explique. c. Con estos datos elabore un diagrama de dispersin. Se observa en el diagrama de dispersin la presencia de alguna observacin atpica? Explique.

Bibliografia: Libro: Estadistica para administracin y economa. 10. Edicin. Autores: Anderson, Sweeney, Williams Editorial: CENGAGE

11

You might also like