You are on page 1of 10

INSTITUTO TECNOLGICO DE TIJUANA

DEPARTAMENTO DE INGENIERA INDUSTRIAL

ESTADISTICA INFERENCIAL II

ING. EMILIO RAMN BORQUEZ RODRGUEZ

VERIFICACIN DE LOS SUPUESTOS DE MODELO

GONZLEZ SOLRZANO ERICK EDUARDO No. 13211073

TIJUANA, B.C. 27/02/2016

Verificacin de los Supuestos de Modelo


Se parte de la definicin del residual
, sobre el que se formulan
algunos supuestos los cuales resulta necesario verificar para que al realizar
inferencias resulten valida (sobre el modelo: ajuste, adecuacin, validez de la
prediccin, etc.).
La validacin lleva en consideracin la realizacin de un anlisis de los residuales
para verificar cualquier anomala sobre el ajuste del modelo lineal.
Cuando se propone un modelo para el ajuste de los datos se establecen
bsicamente los siguientes supuestos sobre el error: Independencia, normalidad,
media cero y varianza constante.
Es importante notar que los errores (

) son no observables, no se conocen, pero

se pueden estimar mediante los residuales ( ), as todas las pruebas de los


supuestos se realizan sobre estos ltimos. Al ajustar el modelo se espera que los
residuales satisfagan los anteriores supuestos sobre el error. Despus de
examinar los residuales solo se podr concluir que los supuestos se cumplen, o
no se cumplen con los riesgos inherentes a toda decisin Estadstica.
Toda la inferencia que se puede realizar (estimacin por intervalo de las
combinaciones lineales o no lineales de los parmetros, pruebas de hiptesis,
entre otras) sobre el modelo, tiene como base los supuestos sobre la variable
respuesta. Si alguno de estos no se cumple, los procesos de inferencia conllevan
a decisiones con alto riesgo de estar equivocadas.

Causas de desvos de supuestos


La aplicacin de una tcnica estadstica implica verificar que los supuestos del
modelo son razonablemente satisfechos. Se aconseja que un anlisis estadstico
se inicie con un estudio exploratorio de datos, con eso se gana en sensibilidad e
informacin adicional sobre la variable estudiada.
El anlisis de residuos es una tcnica bastante eficiente para detectar desvos de
los supuestos. Abarca anlisis grficos, numricos y mixtos; este debe ser un
procedimiento de rutina en el anlisis de los datos. El anlisis de residuos tambin
puede ser utilizado para detectar outliers. Al igual que como sucede en cualquier
situacin en donde se ajuste un modelo estadstico aun conjunto de datos, la

verificacin de los supuestos es de vital importancia para que el modelo pueda ser
interpretado con validez.
Los supuestos bsicos que se deben verificar en el ajuste de los modelos son los
siguientes:
i.

La no correlacin de los errores: Este supuesto se incumple cuando las


observaciones son tomadas secuencialmente en el tiempo, el espacio y
en datos clster, entre otros. Cuando los datos estn correlacionados se
debe trabajar con mtodos estadsticos apropiados.

ii.

La homocedasticidad de los errores: Este supuesto se puede incumplir


por varias razones, por ejemplo: Por daos en alguna parte del
experimento, contratiempos, uso del material experimental menos
homogneo en algunas replicas, por no tener cuidado en el control
durante la ejecucin del experimento o en el control de las unidades
experimentales.

La naturaleza de los tratamientos, puede producir algunas respuestas ms


variables que otras, causando heterogeneidad en la varianza de los errores, caso
frecuente en ensayos con fertilizantes o en experimentacin biolgica, cuando se
desea comparar efectos de tratamientos.
La heterocedasticidad puede ocurrir tambin en los casos donde la media y la
varianza estn relacionadas, caso tpico, un estudio de conteos que siguen una
distribucin Poisson o en datos con respuesta binaria.
Tambin la heterocedasticidad puede ser causada por la presencia de
observaciones atpicas u outliers, las cuales se clasifican en no genuinas o
genuinas. Las primeras son datos le dos pero con transcripcin errnea, en
tanto que las genuinas pueden ser causadas por cambios no controlados en la
conduccin del experimento.
iii.

La normalidad. Que el comportamiento de los datos sea normal casi


nunca ocurre con la informacin real proveniente de los datos, la
distribucin de la variable puede ser asimtrica y a un con distribucin
simtrica puede no seguir una distribucin normal.

iv.

iv. No aditivita en el modelo. La construccin de grficos de perfiles


puede indicar la existencia o no de interaccin. Para verificar si dicha
interaccin es causada por la presencia de un outsider, tal observacin
se debe retirar y volver a hacer el grafico. Si se mantiene la estructura

de este grfico, existen indicios de que la interaccin es inherente al


fenmeno de estudio y no es causada por la presencia del outsider.
Anlisis grfico y medidas descriptivas de los residuales
Las formas grficas y las medidas descriptivas, son los mtodos usados
tradicionalmente para detectar problemas en la validez de los supuestos del
modelo lineal planteado.
Histograma y grafico probabilstico normal. Estos grficos son tiles para
analizar la normalidad de los residuos e identificar valores atpicos. La potencia de
las pruebas de normalidad sobre los residuos suele ser baja, porque aunque el
vector de variables aleatorias no sea normal, es posible que los residuos lo sean.
La razn es que si es una combinacin lineal de todas las variables aleatorias, y
segn el teorema central del lmite, su distribucin tendera a ser
aproximadamente normal. Los histogramas pueden ayudar a detectar la falta de
normalidad.
En la aplicacin del mtodo se deben tener en cuenta los siguientes pasos:
a) Ordene los valores de la variable aleatoria W de menor a mayor (w (1) >. . . > w(n)).

b) Calcule la probabilidad acumulada observada: pi = 100(i0,5)/n.


El valor de 0,5 se emplea para no obtener p = 1, el cual tiene un valor de infinito
para W; el arreglo que se tiene para esta informacin es el siguiente:

c) Grafique los valores de W contra P.


Observaciones que no proceden de una distribucin normal presentan una forma
curva, mientras observaciones que se ajusten a la normalidad siguen una
ecuacin lineal. Este mtodo se recomienda con tamaos de muestra donde n >
100.
Si hay un ajuste cercano a una lnea recta, hay evidencia para indicar que los
datos provienen de una distribucin normal, sin embargo se debe tener en cuenta
que en algunos casos, aunque los puntos se ajusten a una lnea recta puede que
los datos no provengan de una distribucin normal: Por ello se recomienda utilizar

algunos otros mtodos objetivos. Otra alternativa de realizar el grafico de


probabilidad normal se basa en la estandarizacin de las observaciones mediante
la transformacin a la variable zi , i = 1, . . . , n

La idea es calcular la probabilidad observada de cada una de las observaciones y


estimar el valor de zi aplicando la funcin inversa; si la distribucin adyacente es
normal, el grafico de los valores de zi versus wi tiene una forma lineal.

Verificacin de los supuestos


Existen distintas tcnicas de verificacin de supuestos, pero las que se presentan
aqu se basan en los predictores de los errores Eij, es decir los residuos.
Eij= valor observado - valor predicho
Una vez calculados los predictores se puede verificar el cumplimiento de los
supuestos de normaliodad, independencia y homoscedasticidad de varianzas de
los Eij, mediante pruebas de hiptesis e interpretaciones graficas.

Ejemplo de aplicacin
Para ejemplificar la verificacin de supuestos y sus pruebas, se trabajara con
datos tomados de dos lneas de llenado de tubos de crema antiarrugas de 100g de
peso, de una empresa mexicana.

Normalidad
Cuando se requiere probar la normalidad de un conjunto de datos pueden
emplearse graficas como auxiliares visuales.

Grafica de Probabilidad Normal


Las que se presentan son generadas en Minitab. El conjunto de datos que mejor
se ajusta a la recta del centro es el que se aproxima mas a la normal. Se refuerza
la observacin realizada con los histogramas.

Prueba de Shapiro Wilks


Publicado en 1965 por Samuel Shapiro y Martin Wilk.
Es considerada una de las pruebas mas importantes para normalidad cuando se
tiene una muestra pequea (n<30).
Sea w1, w2, ., wn una muestra aleatoria simple de tamao n, para la cual se
requiere saber si proviene de una problacion con distribucin normal.
Hipotesis estadstica:
Ho: Los datos siguen una distribucin normal.
H1: Los datos no siguen una distribucin normal.
Estadstico de contraste:

Donde: S^2 es la varianza muestral.


Y h se calcula segn lo siguiente:
H=

El termino ain es un valor tabulado


Procedimiento para realizar el clculo del estadstico:
1.
2.
3.
4.

Ordene los datos de la muestra de menor a mayor.


Calcule el valor de h
Calcule el estadstico W
Obtenga de la tabla Shapiro Wilks para el contraste de normalidad, el valor
W( , n)

5. Compare los Valores Wn y W( , n)


6. Concluya.

El ejemplo mostrado es en base a los datos tomados de dos lneas de llenado de tubos de
crema antiarrugas de 100g de peso, de una empresa mexicana.

Fuentes de Consulta:
http://www.virtual.unal.edu.co/cursos/ciencias/dis_exp/und_3/pdf/validaciondesupu
estosunidad%203b.pdf
http://www.estadisticafi.unam.mx/point/9.pdf
https://www.academia.edu/3089500/VERIFICACION_DE_LOS_SUPUESTOS_DE
L_MODELO

You might also like