You are on page 1of 28

Pruebas de Bondad de Ajuste

Pruebas de Bondad de Ajuste


Un problema importante en estadstica es obtener informacin acerca de la
forma de la poblacin de la cual se tom la muestra. La forma de la distribucin
es lo importante.
A veces lo que nos interesa es cierto aspecto en particular de la poblacin, por
ejemplo, el valor de un parmetro, pero para realizar las pruebas se hacen
supuestos sobre la distribucin, as que primero hay que revisar si la poblacin
se distribuye como se supone, como por ejemplo, la prueba para la media que
supone poblaciones normales.
La compatibilidad de un conjunto de valores observados en una muestra con una
distribucin normal o cualquier otra puede ser revisada utilizando una prueba
de bondad de ajuste. Estas pruebas estn diseadas para una hiptesis nula
donde se enuncia la forma de la funcin de distribucin o de la funcin de
probabilidad de la poblacin de la cual se tom la muestra. Idealmente, la
distribucin supuesta est completamente especificada, incluyendo a todos sus
parmetros.
La hiptesis alternativa puede ser muy amplia, incluyendo diferencias en
localizacin, escala, otros parmetros, etc.
Hay diferentes tipos de prueba de bondad de ajuste:
a) Las diseadas para H0 que conciernen a distribuciones discretas y comparan
las frecuencias observadas con las esperadas bajo la hiptesis nula. Esta es la
prueba Ji-cuadrada de Pearson
b) Las diseadas para H0 que conciernen a distribuciones continuas y comparan
las frecuencias relativas acumuladas observadas con las esperadas bajo la
hiptesis nula. Ejemplo de estas pruebas se tiene la Kolmogorov-Smirnov y
Lilliefors.
Pruebas de Bondad de Ajuste
Prueba de Ji-Cuadrada
Se tiene una m.a. de tamao n de una poblacin con funcin de distribucin
acumulada desconocida. Las n observaciones se agrupan en k categoras
mutuamente exclusivas.

La hiptesis nula puede ser vista como:


donde est completamente especificada contra:

( ) x F
( ) ( ) x :
0 0
= x F x F H
( ) x F
0
( ) ( ) x . . :
0 1
a p x F x F H =
Estadstico de prueba:


donde:
es la frecuencia absoluta de la categora i

es la frecuencia esperada para la categora i, donde es la
probabilidad de estar en la categora i dada H0.

Para muestras grandes ( cuantil de cola derecha). Esta
aproximacin puede usarse con confianza siempre y cuando:
1er. Criterio: cada frecuencia esperada sea al menos 5.
2do. Criterio: cada frecuencia esperada sea al menos 1.5 (poco restrictivo).
Cuando hay una lo que se debe hacer es unir ese grupo con su
adyacente para acumular la frecuencia esperada y reducir acordemente los
grados de libertad (colapsar grupos).

( )

=
k
i i
i i
e
e f
Q
1
2

i
f
i
p

i i
p n e

=
( )
2
1 , 1
~
k
Q
o
_
5 . 1

<
i
e
Ejercicio:
Un ingeniero de control de calidad tom 50 muestras de un mismo tamao
(13) de un proceso de produccin. Se registr el nmero de muestras
defectuosas. Probar H0 a un nivel =0.05 de que el nmero de defectuosas
sigue:
a) Una distribucin Poisson
b) Una distribucin binomial
No. de defectuosos No. de muestras
0 10
1 24
2 10
3 4
4 1
5 1
6 ms 0
En SPSS:
1
2
3
4
En R:
Se recomienda revisar la funcin goodfit() [library(vcd)]
Esta prueba es utilizada para probar funciones de distribucin continua. Se
utiliza la funcin de distribucin emprica definida como:




siendo la observacin ordenada que ocupa la posicin i-sima dentro
de una muestra de tamao
Prueba Kolmogorov-Smirnov
( )
( ) ( ) 1 1
,
+
< s = X x X si
n
i
x S
i n
( ) i
X
n
El estadstico de prueba se define como:



Para la hiptesis:



Para encontrar los cuantiles que ayuden a determinar la regin de rechazo,
se puede utilizar la tabla F, o bien, hacer uso del siguiente teorema
Prueba Kolmogorov-Smirnov
( ) ( ) ( ) ( ) ( ) ( ) | | 0 , , max sup > = = c c x F x S x F x S x F x S D
x n x n
x
x n
x
n
( ) ( ) x :
0 0
= x F x F H ( ) ( ) x a p x F x F H . vs . . :
0 1
=
Teorema Glivenko-Cantelli
http://wwwf.imperial.ac.uk/~das01/MyWeb/M3S3/Handouts/GlivenkoCantelli.pdf

Prueba Kolmogorov-Smirnov
Y se rechaza si:


Este ltimo siendo cuantil de la tabla F, a un nivel alfa de significancia.
0
H
*
,o n n
D D >
Prueba Kolmogorov-Smirnov
Prueba Kolmogorov-Smirnov
Para ampliar la prueba a hiptesis de una cola, se definen a los estadsticos:




Para la alternativa:

Se rechaza la hiptesis nula si: siendo este ltimo cuantil
obtenido de la tabla F (Gibbons), donde el alfa a considerar es
aproximadamente la mitad a la de la prueba de dos colas. Por ejemplo, para
n=20, el cuantil para una prueba de dos colas a un nivel de 0.10 es 0.265,
mientras que para las de una cola a un nivel de 0.10 es 0.294.

( ) ( ) x :
0 1
> x F x F H
+ +
>
o , n n
D D
Prueba Kolmogorov-Smirnov
Para la otra alternativa:


Se rechaza la hiptesis nula si: siendo este ltimo cuantil
obtenido de la tabla F (Gibbons), donde el alfa a considerar es
aproximadamente la mitad a la de la prueba de dos colas (mismo caso que el
anterior).
( ) ( ) x x F x F H s
0 1
:

>
o , n n
D D
Prueba Kolmogorov-Smirnov
Observacin: La prueba
Kolmogorov como tal no
puede ser desarrollada en
SPSS.

SPSS permite realizar la prueba
de bondad de ajuste para una
normal, uniforme, Poisson y
exponencial sin especificar los
parmetros
En esta prueba SPSS estima los parmetros de la muestra. La media y desviacin
muestral son los estimadores de los parmetros de la distribucin normal, el
mnimo y mximo de las observaciones muestrales son el rango que define a la
distribucin uniforme y las medias muestrales son los parmetros de las
distribuciones Poisson y exponencial.
Para mayor referencia, consultar la ayuda de SPSS.
Prueba en R:
Prueba Lilliefors para normalidad
En la prueba Kolmogorov-Smirnov, uno de los supuestos es que la
distribucin que se propone siguen los datos es totalmente especificada.
Cuando esto no sucede, se tiene un conjunto de pruebas no paramtricas,
diseadas para las distribuciones continuas ms utilizadas, tal es el caso de la
prueba Lilliefors para normalidad.

La prueba ocupa prcticamente el mismo estadstico que la prueba
Kolmogorov, con una nueva definicin de:




donde:

( ) ( ) ( ) ( ) ( ) ( ) | | 0 , , max sup
*
0
*
0
*
0
> = = c c x F x S x F x S x F x S D
n n
x
n
x
n
( ) x F
*
0
( ) ( ) z x F | =
*
0
Prueba Lilliefors para normalidad


Y z se define como:








Pueden ocuparse las tablas de la Kolmogorov (tabla F) pero se ha mostrado que
llevan a conclusiones ms conservadoras, por lo que Lilliefors propone calcular
estas probabilidades con simulaciones Monte Carlo. Los cuantiles estn
definidos en la tabla O.
( )
muestral) desviacin (la
n
x x
y muestral media la es x donde
,
x x
z
n
i
i
i

=
1
2
1

o
Es decir, se rechaza la hiptesis de normalidad si: este ltimo,
cuantil de la tabla O.

*
,o n n
D D >
Prueba Lilliefors exponencial
Otra prueba importante de bondad de ajuste en la prctica es probar que una
muestra proviene de una poblacin con una distribucin exponencial sin media
especificada. Es muy utilizada, por ejemplo, cuando la variable de estudio son
tiempos de espera (el tiempo de ocurrencia de un evento). Lilliefors propone
un modificacin de la prueba Kolmogorov, con su mismo estadstico de prueba y
con cuantiles aproximados por simulaciones Monte Carlo y tambin con una
nueva forma de definir


donde:



La tabla a ocupar es la tabla T. Se rechaza la hiptesis nula (los datos provienen
de una poblacin exponencial) si: (este ltimo cuantil de la tabla T).

( ) ( ) ( ) ( ) ( ) ( ) | | 0 , , max sup
*
0
*
0
*
0
> = = c c x F x S x F x S x F x S D
n n
x
n
x
n
( ) x F
*
0
( ) ( )
i
z
x
x
x observado valor cada para
x
x
z siendo
e z F e x F
=
= = =

, 1 1
*
0
*
0
*
,o n n
D D >
Prueba Shapiro Wilks
Es una prueba de normalidad de uso muy frecuente. Las hiptesis son:




Pasos para la construccin del estadstico de prueba:
1. Calcular el denominador: siendo X barra la media muestral.
2. Ordenar a la muestra de menor a mayor:
3. De la tabla A16, para la muestra de observaciones de tamao n se deben
obtener los coeficientes con los que se calcula:



( )
2
1

=
=
n
i
i
X X D
( ) ( ) ( ) n
X X X s s s
2 1
k
a a a , , ,
2 1

( ) ( )
( )
2
1
1 3
1
(

=

=
+
k
i
i i n i
X X a
D
T
( )
( ) normal distribuye se no :
da especifica no nza varia
y media con normal n distribuci de funcin una es :
1
0
x F H
x F H
x
x
Este estadstico es bsicamente el cuadrado de un coeficiente de correlacin. Si
es cercano a 1, la muestra aleatoria proviene de una poblacin normal. Los
cuantiles de esta tabla estn dados por la tabla A17. Se rechaza la hiptesis nula
de normalidad si el estadstico es menor que el cuantil al nivel o obtenido de
esta tabla. Un P-value ms preciso se obtiene con la siguiente transformacin:



Los coeficientes se obtienen de la tabla A18 y G se distribuye como
una normal estndar. La probabilidad alcanzada en este valor es el resultante P-
value.
Prueba Shapiro Wilks
|
|
.
|

\
|

+ =
3
3
1
ln
T
d T
c b G
n
n n
n n n
d c b y ,
Salida en SPSS
Para la prueba Shapiro
Wilks, se elige dentro del
men:











No se despliega como una
prueba, sino que se debe
escoger del botn Plot la
opcin Normality plots
with test
La salida que arroja (junto con estadsticas descriptivas, grficas de probabilidad y
de caja) es la siguiente:









Como puede verse, adems de proporcionar la prueba Shapiro Wilks, tambin
arroja la Lilliefors Normal.
En R:
y<-c(9600,10200,9300,8700,15200,6900,8600,9600,12200,15500,11600,7200)
y1<-(y-mean(y))/sd(y)
library(nortest)
lillie.test(y1)

w<-
c(97,93,89,87,81,77,75,74,73,73,70,68,68,66,65,64,63,62,61,61,59,58,58,58,58,57,5
7,56,54,54,48,48,45,44,43,43,42,40,37,36,35,33,33,32,31,29,27,24,23,23)
shapiro.test(w)
Ejercicios:
1. Cinco nios de cuarto ao fueron seleccionados al azar dentro de su clase
y puestos a prueba en una pequea carrera de velocidad. Los tiempos en
segundos fueron: 4.2, 4.7, 5.7, 6 y 6.3. Pruebe la hiptesis de que los datos
siguen la siguiente distribucin:




2. A una muestra de 12 personas se les entrevista para estimar el ingreso
medio bruto anual en cierta ciudad en vas de desarrollo. Use la prueba ms
apropiada para la hiptesis nula de que los datos provienen de una
distribucin normal.
( )
( )

>
< s

<
=
8 1
8
4
4
4 0
0
x
x
x
x
x F
para
4 para
para
9800 8600
10200 9600
9300 12200
8700 15500
15200 116000
6900 7200
3. La incidencia de llamadas telefnicas de larga distancia en cierta localidad
se considera un proceso aleatorio, donde los tiempos entre llamadas se
distribuyen de manera exponencial. Las primeras 10 llamadas en lunes,
despus de las 1 p.m., ocurrieron a la 1:06, 1:08, 1:16, 1:22, 1:23, 1:34, 1:44,
1:47, 1:51 y 1:57. Los tiempos sucesivos entre llamadas, contando desde la
primera (1:00 a 1:06, 1:06 a 1:08, etc.) fueron: 6, 2, 8, 6, 1, 11, 10, 3, 4 y 6,
con una media muestral de 5.7. Qu puede concluir?

You might also like