You are on page 1of 13

Distribucin de probabilidad Chi Cuadrado ( )

Escuela de Ingeniera en Conservacin


de Recursos Naturales

Programa de Magster en Cs. Mn.


Bosques y Medio Ambiente

Profesor: Guillermo Trincado

Integrantes: - Camila Molina


- Carlos Zurita

Documento presentado como parte de los


requisitos de aprobacin de la asignatura
Mtodos estadsticos aplicados a los
recursos naturales (IBOS 300).

Valdivia
2017
NDICE
Captulo Pgina

1. INTRODUCCIN 1

2. DESARROLLO 2

2.1 Descripcin 2

2.2 Caractersticas 2

2.3 Aplicaciones

2.4 Ejemplo de aplicacin

3. CONCLUSIONES

REFERENCIAS

1. INTRODUCCIN

Dado que nuestras descripciones del mundo son casi siempre incompletas y nuestras
mediciones incorporan incertidumbre e imprecisin, necesitamos mtodos que nos permitan
evaluar el grado de concordancia entre las ideas confrontadas y las observaciones, estos son
los mtodos estadsticos (Hilborn y Mangel 1997).

En el mbito de la estadstica inferencial, una de las distribuciones de probabilidad ms


utilizadas es la de Chi-cuadrado. Tambin es denominada ji-cuadrado o distribucin de
Pearson, en honor a quien ide el test de Chi-cuadrado, Karl Pearson, publicado en 1892 en el
libro The Grammar of Science (Hernndez, 2005).

La distribucin Chi-cuadrado es un caso especial de la distribucin gamma. Es una


importante distribucin matemtica usada en muchos test de significancia, pruebas de
hiptesis o en la construccin de intervalos de confianza.

La situacin ms reconocida en que esta distribucin es utilizada son los test chi-cuadrado
comunes para evaluar la bondad de ajuste de una distribucin observada a una terica, as
como tambin la independencia de dos criterios de clasificacin de datos cualitativos.
Muchos otros test estadsticos tienden a utilizar esta distribucin, siendo una de aquellas el
ANOVA de Friedman por rangos.

El objetivo del presente escrito es describir la distribucin de probabilidad Chi-cuadrado,


indicando sus aplicaciones y un ejemplo ilustrativo.

2. DESARROLLO

2.1 Definicin

La distribucin chi-cuadrado () es una es una distribucin de probabilidad continua que


presenta un parmetro nico denominado (nu), que representa los grados de libertad (gl).
Esta distribucin deriva del supuesto de un muestreo aleatorio de una distribucin normal, y
de aquella se puede obtener la distribucin de la varianza muestral s 2. Esta distribucin tiene
por media y como varianza 2 . Presenta sesgo hacia la derecha (positivo), el que
disminuye a medida que aumenta disminuyendo su asimetra, y tendiendo a aproximarse a
una distribucin normal. Se puede tomar como referencia que cuando es mayor a 50 la
distribucin es aproximadamente normal (Box et al. 2006). Las probabilidades de esta
distribucin pueden determinarse utilizando un software computacional adecuado o a travs
de la tabla de distribucin .

Suponiendo que z1, z2, z3,..., z es un conjunto de desviaciones distribuidas segn una
distribucin normal unitaria, cada una de ellas con media cero y varianza unidad. En tal caso,
su suma de cuadrados tiene una distribucin , donde el nmero de variables normales al
cuadrado independientes determina el parmetro denominado como grados de libertad de la
distribucin.
As, , la suma de los cuadrados de variables normales unitarias independientes,
sigue una distribucin con grados de libertad, lo cual podemos denotar como:

, utilizando el smbolo de para representar se distribuye segn.

2.2 Caractersticas

2.2.1 Funcin de densidad de probabilidad

La funcin de densidad de probabilidad de la distribucin chi-cuadrado es

donde denota la funcin Gamma, que tiene valores de forma cerrada en los
semiejes enteros.

2.2.2 Funcin acumulativa

donde es la funcin Gamma inferior incompleta y es la funcin Gamma


regularizada. En el caso especial de k=2 esa funcin tiene una forma simple de:

Tipos de distribuciones

Distribucin no-central: es obtenida desde la suma de cuadrados de


variables aleatorias Gaussianas independientes, poseen varianza unitaria y media distinta
de cero.

Distribucin generalizada: es obtenida desde la forma cuadrtica zAz


donde z es un vector Gaussiano con media distinta de cero que posee una matriz de
covarianza arbitraria, y A es una matriz arbitraria.

En la tabla 1 se resume el nombre de algunos tipos de distribucin y su estadstico.

Tabla 1. Tipos de distribuciones


2.3 Aplicaciones

La distribucin chi-cuadrado tiene numerosas aplicaciones en la estadstica inferencial. La


ms conocida es la de la denominada prueba , utilizada como prueba de bondad de ajuste,
como prueba de independencia y en la estimacin de varianzas. Pero tambin est
involucrada en el problema de estimar la media de una poblacin normalmente distribuida y
en el problema de estimar la pendiente de una recta de regresin lineal, a travs de su papel
en la distribucin t de Student.
Aparece tambin en los problemas de anlisis de varianza por su relacin con la distribucin
F de Snedecor, que es la distribucin del cociente de dos variables aleatorias independientes
con distribucin .

2.3.1 Contraste de bondad de ajuste

El objetivo del contraste de bondad del ajuste es saber si una muestra procede de una
poblacin terica con determinada distribucin de probabilidad (De la Fuente, 2016). Sea una
poblacin, donde se analiza un carcter X con (x 1 , x2 , , xk) modalidades excluyentes,
denotando por ni es el nmero de elementos que presenta la modalidad x i (frecuencia
observada de xi ),

Por otra parte, sea ei = n . pi la frecuencia esperada o terica de cada modalidad xi


Se origina la Tabla de contingencia:
Se plantea la hiptesis nula H0 : La distribucin terica representa a la distribucin emprica y
observada.

Para un nivel de significancia (o riesgo) :

Se acepta H0 : Se rechaza H0 :

El estadstico es

El test se puede aplicar en situaciones donde se desea decidir si una serie de datos
(observaciones) se ajusta o no a una funcin terica previamente determinada (Binomial,
Poisson, Normal, etc.).

Los grados de libertad dependen del nmero de parmetros que se necesitan hallar para
obtener las frecuencias esperadas. En este sentido, si se requieren hallar p parmetros, los
grados de libertad son (k-p) si las modalidades son independientes y (k-p-1) cuando las
modalidades son excluyentes (De la Fuente, 2016).

2.3.2 Contraste de dependencia o independencia

Cuando se desea comparar dos caracteres (X, Y) en una misma poblacin que admiten las
modalidades: X(x1, x2 ,.., xi ,.., xk ) Y(y1, y2,... , yj ,..., ym), se toma una muestra de tamao n,
representando por nij el nmero de elementos de la poblacin que presentan la modalidad x i
de X e yj de Y.

Se plantea la hiptesis nula H0 : No existe diferencia entre las distribuciones empricas de X e


Y.

Bajo la hiptesis nula, cada frecuencia observada nij (i=1,..., k; j=1,..., m) de la tabla de
contingencia (k x m) hay una frecuencia esperada ( eij ) que se obtiene mediante la expresin:
Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos el 80%
de los valores esperados de las celdas sean mayores que 5. Cuando esto no ocurre hay que
agrupar modalidades contiguas en una sola hasta lograr que la nueva frecuencia sea mayor
que cinco. En una tabla de contingencia de 2x2 ser necesario que todas las celdas verifiquen
esta condicin, si bien en la prctica suele permitirse que una de ellas tenga frecuencias
esperadas ligeramente por debajo de 5.

El estadstico de contraste observado: que sigue


aproximadamente una Chi-cuadrado con (k-1) x (m-1) grados de libertad.

Para un nivel de significacin se puede contrastar la diferencia significativa entre las dos
distribuciones empricas o la independencia de las distribuciones empricas.

Contraste de homogeneidad

Se acepta H0 si:

Se rechaza H0 si:

Contraste de independencia

Hiptesis nula H0: Las distribuciones empricas X e Y son independientes

Se acepta H0 si:
Se rechaza H0 si:

2.3.3 Estimacin de varianzas

En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se


extraen todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su
varianza, se obtendr la distribucin muestral de varianzas (ITC,2003). Para estimar la
varianza poblacional o la desviacin estndar, se necesita conocer el estadstico . Si se elige
una muestra de tamao n de una poblacin normal con varianza 2, el estadstico se evaluar
mediante la expresin:

, considerando n-1 grados de libertad. Permitiendo evaluar el


comportamiento de la varianza o desviacin estndar muestral en una muestra proveniente de
una distribucin normal.
En caso de que se quiera conocer la varianza y desviacin estndar poblacional, se puede
utilizar la expresin:

, asignando valores de para el intervalo de confianza y utilizando n-1


grados de libertad para calcular .

2.4 Ejemplo de aplicacin


Ejercicios de estimacin de varianzas a travs de probabilidades de la
distribucin adaptados de ITC (2003).

A. Suponga que los tiempos requeridos por un cierto autobs para alcanzar uno de sus
destinos en una ciudad grande forman una distribucin normal con una desviacin estndar
minuto. Si se elige al azar una muestra de 17 tiempos, calcular la probabilidad de
.
Utilizando la expresin:

,
se obtiene el valor de , reemplazando en la frmula y calculando:
Posteriormente, el valor resultante 32 ( ) se busca en la Tabla de Distribucin de
Probabilidad , en la fila de 16 grados de libertad (n-1) (Anexo 1). Y se encuentra que a este
valor le corresponde un rea a la derecha de 0.01, determinando una probabilidad del 1%.

B. Se tienen los pesos en gramos de 10 paquetes de semillas de Nothofagus obliqua


distribuidos por una empresa agrcola y viverista: 46,4; 46,1; 45,8; 47,0; 46,1; 45,9; 45,8;
46,9; 45,2 y 46. Se pide encontrar un intervalo de confianza de 95% para la varianza de todos
los paquetes de semillas de pasto que distribuye esta empresa, suponiendo una poblacin
normal.

Primero, se calcula la desviacin estndar de la muestra:

luego obteniendo la varianza muestral:


.
Ya que un valor de corresponde a un intervalo de confianza de 95%, este valor, en
conjunto con 9 grados de libertad, se utilizan para obtener los valores de en la tabla
(Anexo 1):
De esta forma se tienen los siguientes valores de varianzas para lo requerido:

Concluyendo que la varianza de la poblacin de los pesos de los paquetes estara entre 0,135
y 0,953 gramos al cuadrado.

3. CONCLUSIONES

El estadstico ji-cuadrado (o chi cuadrado), que tiene distribucin de probabilidad del mismo
nombre, es muy usado en diferentes aplicaciones, especialmente para someter a prueba
hiptesis referidas a distribuciones de frecuencias.

El estadstico sirve para probar la asociacin entre dos variables utilizando una situacin
hipottica y datos simulados. En trminos generales, esta aplicacin contrasta frecuencias
observadas con las frecuencias esperadas de acuerdo con la hiptesis nula.

Para concluir, destacar que siempre ser mejor tener una mayor cantidad de muestras a la
hora de utilizar el estadstico, teniendo en cuenta que mientras ms muestras existan, la
distribucin tender a la Distribucin Normal.

REFERENCIAS

Box, G. E., Hunter, W. G., & Hunter, J. S. (2006). Estadistica para investigadores:
Introduccion al diseno de experimentos, analisis de datos y construccion de modelos.
Barcelona: Revert.

De la Fuente, S. (2016). Aplicaciones de la Chi-cuadrado: Tablas de contingencia,


homogeneidad, dependencia e independencia. Universidad Autnoma de Madrid.
URL: http://www.estadistica.net/Aeronautica2016/contingencia.pdf

Hernndez, S. (2005). Historia de la estadstica. Revista La Ciencia y el Hombre. Vol 8 (2)


URL:https://www.uv.mx/cienciahombre/revistae/vol18num2/articulos/historia/index.ht
m

Hilborn R. & Mangel, M. (1997). The Ecological Detective: Confronting Models with Data.
336 pp.

Instituto Tecnolgico de Chichuahua (ITC). (2003). Distribucin Ji-cuadrada. URL:


http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap03b.html

Rius, F. & Barn, F. (2005). Bioestadstica. Contrastes basados en el estadstico Ji-Cuadrado.


Ed. Paraninfo. 255-277 p.

ANEXO

1. Tabla de Distribucin Chi Cuadrado utilizadas para ejercicios de aplicacin.

You might also like