You are on page 1of 9

I.I.M.A.

S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

1. Los genotipos AA, Aa y aa ocurren con probabilidad (p1, p2, p3). Para n= n1+ n2+ n3 observaciones independientes, se observan las frecuencias (n1, n2, n3). a. Si n=3 muestra todas las posibles observaciones de los genotipos. Existen 10 posibles observaciones. (AA, (AA, (AA, (AA, (AA, (AA, (Aa, (Aa, (Aa, (aa, AA, AA, AA, Aa, Aa, aa, Aa, Aa, aa, aa, AA) Aa) aa) Aa) aa) aa) Aa) aa) aa) aa)

b. Si (p1, p2, p3)= (.25, .50, .25). Encuentre la probabilidad (usando la multinomial) de que (n1, n2, n3) = (1, 2, 0).

P(n1 , n2 , n3 ) P(1, 2, 0)

n! n2 n3 1n1 2 3 n1!n2!n3!

3! 0.25 0.502 0.250 3 0.25 0.25 1!2!0! P(1, 2, 0) 0.1875


c. Usando las probabilidades del inciso b. Cul es la distribucin marginal de n2? (Da sus parmetros)

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

2. Estrs y Enfermedades Coronarias : Para estudiar la relacin entre el estrs en el trabajo y la aparicin de enfermedades coronarias, se hizo un seguimiento de 404 trabajadores que trabajaban en condiciones de estrs y de 1609 que trabajaban en condiciones de no estrs. La observacin, a lo largo de 10 aos, del desarrollo de algn tipo de enfermedad coronaria permiti establecer la clasificacin siguiente: Enfermedad coronaria Estrs SI NO SI 97 200 NO 307 1409

Calcula o responde los siguientes puntos: Qu tipo de estudio es? Estudio de una cohorte: observacional, prospectivo, longitudinal y descriptivo. Qu tipo de muestreo se tiene? Es un muestreo producto multinomial porque se han fijado el tamao del grupo sometido a estrs (404 trabajadores) y del grupo no sometido a estrs (1609 trabajadores) al inicio del estudio. Los valores esperados bajo el modelo de no asociacin (cmo lo llamaras modelo de independencia o de homogeneidad?) Es un modelo de homogeneidad. La Ji cuadrada con y sin correccin de Yates Qu concluyes? El clculo de Ji-cuadrada sin correccin de Yates se realiz con el software Minitab 16. Los resultados son los siguientes.
Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts 1 SI 97 59.61 23.458 200 237.39 5.890 297 NO 307 344.39 4.060 1409 1371.61 1.019 1716 Total 404

1609

Total

2013

Chi-Sq = 34.428, DF = 1, P-Value = 0.000

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos El clculo de Ji-cuadrada con correccin de Yates es el siguiente.

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

Comentarios:

Muestra los valores de los residuales.

El clculo de los residuales se realiz con Minitab 16. En la tabla siguiente se muestran los residuales, los residuales estandarizados y los residuales ajustados. El orden en que se listan los factores en los renglones y las columnas ha cambiado. El residual estandarizado entre los factores si enfermedad coronaria y si estrs es alto con un valor de 4.843. El resto de los residuales son aceptables.

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos


Rows: Estres no no 1409 1371.6 37.39 1.010 5.868 307 344.4 -37.39 -2.015 -5.868 1716 1716.0 * * * Columns: Enfermedad Coronaria si 200 237.4 -37.39 -2.427 -5.868 97 59.6 37.39 4.843 5.868 297 297.0 * * * All 1609 1609.0 * * * 404 404.0 * * * 2013 2013.0 * * *

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

si

All

Cell Contents:

Count Expected count Residual Standardized residual Adjusted residual

Pearson Chi-Square = 34.428, DF = 1, P-Value = 0.000 Likelihood Ratio Chi-Square = 31.133, DF = 1, P-Value = 0.000

La probabilidad de desarrollar una enfermedad coronaria para cada condicin de trabajo.

Psi _ estres Pno _ estres


El RR,

97 0.240 404 200 0.124 1609


con intervalo de confianza. Interpreta.

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos El OR con intervalo de confianza. Interpreta.

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

Compara RR y OR y escribe tus comentarios.

3. La siguiente tabla muestra el comportamiento de dos grupos de individuos sometidos a dos tratamientos diferentes, Hay evidencias suficientes para decir que un tratamiento es mejor que otro? Utiliza la prueba exacta de Fisher. (1)

Present mejora No Si Total

Tratamiento Medicamento A Medicamento B 5 3 17 19 22 22

Total 8 36 44

La prueba exacta de Fisher se realiz con el software Minitab 16. Los resultados y comentarios son los siguientes.

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos


Rows: Presento mejoria A no si All 5 17 22 B 3 19 22 All 8 36 44 Count 0.698085 Columns: Tratamiento

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

Cell Contents:

Fisher's exact test: P-Value =

Comentarios: En la prueba exacta de Fisher la hiptesis nula es Ho: pA = pB y la hiptesis alternativa es Ha: pA pB . El p-value de la prueba es de 0.698 e indica que la hiptesis nula no se rechaza. Se puede concluir que el tratamiento con el medicamento A no es diferente del tratamiento con el medicamento B a un nivel de significancia del 5%.

4. Qu es la correccin de Yates? La correccin de Yates para la prueba Ji-cuadrada se utiliza en ciertas situaciones cuando se realiza la prueba de independencia en una tabla de contingencia. En algunos casos, la correccin de Yates produce p-values muy grandes, y por esto su uso actualmente es limitado. Al utilizar la distribucin Ji-cuadrada para interpretar el estadstico Ji-cuadrado de Pearson se supone que la probabilidad discreta de las frecuencias binomiales observadas en la tabla pueden ser aproximadas mediante la distribucin Ji-cuadrada que es continua. Esta suposicin no es completamente cierta e introduce un error. Para reducir el error en la aproximacin, Frank Yates, un estadstico ingls, sugiri una correccin para la continuidad que ajusta la frmula para la prueba Ji-cuadrada de Pearson al restar 0.5 de la diferencia entre cada valor observado y su valor esperado en una tabla de contingencia de 2 x 2. Esto reduce el valor Ji-cuadrado obtenido e incrementa su p-value. El efecto de la correccin de Yates es prevenir la sobreestimacin de la significancia estadstica para muestras pequeas. Esta frmula es utilizada principalmente cuando al menos una celda de la tabla tiene una cuenta esperada menor que 5. Desafortunadamente, la correccin de Yates puede tender a cobrecorregir. Esto puede conducir a un resultado sumamente conservativo que no rechaza la hiptesis nula cuando debera hacerlo (error tipo II). Se ha sugerido que la correccin de Yates no es necesaria aun con muestras relativamente pequeas (menores de 20). La expresin de la correccin de Yates para el estadstico Ji-cuadrado de Pearson es la siguiente.

Donde, Oi : una frecuencia observada Ei : una frecuencia esperada (terica) N : el nmero de eventos distintos.

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

5. Es independiente la variable fumar del rango de empleo? Responde haciendo un anlisis de correspondencias. Da los valores de la ji cuadrada y de la inercia. Interpreta el biplot. level of smoking light medium 2 3 3 7 10 12 24 33 6 7

job rank sen_mngr jun_mngr sen_empl jun_employ secr

none 4 4 25 18 10

heavy 2 4 4 13 2

El anlisis de correspondencia se realiz con el software Minitab 16. Los resultados y comentarios son los siguientes.
Contingency Table sen_mngr jun_mngr sen_empl jun_employ secr Total NONE 4.000 4.000 25.000 18.000 10.000 61.000 LIGHT 2.000 3.000 10.000 24.000 6.000 45.000 MEDIUM 3.000 7.000 12.000 33.000 7.000 62.000 HEAVY 2.000 4.000 4.000 13.000 2.000 25.000 Total 11.000 18.000 51.000 88.000 25.000 193.000

Expected Frequencies sen_mngr jun_mngr sen_empl jun_employ secr NONE 3.477 5.689 16.119 27.813 7.902 LIGHT 2.565 4.197 11.891 20.518 5.829 MEDIUM 3.534 5.782 16.383 28.269 8.031 HEAVY 1.425 2.332 6.606 11.399 3.238

Observed - Expected Frequencies sen_mngr jun_mngr sen_empl jun_employ secr NONE 0.523 -1.689 8.881 -9.813 2.098 LIGHT -0.565 -1.197 -1.891 3.482 0.171 MEDIUM -0.534 1.218 -4.383 4.731 -1.031 HEAVY 0.575 1.668 -2.606 1.601 -1.238

Chi-Square Distances sen_mngr jun_mngr sen_empl jun_employ secr Total NONE 0.079 0.502 4.893 3.463 0.557 9.493 LIGHT 0.124 0.341 0.301 0.591 0.005 1.362 MEDIUM 0.081 0.256 1.173 0.792 0.132 2.434 HEAVY 0.232 1.194 1.028 0.225 0.474 3.153 Total 0.516 2.293 7.395 5.070 1.168 16.442

Chi-Sq = 16.442, DF = 12, P-Value = 0.172 7 cells with expected counts less than 5.

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos


Row Profiles sen_mngr jun_mngr sen_empl jun_employ secr Mass NONE 0.364 0.222 0.490 0.205 0.400 0.316 LIGHT 0.182 0.167 0.196 0.273 0.240 0.233 MEDIUM 0.273 0.389 0.235 0.375 0.280 0.321 HEAVY 0.182 0.222 0.078 0.148 0.080 0.130 Mass 0.057 0.093 0.264 0.456 0.130

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

Column Profiles sen_mngr jun_mngr sen_empl jun_employ secr Mass NONE 0.066 0.066 0.410 0.295 0.164 0.316 LIGHT 0.044 0.067 0.222 0.533 0.133 0.233 MEDIUM 0.048 0.113 0.194 0.532 0.113 0.321 HEAVY 0.080 0.160 0.160 0.520 0.080 0.130 Mass 0.057 0.093 0.264 0.456 0.130

Relative Inertias sen_mngr jun_mngr sen_empl jun_employ secr Total NONE 0.005 0.031 0.298 0.211 0.034 0.577 LIGHT 0.008 0.021 0.018 0.036 0.000 0.083 MEDIUM 0.005 0.016 0.071 0.048 0.008 0.148 HEAVY 0.014 0.073 0.063 0.014 0.029 0.192 Total 0.031 0.139 0.450 0.308 0.071 1.000

Analysis of Contingency Table Axis 1 2 3 Total Inertia 0.0748 0.0100 0.0004 0.0852 Proportion 0.8776 0.1176 0.0049 Cumulative 0.8776 0.9951 1.0000 Histogram ****************************** ****

Row Contributions ID 1 2 3 4 5 Name sen_mngr jun_mngr sen_empl jun_employ secr Qual 0.893 0.991 1.000 1.000 0.999 Mass 0.057 0.093 0.264 0.456 0.130 Inert 0.031 0.139 0.450 0.308 0.071 Component Coord Corr 0.066 0.092 -0.259 0.526 0.381 0.999 -0.233 0.942 0.201 0.865 1 Contr 0.003 0.084 0.512 0.331 0.070 Component Coord Corr -0.194 0.800 -0.243 0.465 -0.011 0.001 0.058 0.058 0.079 0.133 2 Contr 0.214 0.551 0.003 0.152 0.081

Column Contributions ID 1 2 3 4 Name NONE LIGHT MEDIUM HEAVY Qual 1.000 0.984 0.983 0.995 Mass 0.316 0.233 0.321 0.130 Inert 0.577 0.083 0.148 0.192 Component Coord Corr 0.393 0.994 -0.099 0.327 -0.196 0.982 -0.294 0.684 1 Contr 0.654 0.031 0.166 0.150 Component Coord Corr -0.030 0.006 0.141 0.657 0.007 0.001 -0.198 0.310 2 Contr 0.029 0.463 0.002 0.506

I.I.M.A.S Especializacin en Estadstica Aplicada Analisis de Datos Categoricos Comentarios: El valor de la prueba Ji-cuadrado es el siguiente.
Chi-Sq = 16.442, DF = 12, P-Value = 0.172

Miguel Padilla Haro 8 de Marzo de 2012 TAREA 1

El p-value proporciona indicios que la variable fumar y la variable rango de empleo no estn asociadas, es decir, son independientes con un nivel de significancia del 5 %. Los resultados de la inercia son los siguientes.
Axis Inertia Proportion Cumulative Histogram 1 0.0748 0.8776 0.8776 ****************************** 2 0.0100 0.1176 0.9951 **** 3 0.0004 0.0049 1.0000 Total 0.0852

Estos resultados indican que el eje 1 representa casi toda (88 %) la variacin contenida en la informacin, incluyendo las asociaciones.

Symmetric Plot
0.4 0.3 0.2

Component 2

LIGHT jun_employ MEDIUM secr sen_empl NONE

0.1 0.0 -0.1 -0.2 -0.3

HEAVY jun_mngr

sen_mngr

-0.3

-0.2

-0.1

0.0 0.1 0.2 Component 1

0.3

0.4

Comentarios: Ningn punto que representa a las columnas (NONE, LIGHT, MEDIUM, HEAVY) se encuentra prximo a otro. Lo mismo se observa para los puntos que representan a los renglones (sen_mngr, jun_mngr, sen_empl, jun_employ, secr). Lo anterior se puede interpretar que no es necesario combinar categoras para mejorar la aproximacin Jicuadrada. La distancia entre un punto de los renglones (sen_mngr, jun_mngr, sen_empl, jun_employ, secr) y un punto de las columnas (NONE, LIGHT, MEDIUM, HEAVY) no es significante. La distancia entre un punto de los renglones y uno de las columnas significa que estas categoras de las dos variables ocurren ms frecuentemente de los podra esperarse si ocurrieran aleatoriamente si las dos variables fueran independientes. Este es el caso de las categoras sen_empl y None. La distancia Ji-cuadrada entre estas categoras es de 4.893. 9

You might also like