You are on page 1of 10

Captulo 1

Prcticas y problemas bsicos de


Inferencia Estadstica.
En este captulo se proponen diferentes prcticas y problemas con el objetivo de repasar
la estadstica descriptiva de una variable unidimensional, los principales modelos de pro-
babilidad univariante, y los intervalos de conanza y test de hiptesis relativos a una y
dos muestras. Para el desarrollo de las prcticas y resolucin de los problemas es necesario
utilizar un programa estadstico. La teora correspondiente a los problemas de este captulo
puede verse en el Captulo 1 del texto de teora y un estudio ms detallado de los conceptos
y tcnicas estadsticas utilizados puede consultarse en Cao, R. y otros (2001) u otro texto
de estadstica general bsica.
1.1. Estadstica descriptiva de una variable.
Objetivo de la prctica: Se genera una muestra aleatoria con dos variables,
la primera es la variable de inters que sigue una distribucin normal y la
segunda es una variable de clasicacin. Se hace el estudio descriptivo (analtico
y grco) de la variable de inters.
Desarrollo:
1. Generar una muestra de 500 observaciones de una variable A que sigue una distribu-
cin

100, 10
2

. (Comando rnormal).
2. Calcular los estadsticos bsicos. Utilizar el anlisis
descripcion datos numericos analisis unidimensional
3. Estudiar los estadsticos bsicos de esta muestra y comprobar si son adecuados para
el modelo simulado.
4. Estudiar la tabla de frecuencias y el diagrama de representacin de tallo y hojas:
(diagrama de tallo y hojas).
1
2 Modelos estadsticos aplicados. Juan Vilar
5. Calcular e interpretar los siguientes grcos que permiten conocer la distribucin de
la muestra:
- Grco de puntos (graficos de dispersion).
- Grco de cajas (grafico de cajas y bigotes).
- Histograma.
- Grco de quantiles.
- Suavizado de la densidad (densidad suavizada).
- Grco de simetra.
- Grco de la serie en funcin del ndice, sto es, r
t
frente a t. Utilizar el anlisis
graficos graficos de dispersion grafico unidimensional
6. Generar una variable de clasicacin C de forma que los 100 primeros valores formen
la clase 1, los 100 siguientes la 2, los 100 siguientes la 3, los 100 siguientes la
4 y los 100 ltimos la 5. Utilizar el comando (rep: repeat).
7. Calcular los estadsticos bsicos de la muestra segn la clase C. Utilizar el anlisis
descripcion datos numericos analisis de subgrupo
Fijarse en la tabla que compara las medias de la variable A segn la clase C a la
que pertenecen los valores muestrales.
8. Este anlisis proporciona diferentes grcos que permiten comparar la variable A
segn la clase C : comparar medidas de centralizacin (media y mediana), medidas
de dispersin (desviacin tpica y rango) y la distribucin de A segn la clase C.
Son los siguientes:
- Plot de puntos (graficos de dispersion).
- Grco de medias.
- Grco de medianas.
- Grco de desviaciones tpicas.
- Grco de rangos.
- Grco de cajas mltiple.
Algunos de estos grcos y otros de menor inters se encuentran en el apartado:
graficos exploratorios.
Repetir la prctica anterior con las siguientes variaciones:
La muestra A proviene de una distribucin no normal, por ejemplo, una exponencial
(comando rexponential) o de una distribucin gamma (rgamma).
Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar. 3
Utilizando los datos del chero coches ( chero problema-2-2 que contiene datos
de coches que proporciona el paquete Statgraphics), estudiar la variable mpg (miles
per galon, inversa del consumo) y/o la variable price (precio de los coches),
utilizando como variable de clasicacin origin (origen de los coches que toma los
valores: Japan, U.S.A. y Europe).
1.2. Modelos de probabilidad.
Objetivo de la prctica: Con la ayuda del paquete estadstico se revisan los
principales modelos de distribucin, su funcin de probabilidad o de densidad
y su funcin de distribucin, as como la generacin de muestras aleatorias.
Desarrollo:
En el apartado de Statgraphics
descripcion distribuciones distribuciones de probabilidad
se pueden estudiar 24 funciones de distribucin muy utilizadas.
El apartado ofrece las siguientes posibilidades:
- Trabajar con cinco modelos de probabilidad del mismo tipo.
- Calcular la funcin de distribucin de los modelos seleccionados.
- Calcular la inversa de la funcin de distribucin de los modelos seleccionados.
(En estos dos ltimos apartados se puede obtener la misma informacin que propor-
cionan las tablas estadsticas de funciones de distribucin).
- Calcular muestras aleatorias de los modelos seleccionados sin necesidad de utilizar
comandos.
- Obtener grcas de las funciones de densidad, distribucin y razn de fallo, entre
otras, de los modelos seleccionados.
En este texto se utilizan bsicamente los siguientes modelos de probabilidad relaciona-
dos con las tcnicas clsicas de inferencia estadstica:
- Normal.
- Chi-cuadrado.
- t de Student.
- F de Fisher.
Conviene tener un conocimiento bsico de estas distribuciones. Para ello, utilizando
este mdulo, desarrollar la siguiente prctica
1. Dibujar en un mismo grco las funciones de densidad de las siguientes variables
normales: (0, 1
2
), (0, 1
0
5
2
), (0, 0
0
8
2
) y (2, 1
2
).
2. Dibujar en un mismo grco las funciones de densidad de las siguientes variables
chi-cuadrado:
1
,
5
,
10
, y
30:
4 Modelos estadsticos aplicados. Juan Vilar
3. Dibujar en un mismo grco las funciones de densidad de las siguientes variables t
de Student: t
1
, t
5
, t
10
, y t
30:
4. Dibujar en un mismo grco las funciones de densidad de las siguientes variables 1
de Fisher: 1
20;20
, 1
50;50
, 1
100;100
, 1
80;4
y 1
4;80
.
Qu conclusiones se deducen de estos grcos?
5. Para algunos de los modelo anteriores calcular 1(2), 1(0) y 1(1
0
5), siendo 1 la
funcin de distribucin.
6. Para algunos de los modelo anteriores calcular 1
1
(0
0
05), 1
1
(0
0
90) y 1
1
(0
0
95),
siendo 1
1
la inversa de la funcin de distribucin.
1.3. Test de hiptesis e intervalos de conanza de una y dos
muestras.
Objetivo de la prctica: A partir de una muestra de una poblacin calcular
intervalos de conanza de la media y de la desviacin tpica de la poblacin,
bajo la hiptesis de normalidad o no.
A partir de dos muestras (pareadas o no) calcular intervalos de conanza de
la diferencia de medias y del cociente de varianzas.
Desarrollo:
1. Considrese la variable price del chero de datos coches (chero problema-2-2).
Calcular intervalos de conanza al 90 % para la media y la desviacin tpica de esta
variable. Utilizar el anlisis
descripcion datos numericos analisis unidimensional
Este anlisis proporciona dos tipos de intervalos de conanza: el primero bajo la
hiptesis de normalidad de las observaciones y el segundo se basa en tcnicas de
remuestreo (bootstrap).
2. Contrastar la hiptesis estadstica H
0
: 1(jricc) = 4,500, frente a diferentes
alternativas. Trabajar con un nivel de signicacin c = 0
0
10.
El anlisis anterior proporciona tres contrastes acerca de la media de la poblacin:
uno bajo la hiptesis de normalidad y dos no paramtricos basados en los rangos
acerca de la mediana. Los test basados en rangos son menos potentes pero son
menos sensibles a la presencia de datos atpicos (outliers).
3. Calcular la curva de potencia del test sobre la media de una poblacin normal. sto
se puede hacer con el siguiente anlisis de Statgraphics:
descripcion contraste de hipotesis
Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar. 5
En este apartado se puede estudiar la funcin de potencia de otros contrastes (sobre
la desviacin tpica de una normal, la proporcin de una binomial o la razn de una
de Poisson).
4. Se est interesado en comparar los precios de los coches de USA (origin=1) y japone-
ses (origin=3). En particular se quiere:
- Calcular un intervalo de conanza al 90 % para el cociente de varianzas.
- Calcular un intervalo de conanza al 90 % para la diferencia de medias.
- Contrastar la hiptesis de que los precios medios de los coches de ambas poblaciones
son iguales.
Estos estudios pueden hacerse en el mdulo
comparacion dos muestras comparacion de dos muestras
En este caso cubrir los campos de introduccin de datos como sigue: poner datos y
cdigos en columnas, data=price, code=origin, select=origin<2.
Analizar los diferentes resultados sobre la comparacin de dos muestras que propor-
ciona este completo mdulo del programa.
5. Calcular la curva de potencia del test sobre la diferencia de medias de dos pobla-
ciones. Para ello utilizar el mdulo
comparacion dos muestras contraste de hipotesis
1.4. Problemas de intervalos de conanza y test de hipte-
sis.
Problema 1.1.
Se ha observado una muestra de 41 datos del tiempo de respuesta de un sistema
informtico a las doce horas de un da laborable. Los datos obtenidos son los de la tabla
adjunta,
22
0
56 22
0
33 24
0
58 23
0
14 19
0
03 26
0
76 18
0
33
23
0
10 21
0
53 9
0
06 16
0
75 23
0
29 22
0
14 16
0
28
18
0
89 27
0
48 10
0
44 26
0
86 27
0
27 18
0
74 19
0
88
15
0
76 30
0
77 21
0
16 24
0
26 22
0
90 27
0
14 18
0
02
21
0
53 24
0
99 19
0
81 11
0
88 24
0
01 22
0
11 21
0
91
14
0
35 11
0
14 9
0
93 20
0
22 17
0
73 19
0
05
En base a esta muestra, calcular:
1. Intervalos de conanza al 90 % y 95 % del tiempo medio de respuesta.
2. Es razonable mantener la hiptesis de que la varianza del tiempo medio de respuesta
es 25 con un nivel de signicacin del 5 %?
6 Modelos estadsticos aplicados. Juan Vilar
3. Resolver el contraste H
0
: j = 20 frente H
1
: j 20 en base al nivel crtico.
Problema 1.2.
Una empresa de software est investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programacin. A doce programadores, familiarizados con ambos
lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, se anota el
tiempo que tardan. Los resultados, en minutos, son los de la tabla adjunta.
Lenguaje 1: 17, 16, 21, 14, 18, 24, 16, 14, 21, 23, 13, 18.
Lenguaje 2: 18, 14, 19, 11, 23, 21, 10, 13, 19, 24, 15, 20.
En base a estos datos calcular:
1. Un intervalo de conanza al 95 % para la diferencia de medias en el tiempo de pro-
gramacin.
2. Puede considerarse que uno de los lenguajes es preferible al otro?
3. En relacin con la pregunta anterior est bien diseado el experimento? Considerar
y discutir algn diseo alternativo.
Problema 1.3.
Un profesor realiz el siguiente experimento: le pregunt a 44 alumnos que calculasen
de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas:
Grupo 1
8 9 10 10 10 10 10 10 11
11 11 11 12 12 13 13 13 14
14 14 15 15 15 15 15 15 15
15 16 16 16 17 17 17 17 18
18 20 22 25 27 35 38 40
A otro grupo de 69 alumnos les hizo la misma pregunta, pero ahora les pidi la respuesta
en pies (3
0
28 pies = 1 metro). En este caso las respuestas fueron:
Grupo 2
24 25 27 30 30 30 30 30 30
32 32 33 34 34 34 35 35 36
36 36 37 37 40 40 40 40 40
40 40 40 40 41 41 42 42 42
42 43 43 44 44 44 45 45 45
45 45 45 46 46 47 48 48 50
50 50 51 54 54 54 55 55 60
60 63 70 75 80 94
Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar. 7
El ancho del aula es 13
0
1 metros (43
0
0 pies). En base a estos datos,
1. Hacer un estudio descriptivo de estas dos muestras.
2. Calcular intervalos de conanza al 95 % para la media y la varianza de la primera
muestra.
3. Calcular intervalos de conanza al 95 % para la diferencia de medias y el cociente de
varianzas de las dos muestras.
4. Puede armarse que el error en la aproximacin es igual si se hace en metros que
en pies?
Problema 1.4.
Una empresa constructora est interesada en estudiar la tensin de ruptura de las
barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona de
forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de ruptura.
Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de la tabla
adjunta
2244 2147 2240 2342 1951 2345 2001 2191
1800 1995 2033 2208 1699 2037 2087
2185 1792 2033 2112 2001 2490 2132
2070 1917 2015 2150 1960 2086 1824
1869 2278 1846 1950 2027 1699 1972
2073 2282 1889 1897 2322 1964 1809
2009 2412 1746 2304 2015 2035 1974
En base a estos datos,
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de conanza al 95 % y 99 % para la media de la tensin de ruptura
de las barras de acero.
3. Calcular intervalos de conanza al 95 % y 99 % para la varianza de la tensin de
ruptura de las barras de acero.
4. Qu tamao muestral es necesario para obtener el intervalo de conanza al 95 %
para la media de la tensin de ruptura de las barras de acero con una longitud
inferior a 50 unidades? Y, si el intervalo de conanza fuese al 99 %?
8 Modelos estadsticos aplicados. Juan Vilar
1.5. Problemas propuestos.
Problema 1.5.
El gobierno francs est interesado en analizar los datos obtenidos en experimentos
atmicos. En particular est interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas, realizadas
entre marzo de 1994 y enero de 1996, son los siguientes (en kilotones): 724, 718, 776, 760,
745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
1. Calcular intervalos de conanza al 90, 95 y 99 % para la media de la potencia.
2. Calcular tres intervalos de conanza distintos al 95 % para la varianza de la potencia.
3. Contrastar la hiptesis de que la media de la potencia es 750.
4. Dibujar la curva de potencia de este contraste.
5. Qu hiptesis se han supuesto en el desarrollo del problema.
Problema 1.6. (se puede hacer con calculadora)
El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de
artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es importante
determinar los niveles que se esperan en los diferentes grupos de edad y sexo. Para com-
parar el nivel de colesterol en varones de entre 20 y 29 aos de edad frente a mujeres del
mismo grupo de edad se realiz un estudio cuyos estadsticos bsicos son los de la tabla
adjunta.
Hombres Mujeres
:
H
= 96 :
M
= 85
r
H
= 170,81 mg/dl r
M
= 181,08 mg/dl
^ :
H
= 30,55 mg/dl ^ :
M
= 30,79 mg/dl
En base a estos datos:
1. Calcular intervalos de conanza al 90, 95 y 99 % para la diferencia de medias del
nivel de colesterol entre hombres y mujeres.
2. Calcular un intervalo de conanza al 90 % para el cociente de varianzas del nivel de
colesterol entre hombres y mujeres.
3. Puede suponerse que el nivel de colesterol en los hombres es igual al de las mujeres?
Problema 1.7.
A una empresa le ofrecen impartir un curso de capacitacin para aumentar el rendimien-
to de sus trabajadores. La empresa decide enviar a quince de sus trabajadores elegidos al
azar de toda la plantilla. Para comprobar si el curso es benecioso, se controla el tiempo
que tardan estos trabajadores en realizar un trabajo antes de realizar el curso y despus
de realizar el curso. Los resultados se reejan en la tabla adjunta.
Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar. 9
Trabajador 1 2 3 4 5 6 7 8
Antes 23
0
5 12
0
0 21
0
0 22
0
0 19
0
1 21
0
5 22
0
1 20
0
4
Despus 17
0
4 20
0
4 20
0
0 20
0
0 18
0
4 18
0
6 18
0
6 15
0
3
Trabajador 9 10 11 12 13 14 15
Antes 18
0
3 21
0
6 23
0
3 21
0
0 22
0
1 23
0
0 12
0
0
Despus 16
0
5 18
0
0 16
0
3 18
0
0 12
0
8 15
0
5 18
0
0
Puede armarse que la realizacin del curso mejora el rendimiento del trabajo? Se
ha diseado bien el experimento?
Problema 1.8.
En cincuenta das lectivos consecutivos y a la misma hora se ha observado el nmero
de terminales de una universidad conectados a internet. Los resultados son los de la tabla
adjunta.
1027 1023 1369 950 1436 957 634 1281
821 882 942 904 984 1067 570
1063 1307 1212 1045 1047 1178 633
501 565 1039 1000 1227 1118 843
696 820 1092 934 968 1191 996
1089 936 568 1056 1006 749 812
1096 1183 1409 1200 1197 985 848
En base a estos datos.
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de conanza al 90 % y 95 % para el nmero medio de terminales
conectados a internet.
3. Calcular intervalos de conanza al 90 % y 95 % para la varianza del nmero de
terminales conectados a internet.
4. Qu tamao muestral es necesario para obtener el intervalo de conanza al 90 %
para que el nmero medio de terminales conectados a internet tenga una longitud
inferior a 30 unidades? Y, si el intervalo de conanza fuese al 95 %?
Problema 1.9.
Se ha realizado un estudio para investigar el efecto del ejercicio fsico en el nivel de
colesterol en suero. Veinte individuos tomaron parte en el estudio de los que se tomaron
muestras de sangre para determinar el nivel de colesterol de cada sujeto. Despus los
individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en
realizar carreras y marchas. Al nal del perodo de ejercicios se tomaron nuevas muestras
de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos
obtenidos son los de la tabla adjunta. Puede armarse que el ejercicio fsico disminuye el
nivel de colesterol en suero?
10 Modelos estadsticos aplicados. Juan Vilar
Sujeto 1 2 3 4 5 6 7
Nivel previo (x), mg/dl 182 232 191 200 148 249 276
Nivel posterior (y), mg/dl 198 210 194 220 138 220 249
Sujeto 8 9 10 11 12 13 14
Nivel previo (x), mg/dl 213 241 480 262 242 185 205
Nivel posterior (y), mg/dl 161 210 313 270 235 164 207
Sujeto 15 16 17 18 19 20
Nivel previo (x), mg/dl 175 217 236 243 252 375
Nivel posterior (y), mg/dl 156 200 219 201 232 335
Problema 1.10. (se puede hacer con calculadora)
Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga electi-
va. La operacin elegida es la histerectoma abdominal electiva. La variable de inters
A=el nmero de unidades sanguneas contrastadas transversalmente inmediatamente
disponibles. El objetivo del estudio es comparar el nmero medio de unidades disponibles
en 1.990 con el nmero medio de unidades disponibles en la actualidad. Los estadsticos
bsicos de la muestra del estudio son los de la tabla adjunta. En base a este estudio Hay
evidencia de que se produce un descenso en el nmero medio de unidades disponibles desde
1.990 hasta la actualidad?
En 1.990 Actualidad
:
P
= 120 :
A
= 137
r
P
= 2,67 unid. r
A
= 2,21 unid.
^ :
P
= 0,69 ^ :
A
= 0,87
Problema 1.11.
Se pens que un programa de ejercicios regulares moderadamente activos podra be-
neciar a los pacientes que haban sufrido un infarto de miocardio. Catorce individuos
participaron en un estudio para comprobar este argumento. Antes de empezar el programa,
se determino la capacidad de trabajo de cada persona midiendo el tiempo que tard en
alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar.
Despus de 25 semanas de ejercicio controlado se repitieron las medidas en la rueda de
andar y se registr la diferencia en tiempo para cada sujeto. Los datos obtenidos son los
de la tabla adjunta. Sostienen estos datos los argumentos de los investigadores?
Sujeto 1 2 3 4 5 6 7
Antes (x), en sgs 7
0
6 9
0
9 8
0
6 9
0
5 8
0
4 9
0
2 6
0
4
Despus (y), en sgs. 14
0
7 14
0
1 11
0
8 16
0
1 14
0
7 14
0
1 13
0
2
Sujeto 8 9 10 11 12 13 14
Antes (x), en sgs 9
0
9 8
0
7 10
0
3 8
0
3 8
0
8 8
0
2 9
0
3
Despus (y), en sgs. 12
0
7 13
0
5 12
0
1 13
0
4 11
0
5 15
0
2 11
0
9

You might also like