You are on page 1of 25

TRABAJO COLABORATIVO 1ª PARTE

Estadística II

Presentado por:

Leidy Viviana Niño Villa

Liliana Quiroga García

Kelly Dahiana Ramírez Grisales

Yenny Tatiana Suarez Sepúlveda

Zulleidy Tatiana Reina Guayara

Tutor:

Efraín Moreno Sarmiento

Institución universitaria Politécnico Grancolombiano

Modalidad virtual

Subgrupo 34

Facultad de ciencias administrativas, económicas y contables

2018
TABLA DE CONTENIDO

INTRODUCCION .............................................................................................................................. 3
CONTEXTO....................................................................................................................................... 4
Tamaño de muestra ......................................................................................................................... 5
 Realice un histograma y describa la información según la forma y la curtosis de los
datos. .................................................................................................................................................. 5
 Realice una descripción numérica y descripción como es la población. ......................... 6

 Calcule una nueva variable que sea el ..................................... 7


 Teniendo en cuenta la variable anterior realice el cálculo del tamaño de muestra,
utilizando la siguiente fórmula: ....................................................................................................... 8
 Teniendo en cuenta los resultados anteriores, realice una selección de elementos
para una muestra, utilizando el algoritmo del coordinado negativo. ........................................ 9
 Compara la media poblacional, con la media muestral y determine la variación
relativa. ............................................................................................................................................. 13
Intervalo de confianza para dos variables numéricas ........................................................ 13
 Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma para
los hombres y mujeres. Según los resultados, ¿Existen diferencias? ................................... 14
 Teniendo en cuenta lo anterior, realice un estudio descriptivo de ambas variables.
Realice lectura de resultados. ...................................................................................................... 14
 Asumiendo que los datos son normales, calcule un intervalo de confianza del 95% y
determine, la escolaridad de los hombres y de las mujeres de forma individual. ................ 19
 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%
para la diferencia de los niveles de escolaridad para los hombres y mujeres. .................... 21
CONCLUSIONES ........................................................................................................................... 24
BIBLIOGRAFÍA ............................................................................................................................... 25
INTRODUCCION

A lo largo de este trabajo, se analizan conceptos y bases de la estadística


descriptiva, iniciando con el muestreo y sus distribuciones, la media, qué es una
población, la muestra, tipos de muestreo y cada una de sus características.
Estos aspectos son de gran importancia para el correcto análisis de una población,
se encuentran enlazados, para complementarse uno con el otro y de esta manera,
aportar una investigación y observación de las muestras de forma efectiva.
La estadística es determinante para la toma de decisiones en una empresa o un
país, al suministrar datos reales, la toma de decisiones son determinantes para dar
soluciones a los problemas.
CONTEXTO

A continuación, se tiene la información de la Gran Encuesta Integrada de Hogares


(GEIH), realizada por el DANE [1]. Esta encuesta se hace en las 13 ciudades
principales del Colombia (Bogotá, Medellín, Cali, barranquilla, Bucaramanga,
Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería, Cartagena) y 11
ciudades intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva,
Riohacha, Santa Marta, Armenia, Sincelejo, San Andrés). Esta encuesta, se solicita
información sobre las condiciones de empleo de las personas (si trabajan, en qué
trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando
empleo), además de las características generales de la población como sexo, edad,
estado civil y nivel educativo, se pregunta sobre sus fuentes de ingresos. La GEIH
proporciona al país información a nivel nacional, cabecera - resto, regional,
departamental, y para cada una de las capitales de los departamentos.
Este trabajo colaborativo, tiene 5 actividades diferentes. Cada actividad
corresponde a un tema de los cuales se desarrolla durante el módulo. El grupo debe
resolver cada actividad e ir plasmando los resultados en el documento en línea. Los
niveles de cada actividad varían según el tema que se esté desarrollando. Sin
embargo, cabe aclarar que las actividades son independientes. Los temas que se
desarrollan en este documento van hasta la semana 7.
En el archivo de Excel ( https://goo.gl/zB3Ntf ) se tiene información sobre las
características generales de las personas que respondieron en un mes en particular.
Para este trabajo colaborativo, realice lo siguiente:
Tamaño de muestra

Utilizando la variable edad (P6040), realice lo siguiente:

 Realice un histograma y describa la información según la forma y la curtosis de


los datos.

Histograma

30

25

20
frecuencia

15

10

0
-10 10 30 50 70 90 110
P6040 edad

Gráfico de Densidad Suavizada

(X 0,001)
18

15

12
densidad

0
0 20 40 60 80 100
P6040
Ahora veamos la medida de forma la curtosis (o apuntamiento) la cual mide cuan
achatada esta una curva o distribución.

El coeficiente de curtosis viene dado por la siguiente ecuación:


∑𝑁 ̅ 4
𝑖=1(𝑋𝑖 −𝑋)
Curtosis= −3
𝑁𝑆 4

Siendo
𝑥̅ =la media
S=desviación típica

La curva se puede clasificar en 3 grupos según el signo de la curtosis, es decir


según el signo de la distribución.
 Leptocurtica: la curtosis>o. los datos están muy concentrados en la media
siendo una curva muy apuntada
 Mesocurtica: : la curtosis=0 la distribución es normal
 platicurtica: la curtosis<o. muy poca concentración de datos en la media
presentando una forma muy hachada.
Del resumen de los datos se tienen que

Media = 30,525 Desviación Estándar = 19,6759

(24−30.525)4 (1−30.525)4
Luego Curtosis=((320)(19.67594 + ⋯ + (320)(19.67594 ) − 3 = - 0.749137

Luego respecto a la información de los datos (edad “p6040”) Según la forma la


curtosis es platicurtica muy poca concentración de datos en la media
presentando una forma muy hachada. Es decir el valor de curtosis no se
encuentra dentro del rango esperado para datos provenientes de una distribución
normal.

 Realice una descripción numérica y descripción como es la población.

La población consta de 31 variables las cuales están clasificadas como numéricas


y categóricas dichas variables están clasificados como directorios, secuencias
orden, hogar, Registro p6016, p6020 edad p6040, clase, mes Dpto. Entre otras,
algunas variables tienen un tamaño de 320 datos
 Calcule una nueva variable que sea el

A partir de la variable 𝑃6040𝑛𝑒𝑤 vamos a generar una nueva variable la cual seria
𝑃60402/3
 Teniendo en cuenta la variable anterior realice el cálculo del tamaño de
muestra, utilizando la siguiente fórmula:

Donde, se tiene lo siguiente:

Z: Es el cuantil de la distribución normal estándar al nivel de significancia que se


establezca.

S: Es la desviación estándar de la variable.

Es el margen de error absoluto.

Para calcular el tamaño de la muestra, utilice un nivel de confianza del 95% y un


margen de error de absoluto que no supere 0.5.

Del resumen de los datos anteriores se tiene:

µ=9.2162

S=4.4333

=0.5

N=320

Con un nivel de confianza del 95% es decir α=0.05 entonces el cuantil de la


distribución normal estándar seria 𝑍𝛼/2 =𝑍0.05/2= 1.96

Así reemplazando en la ecuación anterior se tiene:


𝑍 2 𝑆2 (1.96)2 (4.4333)2
𝑛0 = = =302.01≅ 302 es decir
δ2 (0.5)2

𝑛0 = 302
 Teniendo en cuenta los resultados anteriores, realice una selección de
elementos para una muestra, utilizando el algoritmo del coordinado negativo.

Veamos la implementación del algoritmo del coordinado negativo. Para realizar


una selección de elemento para una muestra.

Para extraer la muestra de tamaño n de un universo de N objetos.

Generar N realizaciones de una variable aleatoria 𝜀𝑘 (k ∈ U) con distribución


uniforme (0,1).

Asignar 𝜀𝑘 al elemento k-´esimo de la población.


Ordenar la lista de elementos descendente (o ascendentemente) con respecto a
este número aleatorio 𝜀𝑘 .
A continuación, seleccionar los n primeros (o los n últimos) elementos. Esta
selección corresponde a la muestra realizada.
 Compara la media poblacional, con la media muestral y determine la variación
relativa.

Media poblacional Media muestral

µ=9.21623 𝑥=9.23267

Teniendo en cuenta estos resultados la media poblacional es menor que la


muestral es µ=9.21623 < 𝑥=9.23267
Debemos hallar también el coeficiente de variación, que llamaremos C V

CV población CV muestral

0.4586= 45.86% 0.4632 = 46.32%

De los resultados de los coeficientes de variación anteriores se refleja que:


CV población=0.4586 < CV muestral=0.4632
En otras palabras, el coeficiente poblacional varía menos que el muestral, es
menor.

Intervalo de confianza para dos variables numéricas

Un investigador, cree determinar que existen diferencias entre los niveles de estudio
de los hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere
utilizar la base de la hoja “muestra” y realizar lo siguiente:
 Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma
para los hombres y mujeres. Según los resultados, ¿Existen diferencias?

30
0

25 1
2
20
3
4
15
5
10 6
7
5
8
0 9
Hombre Mujer

(Grafico # 1)
Del gráfico de frecuencia anterior se tiene existen mucha diferencia en cuanto a
la comparación entre las variables escolaridad (ESC) y sexo (P6020) hombres y
mujeres, es decir el nivel de escolaridad en mujeres se encuentra entre 0 a 19
mientras que en los hombres de 0 a 20, también se puede ver que 30 mujeres
se encuentran en un nivel de escolaridad 10, y 17 mujeres tienen nivel de
escolaridad 0 del total que son 157. También se puede ver que hay 27 hombres
con un nivel de escolaridad 5 y 24 hombres con nivel de escolaridad 1, del total
que son 207 mujeres.

 Teniendo en cuenta lo anterior, realice un estudio descriptivo de ambas


variables. Realice lectura de resultados.

Veamos un estudio descriptivo de las variables anteriores escolaridad (ESC) y sexo


(P6020)

En cuanto a la escolaridad (ESC) para el sexo masculino estas variables consta de


157 hombres la consta un niveles de escolaridad de (0 a 20) puede observarse que
en esa columna hay unas casillas en NA
Veamos la lectura de datos:
En cuanto a la escolaridad (ESC) para el sexo femenino estas variables constan de
207 mujeres con niveles de escolaridad de (0 a 19) puede observarse que en esa
columna hay unas casillas en NA

Veamos la lectura de datos:


 Asumiendo que los datos son normales, calcule un intervalo de confianza del
95% y determine, la escolaridad de los hombres y de las mujeres de forma
individual.

Calculemos un intervalo de confianza del 95% para la escolaridad de los hombres


y de las mujeres de forma individual

Hombres
Intervalo de confianza para la media. Varianza Desconocida

Un intervalo de confianza del (1 - α) 100% para µ está dado por

𝑆 𝑆
𝑥̅ - 𝑡(𝛼,𝑛−1) ≤ µ ≤ 𝑥̅ + 𝑡(𝛼,𝑛−1)
2 √𝑛 2 √𝑛

Donde 𝑡(𝛼,𝑛−1) es el punto de la distribución t, con (n -1) grados de libertad, que


2
deja a su derecha un área de α/2.

Del resumen de los datos se tienen:


n =148

𝑋̅= 7.42568
S= 4.80234
Para α=0.05 entonces 𝑡(𝛼,𝑛−1) = 𝑡(0.05,148−1) = 1.976233
2 2

Reemplazando en la ecuación anterior se tiene:

4.80234 4.80234
7.42568- (1.976233) ≤ µ ≤ 7.42568 + (1.976233)
√148 √148

6.64556≤ µ ≤ 8.2058
Por lo que el intervalo pedido para la escolaridad de los hombres es [6.64556,
8.2058], es decir la media verdadera se encuentra en algún lugar entre 6.64556 y
8.2058
mujeres
Intervalo de confianza para la media. Varianza Desconocida

Un intervalo de confianza del (1 - α) 100% para µ está dado por

𝑆 𝑆
𝑥̅ - 𝑡(𝛼,𝑛−1) ≤ µ ≤ 𝑥̅ + 𝑡(𝛼,𝑛−1)
2 √𝑛 2 √𝑛

Donde 𝑡(𝛼,𝑛−1) es el punto de la distribución t, con (n -1) grados de libertad, que


2
deja a su derecha un área de α/2.

Del resumen de los datos se tienen:


n =158

𝑋̅= 7.72785
S= 5.07855
Para α=0.05 entonces 𝑡(𝛼,𝑛−1) = 𝑡(0.05,158−1) = 1.975189
2 2

Reemplazando en la ecuación anterior se tiene:

5.078553 5.078553
7.72785- (1.975189) ≤ µ ≤ 7.72785 + (1.975189)
√158 √158
6.92981≤ µ ≤ 8.52588

Por lo que el intervalo pedido para la escolaridad de las mujeres es [6.92981,


8.52588], es decir la media verdadera se encuentra en algún lugar entre 6.92981
y 8.52588.
 Asumiendo que los datos son normales, calcule un Intervalo de confianza al
95% para la diferencia de los niveles de escolaridad para los hombres y
mujeres.

Inicialmente calculemos un intervalo de confianza para la razón de varianzas si


dicho intervalo de confianza contiene a la unidad, realizaremos un intervalo de
confianza para la diferencia de medias con varianzas desconocidas pero iguales,
de lo contrario realizaremos un intervalo de confianza para diferencia de medias con
varianzas desconocidas pero desiguales

𝜎 2
Un intervalo de confianza del (1 - α) 100% para cociente de varianzas 𝜎1 2 está dado
2
por:

𝑆1 2 𝜎 2 𝑆 2
2 𝐹(1−𝛼,𝑛2 −1,𝑛1−1)≤ 𝜎1 2 ≤𝑆1 2 𝐹(𝛼,𝑛2 −1,𝑛1−1)
𝑆2 2 2

De los datos anteriores se tienen

(4,80234)2 𝜎 2 (4,80234)2
𝐹(0.95,157,147) ≤ 𝜎1 2 ≤(5,07855)2 𝐹(0.05,157,147)
(5,07855)2 2

𝜎 2
0.685162 ≤ 𝜎1 2 ≤ 1.168545
2
Puesto que este intervalo de confianza incluye la unidad podemos asumir que las
varianzas son desconocidas pero iguales

En este caso calculemos un intervalo de confianza para µ1 − µ2 Dos distribuciones


normales 𝜎1 2 = 𝜎2 2 = 𝜎 desconocida.

Un intervalo de confianza del (1 - α) 100% para µ1 − µ2 está dado por:

1 1 1 1
(𝑥̅1 − 𝑥̅2 ) -𝑡(𝛼,𝑣)𝑆𝑝 √ +𝑛 ≤ µ1 − µ2 ≤ (𝑥̅1 − 𝑥̅2 ) +𝑡(𝛼,𝑣)𝑆𝑝 √ +𝑛
2 𝑛1 2 2 𝑛1 2
Donde 𝑣 = 𝑛1 -𝑛2 − 2 𝑦 𝑡𝛼/2,𝑣 es el punto crítico de la distribución t con 𝑛1 -𝑛2 −
2 grados de libertad que deja a su derecha un área de 𝛼/2.

(𝑛1 −1)𝑠1 2 +(𝑛2 −1)𝑠2 2


𝑆𝑝 2=√ 𝑛1 +𝑛2 −2

Luego del resumen de los datos anteriores se tiene

𝑥̅1 =7.42568

𝑥̅2 =7.72785

𝑠1 2 =20.0913

𝑠2 2 =25.7916

𝑛1 =148

𝑛2 =158

𝑣 = 𝑛1 -𝑛2 − 2= 148 -158 − 2=304

(148−1)(20.0913)+(158−1)(25.7916)
𝑆𝑝 2=√ = 4.7995 entonces la desviación estándar
148+158−2
combinada es

𝑆𝑝 =2.1907

Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑡𝛼/2,𝑣 = 𝑡(1−0.05,304) =1
2
.971661

Luego reemplazando los datos en la ecuación anterior se tiene:


1 1
(7.42568-7.72785) – (1.971661) (2.1907) √ + 158 ≤ µ1 − µ2 ≤ (7.42568-
148

1 1
7.72785) + (1.971661) (2.1907) √ + 158
148

-0.79751≤ µ1 − µ2 ≤ 0.19317

Por lo que el intervalo al 95% para la diferencia de los niveles de escolaridad para
los hombres y mujeres es.

(-0.79751, 0.19317)
CONCLUSIONES

Mediante el desarrollo de este trabajo se ha analizado de manera detenida cada


concepto aquí establecido, ya que la estadística es la ciencia que trata de entender
y organizar. Hacer más fácil la toma de decisiones, actualmente la estadística se
ha convertido en un método muy efectivo para el análisis de datos, la descripción
precisa de alguna información y el hallazgo de una variable determinada. Se
evidencia sobre todo en este trabajo el proceso de interpretación de una información
obtenida de una encuesta.

Es de vital importancia para nuestra vida profesional que manejemos estos


conceptos con la mayor facilidad, así mismo se pude usar de la manera más
apropiada.
BIBLIOGRAFÍA

Estadística descriptiva. http://www.universoformulas.com/estadistica/descriptiva/

Cartillas (1,2,3,4) politécnico gran colombiano Cartilla - S1 Cartilla - S2.pdf Cartilla


- S3.pdf Cartilla - S4.pdf

Pautas y criterios de evaluación Pautas y criterios de evaluación.pdf

Histogramas de frecuencia https://www.sangakoo.com/es/temas/histograma

Tipos de muestreo https://www.questionpro.com/blog/es/tipos-de-muestreo-para-


investigaciones-sociales/

You might also like