You are on page 1of 37

Estadstica II

Unidad 1
Introduccin a la estadstica inferencial

Rodrigo Asun Inostroza
Sobrevivencia Titanic
segn clase social
Tabla de contingencia NSE * SOBREVIV
207 123 330
62,7% 37,3% 100,0%
131 167 298
44,0% 56,0% 100,0%
319 528 847
37,7% 62,3% 100,0%
657 818 1475
44,5% 55,5% 100,0%
Recuent o
% de NSE
Recuent o
% de NSE
Recuent o
% de NSE
Recuent o
% de NSE
P rimera cl ase
Segunda cl ase
Tercera cl ase
NSE
Tot al
Vi vi Muri
SOBREVIV
Tot al
Chi cuadrado = 60.5, significativo
V de Cramer = 0.2
Anlisis multivariado
rboles de decisin:
Jerarquiza la fuerza de la influencia de
distintas variables independientes sobre una
variable dependiente.
Para explicar la sobrevivencia
1. Variable ms relevante: sexo
2. Segunda variable: edad
3. Tercera variable: Clase social
Sobrevivencia Titanic
segn edad
Chi cuadrado = 38.1, significativo
V de Cramer = 0.16
Tabla de contingencia EDAD * SOBREVIV
548 765 1313
41,7% 58,3% 100,0%
109 53 162
67,3% 32,7% 100,0%
657 818 1475
44,5% 55,5% 100,0%
Recuent o
% de EDAD
Recuent o
% de EDAD
Recuent o
% de EDAD
Adul to
Ni o
EDAD
Tot al
Vi vi Muri
SOBREVIV
Tot al
Sobrevivencia Titanic
segn sexo (>12 aos)
Chi cuadrado = 476.5, significativo
V de Cramer = 0.6
Tabla de contingencia SEXO * SOBREVIV
146 659 805
18,1% 81,9% 100,0%
402 106 508
79,1% 20,9% 100,0%
548 765 1313
41,7% 58,3% 100,0%
Recuento
% de SEXO
Recuento
% de SEXO
Recuento
% de SEXO
Hombre
Mujer
SEXO
Total
Vivi Muri
SOBREVIV
Total
El concepto de Modelo
Modelo terico.

Modelo estadstico / emprico.

Ejemplos de modelos simples:

Existencia de discriminacin laboral de
gnero.
Variables asociadas a la desercin escolar.
Modelos complejos
Explicacin de la participacin en
movilizaciones sociales.
Sentido de la estadstica para la
sociologa
Nos permite poner a prueba emprica
nuestros modelos tericos.

Por qu la estadstica:
Porque en metodologa cuantitativa
numeramos la realidad social.
Porque las relaciones que estudiamos son
complejas, no deterministas y tenemos fuerte
error de medicin.

Tipos de variables
Observadas / latentes.

Cuantitativas / ordinales / nominales.

Continua / discreta.
Distinciones al interior de la
estadstica
Para variables observadas / para variables
latentes
Paramtrica / no paramtrica
Guiada por los datos / guiada por la teora
Robusta / no robusta
Descriptiva / inferencial
Poblacin y muestra
Concepto de muestra.
Nocin de estadsticos. Nomenclatura latina
mayscula.

Concepto de universo.
Nocin de parmetros. Nomenclatura griega
minscula.

Concepto de estimador. Propiedades
adecuadas:
Insesgado: su esperanza es el valor del parmetro.
Eficiente: tiene baja varianza.
Consistente: su valor se acerca al valor del parmetro al
aumentarse la muestra.

Distribuciones de variables
Concepto de Variable Aleatoria.

Concepto de distribucin y densidad de una
distribucin.

Distribuciones empricas:
Distribuciones discretas.
Ejemplo: Distribucin de las tesis de sociologa.

Distribuciones continuas o semi continuas.
Ejemplo: Distribucin de la anomia juvenil.

Distribucin de las tesis de
sociologa segn aos
0
10
20
30
40
50
60
T
e

r
i
c
a
,

E
n
s
a
y

s
t
ic
a
E
x
c
l
u
s
i
v
a
m
e
n
t
e

C
u
a
n
t
it
a
t
i
v
a
E
x
c
l
u
s
i
v
a
m
e
n
t
e

C
u
a
l
it
a
t
i
v
a
P
r
i
n
c
i
p
a
l
m
e
n
t
e

C
u
a
n
t
i
t
a
t
i
v
a
P
r
i
n
c
i
p
a
l
m
e
n
t
e

C
u
a
li
t
a
t
i
v
a
M
i
x
t
a
I
n
v
e
s
t
i
g
a
c
i

n

A
c
c
i

n
1988-2000
2001-2007
total
Pinilla, J.P., Godoy, F., Manrquez, T., Vargas, L. y Ihnen, B. (2010). Memorias de
titulacin en el marco de la produccin en sociologa hoy. Revista de Sociologa, 23, 117-
138.
Distribucin de la anomia en
jvenes (1989-2007)
Aceituno Asun, Ruiz, Reinoso, Venegas y Corvaln (2009). Anomia y alienacin en
estudiantes secundarios de Santiago de Chile: resultados iniciales de un estudio
comparativo. Psykhe, 18(2), 3-18.
Distribucin Puntuaciones de anomia (ponderadas)
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Puntaje de anomia
P
o
r
c
e
n
t
a
j
e
Ao 1989
Ao 2007 pond
Distribucin suavizada
Distribucin de puntuaciones Anomia
(Polinomial orden 6)
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Puntuaciones Anomia
P
o
r
c
e
n
t
a
j
e
s
Polinmica (2007)
Polinmica (1989)
Distribuciones tericas
Ejemplo: distribucin de Benford:
La primera cifra no nula de una variable aleatoria ocurre con una
probabilidad igual a
P = (log10(n+1) log10(n))
Vlida con grandes volmenes de datos: Ley de los Grandes Nmeros.


Frecuencia del primer dgito no nulo de una
variable aleatoria
0
10
20
30
40
1 2 3 4 5 6 7 8 9
Dgito
Distribuciones tericas
Familias de distribuciones. Dependen de parmetros.
Ejemplos:
Distribucin chi cuadrado.
Distribucin t student


Utilidad de las distribuciones
tericas
Su densidad depende de una formula
matemtica.
Se puede determinar la probabilidad de obtener
un valor o un conjunto de valores si se hace una
seleccin al azar.
Si se demuestra de una distribucin emprica se
aproxima habitualmente a una distribucin terica:
Se puede juzgar lo usual de una distribucin emprica
cualquiera.
Se puede juzgar la probabilidad de obtener un
determinado valor aleatoriamente de dicha distribucin
terica.
Ejemplo uso distribuciones tericas
con Chi
2
Tabla doble entrada si no hay asociacin entre variables
(Discriminacin 1):
Contrato No
contrato
Total
Hombres 150
Mujeres 250
Total 100 300 400
Calculo de Chi
2
: diferencia entre lo esperado y lo
observado.
Ejemplo uso distribuciones tericas
con Chi
2
(II)
Tabla doble entrada si existe asociacin entre variables
(Discriminacin 2):
Contrato No
contrato
Total
Hombres 150
Mujeres 250
Total 100 300 400
Calculo de Chi
2
: diferencia entre lo esperado y lo
observado.
Suponga que:
Hay universo y tenemos una muestra.
No hay asociacin en el universo.
qu datos sera probable obtener en muestra?
Universo
Contrato No
contrato
Total
Hombres 17000
Mujeres 21000
Total 14000 24000 38000
Muestra
Contrato No
contrato
Total
Hombres 170
Mujeres 210
Total 140 240 380
Pero muestra es aleatoria.
Simulemos.
Ejercicio de simulacin:
Hiptesis: dados blancos tienden a sacar ms pares que dados de
color.
Obviamente hiptesis falsa.
Universo (Muchas tiradas dados)
Par Impar Total
Dado
blanco
Dado
color
Total 1000000
Muestras
Par Impar Total
Dado
blanco
20
Dado
color
20
Total 40
Valores obtenidos por muestras estn cerca de esperado, pero no
son exactamente.
Si calculamos Chi
2
no dara exactamente 0.
Matemticamente podemos saber que distribucin tendran los chi
2

si simulamos muchsimas rplicas:
Chi
2
con grados de libertad de la tabla de doble entrada.
Entonces
Conociendo la distribucin terica que tomaran
los Chi
2
si no hubiera asociacin
Se puede juzgar la probabilidad de obtener un
Chi
2
cualquiera en una muestra real.

Conclusin
Cun probable es el Chi
2
que obtuvimos en el ejercicio
discriminacin 2?

Si el resultado de una muestra es muy improbable dado
lo esperado dado la hiptesis de no asociacin, hay tres
posibilidades:

Cometimos un error al extraer la muestra, que la sesg.
Obtuvimos un resultado muy extrao por azar.
No es cierta la hiptesis de no asociacin.

Si efectivamente el resultado es muy extrao, parece
ms sensato suponer lo segundo provisionalmente.
Que hacer con las variables
continuas?
Lo anterior es vlido para variables
categricas (nominales u ordinales).

Qu hacer con variables con variables
continuas (intervalo o razn)?
La curva o distribucin normal
Familia de distribuciones. Depende de dos parmetros:
y .
Funcin:


Nomenclatura: N(,).
Descubierta por Abraham de Moivre en 1733.
Empleada y popularizada por Laplace y Gauss.
Utilizada en sociologa por Adolphe Quetelet.
Se aplica a:
Errores de medida y muestral.
Distribucin de la estatura de una poblacin habitual.
Distribucin de la inteligencia en una poblacin habitual.
La propensin a respetar las normas morales o cometer delitos.


La distribucin normal
Curva o distribucin normal
estndar: N(0,1)
Teorema del lmite central
Si X es la suma de una serie de variables
independientes entre si
Y se dispone de grandes nmeros de
dicha variable
La funcin de distribucin de X ser
N(,).
Distribucin muestral
Distribucin de algn estadstico en el
conjunto infinito de muestras que se puede
extraer de un universo.
Ejemplo:
si de un universo X (valores de una variable),
con media y
se extraen infinitas muestras de tamao n
la distribucin de los promedios de la variable
medida tendr una distribucin Normal, con
media y desviacin estndar /n

Como lo saben?
Trabajo de estadsticos:

Analticamente: derivando formulas.

Simulacin de grandes nmeros de datos.
Aplicacin de la distribucin
muestral de la media
Pero no se puede extraer una cantidad infinita
de muestras de un universo qu utilidad
puede tener ese conocimiento?

si yo tengo un Universo con y conocida
y extraigo una sola muestra donde calculo el
promedio
puedo determinar cuan probable es una
muestra cualquiera.
por lo tanto, puedo determinar si esa muestra es
una muestra representativa de ese universo.
Ejemplo de aplicacin
Suponga que usted sabe que el ingreso medio de los
socilogos en Chile (al 4 ao de titulacin) tiene:
Media = 800.000
Desviacin estndar = 100.000

Suponga que usted dispone de una muestra 100 de
titulados de sociologa de la universidad de Chile (al 4
ao de titulacin) que tienen:
Media = 825.300

La muestra que usted dispone es una muestra
habitual o representativa de los socilogos chilenos?
Transformacin a puntuacin tpica (Z)
X
Z

Z = a cuantas desviaciones estndar est la muestra del


promedio esperado?


Cun probable es que la muestra sea una muestra
representativa de ese universo?
Probabilidades al interior de una curva normal.
Tabla de probabilidades en la
curva normal estndar
Cul es la probabilidad de obtener por azar una muestra como la
disponible o una an ms improbable?
Muestra real versus universo
2.5
En resumen en estadstica
inferencial
Asumimos una hiptesis respecto de las caractersticas
de la asociacin de variables en el universo.

Deducimos de ello la distribucin de muestreo de algn
estadstico extrado de ese universo.

Comparamos el estadstico obtenido en nuestra muestra
con la distribucin de muestreo.

Si nuestra muestra es muy improbable y podemos
descartar haber cometido un error de sesgo muestral, lo
ms probable es que la hiptesis respecto del universo
sea falsa.

You might also like