Professional Documents
Culture Documents
ESTADISTICAS
FMS175
DEPARTAMENTO DE FISICA Y
MATEMATICAS
UNIVERSIDAD NACIONAL ANDRES
BELLO
EL MTODO CIENTFICO
La Estadstica, constituye as, una disciplina cientfica extremadamente amplia y que puede ser
conceptualizada desde enfoques diferentes e incluso contrapuestos. No es raro, por tanto, que se
hayan propugnado para ella distintas definiciones que en el fondo, implican diferentes visiones
sobre lo que constituye la caracterstica esencial de esta ciencia como instrumento insustituible para
grandes empresarios, asignatura despreciable para muchos estudiantes y una gran desconocida para
todos, o casi todos.
ESTADSTICA
Se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y
analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrnseca de los
mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones.
Estadstica descriptiva:
Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que
resumen
y
presentan
la
informacin
contenida
en
ellos.
Estadstica inferencial:
Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta estimaciones,
decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
Quien utiliza la estadstica
Campo de la investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, Economa, etc.
Tipos de variables estadsticas
Discretas : Aquellas que toman valores aislados (nmeros naturales), y que no pueden tomar ningn
valor intermedio entre dos consecutivos fijados, por ejemplo: nmero de goles marcados, nm. de
hijos,
numero
de
discos
comprados,
nmero
de
pulsaciones.
Continuas : Aquellas que toman infinitos valores (nmeros reales) en un intervalo dado, de forma
que pueden tomar cualquier valor intermedio, al menos tericamente, en su rango de variacin, por
ejemplo: talla, peso, presin sangunea, temperatura.
Tipos de Caracteres
El carcter es, por tanto una cualidad o propiedad inherente en el individuo.
Cualitativos : aquellos que son categricos, pero no son numricos, por ejemplo color de los ojos,
profesin, marca de auto.
Ordinales : aquellos que pueden ordenarse, pero no son numricos, por ejemplo: preguntas de
encuesta sobre el grado de satisfaccin de algo; mucho, poco, nada. Bueno, regular, malo.
Cuantitativos : son numricos. Ejemplo: peso, talla, nmero de hijos, nmero de libros ledos al
mes.
TIPOS DE GRFICOS
73
76
81
83
64
91
70
77
86
6
0
8
7
4
4 2 3 6 0 7
1 3 6
1
Para entenderle un poco ms, hemos de decir que el primer rengln que dice 6 | 1 6 4 quiere decir
que entre la lista de datos se encuentran los valores 61, 66 y 64.
Esta es la representacin grfica tronco y hoja, donde cada rengln es una posicin de tronco y
cada dgito de la derecha es una hoja.
Para las distribuciones de frecuencias la representacin grfica ms comn es el histograma.
Grficas de lneas, que consisten en una serie de puntos trazados en las intersecciones de las
marcas de clase y las frecuencias de cada una, unindose consecutivamente con lneas
lneas:
Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar
parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen
las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por sto la
aplicacin de la tcnica es parcial):
Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el
extremo izquierdo; para la ojiva menor que, con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el
caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que,
utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que est
sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00
horas (en cuestiones temporales se dira: despus de las 4:00 horas). De forma anloga, en la ojiva
menor que la frecuencia que se representa en cada frontera de clase son el nmero de observaciones
menores que la frontera sealada (en caso de tiempos sera el nmero de observaciones antes de la
hora que seala la frontera).
Si se utiliza una distribucin porcentual acumulativa entonces se obtiene una ojiva (mayor que o
menor que segn sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente
ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribucin porcentual:
Tablas Estadsticas
A partir de este momento nos vamos a ocupar de las estadsticas de una sola variable, "Estadsticas
Unidimensionales".
Las tablas estadsticas segn el nmero de observaciones y segn el recorrido de la variable
estadstica, as tenemos los siguientes tipos de tablas estadsticas:
Mtodos de Agrupacin de Datos
Pueden utilizarse varias herramientas bsicas para describir y resumir un conjunto grande de datos.
La manera ms simple, pero quizs la ms significativa, es la serie ordenada (13, 23, 35, 47...).
Distribucin de frecuencias (o tabla de frecuencia) : ordenar los datos si estos se dividen en clases
y se registrar el nmero de observaciones en cada clase.
Tabla Unidimensional
V ariable
X
Frecuen cia
ab soluta
xi
ni
x1
x2
x3
.
.
xp
n1
n2
n3
.
.
np
n
Frecuen cia
relativa
fi
pi
f1 = n 1 / n
f2 = n 2 / n
f3 = n 3 / n
.
.
fp = n p / n
1
Frec. o bser.
acum u lad a
Frec. relativa
acum u lad a
Ni
Fi
N1 = n1
N2 = n1 + n2
N3 = n1 + n2 + n 3
.
.
Np = n
F 1 = f1
F 2 = f1 + f2
F 3 = f1 + f2 + f 3
.
.
Fp = 1
In te rv a lo s
d e c la s e
M a rc a
d e c la s e s
x i-1 - x i
xi
x0 - x1
x 2 -1 - x 2
x 3 -1 - x 3
.
.
x p -1 - x p
x1
x2
x3
.
.
xp
El nmero de clases
En una tabla de frecuencia es algo arbitrario, pero demasiadas clases sera algo confuso.
Se puede seguir una regla simple para determinar el nmero de clase a utilizar.
La Marca de la clase
Se calcula como el promedio de los lmites superior e inferior de dicha clase.
Yi =
i 1
+ X
2
Intervalos de clase :
Es el rango de valores encontrados dentro de una clase. Se determina restando el lmite superior (o
inferior) de una clase del lmite inferior (o superior) de la clase siguiente. Es deseable que todos los
intervalos de clase sean de igual tamao, ya que facilita interpretacin estadstica.
ic =
Las frecuencias
ni = Frecuencia absoluta ni
fi = Frecuencia relativa 0 < fi < 1
fi = n i / N
Ni = Frecuencia absoluta acumulada
Fi = Frecuencia relativa acumulada
X max X min
N clases
Nj = Nj-1 + nj
Fj = Fj-1 + fj
Ejemplo Ilustrativo
Distribucin de los alumnos del curso segn estatura en cm.
152 - 170 - 178 - 172 - 165 - 182 - 160
187 - 175 - 175 - 173 - 174 - 165 - 158
172 - 177 - 173 - 181 - 172 - 180
n = 20
Determinar nmero de clases:
Intervalo de
clase
Marca clase
X i 1 X i
F.Absoluta F.Absoluta
F.
F. Relativa
Acumulada relativa Acumulada
Ni
Ni
fi
Fi
152 159
155.5
0.1
0.1
159 166
162.5
0.15
0.25
166 173
169.5
11
0.3
0.55
173 180
176.5
17
0.3
0.85
180 - 187
183.5
20
0.15
YL
n i.
n 11
n 12
n 1L
n 1.
x2
n 21
n 22
n 2L
n 2.
n 3.
n ij
..... .....
........ ........
x1
Y3
Y2
Y1
XI
xk
n k1
n k2
n kL
nK.
n .j
n .1
n .2
n .L
i=1
j=1
n ij
i=1
n i.
n.
j=1
X =
n :
Xi :
i=1
Propiedades
n
1. (XI X ) = 0
i =1
n
i =1
i= 1
2. (XI X ) 2 (XI A) 2
Donde X A
3. Valor total de la poblacion
Total = N X
4.- El calculo de la media se basa en cada observacion por esa razon X
puede ser influenciado a subir o bajar segun sea el caso.
X
i =1
Xw =
W X
1
i =1
+ ........... + Wn X n
W1 + W2 + ....... + Wn
La media Geomtrica
MG = n X 1 * X 2 * ...... * X n
La mediana
Es una medida de tendencia central que aparece en el medio de una sucesin ordenada de valores.
Dado que cualquier valor (o valores) extremo en un conjunto de datos distorsionan tanto la media
aritmtica, es ms apropiado utilizar la mediana, ya que no se afecta con cualquiera valores
extremos en un conjunto.
Para calcular la mediana a partir de un conjunto de datos recopilados en forma bruta, primero hay
que disponerlos en un arreglo ordenado.
Caso A:
Si es impar:
32
42
46
54
46
el valor de la mediana es 46
Caso B:
Si es par:
2
8
9
18
21
25
12
13
Existen 2 valores intermedios
Mediana = ( 12 + 13)
2
Ubicacin de la Mediana
Si el nmero de observaciones en la muestra es un impar, la mediana se representa con el valor
numrico de observacin ordenada :
Me =
(n + 1)
2
Ejemplo:
Numero elementos
Valor elemento
25 29
( 6 + 1) = 3.5
2
3.5 ubicacin, valor mediana de (30+32)/2 = 31
30 32 35 35
Si el nmero de observaciones es par, la mediana se representa con la media o promedio de los dos
valores intermedios en el arreglo ordenado.
El modo :
Es el valor ms tpico o ms comn en un conjunto de datos. No es afectado por la ocurrencia de
cualquiera valores extremos. Se obtiene con facilidad en un arreglo ordenado. Cuando una
observacin no es comn no hay modo. Es el valor que ms se repite.
Para datos agrupados
La media aritmtica
N
X=
n Y
i i
i =1
ni : frecuencia
Yi : marca de clase
La mediana (Me):
2 N i 1
Me = X i 1 . +
* ic
n
i
20
2 5
Me = 166 +
* 7 = 171,83
6
Intervalo de
clase
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
n i n i 1
Mo = X i 1 . +
* ic
(
n
n
)(
n
n
)
i 1
i +1
i
63
Mo = 166 +
* 7 = 166
(6 3)(6 6)
Intervalo de
clase
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Simetras de distribucin
Asimetras
X > Mediana :Positivo o sesgamiento a la derecha (moda<mediana<media)
X = Mediana :Simtricos o con sesgamiento cero
X < Mediana :Negativos o sesgamiento a la izquierda (media<mediana<moda)
Moda
Media
Mediana
Cuartiles
Divide los datos ordenados en cuatro cuartos
Q1 = primer cuartil, el 25% de las observaciones son menores y el 75% son mayores.
Q2 = segundo cuartil, el 50% de las observaciones son menores y el 50% son mayores.
Q3 = tercer cuartil, el 75% de las observaciones son menores y el 25% son mayores.
Para tener la posicin aproximada a los cuartiles, se utilizan las siguientes frmulas :
Q1 = n / 4
Q2 = 2 (n ) / 4
Q3 = 3 (n ) / 4
a.- Valor entero, se selecciona la observacin particular correspondiente al punto de posicin.
b.- Valor esta en la mitad entre dos puntos de posicin, se selecciona la media.
c.- Valor no es entero y no se encuentra en la mitad, se utiliza regla emprica para aproximar al
cuartil particular y redondearlo al punto de posicin del entero ms cercano.
Primer cuartil:
4 N i 1
Q1 = X i 1 Q1 . +
* ic
niQ1
Q1 : primer cuartil
niQ1
N i 1Q1
: nmero total de observaciones antes del intervalo de clase que contiene el primer cuartil
20 / 4 = 5
Intervalo de
clase
20
4 2
Q1 = 159 +
*7
3
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Q1
Segundo cuartil:
2n
i
1
Q2 = X i 1 Q 2 . + 4
* ic
n
iQ 2
Q1 =
2*20 / 4 = 10
Intervalo de
clase
2 * 20
4 5
Q2 = 166 +
* 7 = 171,83
6
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Q2
Tercer cuartil:
3n
4 N i 1
Q3 = X i 1 Q 3 . +
* ic
niQ 3
Intervalo de
clase
3 * 20
11
Q3 = 173 + 4
* 7 = 177,66
6
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Q3
Percentiles:
Medida de localizacin que divide la poblacin o muestra en 100 partes iguales.
No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver
slo para las variables continuas.
pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribucin.
Pk = X i 1
*
k
N
1
+ 100
* ic
n
iPk
20
45 * 100 5
P45 = 166 +
* 7 = 170,67
6
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
P45
Medidas de Dispersin
Rango o recorrido
Es la diferencia existente entre el valor mayor y el menor de la distribucin.
Para una muestra de tamao n, el recorrido es la diferencia entre las observaciones ms grande y la
ms pequea :
R = X max X min
El recorrido intercuartlico
evita el problema de los valores extremos en los datos. Esta simple medida considera la extensin
en el 50% medio de los datos y, por tanto, no sufre ninguna influencia de los valores extremos
Recorrido intercuartlico = Q3 - Q1
Para datos no agrupados
La varianza de una muestra (S2) :
mide el promedio del cuadrado de las diferencias entre cada observacin y su media.
n
S2 =
(X
I =1
X )2
n 1
Desviacin estndar muestra ( S ) : mide la raz cuadrada del promedio del cuadrado de las
diferencias alrededor de la media.
n
(X
S=
I =1
X )2
n 1
2 =
(X
I =1
X )2
(X
I =1
X )2
Coeficiente de variacin:
es otra de medida de dispersin. Es una medida relativa, al contrario de las anteriores. Se expresa
como porcentaje en vez de en trminos de las unidades de los datos particulares. Como medida
relativa, es de particular utilidad al comparar la variabilidad de dos o ms conjuntos de datos (
distribuciones ) que se expresan en distintas unidades de medida.
CV =
S
*100
X
( X i) 2
- 1
i= 1
( X )2
i
i= 1
i= 1
2
i
i= 1
n - 1
S2 =
(X
I =1
X ) 2 * ni
n 1
S=
(X
X ) 2 * ni
I =1
n 1
2 =
(X
I =1
X ) 2 * ni
N
(X
I =1
X )2 * ni
N
Cuasivarianza:
Es una medida de dispersin, cuya nica diferencia con la varianza es que dividimos por
N-1, la representaremos por
2
N 1
n
( X i X ) 2 * ni
N
2
* Sx =
=
N 1
N 1
i =1
( X 1 , Y1 )( X 2 Y2 )
Covarianza Muestral
n
S xy =
(X
i =1
X )(Yi Y )
n 1
Covarianza Poblacional
n
xy =
(X
i =1
x )(Yi y )
N
X
La covarianza indica el tipo de relacin lineal positiva o negativa entre la variable X e Y.
Coeficiente de correlacin
El coeficiente de correlacin como previamente se indic oscila entre 1 y +1 encontrndose en
medio el valor 0 que indica que no existe asociacin lineal entre las dos variables a estudio. La
estimacin del coeficiente de determinacin (r2) nos muestra el porcentaje de la variabilidad de los
datos que se explica por la asociacin entre las dos variables. Como previamente se indic la
correlacin elevada y estadsticamente significativa no tiene que asociarse a causalidad. Cuando
objetivamos que dos variables estn correlacionadas diversas razones pueden ser la causa de dicha
correlacin: a) pude que X influencie o cause Y, b) puede que influencie o cause X, c) X e Y
pueden estar influenciadas por terceras variables que hace que se modifiquen ambas a la vez.
El coeficiente de correlacin posee las siguientes caractersticas (4):
-El valor del coeficiente de correlacin es independiente de cualquier unidad usada para medir las
variables.
-El valor del coeficiente de correlacin se altera de forma importante ante la presencia de un valor
extremo, como sucede con la desviacin tpica. Ante estas situaciones conviene realizar una
transformacin de datos que cambia la escala de medicin y modera el efecto de valores extremos
(como la transformacin logartmica).
-El coeficiente de correlacin mide solo la relacin con una lnea recta. Dos variables pueden tener
una relacin curvilnea fuerte, a pesar de que su correlacin sea pequea. Por tanto cuando
analicemos las relaciones entre dos variables debemos representarlas grficamente y posteriormente
calcular el coeficiente de correlacin.
-El coeficiente de correlacin no se debe extrapolar ms all del rango de valores observado de las
variables a estudio ya que la relacin existente entre X e Y puede cambiar fuera de dicho rango.
La correlacin no implica causalidad. La causalidad es un juicio de valor que requiere ms
informacin que un simple valor cuantitativo de un coeficiente de correlacin (5).
Para los datos de una muestra, se define el Coeficiente de Pearson:
rXY =
S XY
S X * SY
rXY =
XY
X * Y
Formula alternativa (se prefiere usar esta porque tiene menos errores de redondeo).
n,m
X iY j
i =1, J =1
r XY =
i =1
2
i
( X i )
i =1
j =1
( X i * Y j )
n
m
i =1
j =1
Y ji2
( y j ) 2
j =1
Los valores cercanos a 1 y +1, indican una fuerte relacin lineal. Mientras que un coeficiente
cercano a cero, la relacin es ms dbil.
Ejercicio covarianza-correlacin
La industria textil Proyecto Alfa, posee los siguientes valores expresados en miles que
corresponden a la cantidad de insumos y cantidad producida de tela en ciertos perodos.
Los datos son de 5 perodos que a continuacin se detallan:
Cantidad de Insumos (Miles)
Produccin de Tela (Miles)
4
116
12
210
16
176
16
232
24
234
Ahora una vez expuesto el enunciado, usted es analista en produccin en serie debe responder las
siguientes preguntas:
Determine la Covarianza muestral en la industria textil
Determine el Coeficiente de Correlacin y explique el resultado en la industria textil
Grafique en un Diagrama de dispersin y explique la relacin lineal que exista en Proyecto Alfa.
S
A)
xy
i=1
X = Xi / n
X=
( Xi X ) * ( Yi Y )
n 1
4 + 12 + 16 + 16 + 24 72
=
= 14.4
5
5
B)
rXY =
S xy
Sx * S y
rXY =
297 .2
= 0.8302615
7.26636 * 49.26256
( Xi X ) 2
SX =
n 1
i =1
(Yi Y ) 2
SY =
n 1
i =1
S XY = 297 . 2
(4 14.4)2 + (12 14.4)2 + (16 14.4)2 + (16 14.4)2 + (24 14.4)2 211.2
=
= 52.8
5 1
4
i =1
n
SX =
S X = 52.8 = 7.26636
n
(116193.6)2 + (210193.6)2 + (176193.6)2 + (232193.6)2 + (234193.6)2 9707.2
=
= 2426.8
Sy =
5 1
4
i=1
SY = 2426.8 = 49.26256
C)
Industria Textil Proyectos Alfa
Produccin (MIles)
300
250
200
150
100
50
0
0
10
15
20
25
30
Propiedades de la media.
La media aritmtica tiene la gran desventaja de que se ve muy influenciada por los valores
extremos, pero an as es la medida de tendencia central que ms se usa, ya que posee las
siguientes propiedades:
1.
2.
3.
4.
5.
6.
En toda distribucin
(x
x) = 0 .
i =1
7.
En toda distribucin
(x
a ) 2 es mnimo para a = x .
i =1
Propiedades de la mediana:
1.
2.
3.
a = Mnimo
si a = Me .
i =1
4.
Propiedades de la varianza:
Para presentar las propiedades tanto de la varianza poblacional como de la varianza maestral,
se denotar con la letra V a la varianza.
1.
La varianza de una constante es cero. V(a) = 0, si a es constante.
2.
La varianza del producto de una constante por una variable es igual a la constante al
cuadrado multiplicada por la varianza de la variable. V(bX) = b2 V(X).
3.
De 1. y 2. podemos concluir lo siguiente:
a)
V(a + bX) = b2 V(X)
b)
V(a - bX) = b2 V(X)
(Las demostraciones de estas propiedades se pueden obtener fcilmente aplicando la
definicin y las propiedades de la sumatoria y de la media aritmtica).
EJEMPLO:
Usando los datos del ejemplo de la media, que se refera a la distribucin del saldo de 120
cuentas de crdito,
a) Obtenga la desviacin estndar.
b) Si se sabe que por las condiciones econmicas los saldos han aumentado un 20%,
determine la nueva desviacin estndar.
Solucin.
a)
Cantidad de cuentas
10
25
40
20
15
10
Suponiendo que los datos son de una muestra, la desviacin estndar muestral se
calculara como sigue:
s=
b)
xi ni
xT =
i =1
donde n =
ni
h =1
La variacin total de los datos tiene dos fuentes de variacin, la variacin que hay en las
observaciones dentro de los estratos, que se mide con la intravarianza y se denota por w2 , y la
variacin que se produce entre los distintos estratos, que se mide con la intervarianza y se
denota por B2 . Por lo tanto, la varianza total T2 se obtiene por:
T2 = W2 + B2
La intravarianza se define como el promedio de las varianzas de los estratos, esto significa
que:
L
2
W
2
i
ni
i =1
B2 =
(x
xT ) ni
2
i =1
EJEMPLO:
La siguiente informacin corresponde al contenido de folacina (Vitamina B)
especmenes escogidos al azar de cuatro marcas de t.
Marca
A
B
C
D
Cantidad de especmenes
(nh)
( xh )
7
8,271
5
7,500
6
6,350
6
5,817
Media
( s 2h )
2,139
2,825
1,123
2,406
para
Varianza
8 , 271 7 + 7 , 5 5 + 6 , 35 6 + 5 , 817 6
= 7 , 0166
24
B2 =
W2 =
El conjunto de datos {(x1, y1), (x2, y2), , (xn, yn)}de la variable dimensional (X, Y) se debe
presentar en una tabla de contingencia o de doble entrada con la siguiente estructura:
Clases de Y
Clases de X
x1
x2
M
xi
M
xr
y1
y2
n11
n21
ni1
ni2
nr1
nr2
yj
nij
M
nrj
yk
nik
M
nrk
Esto indica que los datos de la variable X se han clasificado en r clases o intervalos y los datos
de la variable Y en k clases o intervalos. Para la clasificacin de las dos variables, se debe
seguir el mismo procedimiento que para una variable unidimensional.
Los valores nij de la tabla indican la frecuencia absoluta conjunta de la variable X en la clase i
y de la variable Y en la clase j, es decir corresponde al nmero de veces que se repiten ambas
xi
M
xr
y1
y2
N11
N21
yj
Ni1
Ni2
Nij
Nr1
Nr2
yk
Nrj
Nik
Nrk
En que los valores Nij indican la cantidad de observaciones que hay hasta la clase i de la
i
lm
l =1 m =1
Clases de Y
Clases de X
x1
x2
M
y1
y2
n11
n21
xi
M
ni1
ni2
yj
nij
M
yk
N i.
h i.
Hi.
n 1.
n 2.
N 1.
N 2.
h 1.
h 2.
H 1.
H 2.
nik
n i.
xr
nr1
nr2
nrj
nrk
n.j
h.j
N.j
H.j
n. 1
h. 1
N. 1
H. 1
n. 2
h. 2
N. 2
H. 2
n. j
h. j
N. j
H. j
n. k
h. k
N. k
H. k
ni.
n r.
N i.
h i.
H i.
N r.
h r.
H r.
En la notacin usada para las frecuencias marginales el punto usado en el subndice denota
k
Y 230 320 280 430 380 230 325 195 450 280 360 240 350 170 220 360 490 570 395 270
a)
b)
c)
Solucin.
a)
Para construir la tabla se usarn 6 clases para X, ya que es una variable discreta y
asume valores desde 0 a 5; para Y se usarn 5 intervalos por ser una variable continua
y tener slo 20 datos.
Ttulo: Distribucin de las familias segn nmero de hijos e ingresos mensuales.
Y: Ingresos (m$)
X: Cantidad de hijos
0
1
2
3
4
5
Cantidad de familias ( n . j )
b)
c)
d)
330 - 410
0
1
1
2
1
0
Cantidad de
410 - 490 490 - 570 familias (n i. )
0
0
2
0
0
4
1
0
6
1
0
4
1
1
3
0
0
1
3
20
X: Cantidad de hijos
0
1
2
3
4
5
Ingresos (miles de $)
600
500
400
300
200
100
0
0
Cantidad de hijos
Cuando el estudio es longitudinal, es decir, una de las variables es el tiempo, en el eje de las X
se grafica la variable tiempo y la otra variable en el eje de las Y. En estos casos el diagrama de
dispersin se llama grfico secuencial o de lnea.
MEDIDAS
MARGINALES
BIDIMENSIONALES
CONDICIONALES.
DISTRIBUCIONES
Cuando las observaciones bivariadas se han presentado en una tabla de frecuencias se puede
obtener medidas de resumen marginales, condicionales y conjuntas.
Las medidas de resumen marginales se calculan con las frecuencias marginales y las medidas
condicionales se calculan con las frecuencias condicionales. Las medidas de resumen que se
pueden calcular con ambos tipos de distribuciones son las mismas que para una variable
unidimensional y se calculan tratando a la variable para la cual se tienen las frecuencias
(marginales o condicionales) como si fuera una variable unidimensional.
EJEMPLO:
En la siguiente tabla la variable X representa el nmero de personas por hogar, de una muestra
realizada en una comuna de Santiago y la variable Y representa el pago mensual en servicios
bsicos, en miles de pesos, de esa muestra.
Distribucin de los hogares de acuerdo al nmero de personas y del pago mensual en
servicios bsicos.
Y
10 - 15
15 - 25
25 - 50
X
1
2
3
4
4
18
7
0
5
30
12
2
1
7
6
8
a)
b)
Solucin.
a)
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
M(Y) =
b)
Cantidad de hogares
29
49
22
100
12,5 29 + 20 49 + 37,5 22
= 21,675 (miles de $)
100
La pregunta es Me (Y / X<3).
Para esto necesitamos la frecuencia de Y condicionada a los valores de X inferiores a
3. Esto es:
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
Me (Y / X<3) = 15 + 10
Cantidad de hogares
22
35
8
65
32,5 22
=18 (miles de $) El 50% de los hogares con menos
35
de tres hijos habran tenido un gasto en servicios bsicos igual o inferior a $18.000.