Estadistica Descriptiva

CURSO PROBABILIDAD Y
ESTADISTICAS
FMS175
PROFESOR RODOLFO TORO
DEPARTAMENTO DE FISICA Y
MATEMATICAS
UNIVERSIDAD NACIONAL ANDRES
BELLO
EL MTODO CIENTFICO
La Estadstica, constituye as, una disciplina cientfica extremadamente amplia y que puede ser
conceptualizada desde enfoques diferentes e incluso contrapuestos. No es raro, por tanto, que se
hayan propugnado para ella distintas definiciones que en el fondo, implican diferentes visiones
sobre lo que constituye la caracterstica esencial de esta ciencia como instrumento insustituible para
grandes empresarios, asignatura despreciable para muchos estudiantes y una gran desconocida para
todos, o casi todos.
ESTADSTICA
Se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y
analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrnseca de los
mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones.
Estadstica descriptiva:
Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que
resumen
y
presentan
la
informacin
contenida
en
ellos.
Estadstica inferencial:
Apoyndose en el clculo de probabilidades y a partir de datos muestrales, efecta estimaciones,
decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
Quien utiliza la estadstica
Campo de la investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, Economa, etc.
Tipos de variables estadsticas
Discretas : Aquellas que toman valores aislados (nmeros naturales), y que no pueden tomar ningn
valor intermedio entre dos consecutivos fijados, por ejemplo: nmero de goles marcados, nm. de
hijos,
numero
de
discos
comprados,
nmero
de
pulsaciones.
Continuas : Aquellas que toman infinitos valores (nmeros reales) en un intervalo dado, de forma
que pueden tomar cualquier valor intermedio, al menos tericamente, en su rango de variacin, por
ejemplo: talla, peso, presin sangunea, temperatura.
Tipos de Caracteres
El carcter es, por tanto una cualidad o propiedad inherente en el individuo.
Cualitativos : aquellos que son categricos, pero no son numricos, por ejemplo color de los ojos,
profesin, marca de auto.
Ordinales : aquellos que pueden ordenarse, pero no son numricos, por ejemplo: preguntas de
encuesta sobre el grado de satisfaccin de algo; mucho, poco, nada. Bueno, regular, malo.
Cuantitativos : son numricos. Ejemplo: peso, talla, nmero de hijos, nmero de libros ledos al
mes.
TIPOS DE GRFICOS
Representacin de tronco y hoja

ejemplo que contiene las calificaciones obtenidas en una prueba de matemticas:
78
93
61
100 70
83
88
74
97
72
66
73
76
81
Ahora pensaremos en cada uno de los

nmero 51 se ver como 5 | 1. De esta
vertical, y las unidades a su derecha:
6
7
8
9
10
83
64
91
70
77
86
datos separando las decenas de las unidades, es decir, el

manera las decenas se pondrn en una columna, en forma
1
8
3
3
0
6
0
8
7
4
4 2 3 6 0 7
1 3 6
1
Para entenderle un poco ms, hemos de decir que el primer rengln que dice 6 | 1 6 4 quiere decir
que entre la lista de datos se encuentran los valores 61, 66 y 64.
Esta es la representacin grfica tronco y hoja, donde cada rengln es una posicin de tronco y
cada dgito de la derecha es una hoja.
Para las distribuciones de frecuencias la representacin grfica ms comn es el histograma.
Un tipo de grfico muy parecido al histograma es la grfica de columnas.

Es interesante observar que la escala horizontal no es continua (es nominal).
Tambin es posible realizar grficas de barras horizontales
Grficas de lneas, que consisten en una serie de puntos trazados en las intersecciones de las
marcas de clase y las frecuencias de cada una, unindose consecutivamente con lneas
lneas:
Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar
parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen
las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por sto la
aplicacin de la tcnica es parcial):
Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el
extremo izquierdo; para la ojiva menor que, con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el
caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que,
utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que est
sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00
horas (en cuestiones temporales se dira: despus de las 4:00 horas). De forma anloga, en la ojiva
menor que la frecuencia que se representa en cada frontera de clase son el nmero de observaciones
menores que la frontera sealada (en caso de tiempos sera el nmero de observaciones antes de la
hora que seala la frontera).
Si se utiliza una distribucin porcentual acumulativa entonces se obtiene una ojiva (mayor que o
menor que segn sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente
ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribucin porcentual:
Cuando se pretende ilustrar la dispersin de las observaciones realizadas, y as trabajar algunas

cosas como correlaciones se puede utilizar una grfica de dispersin.
Tablas Estadsticas
A partir de este momento nos vamos a ocupar de las estadsticas de una sola variable, "Estadsticas
Unidimensionales".
Las tablas estadsticas segn el nmero de observaciones y segn el recorrido de la variable
estadstica, as tenemos los siguientes tipos de tablas estadsticas:
Mtodos de Agrupacin de Datos
Pueden utilizarse varias herramientas bsicas para describir y resumir un conjunto grande de datos.
La manera ms simple, pero quizs la ms significativa, es la serie ordenada (13, 23, 35, 47...).
Distribucin de frecuencias (o tabla de frecuencia) : ordenar los datos si estos se dividen en clases
y se registrar el nmero de observaciones en cada clase.
Tabla Unidimensional
V ariable
X
Frecuen cia
ab soluta
xi
ni
x1
x2
x3
.
.
xp
n1
n2
n3
.
.
np
n
Frecuen cia
relativa
fi
pi
f1 = n 1 / n
f2 = n 2 / n
f3 = n 3 / n
.
.
fp = n p / n
1
Frec. o bser.
acum u lad a
Frec. relativa
acum u lad a
Ni
Fi
N1 = n1
N2 = n1 + n2
N3 = n1 + n2 + n 3
.
.
Np = n
F 1 = f1
F 2 = f1 + f2
F 3 = f1 + f2 + f 3
.
.
Fp = 1
In te rv a lo s
d e c la s e
M a rc a
d e c la s e s
x i-1 - x i
xi
x0 - x1
x 2 -1 - x 2
x 3 -1 - x 3
.
.
x p -1 - x p
x1
x2
x3
.
.
xp
Observe que cada clase tiene un lmite inferior y un

lmite superior. Los valores exactos de estos lmites
son muy importantes. Si los datos en una tabla de
frecuencia son continuos, es necesario permitir
valores fraccionarios.
El nmero de clases
En una tabla de frecuencia es algo arbitrario, pero demasiadas clases sera algo confuso.
Se puede seguir una regla simple para determinar el nmero de clase a utilizar.
La Marca de la clase
Se calcula como el promedio de los lmites superior e inferior de dicha clase.
Yi =
i 1
+ X
2
Intervalos de clase :
Es el rango de valores encontrados dentro de una clase. Se determina restando el lmite superior (o
inferior) de una clase del lmite inferior (o superior) de la clase siguiente. Es deseable que todos los
intervalos de clase sean de igual tamao, ya que facilita interpretacin estadstica.
ic =
Las frecuencias
ni = Frecuencia absoluta ni
fi = Frecuencia relativa 0 < fi < 1
fi = n i / N
Ni = Frecuencia absoluta acumulada
Fi = Frecuencia relativa acumulada
X max X min
N clases
Nj = Nj-1 + nj
Fj = Fj-1 + fj
Ejemplo Ilustrativo
Distribucin de los alumnos del curso segn estatura en cm.
152 - 170 - 178 - 172 - 165 - 182 - 160
187 - 175 - 175 - 173 - 174 - 165 - 158
172 - 177 - 173 - 181 - 172 - 180
n = 20
Determinar nmero de clases:
Xmn = 152 cm. Xmx = 187 cm
2 C > 20, despejando C = 4.3 lo que implica aproximar a 5 clases.

Determinar el intervalo de clase:
ic = 187 - 152 = 7 cm.
5
N.Clase
Intervalo de
clase
Marca clase
X i 1 X i
F.Absoluta F.Absoluta
F.
F. Relativa
Acumulada relativa Acumulada
Ni
Ni
fi
Fi
152 159
155.5
0.1
0.1
159 166
162.5
0.15
0.25
166 173
169.5
11
0.3
0.55
173 180
176.5
17
0.3
0.85
180 - 187
183.5
20
0.15
Tabulacin Bidimensional . Tablas de Contingencia

xi : nivel de ingreso i: 1 , 2 , ...., k (fila)
j: 1 , 2 , ...., l (columna)
yi : tipo de fabrica
Yj
YL
n i.
n 11
n 12
........ ........ ........
n 1L
n 1.
x2
n 21
n 22
........ ........ ........
n 2L
n 2.
n 3.
n ij
..... .....
........ ........
..... ..... .....
x1
Y3
..... ..... .....
Y2
..... ..... .....
Y1
..... ..... .....
XI
xk
n k1
n k2
........ ........ ........
n kL
nK.
n .j
n .1
n .2
........ ........ ........
n .L
nij : Frecuencia absoluta conjunta

ni. : Frecuencia absoluta marginal de la variable Xi
n.j : Frecuencia absoluta marginal de la variable Yi
n : Nmero total de observaciones, igual a la suma de
las frecuencias absolutas conjuntas
fij = nij / n : Frecuencia relativa conjunta
fi. : Frec. relativa marginal de la variable XI fi. = ni. / n
n.j : Frec. relativa marginal de la variable YI f.j = n.j / n
k
i=1
j=1
n ij
i=1
n i.
n.
j=1
Medidas de tendencia Central (posicin) y de Dispersin

Medida de la tendencia central (media) : ubica e identifica el punto alrededor del cual se centran
los datos.
Medidas de dispersin : indican el punto hasta el cual las observaciones individuales se esparcen
alrededor de su punto central. Miden la dispersin o la variabilidad de los datos y reflejan la
tendencia de las observaciones individuales a desviarse de dicho punto central.
Caractersticas de los datos: medidas de resumen descriptivas
Las medidas de resumen descriptivas son tiles para analizar e interpretar datos cuantitativos, ya
sean recolectados en forma bruta (datos no agrupados) o resumidos en distribuciones de frecuencia
(datos agrupados, que son de inters para el director e investigador).
Propiedades de los datos
En orden descendente de importancia, las tres propiedades o caractersticas mayores que describen
un conjunto de datos pertenecientes a alguna variable numrica aleatoria o a un fenmeno de
inters, son : 1.- Posicin
2.- Dispersin 3.- Forma
Si las medidas de resumen descriptivas se calculan con una muestra de datos se llama estadsticos,
si estas medidas descriptivas se calculan a partir de toda una poblacin de datos se llama
parmetros.
MEDIDAS DE POSICIN
La caracterstica ms importante que describe o resume un grupo de datos es su posicin. La mayor
parte de los conjuntos de datos muestran una tendencia definida a agruparse o reunirse en torno a un
cierto punto. Este valor tpico descriptivo se llama promedio. Es una medida de tendencia central o
posicin.
Para datos No agrupados
La media aritmtica muestral :
Se calcula a partir de datos, ya sea recopilados en forma bruta o colocados en arreglo ordenado.
n
X =
n :
Xi :
i=1
: Media aritmtica de la muestra

Tamao de la muestra
isima observacin de la variable
aleatoria X
Propiedades
n
1. (XI X ) = 0
i =1
n
i =1
i= 1
2. (XI X ) 2 (XI A) 2
Donde X A
3. Valor total de la poblacion
Total = N X
4.- El calculo de la media se basa en cada observacion por esa razon X
puede ser influenciado a subir o bajar segun sea el caso.
La media aritmtica Poblacional

N
X
i =1
La media Ponderada (caso especial de la media aritmtica)

N
Xw =
W X
1
i =1
+ ........... + Wn X n
W1 + W2 + ....... + Wn
La media Geomtrica
MG = n X 1 * X 2 * ...... * X n
La mediana
Es una medida de tendencia central que aparece en el medio de una sucesin ordenada de valores.
Dado que cualquier valor (o valores) extremo en un conjunto de datos distorsionan tanto la media
aritmtica, es ms apropiado utilizar la mediana, ya que no se afecta con cualquiera valores
extremos en un conjunto.
Para calcular la mediana a partir de un conjunto de datos recopilados en forma bruta, primero hay
que disponerlos en un arreglo ordenado.
Caso A:
Si es impar:
32
42
46
54
46
el valor de la mediana es 46
Caso B:
Si es par:
2
8
9
18
21
25
12
13
Existen 2 valores intermedios
Mediana = ( 12 + 13)
2
Ubicacin de la Mediana
Si el nmero de observaciones en la muestra es un impar, la mediana se representa con el valor
numrico de observacin ordenada :
Me =
(n + 1)
2
Ejemplo:
Numero elementos
Valor elemento
25 29
( 6 + 1) = 3.5
2
3.5 ubicacin, valor mediana de (30+32)/2 = 31
30 32 35 35
Si el nmero de observaciones es par, la mediana se representa con la media o promedio de los dos
valores intermedios en el arreglo ordenado.
El modo :
Es el valor ms tpico o ms comn en un conjunto de datos. No es afectado por la ocurrencia de
cualquiera valores extremos. Se obtiene con facilidad en un arreglo ordenado. Cuando una
observacin no es comn no hay modo. Es el valor que ms se repite.
Para datos agrupados
La media aritmtica
N
X=
n Y
i i
i =1
ni : frecuencia
Yi : marca de clase
La mediana (Me):
2 N i 1
Me = X i 1 . +
* ic
n
i
: frontera inferior del intervalo de clase que contiene la mediana

ni :
nmero de observaciones en el intervalo de clase que contiene la mediana
Ni-1 : nmero total de observaciones antes del intervalo de clase que contiene la mediana
ic :
ancho de cada intervalo de clase
n / 2 : observacin mediana
i 1
Como el tamao de la muestra es N=20,

buscamos el intervalo en el que la
Frecuencia acumulada es mayor que
20/2=10, que en este caso es el 3 y
aplicamos la frmula anterior. Luego la
Mediana ser:
20
2 5
Me = 166 +
* 7 = 171,83
6
Intervalo de
clase
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Moda (Mo): observacin que ms se repite de las observaciones
n i n i 1
Mo = X i 1 . +
* ic
(
n
n
)(
n
n
)
i 1
i +1
i
63
Mo = 166 +
* 7 = 166
(6 3)(6 6)
Intervalo de
clase
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Simetras de distribucin
Asimetras
X > Mediana :Positivo o sesgamiento a la derecha (moda<mediana<media)
X = Mediana :Simtricos o con sesgamiento cero
X < Mediana :Negativos o sesgamiento a la izquierda (media<mediana<moda)
Moda
Media
Mediana
Cuartiles
Divide los datos ordenados en cuatro cuartos
Q1 = primer cuartil, el 25% de las observaciones son menores y el 75% son mayores.
Q2 = segundo cuartil, el 50% de las observaciones son menores y el 50% son mayores.
Q3 = tercer cuartil, el 75% de las observaciones son menores y el 25% son mayores.
Para tener la posicin aproximada a los cuartiles, se utilizan las siguientes frmulas :
Q1 = n / 4
Q2 = 2 (n ) / 4
Q3 = 3 (n ) / 4
a.- Valor entero, se selecciona la observacin particular correspondiente al punto de posicin.
b.- Valor esta en la mitad entre dos puntos de posicin, se selecciona la media.
c.- Valor no es entero y no se encuentra en la mitad, se utiliza regla emprica para aproximar al
cuartil particular y redondearlo al punto de posicin del entero ms cercano.
Primer cuartil:
4 N i 1
Q1 = X i 1 Q1 . +
* ic
niQ1
Q1 : primer cuartil
X i 1 : frontera inferior del intervalo de clase que contiene el primer cuartil
niQ1
: nmero de observaciones en el intervalo de clase que contiene el primer cuartil
N i 1Q1
: nmero total de observaciones antes del intervalo de clase que contiene el primer cuartil
ic : ancho del intervalo de clase que contiene el primer cuartil

n / 4 : observacin del primer cuartil
Q1 =
20 / 4 = 5
Intervalo de
clase
20
4 2
Q1 = 159 +
*7
3
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Q1
Segundo cuartil:
2n
i
1
Q2 = X i 1 Q 2 . + 4
* ic
n
iQ 2
Q1 =
2*20 / 4 = 10
Intervalo de
clase
2 * 20
4 5
Q2 = 166 +
* 7 = 171,83
6
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Q2
Tercer cuartil:
3n
4 N i 1
Q3 = X i 1 Q 3 . +
* ic
niQ 3
Intervalo de
clase
3 * 20
11
Q3 = 173 + 4
* 7 = 177,66
6
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
Q3
Percentiles:
Medida de localizacin que divide la poblacin o muestra en 100 partes iguales.
No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver
slo para las variables continuas.
pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribucin.
Pk = X i 1
*
k
N
1
+ 100
* ic
n
iPk
Por ltimo veamos el percentil 45

(4520/100 = 9) Corresponde al intervalo 3.
Intervalo de
clase
20
45 * 100 5
P45 = 166 +
* 7 = 170,67
6
F.
Absoluta
ni
F.Absoluta
Acumulada
Ni
152 159
159 166
166 173
11
173 180
17
180 - 187
20
X i 1 X i
P45
Medidas de Dispersin
Rango o recorrido
Es la diferencia existente entre el valor mayor y el menor de la distribucin.
Para una muestra de tamao n, el recorrido es la diferencia entre las observaciones ms grande y la
ms pequea :
R = X max X min
El recorrido intercuartlico
evita el problema de los valores extremos en los datos. Esta simple medida considera la extensin
en el 50% medio de los datos y, por tanto, no sufre ninguna influencia de los valores extremos
Recorrido intercuartlico = Q3 - Q1
Para datos no agrupados
La varianza de una muestra (S2) :
mide el promedio del cuadrado de las diferencias entre cada observacin y su media.
n
S2 =
(X
I =1
X )2
n 1
Desviacin estndar muestra ( S ) : mide la raz cuadrada del promedio del cuadrado de las
diferencias alrededor de la media.
n
(X
S=
I =1
X )2
n 1
Que miden la varianza y la desviacin estndar? : miden la dispersin promedio en torno a la

media, es decir, cmo fluctan las observaciones mayores por encima de ella y cmo se distribuyen
las observaciones menores por debajo de ella.
Nota: el denominador es ( n - 1 ) debido a la propiedad de los grados de liberta. En esencia, en la
suma
slo n - 1 de los trminos son independientes, porque el clculo estadstico de S2
supone un conocimiento previo del estadstico X, es decir, si se conoce X se pierde 1 grado de
libertad.
La varianza de una poblacional ( 2 ) :
N
2 =
(X
I =1
X )2
Desviacin estndar poblacional ( ):

N
(X
I =1
X )2
Coeficiente de variacin:
es otra de medida de dispersin. Es una medida relativa, al contrario de las anteriores. Se expresa
como porcentaje en vez de en trminos de las unidades de los datos particulares. Como medida
relativa, es de particular utilidad al comparar la variabilidad de dos o ms conjuntos de datos (
distribuciones ) que se expresan en distintas unidades de medida.
CV =
S
*100
X
Frmulas de varianza y desviacin estndar para calculadoras electrnicas o computador

n
( X i) 2
- 1
i= 1
( X )2
i
i= 1
i= 1
2
i
i= 1
n - 1
Para datos agrupados

La varianza de una muestra (S2) :
n
S2 =
(X
I =1
X ) 2 * ni
n 1
Desviacin estndar muestra ( S ) :

n
S=
(X
X ) 2 * ni
I =1
n 1
La varianza de una poblacional ( 2 ) :

N
2 =
(X
I =1
X ) 2 * ni
N
Desviacin estndar poblacional ( ):
(X
I =1
X )2 * ni
N
Cuasivarianza:
Es una medida de dispersin, cuya nica diferencia con la varianza es que dividimos por
N-1, la representaremos por
2
N 1
S N2 1 o N2 1 y la calcularemos de la siguiente forma:

2
N 1
n
( X i X ) 2 * ni
N
2
* Sx =
=
N 1
N 1
i =1
Medidas de asociacin de dos variables

Anlisis multivariado
Covarianza
Para una muestra de n elementos, con sus parejas de valores de datos:
( X 1 , Y1 )( X 2 Y2 )
Covarianza Muestral
n
S xy =
(X
i =1
X )(Yi Y )
n 1
Covarianza Poblacional
n
xy =
(X
i =1
x )(Yi y )
N
Interpretacin de la covarianza de la muestra
S XY Positivo; X e Y tienen relacin lineal positiva.

Y
S XY Negativo; X e Y tienen relacin lineal negativa.

Y
X
La covarianza indica el tipo de relacin lineal positiva o negativa entre la variable X e Y.
Coeficiente de correlacin
El coeficiente de correlacin como previamente se indic oscila entre 1 y +1 encontrndose en
medio el valor 0 que indica que no existe asociacin lineal entre las dos variables a estudio. La
estimacin del coeficiente de determinacin (r2) nos muestra el porcentaje de la variabilidad de los
datos que se explica por la asociacin entre las dos variables. Como previamente se indic la
correlacin elevada y estadsticamente significativa no tiene que asociarse a causalidad. Cuando
objetivamos que dos variables estn correlacionadas diversas razones pueden ser la causa de dicha
correlacin: a) pude que X influencie o cause Y, b) puede que influencie o cause X, c) X e Y
pueden estar influenciadas por terceras variables que hace que se modifiquen ambas a la vez.
El coeficiente de correlacin posee las siguientes caractersticas (4):
-El valor del coeficiente de correlacin es independiente de cualquier unidad usada para medir las
variables.
-El valor del coeficiente de correlacin se altera de forma importante ante la presencia de un valor
extremo, como sucede con la desviacin tpica. Ante estas situaciones conviene realizar una
transformacin de datos que cambia la escala de medicin y modera el efecto de valores extremos
(como la transformacin logartmica).
-El coeficiente de correlacin mide solo la relacin con una lnea recta. Dos variables pueden tener
una relacin curvilnea fuerte, a pesar de que su correlacin sea pequea. Por tanto cuando
analicemos las relaciones entre dos variables debemos representarlas grficamente y posteriormente
calcular el coeficiente de correlacin.
-El coeficiente de correlacin no se debe extrapolar ms all del rango de valores observado de las
variables a estudio ya que la relacin existente entre X e Y puede cambiar fuera de dicho rango.
La correlacin no implica causalidad. La causalidad es un juicio de valor que requiere ms
informacin que un simple valor cuantitativo de un coeficiente de correlacin (5).
Para los datos de una muestra, se define el Coeficiente de Pearson:
rXY =
S XY
S X * SY
Para los datos de una poblacin, se define el Coeficiente de Pearson:
rXY =
XY
X * Y
Formula alternativa (se prefiere usar esta porque tiene menos errores de redondeo).
n,m
X iY j
i =1, J =1
r XY =
i =1
2
i
( X i )
i =1
j =1
( X i * Y j )
n
m
i =1
j =1
Y ji2
( y j ) 2
j =1
Los valores cercanos a 1 y +1, indican una fuerte relacin lineal. Mientras que un coeficiente
cercano a cero, la relacin es ms dbil.
Ejercicio covarianza-correlacin
La industria textil Proyecto Alfa, posee los siguientes valores expresados en miles que
corresponden a la cantidad de insumos y cantidad producida de tela en ciertos perodos.
Los datos son de 5 perodos que a continuacin se detallan:
Cantidad de Insumos (Miles)
Produccin de Tela (Miles)
4
116
12
210
16
176
16
232
24
234
Ahora una vez expuesto el enunciado, usted es analista en produccin en serie debe responder las
siguientes preguntas:
Determine la Covarianza muestral en la industria textil
Determine el Coeficiente de Correlacin y explique el resultado en la industria textil
Grafique en un Diagrama de dispersin y explique la relacin lineal que exista en Proyecto Alfa.
S
A)
xy
i=1
X = Xi / n
X=
( Xi X ) * ( Yi Y )
n 1
4 + 12 + 16 + 16 + 24 72
=
= 14.4
5
5
Y = X i / n Y = 116 + 210 + 176 + 232 + 234 = 968 = 193.6

5
(4 14.4) *(116193.6) + (1214.4) *(210193.6) + (1614.4) *(176193.6)

n
+ (1614.4) *(232193.6) + (2414.4) *(234193.6)
1188.8
Sxy =
=
= 297.2
51
4
i=1
B)
rXY =
S xy
Sx * S y
rXY =
297 .2
= 0.8302615
7.26636 * 49.26256
( Xi X ) 2
SX =
n 1
i =1
(Yi Y ) 2
SY =
n 1
i =1
S XY = 297 . 2
(4 14.4)2 + (12 14.4)2 + (16 14.4)2 + (16 14.4)2 + (24 14.4)2 211.2
=
= 52.8
5 1
4
i =1
n
SX =
S X = 52.8 = 7.26636
n
(116193.6)2 + (210193.6)2 + (176193.6)2 + (232193.6)2 + (234193.6)2 9707.2
=
= 2426.8
Sy =
5 1
4
i=1
SY = 2426.8 = 49.26256
C)
Industria Textil Proyectos Alfa
Produccin (MIles)
300
250
200
150
100
50
0
0
10
15
20
25
30
Cantidad Insumos (MIles)
Propiedades de la media.
La media aritmtica tiene la gran desventaja de que se ve muy influenciada por los valores
extremos, pero an as es la medida de tendencia central que ms se usa, ya que posee las
siguientes propiedades:
1.
2.
3.
4.
5.
La media aritmtica de una constante k es igual a la misma constante, es decir,

M(k)=k.
La media del producto de una constante a por una variable X, es igual al producto de la
constante por la media de la variable, es decir, M(a X) = a M(X).
La media del producto de una constante a por una variable X ms otra constante,
digamos b, es igual a la constante a por la media de la variable X ms la constante b, es
decir, M(a X + b) = a M(X) + b.
La media de la suma de dos variables X e Y, es igual a suma de las medias de cada
una de esas variables, es decir, M ( X + Y ) = M( X ) + M( Y ).
xmn x xmx.
6.
En toda distribucin
(x
x) = 0 .
i =1
7.
En toda distribucin
(x
a ) 2 es mnimo para a = x .
i =1
Propiedades de la mediana:
1.
2.
3.
El clculo de la mediana se ve afectado por el nmero de observaciones y no por la

magnitud de cualesquiera de los extremos, pero no utiliza toda la informacin como la
media.
Cualquier observacin seleccionada al azar es igual de fcil que supere a la mediana o
que la mediana supere a la observacin.
La suma de las diferencias absolutas en torno a la mediana es un mnimo, es decir,
n
a = Mnimo
si a = Me .
i =1
4.
Escala de medicin al menos ordinal.
Propiedades de la varianza:
Para presentar las propiedades tanto de la varianza poblacional como de la varianza maestral,
se denotar con la letra V a la varianza.
1.
La varianza de una constante es cero. V(a) = 0, si a es constante.
2.
La varianza del producto de una constante por una variable es igual a la constante al
cuadrado multiplicada por la varianza de la variable. V(bX) = b2 V(X).
3.
De 1. y 2. podemos concluir lo siguiente:
a)
V(a + bX) = b2 V(X)
b)
V(a - bX) = b2 V(X)
(Las demostraciones de estas propiedades se pueden obtener fcilmente aplicando la
definicin y las propiedades de la sumatoria y de la media aritmtica).
EJEMPLO:
Usando los datos del ejemplo de la media, que se refera a la distribucin del saldo de 120
cuentas de crdito,
a) Obtenga la desviacin estndar.
b) Si se sabe que por las condiciones econmicas los saldos han aumentado un 20%,
determine la nueva desviacin estndar.
Solucin.
a)
Recordemos que los datos para los clculos son:

Saldo promedio(xi)
(miles de $)
15
45
75
105
135
165
Cantidad de cuentas
10
25
40
20
15
10
Suponiendo que los datos son de una muestra, la desviacin estndar muestral se
calculara como sigue:
s=
b)
(15 2 10 + ... + 165 2 10) 120 (83,75)2

= 41,23 [miles de $]
119
Sea X: saldo antiguo

e Y: saldo nuevo
Y = X + 0,2 X = 1,2 X
Aplicando propiedades se tiene que s y = 1,2 s x = 49,48 [miles de $]
MEDIDAS DESCRIPTIVAS EN DATOS AGRUPADOS.

En ciertas ocasiones la informacin de un conjunto de datos se presenta para una cantidad L de
grupos o estratos y de cada estrato se tiene la siguiente informacin:
n i = tamao del estrato i proporcin del estrato i , con i = 1, 2, , L
x i = media aritmtica del estrato i, con i = 1, 2, , L
2i = varianza del estrato i, con i = 1, 2, , L

En este caso podemos obtener dos medidas descriptivas para el total de los elementos: la
media total y la varianza total.
La media total ( x T ) se obtiene como una media de las medias de los estratos, esto es:
xi ni
xT =
i =1
donde n =
ni
h =1
La variacin total de los datos tiene dos fuentes de variacin, la variacin que hay en las
observaciones dentro de los estratos, que se mide con la intravarianza y se denota por w2 , y la
variacin que se produce entre los distintos estratos, que se mide con la intervarianza y se
denota por B2 . Por lo tanto, la varianza total T2 se obtiene por:
T2 = W2 + B2
La intravarianza se define como el promedio de las varianzas de los estratos, esto significa
que:
L
2
W
2
i
ni
i =1
La intervarianza se define como la varianza de las medias de los estratos, es decir:

L
B2 =
(x
xT ) ni
2
i =1
EJEMPLO:
La siguiente informacin corresponde al contenido de folacina (Vitamina B)
especmenes escogidos al azar de cuatro marcas de t.
Marca
A
B
C
D
Cantidad de especmenes
(nh)
( xh )
7
8,271
5
7,500
6
6,350
6
5,817
Media
( s 2h )
2,139
2,825
1,123
2,406
para
Varianza
Obtener la varianza total e indicar dnde se produce mayor variacin en el contenido de

folacina, entre las distintas marcas o dentro de las marcas.
Solucin.
xT =
8 , 271 7 + 7 , 5 5 + 6 , 35 6 + 5 , 817 6
= 7 , 0166
24
B2 =
8,2712 7 + 7,5 2 5 + 6,35 2 6 + 5,817 2 6

2
(7,0166) = 0,9785
24
2,139 7 + 2,825 5 + 1,123 6 + 2,406 6

= 2,0947
24
T2 = 0,9785 + 2,0947 = 3,0732
W2 =
Existe mayor variabilidad en el contenido de folacina al interior de las marcas, ya

que W > B .
2
PRESENTACIN DE DATOS BIDIMENSIONALES Y DE MS DIMENSIONES.

Hasta ahora se ha estudiado datos considerando una sola variable en ellos. En este captulo
estudiaremos dos ms variables a cada observacin; variables que tienen entre s alguna
relacin.
La presentacin de estos datos puede hacerse mediante tablas de frecuencia bidimensionales
para el caso de dos variables o multidimensionales si se han medido ms de dos variables.
Aqu se presentar slo las tablas bidimensionales.
VI.1
TABLAS DE FRECUENCIA BIDIMENSIONALES.
El conjunto de datos {(x1, y1), (x2, y2), , (xn, yn)}de la variable dimensional (X, Y) se debe
presentar en una tabla de contingencia o de doble entrada con la siguiente estructura:
Clases de Y
Clases de X
x1
x2
M
xi
M
xr
y1
y2
n11
n21
n12 n1j n1k

n22 n2j n2k
ni1
ni2
nr1
nr2
yj
nij
M
nrj
yk
nik
M
nrk
Esto indica que los datos de la variable X se han clasificado en r clases o intervalos y los datos
de la variable Y en k clases o intervalos. Para la clasificacin de las dos variables, se debe
seguir el mismo procedimiento que para una variable unidimensional.
Los valores nij de la tabla indican la frecuencia absoluta conjunta de la variable X en la clase i
y de la variable Y en la clase j, es decir corresponde al nmero de veces que se repiten ambas
clases en los n pares de datos. A estas r k frecuencias se acostumbra a llamarlas matriz de

frecuencias absolutas conjuntas.
A partir de esta primera tabla se pueden construir las tablas correspondientes a las frecuencias
relativas y a las frecuencias acumuladas (absolutas y relativas).
Por ejemplo, la estructura de la tabla de frecuencias conjuntas absolutas acumuladas, sera la
siguiente:
Clases de Y
Clases de X
x1
x2
M
xi
M
xr
y1
y2
N11
N21
N12 N1j N1k

N22 N2j N2k
yj
Ni1
Ni2
Nij
Nr1
Nr2
yk
Nrj
Nik
Nrk
En que los valores Nij indican la cantidad de observaciones que hay hasta la clase i de la
i
variable X y hasta la clase j de la variable Y; es decir N ij =
lm
l =1 m =1
Adems, de la tabla de frecuencias absolutas conjuntas se pueden obtener las frecuencias

marginales y las frecuencias condicionales.
Las frecuencias marginales son las frecuencias de una variable, independiente del valor que
toma la otra variable. Por lo tanto, habr frecuencias marginales para X y para Y, las que
podrn ser absolutas, relativas, absolutas acumuladas o relativas acumuladas. Todas ellas se
acostumbra a colocar al margen de la tabla de frecuencias absolutas, esto es:
Clases de Y
Clases de X
x1
x2
M
y1
y2
n11
n21
n12 n1j n1k

n22 n2j n2k
xi
M
ni1
ni2
yj
nij
M
yk
N i.
h i.
Hi.
n 1.
n 2.
N 1.
N 2.
h 1.
h 2.
H 1.
H 2.
nik
n i.
xr
nr1
nr2
nrj
nrk
n.j
h.j
N.j
H.j
n. 1
h. 1
N. 1
H. 1
n. 2
h. 2
N. 2
H. 2
n. j
h. j
N. j
H. j
n. k
h. k
N. k
H. k
ni.
n r.
N i.
h i.
H i.
N r.
h r.
H r.
En la notacin usada para las frecuencias marginales el punto usado en el subndice denota
k
que con respecto a esa variable se ha procedido a sumar. Es as como: n i . = n ij , es decir, la

j=1
suma de todas las frecuencias absolutas conjuntas de la fila i y n . j = n ij , es decir, la suma de

i =1
todas las frecuencias absolutas conjuntas de la columna j. El resto de las frecuencias

marginales se obtienen a partir de las marginales absolutas como si se tratara de una variable
unidimensional.
Otro tipo de frecuencias que se pueden obtener son las frecuencias condicionales, que
corresponden a las frecuencias de una variable condicionadas a uno o ms valores de la otra
variable. Por ejemplo, h i (X/ Y < M(Y)) indica la frecuencia relativa en la clase i de la
variable X condicionada a todos los valores menores que el valor medio de Y.
Ntese que para indicar condicin se usa el smbolo " / ".
EJEMPLO:
Los siguientes datos corresponden a la cantidad de hijos (X) y a los ingresos mensuales, en
miles de $, de un grupo de familias:
X
Y 230 320 280 430 380 230 325 195 450 280 360 240 350 170 220 360 490 570 395 270
a)
b)
c)
Construir una tabla de contingencia.

Agregar en la tabla las frecuencias marginales absolutas.
Indicar las frecuencias relativas de X condicionadas a los ingresos inferiores a
$410.000.
Solucin.
a)
Para construir la tabla se usarn 6 clases para X, ya que es una variable discreta y
asume valores desde 0 a 5; para Y se usarn 5 intervalos por ser una variable continua
y tener slo 20 datos.
Ttulo: Distribucin de las familias segn nmero de hijos e ingresos mensuales.
Y: Ingresos (m$)
X: Cantidad de hijos
0
1
2
3
4
5
Cantidad de familias ( n . j )
b)
c)
d)
170 - 250 250 - 330

0
2
3
0
2
2
1
0
0
0
0
1
6
330 - 410
0
1
1
2
1
0
Cantidad de
410 - 490 490 - 570 familias (n i. )
0
0
2
0
0
4
1
0
6
1
0
4
1
1
3
0
0
1
3
20
Son los valores n i. y n . j de la tabla.

Para mostrar las frecuencias condicionales de X / Y<410, se har una tabla
unidimensional.
X: Cantidad de hijos
0
1
2
3
4
5
Proporcin de familias con

ingresos inferiores a $410.000.
2/16= 0,1250
4/16= 0,2500
5/16= 0,3125
3/16= 0,1875
1/16= 0,0625
1/16= 0,0625
GRAFICOS PARA DATOS BIDIMENSIONALES.

La mejor manera de visualizar la relacin entre dos variables cuantitativas es el diagrama de
dispersin, que es una aplicacin de la representacin de funciones en el sistema de
coordenadas cartesianas.
EJEMPLO:
El diagrama de dispersin para los datos del ejemplo anterior es el siguiente:
Ingresos (miles de $)
600
500
400
300
200
100
0
0
Cantidad de hijos
Cuando el estudio es longitudinal, es decir, una de las variables es el tiempo, en el eje de las X
se grafica la variable tiempo y la otra variable en el eje de las Y. En estos casos el diagrama de
dispersin se llama grfico secuencial o de lnea.
MEDIDAS
MARGINALES
BIDIMENSIONALES
CONDICIONALES.
DISTRIBUCIONES
Cuando las observaciones bivariadas se han presentado en una tabla de frecuencias se puede
obtener medidas de resumen marginales, condicionales y conjuntas.
Las medidas de resumen marginales se calculan con las frecuencias marginales y las medidas
condicionales se calculan con las frecuencias condicionales. Las medidas de resumen que se
pueden calcular con ambos tipos de distribuciones son las mismas que para una variable
unidimensional y se calculan tratando a la variable para la cual se tienen las frecuencias
(marginales o condicionales) como si fuera una variable unidimensional.
EJEMPLO:
En la siguiente tabla la variable X representa el nmero de personas por hogar, de una muestra
realizada en una comuna de Santiago y la variable Y representa el pago mensual en servicios
bsicos, en miles de pesos, de esa muestra.
Distribucin de los hogares de acuerdo al nmero de personas y del pago mensual en
servicios bsicos.
Y
10 - 15
15 - 25
25 - 50
X
1
2
3
4
4
18
7
0
5
30
12
2
1
7
6
8
a)
b)
Determine el pago medio por hogar en servicios bsicos de la muestra.

Cul es el pago mediano de los hogares con menos de 3 personas?
Solucin.
a)
En este caso se est preguntando por la media marginal de la variable Y.

Los datos a usar sern las frecuencias marginales de Y, esto es:
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
M(Y) =
b)
yi: Pago promedio

12,5
20,0
37,5
Cantidad de hogares
29
49
22
100
12,5 29 + 20 49 + 37,5 22
= 21,675 (miles de $)
100
La pregunta es Me (Y / X<3).
Para esto necesitamos la frecuencia de Y condicionada a los valores de X inferiores a
3. Esto es:
Y: Pago mensual
10 - 15
15 - 25
25 - 50
Total
Me (Y / X<3) = 15 + 10
Cantidad de hogares
22
35
8
65
32,5 22
=18 (miles de $) El 50% de los hogares con menos
35
de tres hijos habran tenido un gasto en servicios bsicos igual o inferior a $18.000.

Estadistica Descriptiva

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica Descriptiva

Uploaded by

Copyright:

Available Formats

CURSO PROBABILIDAD Y

PROFESOR RODOLFO TORO

Representacin de tronco y hoja

Ahora pensaremos en cada uno de los

datos separando las decenas de las unidades, es decir, el

Un tipo de grfico muy parecido al histograma es la grfica de columnas.

Tambin es posible realizar grficas de barras horizontales

Cuando se pretende ilustrar la dispersin de las observaciones realizadas, y as trabajar algunas

Observe que cada clase tiene un lmite inferior y un

Xmn = 152 cm. Xmx = 187 cm

2 C > 20, despejando C = 4.3 lo que implica aproximar a 5 clases.

Tabulacin Bidimensional . Tablas de Contingencia

........ ........ ........

........ ........ ........

..... ..... .....

..... ..... .....

..... ..... .....

..... ..... .....

........ ........ ........

........ ........ ........

nij : Frecuencia absoluta conjunta

Medidas de tendencia Central (posicin) y de Dispersin

: Media aritmtica de la muestra

La media aritmtica Poblacional

La media Ponderada (caso especial de la media aritmtica)

: frontera inferior del intervalo de clase que contiene la mediana

Como el tamao de la muestra es N=20,

Moda (Mo): observacin que ms se repite de las observaciones

X i 1 : frontera inferior del intervalo de clase que contiene el primer cuartil

: nmero de observaciones en el intervalo de clase que contiene el primer cuartil

ic : ancho del intervalo de clase que contiene el primer cuartil

Por ltimo veamos el percentil 45

Que miden la varianza y la desviacin estndar? : miden la dispersin promedio en torno a la

Desviacin estndar poblacional ( ):

Frmulas de varianza y desviacin estndar para calculadoras electrnicas o computador

Para datos agrupados

Desviacin estndar muestra ( S ) :

La varianza de una poblacional ( 2 ) :

Desviacin estndar poblacional ( ):

S N2 1 o N2 1 y la calcularemos de la siguiente forma:

Medidas de asociacin de dos variables

Interpretacin de la covarianza de la muestra

S XY Positivo; X e Y tienen relacin lineal positiva.

S XY Negativo; X e Y tienen relacin lineal negativa.

Para los datos de una poblacin, se define el Coeficiente de Pearson:

Y = X i / n Y = 116 + 210 + 176 + 232 + 234 = 968 = 193.6

(4 14.4) *(116193.6) + (1214.4) *(210193.6) + (1614.4) *(176193.6)

Cantidad Insumos (MIles)

La media aritmtica de una constante k es igual a la misma constante, es decir,

El clculo de la mediana se ve afectado por el nmero de observaciones y no por la

Escala de medicin al menos ordinal.

Recordemos que los datos para los clculos son:

(15 2 10 + ... + 165 2 10) 120 (83,75)2

Sea X: saldo antiguo

MEDIDAS DESCRIPTIVAS EN DATOS AGRUPADOS.

2i = varianza del estrato i, con i = 1, 2, , L

La intervarianza se define como la varianza de las medias de los estratos, es decir:

Obtener la varianza total e indicar dnde se produce mayor variacin en el contenido de

8,2712 7 + 7,5 2 5 + 6,35 2 6 + 5,817 2 6

2,139 7 + 2,825 5 + 1,123 6 + 2,406 6

Existe mayor variabilidad en el contenido de folacina al interior de las marcas, ya

PRESENTACIN DE DATOS BIDIMENSIONALES Y DE MS DIMENSIONES.

TABLAS DE FRECUENCIA BIDIMENSIONALES.

(4 14.4) (116193.6) + (1214.4) (210193.6) + (1614.4) *(176193.6)