Professional Documents
Culture Documents
i=1
x
i
f
i
Si los datos no estan ordenados en una tabla, entonces
X =
x
1
+... +x
n
n
Observacion
Hemos supuesto implcitamente en la denicion de media que tratabamos con una variable
X discreta. Si la variable es continua tendremos que cambiar los valores de x
i
por las
marcas de clase correspondientes. En general, la media aritmetica obtenida a partir de
las marcas de clase m
i
, diferira de la media obtenida con los valores reales, x
i
. Es decir,
2
habra una perdida de precision que sera tanto mayor cuanto mayor sea la diferencia entre
los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes a
i
, de
los intervalos.
Ejemplo 1.1. Calcular la media aritmetica de la distribucion de frecuencias de los 45
ingresos quincenales del ejemplo 1.6
Solucion
Del cuadro 1.6 tenemos:
X =
1
n
k
i=1
m
i
f
i
=
2702
45
= $60,04
Proposicion 1.1. Dados r grupos con n
1
, n
2
, ..., n
r
observaciones y siendo X
1
, X
2
,...,X
r
las respectivas medias de cada uno de ellos. Entonces la media de las n = n
1
+n
2
+... +n
r
observaciones es
X =
n
1
X
1
+... +n
r
X
r
n
1
+... +n
r
Observacion
A pesar de las buenas propiedades que ofrece la media, esta posee algunos inconvenientes:
a Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las
observaciones intervienen en el calculo de la media, la aparicion de una observacion
extrema, hara que la media se desplace en esa direccion. En consecuencia,
b No es recomendable usar la media como medida central en las distribuciones muy
asimetricas;
c Depende de la division en intervalos en el caso de variables continuas.
d Si consideramos una variable discreta, por ejemplo, el n umero de hijos en las familias
de Arequipa el valor de la media puede no pertenecer al conjunto de valores de la
variable; Por ejemplo X = 2,5 hijos.
1.1.2. La mediana M
ed
Consideramos una variable discreta X cuyas observaciones en una tabla estadstica
han sido ordenadas de menor a mayor. Llamaremos mediana, M
ed
, al primer valor de la
variable que deja por debajo de s al 50 % de las observaciones.
La mediana es la medida promedio que depende del n umero de datos ordenados y no
de los valores de estos datos.
Ejemplo 1.2. Calcular la mediana para la siguiente serie de datos
3
a 120 3 14 1 99 7 30 2000 16
b 30 77 3 300 36 11 10000 29
Solucion
a La serie ordenada de los nueve datos es:
1 3 7 14 16 30 99 120 2000
La mediana es el quinto dato ordenado que divide a la serie en 2 grupos de 4 datos
cada uno. Esto es M
ed
= 16.
b La serie ordenada de los ocho datos es:
3 11 29 30 36 77 300 10000
La mediana en este caso, puede ser cualquier n umero situado entre 30 y 36, ya que
este dividira a los datos en dos grupos de 4 datos cada uno. Pero, para evitar la
innidad de valores, se elige como mediana la semisuma de los dos valores centrales.
Esto es, M
ed
=
30+36
2
.
Mediana de datos tabulados
- Si los valores de una variable se tabulan en una distribucion de frecuencias por intervalos
el calculo de la mediana se determina aproximadamente por interpolacion a partir de la
distribucion de frecuencias acumuladas
Para calcular la mediana.
Primero se determina el intervalo I
i
= [L
i1
, L
i
[ que contiene a la mediana. Para esto,
se determina las frecuencias acumuladas F
i
y F
i1
de manera que:
F
i1
n
2
< F
i
La mediana M
ed
[L
i1
, L
i
[ intervalo de amplitud A, cuya frecuencia absoluta acumulada
es F
i
y la frecuencia absoluta es f
i
.
Segundo Se aplica la siguiente formula para el calculo de la mediana:
M
ed
= L
i1
+
n
2
F
i1
f
i
A
4
Si en lugar de las frecuencias absolutas se utilizan las relativas (o porcentajes), enton-
ces, haciendo h
i
=
f
i
n
, H
i
=
F
i1
n
en la formula de la mediana, se tiene:
M
ed
= L
i1
+
1
2
H
i1
h
i
A
Observacion
Entre las propiedades de la mediana, vamos a destacar las siguientes:
Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones
extremas, ya que no depende de los valores que toma la variable, sino del orden de
las mismas. Por ello es adecuado su uso en distribuciones asimetricas.
Es de calculo rapido y de interpretacion sencilla.
A diferencia de la media, la mediana de una variable discreta es siempre un valor de
la variable que estudiamos (ej. La mediana de una variable n umero de hijos toma
siempre valores enteros).
Es funcion de los intervalos escogidos.
Ejemplo 1.3. Obtener la media aritmetica y la mediana en la distribucion adjunta. De-
terminar gracamente cual de los dos promedios es mas signicativo.
5
[L
i1
, L
i
[ f
i
[ 0 , 10 [ 60
[ 10 , 20 [ 80
[ 20 , 30 [ 30
[ 30 , 100 [ 20
[ 100 , 500 ] 10
Solucion
[L
i1
, L
i
[ f
i
A m mf
i
F
i
[ 0 , 10 [ 60 10 5 300 60
[ 10 , 20 [ 80 10 15 1200 140
[ 20 , 30 [ 30 10 25 750 170
[ 30 , 100 [ 20 70 65 1300 190
[ 100 , 500 ] 10 400 300 3000 200
Total 200 6550
La media aritmetica es:
X =
1
n
k
i=1
m
i
f
i
=
6550
200
= 32,75
La primera frecuencia absoluta acumulada que supera el valor
n
2
= 100 es F
i
= 140. Por
ello el intervalo que contiene a la mediana es [10,20[.Asi:
M
ed
= L
i1
+
n
2
F
i1
f
i
A = 10 +
200
2
60
80
10 = 15
Para ver la representatividad de ambos promedios, realizamos el histograma en la siguiente
gura , y observamos que dada la forma de la distribucion, la mediana es mas representa-
tiva que la media.
6
1.1.3. La moda M
o
Llamaremos moda a cualquier maximo relativo de la distribucion de frecuencias, es
decir, cualquier valor de la variable que mas veces se repite.
La moda no siempre existe y si existe, no siempre es unica.
Ejemplo 1.4. La moda de los datos:
a 7 9 7 8 7 4 7 13 7 es igual a 7. Esta serie de datos es unimodal.
b 5 3 4 5 7 3 5 6 3 es igual tanto a 3, como a 5. Esta serie de datos es bimodal.
c 31 11 12 19 no existe. (Tambien vale decir que cada uno de los datos es una moda).
Moda de datos tabulados por intervalos
En el caso de variables continuas (o discretas por intervalos) es mas correcto hablar de
intervalos modales. Una vez que este intervalo, [l
i1
, L
i
[, se ha obtenido, se utiliza la
siguiente formula para calcular la moda:
M
o
= L
i1
+
(
d
1
d
1
+d
2
)
A,
donde:
L
i1
: es el limite inferior del intervalo modal
d
1
= f
i
f
i1
, esto es, d
1
es igual a la frecuencia absoluta modal menos la frecuencia
absoluta del intervalo inmediatamente anterior.
d
2
= f
i
f
i+1
, esto es, d
2
es igual a la frecuencia absoluta modal menos la frecuencia
absoluta del intervalo inmediatamente posterior.
A: es la amplitud del intervalo modal.
Observacion
a Es muy facil de calcular.
b Puede no ser unica.
c Es funcion de los intervalos elegidos a traves de su amplitud, n umero y lmites de los
mismos.
d Aunque el primero o el ultimo de los intervalos no posean extremos inferior o superior
respectivamente, la moda puede ser calculada.
Relacion entre media, mediana y moda
En el caso de distribuciones unimodales, la mediana esta con frecuencia comprendida entre
la media y la moda (incluso mas cerca de la media). En distribuciones que presentan cierta
7
inclinacion, es mas aconsejable el uso de la mediana. Sin embargo en estudios relacionados
con propositos estadsticos y de inferencia suele ser mas apta la media.
Veamos un ejemplo de calculo de estas tres magnitudes.
Ejemplo 1.5. Consideramos una tabla estadstica relativa a una variable continua, de la
que nos dan los intervalos, las marcas de clase m
i
, y las frecuencias absolutas, f
i
.
[L
i1
, L
i
[ m
i
f
i
[ 0 , 2 [ 1 2
[ 2 , 4 [ 3 1
[ 4 , 6 [ 5 4
[ 6 , 8 [ 7 3
[ 8 , 10 ] 9 2
Solucion
Para calcular la media podemos a nadir una columna con las cantidades m
i
f
i
. La suma de
los terminos de esa columna dividida por n = 12 es la media:
[L
i1
, L
i
[ m
i
f
i
F
i
m
i
f
i
[ 0 , 2 [ 1 2 2 2
[ 2 , 4 [ 3 1 3 3
[ 4 , 6 [ 5 4 7 20
[ 6 , 8 [ 7 3 10 21
[ 8 , 10 ] 9 2 12 18
Total 12 64
X =
1
n
k
i=1
m
i
f
i
=
64
12
= 5,33
La mediana es el valor de la variable que deja por debajo de s a la mitad de las n obser-
vaciones, es decir 6. Construimos la tabla de las frecuencias absolutas acumuladas, F
i
, y
vemos que eso ocurre en la modalidad tercera, es decir,
i = 3
[L
i1
, L
i
[= [4, 6[ Intervalo donde se encuentra la mediana
M
ed
= L
i1
+
n
2
F
i1
f
i
A = 4 +
12
2
3
4
2 = 5,5
Para el calculo de la moda, lo primero es encontrar los intervalos modales, buscando
los maximos relativos en la columna de las frecuencias absolutas, f
i
. Vemos que hay dos
modas, correspondientes a las modalidades i = 1, i = 3. En el primer intervalo modal,
8
[L
0
, L
1
[= [0, 2[, la moda se calcula como
M
o
= L
i1
+
(
d
1
d
1
+d
2
)
A = 0 +
(
2 0
(2 0) + (2 1)
)
2 = 1,33
En el segundo intervalo modal, [L
2
, L
3
[= [4, 6[, la moda se calcula como
M
o
= L
i1
+
(
d
1
d
1
+d
2
)
A = 4 +
(
4 1
(4 1) + (4 3)
)
2 = 5,5
En este caso, como se ve en la siguiente gura, la moda no toma un valor unico, sino el
conjunto M
o
= {1,33, 5,5}
1.2. Estadsticos de posicion
Para una variable discreta, se dene el percentil de orden k, como la observacion, P
k
,
que deja por debajo de si el k % de la poblacion. Esta denicion nos recuerda a la mediana,
pues como consecuencia de la denicion es evidente que M
ed
= P
50
. En el caso de una
variable continua, el intervalo donde se encuentra P
k
[L
i1
, L
i
[, se calcula buscando el
que deja debajo de si al k % de las observaciones. Dentro de el, P
k
se obtiene seg un la
relacion:
P
k
= L
i1
+
n
k
100
F
i1
f
i
A
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distri-
bucion, por lo que no puede considerarsele como una medida de tendencia central.
9
Los cuartiles, Q
i
, son un caso particular de los percentiles. Hay 3, y se denen como:
Q
1
= P
25
Q
2
= P
50
= M
ed
Q
3
= P
75
De forma analoga se denen los deciles como los valores de la variable que dividen a las
observaciones en 10 grupos de igual tama no. Mas precisamente, denimos D
1
, D
2
, ..., D
9
como:
D
i
= P
10
, i = 1, ..., 9
Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambien son denominados
estadsticos de posicion.
Ejemplo 1.6. Dada la siguiente distribucion en el n umero de hijos de cien familias, hallar
sus cuartiles.
x
i
f
i
F
i
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
Total 100
Solucion
1. Primer cuartil:
n
4
= 25; Primer F
i
>
n
4
= 39; luego Q
1
= 2
2. Segundo cuartil:
2n
4
= 50; Primer F
i
>
2n
4
= 65; luego Q
2
= 3
3. Tercer cuartil:
3n
4
= 75; Primer F
i
>
3n
4
= 85; luego Q
3
= 4
Ejemplo 1.7. Calcular los cuartiles en la siguiente distribucion de una variable continua:
[L
i1
, L
i
[ f
i
F
i
[ 0 , 1 [ 10 10
[ 1 , 2 [ 12 22
[ 2 , 3 [ 12 34
[ 3 , 4 [ 10 44
[ 4 , 5 ] 7 51
Total 51
10
Solucion
1. Primer cuartil:
n
4
= 12,75; Primer F
i
>
n
4
= 22; luego la linea i es la del intervalo [1,2[
Q
1
= P
25
= L
i1
+
n
4
F
i1
f
i
A = 1 +
12,75 10
12
1 = 1,23
2. Segundo cuartil:
2n
4
= 25,5; Primer F
i
>
2n
4
= 34; luego la linea i es la del intervalo [2,3[
Q
2
= P
50
= L
i1
+
2n
4
F
i1
f
i
A = 2 +
25,5 22
12
1 = 2,29
3. Tercer cuartil:
3n
4
= 38,25; Primer F
i
>
3n
4
= 44; luego la linea i es la del intervalo [3,4[
Q
3
= P
75
= L
i1
+
3n
4
F
i1
f
i
A = 3 +
38,25 34
10
1 = 3,445
Ejemplo 1.8. Han sido ordenados los pesos de 21 personas en la siguiente tabla:
[L
i1
, L
i
[ f
i
[ 38 , 45 [ 3
[ 45 , 52 [ 2
[ 52 , 59 [ 7
[ 59 , 66 [ 3
[ 66 , 73 ] 6
Total 21
Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo n umero de
observaciones.
Solucion
Las cantidades que buscamos son los tres cuartiles: Q
1
, Q
2
y Q
3
. Para calcularlos, le
a nadimos a la tabla las columnas con las frecuencias acumuladas, para localizar que in-
tervalos son los que contienen a los cuartiles buscados:
[L
i1
, L
i
[ f
i
F
i
[ 38 , 45 [ 3 3
[ 45 , 52 [ 2 5
[ 52 , 59 [ 7 12 Q
1
, Q
2
[ 59 , 66 [ 3 15
[ 66 , 73 ] 6 21 Q
3
Total 21
11
Q
1
y Q
2
se encuentran en el intervalo [52,59[, ya que F
3
= 12 es la primera frecuencia de
distribucion acumulada que supera a
n
4
y
2n
4
.
Q
3
esta en [66,73[, pues F
5
= 21 es es la primera frecuencia de distribucion acumulada
que supera a
3n
4
As se tiene que::
Q
1
= P
25
= L
i1
+
n
4
F
i1
f
i
A = 52 +
5,25 5
7
7 = 52,25
Q
2
= P
50
= L
i1
+
2n
4
F
i1
f
i
A = 52 +
10,5 5
7
7 = 57,5
Q
3
= P
75
= L
i1
+
3n
4
F
i1
f
i
A = 66 +
15,75 15
6
7 = 66,875
Observese que Q
2
= M
ed
. Esto es logico, ya que la mediana divide a la distribucion en dos
partes con el mismo n umero de observaciones, y Q
2
, hace lo mismo, pues es deja a dos
cuartos de los datos por arriba y otros dos cuartos por abajo.
Ejemplo 1.9. La distribucion de una variable tiene por polgono acumulativo de frecuen-
cias el de la siguiente gura. Si el n umero total de observaciones es 50:
a Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de clase,
frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias
relativa acumulada
b Calcule la moda
c Determine los cuartiles
12
Solucion
a En la siguiente tabla se proporciona la informacion pedida y algunos calculos auxiliares
que nos permitiran responder a otras cuestiones
[L
i1
, L
i
[ f
i
F
i
h
i
H
i
m
i
A
[ 0 , 5 [ 10 10 0.2 0.3 2.5 5
[ 5 , 7 [ 25 35 0.5 0.7 6 2
[ 7 , 12 [ 5 40 0.1 0.8 9.5 5
[ 12 , 15 ] 10 50 0.2 1 13.5 7
Total 50
b Calculemos la moda:
M
o
= L
i1
+
(
d
1
d
1
+d
2
)
A = 5 +
(
1
2 + 1
)
2 = 5,66
c
Q
1
= P
25
= L
i1
+
n
4
F
i1
f
i
A = 5 +
12,5 10
25
2 = 5,2
Q
2
= P
50
= L
i1
+
2n
4
F
i1
f
i
A = 5 +
25 10
25
2 = 6,2
Q
3
= P
75
= L
i1
+
3n
4
F
i1
f
i
A = 7 +
37,5 35
5
5 = 9,5
1.3. Medidas de variabilidad o dispersion
Los estadsticos de tendencia central o posicion nos indican donde se sit ua un grupo de
puntuaciones. Los de variabilidad o dispersion nos indican si esas puntuaciones o valores
estan proximas entre s o si por el contrario estan o muy dispersas.
Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene
restando el valor mas bajo de un conjunto de observaciones del valor mas alto. Es facil
de calcular y sus unidades son las mismas que las de la variable, aunque posee varios
inconvenientes:
No utiliza todas las observaciones (solo dos de ellas);
Se puede ver muy afectada por alguna observacion extrema;
El rango aumenta con el n umero de observaciones, o bien se queda igual. En cualquier
caso nunca disminuye.
13
En el transcurso de esta seccion, veremos medidas de dispersion mejores que la anterior.
Estas se determinan en funcion de la distancia entre las observaciones y algun estadstico
de tendencia central.
Las principales medidas de dispersion son:
El rango
El rango intercuartil
La varianza
La desviacion estandar
El coeciente de variacion
1.3.1. El Rango R
Denicion 1.1. El rango de variacion R, de una serie de datos, es la diferencia entre sus
valores maximo y mnimo. Esto es:
R = X
max
X
min
Siendo X
max
el valor maximo y X
min
el valor mnimo.
El rango es una medidad de dispersion muy facilmente calculable, pero es muy ines-
table, ya que depende unicamente de los dos valores extremos. Su valor puede cambiar
grandemente si se a nade o elimina un solo dato.
Ejemplo 1.10. Dadas las dos series de datos
a 15 20 20 25; R = 25 15 = 10
b 195 200 200 200 200 200 200 200 205; R = 205 195 = 10
Claramente puede apreciarse que en la segunda serie los datos estan menos dispersos, Pues
en ella hay mayor cantidad de datos parecidos a su promedio.
1.3.2. Rango Intercuartil RI
Denicion 1.2. El rango intercuartil RI, es la diferencia entre sus cuartiles tercero y
primero. Esto es
RI = Q
3
Q1
El Rango intercuartil es una medida que excluye el 25 % mas alto y el 25 % mas bajo,
dando un rango dentro del cual se encuentra el 50 % central de los datos observados y a
diferencia del rango total no se encuentra afectada por los valores extremos.
14
1.3.3. Varianza y desviacion estandar
1. Varianza de datos no tabulados
La varianza de n valores x
1
, x
2
, ..., x
n
de alguna variable cuntitativa X cuya media
es X, es el n umero:
S
2
=
n
i=1
(x
i
X)
2
n
Es facil ver que:
S
2
=
n
i=1
x
2
i
n
X
2
2. Varianza de datos tabulados
Variable disdreta
La varianza de n valores de una variable estadstica X que se clasican en k valores
distintos x
1
, x
2
, ..., x
k
con frecuencias absolutas respectivas f
1
, f
2
, ..., f
k
y cuya media
es X se calcula con la siguiente formula:
S
2
=
n
i=1
f
i
(x
i
X)
2
n
Se verica que:
S
2
=
n
i=1
f
i
x
2
i
n
X
2
Varinaza de datos tabulados por intervalos
La varianza de n valores de una variable estadstica X tabulados k intervalos con
marcas de clases m
1
, m
2
, ..., m
k
con frecuencias absolutas respectivas f
1
, f
2
, ..., f
k
y
cuya media es X se calcula con la siguiente formula:
S
2
=
n
i=1
f
i
(m
i
X)
2
n
Se verica que:
S
2
=
n
i=1
f
i
m
2
i
n
X
2
3. Desviacion estandar S
La desviacion estandar se dene como la raz cuadrada de la varianza, esto es:
S =
S
2
15
1.3.4. Coeciente de variaci on CV
Hemos visto que las medidas de centralizacion y dispersion nos dan informacion sobre
una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para compa-
rar dos poblaciones. Por ejemplo, si nos piden comparar la dispersion de los pesos de las
poblaciones de elefantes de dos circos diferentes, nos dara informacion util.
Pero que ocurre si lo que comparamos es la altura de unos elefantes con respecto a su
peso? Tanto la media como la desviacion tpica, y , se expresan en las mismas unidades
que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud
el metro y en la variable peso, el kilogramo. Comparar una desviacion (con respecto a la
media) medida en metros con otra en kilogramos no tiene ning un sentido.
El problema no deriva solo de que una de las medidas sea de longitud y la otra sea de
masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de
dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso
en toneladas de una poblacion de 100 elefantes con el correspondiente en miligramos de
una poblacion de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por
ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefan-
tes (toneladas). Si la ingeriera genetica no nos sorprende con alguna barbaridad, lo logico
es que la dispersion de la variable peso de las hormigas sea practicamente nula (Aunque
haya algunas que sean 1000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente, el problema viene de la dimen-
sionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de
ambas poblaciones. El coeciente de variacion es lo que nos permite evitar estos pro-
blemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporcion
existente entre medias y desviacion tpica. Se dene del siguiente modo:
CV =
S
X
Observacion
Es importante destacar que los coeentes de variacion sirven para comparar las variabi-
lidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores
tipicados.
16
1.4. Valores Estandarizados o Tipicados Z
Se conoce por Estandarizacion al proceso de restar la media y dividir por su desviacion
tpica a una variable X. De este modo se obtiene una nueva variable:
Z =
X X
S
Donde Z = 0 y S
2
Z
= 1 Esta nueva variable carece de unidades y permite hacer compara-
bles dos medidas que en un principio no lo son, por aludir a conceptos diferentes. As por
ejemplo nos podemos preguntar si un elefante es mas grueso que una hormiga determina-
da, cada uno en relacion a su poblacion. Tambien es aplicable al caso en que se quieran
comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos com-
parar el nivel academico de dos estudiantes de diferentes Universidades para la concesion
de una beca de estudios, en principio sera injusto concederla directamente al que posea
una nota media mas elevada, ya que la dicultad para conseguir una buena calicacion
puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de
uno de los estudiante y favorece al otro. En este caso, lo mas correcto es comparar las
calicaciones de ambos estudiantes, pero estandarizados cada una de ellas por las medias
y desviaciones estandar respectivas de las notas de los alumnos de cada Universidad.
Ejemplo 1.11. Dada la distribucion de edades (medidas en a nos) en un colectivo de 100
personas, obtener:
a La variable estandarizada Z.
b Valores de la media y varianza de Z.
c Coeciente de variacion de Z.
Horas trabajadas N umero de Empleados
[L
i1
, L
i
[ f
i
[ 0 , 4 [ 47
[ 4 , 10 [ 32
[ 10 , 20 [ 17
[ 20 , 40 ] 4
Total 100
Solucion
Para calcular la variable estandarizada:
Z =
X X
S
17
Partimos de los datos del enunciado. Sera necesario calcular en primer lugar la media y
desviacion tpica de la variable original (X).
[L
i1
, L
i
[ m
i
f
i
m
i
f
i
m
2
i
h
i
[ 0 , 4 [ 2 47 94 188
[ 4 , 10 [ 7 32 224 1568
[ 10 , 20 [ 15 17 255 3825
[ 20 , 40 ] 30 4 120 3600
Total 100 693 9181
X =
693
100
= 6,93
S
2
X
=
9,181
100
6,93
2
= 43,78
S
X
=
43,78 = 6,6
A partir de estos valores podremos calcular los valores tipicados para las marcas de clase
de cada intervalo y construir su distribucion de frecuencias:
z
1
=
2 6,93
6,6
= 0,745
z
2
=
7 6,93
6,6
= 0,011
z
3
=
15 6,93
6,6
= 1,22
z
4
=
30 6,93
6,6
= 3,486
z
i
f
i
z
i
f
i
z
2
i
f
i
-0.745 47 -35.015 26.086
0.011 32 0.352 0.004
1.220 17 20.720 25.303
3.486 4 13.944 48.609
Total 100 0.021 100.002
Z =
0,021
100
0
S
2
Z
=
100,02
100
0
2
1
S
Z
=
1 = 1
A pesar de que no se debe calcular el coeciente de variacion sobre variables que presenten
valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el porque:
CV =
S
Z
Z
=
1
0
=
18
Es decir, el coeciente de variacion no debe usarse nunca con variables estandarizadas.
1.5. Asimetra y apuntamiento
Sabemos como calcular valores alrededor de los cuales se distribuyen las observaciones
de una variable sobre una muestra y sabemos como calcular la dispersion que ofrecen
los mismos con respecto al valor de central. Nos proponemos dar un paso mas alla en
el analisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se
distribuyen de forma simetrica con respecto a un valor central, o si bien la graca que
representa la distribucion de frecuencias es de una forma diferente del lado derecho que
del lado izquierdo.
Si la simetra ha sido determinada, podemos preguntarnos si la curva es mas o menos
apuntada (larga y estrecha). Este apuntamiento habra que medirlo comparado a cierta
distribucion de frecuencias que consideramos normal (no por casualidad es este el nombre
que recibe la distribucion de referencia).
Estas ideas son las que vamos a desarrollar en lo que resta del captulo.
1.5.1. Estadsticos de asimetra
Para saber si una distribucion de frecuencias es simetrica, hay que precisar con res-
pecto a que. Un buen candidato es la mediana, ya que para variables continuas, divide
al histograma de frecuencias en dos partes de igual area. Podemos basarnos en ella para,
de forma natural, decir que una distribucion de frecuencias es simetrica si el lado
derecho de la graca (a partir de la mediana) es la imagen por un espejo del lado izquierdo
(como la siguiente gura).
19
Cuando la variable es discreta, decimos que es simetrica, si lo es con respecto a la media.
Observacion
Se podra pensar que denir la simetra con usando la mediana para variables con-
tinuas y usando la media para variables discretas es una eleccion arbitraria. En
realidad esto no es as, pues si una variable es continua, coinciden los ambos criterios
de simetra (con respecto a la media y a la mediana). Es mas, se tiene que media y
mediana coinciden para distribuciones continuas simetricas. Por otro lado,
en el caso de variables discretas, la distribucion es simetrica si el lado derecho del
diagrama se obtiene por imagen especular desde la media. En este caso coincide la
media con la mediana si el n umero de observaciones es impar.
Si la variable es continua simetrica y unimodal, coinciden la media, la mediana y la
moda.
Dentro de los tipos de asimetra posible, vamos a destacar los dos fundamentales
(gura ):
Asimetra positiva:
Si las frecuencias mas altas se encuentran en el lado izquierdo de la media, mientras que
en derecho hay frecuencias mas peque nas (cola).
Asimetra negativa:
Cuando la cola esta en el lado izquierdo.
Cuando realizamos un estudio descriptivo es altamente improbable que la distribucion
de frecuencias sea totalmente simetrica. En la practica diremos que la distribucion de
frecuencias es simetrica si lo es de un modo aproximado. Por otro lado, a un observando
20
cuidadosamente la graca, podemos no ver claro de que lado estan las frecuencias mas
altas. Conviene denir entonces unos estadsticos que ayuden a interpretar la asimetra, a
los que llamaremos ndices de asimetra, y que denotaremos mediante A
s
. Vamos a denir
a continuacion algunos de los ndices de asimetra mas usuales como son el ndice basado
en los tres cuartiles, el momento de tercer orden y la distancia entre la moda y la media
o la media y la mediana.
1.5.2.
Indice basado en los tres cuartiles
Si una distribucion es simetrica, es claro que deben haber tantas observaciones entre
la que deja por debajo de s las tres cuartas partes de la distribucion y la mediana, como
entre la mediana y la que deja por debajo de s un cuarto de todas las observaciones. De
forma abreviada esto es,
Q
3
Q
2
= Q
2
Q
1
Una pista para saber si una distribucion de frecuencias es asimetrica positiva tendremos :
Q
3
Q
2
> Q
2
Q
1
Por analoga, si es asimetrica negativa, se tendra
Q
3
Q
2
< Q
2
Q
1
Para quitar dimensionalidad al problema, utilizamos como ndice de asimetra la cantidad:
A
s
=
(Q
3
Q
2
) (Q
2
Q
1
)
Q
3
Q
1
El n umero obtenido, A
s
, es invariante ante cambios de origen de referencia y de escala.
Otros indices de asimetra
21
Basandonos en que si una distribucion de frecuencias es simetrica y unimodal, entonces
la media, la mediana y la moda coinciden, podemos denir otras medidas de asimetra,
como son:
A
s
=
X M
o
S
O bien,
A
s
=
3(X M
ed
)
S
Diremos que hay asimetra positiva si A
s
> 0 y negativa si A
s
< 0 (vease la siguiente
gura).
Ejemplo 1.12. Las edades de un grupo de personas se reejan en la tabla siguiente:
[L
i1
, L
i
[ f
i
[ 7 , 9 [ 4
[ 9 , 11 [ 18
[ 11 , 12 [ 14
[ 12 , 13 [ 27
[ 13 , 14 [ 42
[ 14 , 15 [ 31
[ 15 , 17 [ 20
[ 17 , 19 ] 1
Determinar la variabilidad de la edad mediante los estadsticos varianza, desviacion estandar,
coeciente de variacion y rango intercuartlico. Estudie la simetra de la variable.
Solucion
En primer lugar realizamos los calculos necesarios a partir de la tabla de frecuencias:
22
[L
i1
, L
i
[ f
i
m
i
F
i
mf
i
m
2
i
f
i
[ 7 , 9 [ 4 8 4 32 256
[ 9 , 11 [ 18 10 22 180 1800
[ 11 , 12 [ 14 11.5 36 161 1851.5
[ 12 , 13 [ 27 12.5 63 337.5 4218.75
[ 13 , 14 [ 42 13.5 105 567 7654.5
[ 14 , 15 [ 31 14.5 136 449.5 6517.75
[ 15 , 17 [ 20 16 156 320 5120
[ 17 , 19 ] 1 18 157 18 324
Total 157 2065 27742.25
La media es X =
2065
157
= 13,15 a nos. La varianza la calculamos a partir de la columna de
la x
2
i
f
i
como sigue:
S
2
=
27742,25
157
13,15
2
= 3,78 a nos
2
S =