Professional Documents
Culture Documents
Medidas de dispersin:
/X-X/
DESVIACIN MEDIA DM =
Donde:
/ / Valor absoluto
No se consideran los signos de las desviaciones respecto de la media dado que las
desviaciones positivas y negativas se compensaran exactamente y la desviacin media
siempre sera cero. Cero es un dato estadstico intil.
Dos ventajas:
Fcil de comprender pues es el promedio en que los valores se desvan con respecto a la
media.
Desventaja:
ESTADISTICA 1
El uso de valores absolutos.
"(X - )2
2=
Donde:
( X - )2
( X - X )2
Variancia Muestral s2 =
n-1
Donde:
X media de la muestra
( X - X )2 = X2 - (X)2/ n
X2 - (X)2/ n
s2 =
n-1
X2 - (X)2/ n
s=
n-1
fX2 - (fX)2/ n
s=
n-1
Donde:
f frecuencia de clase
La desviacin estndar se emplea como una medida para comparar la dispersin en dos
o ms conjuntos de observaciones.
Forma grfica:
Curva simtrica de campana que muestra las relaciones entre la desviacin estndar y la
media
68%
95%
99,7%
Dispersin Relativa:
Los datos estn en la mismas unidades, pero las medias muy distantes (ingresos de
superiores e ingresos de empleados).
ESTADISTICA 4
s
CV = (100)
Karl Pearson desarroll tb una medida para evaluar el grado de orientacin al sesgo,
denominada coeficiente de asimetra (CA):
3 (media - mediana)
CA =
Desviacin Estndar
o Los centiles se utilizan para reportar resultados acerca de ciertas pruebas nacionales
estandarizadas, empleado para calificar la admisin a programas.
Mediana
Q1 Q3
ESTADISTICA 5
La distancia entre los extremos de la caja se denomina amplitud
cuartlica (o intercuartlica). Dicho intervalo es la distancia entre el primero y el tercer
cuartiles.
Se indican dos asteriscos (**) . Uno indica n dato impropio. Un dato incongruente es
un valor inconsciente con el resto de los datos. Es como aquel valor que ms de 1,5
veces el valor de la amplitud intercuartlica, mayor que Q3 o bien, menor que Q1.
RANGO O RECORRIDO.
Es la diferencia entre dos valores entre los dos valores extremos mximo y mnimo.
Evidentemente, la dispersin de los datos ser tanto mayor, cuando mayor sea el
recorrido.
El rango recorrido no es una buena medida de dispersin, puesto que basta que un dato
se aleje mucho de la media para que el rango recorrido resulte muy afectado, ya que
nicamente depende de dos valores, sin que influyan para nada los datos distantes
DESVIACION MEDIA
Para conocer con un solo indicador que tan disperso se encuentran un conjunto de datos
a un punto de concentracin, debemos como primera medida, calcular la distancia de
cada dato respecto a una medida de tendencia central. Por ejemplo:
4 5 3
5 3 2
2 2 2
3 5 1
ESTADISTICA 6
4 1 4
Note que el tercer dato (3) posee una distancia de 0,0667 hacia la izquierda de la media.
Para indicar las distancias de estos puntos, agregaremos el signo negativo, por tanto, la
distancia del tercer dato sera 0,0667. La representacin grfica de todos los puntos
quedara:
El total de las distancias de los puntos que estn a la izquierda respecto a la media es de
-8,6 (empleando todos los decimales), que es igual a la sumatoria de las distancias de
los puntos que estn a la derecha respecto a la media 8,6. Concluimos que la sumatoria
de todas las distancias de cada punto respecto a la media aritmtica es igual a cero (las
distancias se anulan):
Para responder a la pregunta de qu tan disperso estn los datos respecto a la media
aritmtica?, recurriremos nuevamente al promedio simple. Para llegar a una frmula
bsica de dispersin, en que las distancias positivas y negativas no se eliminen,
modificaremos la frmula anterior para trabajar solo con distancias positivas mediante
el valor absoluto:
ESTADISTICA 7
Se debe hacer la distincin que para datos poblacionales (no agrupados), la frmula
quedara:
La variacin para los datos agrupados en tablas tipo B radica en cambiar el valor de
Xi por la marca de clase correspondiente, multiplicando esa distancia por su frecuencia:
Para las tablas tipo A solo cambiaremos la marca de clase por su respectivo valor de
clase (representada por Xi):
Tres alumnos son sometidos a una competencia para probar sus conocimientos en 10
materias diferentes, cada una sustentada con 10 preguntas. La idea del concurso es
encontrar al alumno ms idneo para representar al colegio en un torneo a nivel
nacional.
1 2 7 5
2 9 2 6
3 10 2 5
4 2 6 5
ESTADISTICA 8
5 3 6 5
6 1 3 5
7 9 6 4
8 9 7 5
9 1 6 6
10 4 5 4
SOLUCIN
Lo primero que analizaremos es la media de los puntajes para cada uno de los alumnos,
con el fin de determinar el alumno con mayor promedio de preguntas buenas.
Las medias para los resultados de los alumnos coinciden: los tres alumnos tienen
responden en promedio 5 preguntas correctas por prueba. Cul sera entonces el
indicador diferenciador entre los alumnos?.
Carlos muestra una desviacin media de 3,9 indicando que los datos se alejan en
promedio de la media en 3,9 preguntas buenas. Pedro disminuye su variacin (2,9),
siendo Juan el que menos variacin presenta con 0,9 preguntas tanto por arriba como
por debajo de la media aritmtica. Se recomienda al colegio elegir como ganador en este
caso a Juan, presenta resultados ms constantes que los otros dos alumnos, Juan en
promedio acierta 5 preguntas buenas con una variacin muy baja (rondando entre 4 y 6).
Una maquina dispensadora de gaseosas est programada para llenar un envase con 350
c.c. de un refresco popular. A partir de una muestra de prueba realizada sobre 30 envases
se realiz la siguiente tabla de frecuencia:
ESTADISTICA 9
Ni Lm Ls F Mc
Total 30
SOLUCIN
1
ESTADISTICA
0
Presentaremos el clculo de la desviacin media en Excel tanto para datos sin agrupar,
como para los datos agrupados en tablas de frecuencias. Copiemos los siguientes datos a
partir de la celda B2.
Excel cuenta con la funcin DESVPROM para el clculo de la desviacin media para
datos sin agrupar.
Categora: Estadsticas
Activemos esta funcin en la celda B9, sealando el rango de celdas B2:F7 en el campo
nmero1.
Copiemos la siguiente tabla de frecuencia en una hoja nueva en Excel (es la misma
utilizada en el ejemplo 5.1.2).
El primer paso es calcular la media aritmtica para datos agrupados con ayuda de la
funcin SUMAPRODUCTO (ver el ejemplo dado en el punto 4.1.7), aplicado sobre las
frecuencias y marcas de clases.
1
ESTADISTICA
1
ABS: Devuelve el valor absoluto de un nmero.
Esta funcin posee un nico campo (nmero) el cual contendr, la distancia entre la
marca de clase y la media. Para el primer intervalo de clase tendramos:
Para poder arrastrar la frmula, debemos recordar que la celda B11 no vara (la media
aritmtica es una sola), ubicndonos sobre las letras B11 en modo de edicin y luego
pulsando la tecla F4.
El resultado final, despus de haber arrastrado la frmula, debera verse como sigue:
VARIANZA
1
ESTADISTICA
2
Hay que tener en cuenta que la varianza puede verse muy influida por los valores
atpicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias
tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin
ms robustas.
DEFINICIN DEVARIANZA
La nocin de varianza se suele emplear en el mbito de la estadstica. Se trata de una
palabra impulsada por el matemtico y cientfico ingls Ronald Fisher (18901962) y
sirve para identificar a la media de las desviaciones cuadrticas de una variable de
carcter aleatorio, considerando el valor medio de sta.
La varianza de las variables aleatorias, por lo tanto, consiste en una medida vinculada a
su dispersin. Se trata de la esperanza del cuadrado de la desviacin de esa variable
considerada frente su media y se mide en una unidad diferente. Por ejemplo: en los
casos en que la variable mide una distancia en kilmetros, su varianza se expresa en
kilmetros al cuadrado.
Cabe destacar que las medidas de dispersin (tambin identificadas con el nombre
de medidas de variabilidad) se encargan de expresar la variabilidad de una distribucin
por medio de un nmero, en los casos en que las diferentes puntuaciones de la variable
estn muy alejadas de la media. A mayor valor de la medida de dispersin, mayor
variabilidad. En cambio, a menor valor, ms homogeneidad.
Lo que hace la varianza es establecer la variabilidad de la variable aleatoria. Es
importante tener en cuenta que, en ciertos casos, es preferible emplear otras medidas de
dispersin ante las caractersticas de las distribuciones.
Se denomina varianza muestral cuando se calcula la varianza de una comunidad, grupo
o poblacin en base a una muestra. La covarianza, por otra parte, es la medida de
dispersin conjunta de un par de variables.
Los expertos hablan de anlisis de la varianza para nombrar a la coleccin de modelos
estadsticos y sus procedimientos asociados en la cual la varianza aparece particionada
en distintos componentes
1
ESTADISTICA
3
CMO CALCULAR LA VARIANZA
En la mayora de los casos, los estadsticos solo tienen acceso a una muestra o a un
subconjunto de la poblacin que van a analizar. Por ejemplo, en vez de analizar la
poblacin "costo de todos los autos de Alemania", un estadstico averiguara el costo de
una muestra aleatoria de unos pocos miles de autos. De este modo podra basarse en esa
muestra para obtener una estimacin aproximada del costo de los autos en Alemania,
aunque es posible que no coincida con el valor exacto.
Ejemplo: analizando la cantidad de panquecitos que se venden todos los das en una
cafetera, tomas una muestra de seis das aleatorios y obtienes los siguientes
resultados: 17, 15, 23, 7, 9, 13. Esta es una muestra, no la poblacin, ya que no tienes
los datos de todos y cada uno de los das en los cuales ha estado abierta la cafetera.
Si tienes todos los puntos de datos de una poblacin, contina con el prximo
mtodo.
1. ANOTA LA FRMULA DE LA VARIANZA DE UNA MUESTRA.
La varianza de un conjunto de datos te indica qu tan dispersos estn los puntos de
datos. Mientras ms cerca de cero est la varianza, ms cercanos estarn entre s los
puntos de datos. Cuando vayas a trabajar con muestras de conjuntos de datos, utiliza la
siguiente frmula para calcular la varianza:[3]
o = [( - xx)]/(n - 1)
o es la varianza. La varianza siempre se mide en unidades elevadas al
cuadrado.
o representa un trmino de tu conjunto de datos.
o , que significa "sumatoria", te indica que debes calcular los siguientes
trminos para cada valor de y luego sumarlos a todos.
x
o x es la media de la muestra.
1
ESTADISTICA
4
o n es la cantidad de puntos de datos.
x
CALCULA LA MEDIA DE LA MUESTRA. xEl smbolo x o "x barra" se
refiere a la media de la muestra.[4] Calclala como lo calcularas cualquier media: suma
todos los puntos de datos, luego divdela por la cantidad de puntos de datos.
o Por ejemplo: primero suma todos los puntos de datos: 17 + 15 + 23 + 7 +
9 + 13 = 84
A continuacin, divide la respuesta por la cantidad de puntos de datos, en este caso, seis:
84 6 = 14.
x
xMedia de la muestra = x = 14 .
o Puedes pensar en la media como el "punto central" de los datos. Si los
datos se agrupan cerca de la media, entonces la varianza ser baja. Si se encuentran
esparcidos lejos de la media, la varianza ser alta.
PROPIEDADES DE LA VARIANZA
1 La varianza ser siempre un valor positivo o cero, en el caso de que las puntuaciones
sean iguales.
2 Si a todos los valores de la variable se les suma un nmero la varianza no vara.
3 Si todos los valores de la variable se multiplican por
un nmero la varianza queda multiplicada por el cuadrado de dicho nmero.
4 Si tenemos varias distribuciones con la misma media y conocemos sus
respectivas varianzas se puede calcular la varianza total.
DESVIACIN TPICA
1
ESTADISTICA
5
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de
tendencia central, sino que necesitamos conocer tambin la desviacin que presentan los
datos en su distribucin respecto de la media aritmtica de dicha distribucin, con
objeto de tener una visin de los mismos ms acorde con la realidad al momento de
describirlos e interpretarlos para la toma de decisiones. La desviacin tpica es la raz
cuadrada de la varianza. Es decir, la raz cuadrada de la media de los cuadrados de las
puntuaciones de desviacin. La desviacin tpica se representa por .
9, 3, 8, 8, 9, 8, 9, 18
Ejercicio 2:
Calcular la desviacin tpica de la distribucin de la tabla:
xi fi xi fi xi2 fi
1
ESTADISTICA
6
[30,40) 35 10 350 12 250
42 1 820 88 050
1
ESTADISTICA
7
CALCULO DE DESVIACIN TPICA
Se ha preguntado a un grupo de personas el nmero de veces que han ido al cine en el
ltimo trimestre. Las respuestas se recogen en la siguiente tabla:
veces: 0 1 2 3 4 5
personas: 2 20 41 26 9 2
Para realizar los clculos con mayor facilidad construiremos una tabla de frecuencias
donde xi ser el nmero de veces, la variable a estudiar, y fi la frecuencia con que ocurre
dicha variable, es decir el nmero de personas que van al cine cero, una, dos... veces al
ao. Al lado construimos las columnas correspondientes al producto de fi por xi, es
decir fi xi,
es decir fi xi2
1
ESTADISTICA
8
MOMENTOS RESPECTO DEL ORIGEN
k=0
k=1
a este primer momento respecto al origen que es igual al valor esperado se le llama
tambin media aritmtica de la variable y se le denomina X, simplemente .
1
ESTADISTICA
9
El valor esperado de z(x) es el k-simo momento de la variable X respecto a la
media y se llama k.
k=0
k=1
k=2
EJEMPLO:
2
ESTADISTICA
0
La varianza de una variable mide la dispersin de sus valores respecto al
valor central .
2
ESTADISTICA
1
En este contexto de la medida de la variacin se plantea el problema de
medir la variacin conjunta de variables de variables asociadas.
2
ESTADISTICA
2
cov(x,y) = 0 cov(x,y) > 0 cov(x,y) < 0
Se puede deducir, algebraicamente, un medio ms sencillo para calcular
la covarianza de dos variables.
Propiedades de la varianza
2
ESTADISTICA
3
Si X es una variable aleatoria con funcin de probabilidad o densidad
f(x), la varianza de una funcin de la variable X , m(x) , se calcula segn la
expresin:
Casos concretos:
2. Cuando a todos los valores de una variable se les multiplica por una
constante, la varianza de la variable queda multiplicada por el valor
de la constante elevado al cuadrado (ver imagen en las propiedades
de la media)
En el caso de que a = b = 1
2
ESTADISTICA
4
Volviendo al tema de los momentos respecto al origen, veamos los dos
siguientes que tambin son interesantes,
k=3
= asimetra
2
ESTADISTICA
5
k=4 = curtosis
2
ESTADISTICA
6
g2 = 0 g2 > 0 g2 < 0
1. ASIMETRA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmtica). La asimetra presenta tres estados
diferentes [Fig.5-1], cada uno de los cuales define de forma concisa como estn
distribuidos los datos respecto al eje de asimetra. Se dice que la asimetra es positiva
cuando la mayora de los datos se encuentran por encima del valor de la media
aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como asimetra negativa
cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.
Figura 5-1
Ecuacin 5-9
Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada uno de los
valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de
Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia
que separa la aglomeracin de los valores con respecto a la media.
2. CURTOSIS
Esta medida determina el grado de concentracin que presentan los valores en la regin
central de la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentracin de valores (Leptocrtica), una concentracin normal
(Mesocrtica) una baja concentracin (Platicrtica).
Figura 5-2
Ecuacion 5-10
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta frmula se
interpretan:
2
ESTADISTICA
8
(g2 < 0) la distribucin es Platicrtica
Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g1 = 0.5) y
un coeficiente de Curtosis de (g2 = 0.5), se le denomina Curva Normal. Este criterio es
de suma importancia ya que para la mayora de los procedimientos de la estadstica de
inferencia se requiere que los datos se distribuyan normalmente.
Figura 5-3
Desde luego, los conceptos vistos hasta aqu, son slo una pequea introduccin a las
principales medidas de Estadstica Descriptiva; es de gran importancia que los lectores
profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el
desconocimiento de los conceptos estadsticos.
Las definiciones plasmadas en este captulo han sido extradas de los libros Estadstica
para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro
Estadstica y Muestreo escrito por Ciro Martnez editorial Ecoe editores (Octava
edicin). No necesariamente tienes que guiarte por estos libros ya que en las libreras
encontraras una gran variedad de textos que pueden ser de bastante utilidad en la
introduccin a esta ciencia
2
ESTADISTICA
9
ndice de simetra de Pearson:
3
ESTADISTICA
0
puntiaguda que la anterior. Hay una mayor concentracin de los datos en torno a la
media.
asimetra
3
ESTADISTICA
1
k=4 = curtosis
g2 = 0 g2 > 0 g2 < 0
3
ESTADISTICA
2
Definicin
Las medidas de asimetra son indicadores que permiten establecer el grado de simetra
(o asimetra) que presenta una distribucin de probabilidad de una variable aleatoria sin
tener que hacer su representacin grfica.
Como eje de simetra consideramos una recta paralela al eje de ordenadas que pasa por
la media de la distribucin. Si una distribucin es simtrica, existe el mismo nmero de
valores a la derecha que a la izquierda de la media, por tanto, el mismo nmero de
desviaciones con signo positivo que con signo negativo. Decimos que hay asimetra
positiva (o a la derecha) si la "cola" a la derecha de la media es ms larga que la de la
izquierda, es decir, si hay valores ms separados de la media a la derecha. Diremos que
hay asimetra negativa (o a la izquierda) si la "cola" a la izquierda de la media es ms
larga que la de la derecha, es decir, si hay valores ms separados de la media a la
izquierda.
Medidas de asimetra
Si 1 = 0, la distribucin es simtrica.
3
ESTADISTICA
3
Slo se puede utilizar en distribuciones uniformes, unimodales y moderadamente
asimtricas. Se basa en que en distribuciones simtricas la media de la distribucin es
igual a la moda.
La asimetra resulta til en muchos campos. Muchos modelos simplistas asumen una
distribucin normal, esto es, simtrica en torno a la media. La distribucin normal tiene
una asimetra cero. Pero en realidad, los valores no son nunca perfectamente simtricos
y la asimetra de la distribucin proporciona una idea sobre si las desviaciones de la
media son positivas o negativas. Una asimetra positiva implica que hay ms valores
distintos a la derecha de la media.
Las medidas de asimetra, sobre todo el coeficiente de asimetra de Fisher, junto con las
medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que
una distribucin estadstica sigue la distribucin normal. Esto es necesario para realizar
numerosos contrastes estadsticos en la teora de inferencia estadstica.
1) ASIMETRA
Es una medida de forma de una distribucin que permite identificar y describir la
manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen
dentro de la distribucin. Permite identificar las caractersticas de la distribucin de
datos sin necesidad de generar el grfico.
1.1) TIPOS DE ASIMETRA
La asimetra presenta las siguientes formas:
3
ESTADISTICA
4
Asimetra Negativa o a la Izquierda.- Se da cuando en una distribucin la minora de los
datos est en la parte izquierda de la media. Este tipo de distribucin presenta un
alargamiento o sesgo hacia la izquierda, es decir, la distribucin de los datos tiene a la
izquierda una cola ms larga que a la derecha. Tambin se dice que una distribucin es
simtrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmtica es
menor que la mediana y ste valor de la mediana a su vez es menor que la moda, en
smbolos
Donde:
= media aritmtica.
Md = Mediana.
s = desviacin tpica o estndar.
3
ESTADISTICA
5
Nota:
El Coeficiente de Pearson vara entre -3 y 3
Si As < 0 ? la distribucin ser asimtrica negativa.
Si As = 0 ? la distribucin ser simtrica.
Si As > 0 ? la distribucin ser asimtrica positiva.
Medida de Yule Bowley o Medida Cuartlica
Donde:
= Cuartil uno; = Cuartil dos = Mediana; = Cuartil tres.
Nota:
La Medida de Bowley vara entre -1 y 1
Si As < 0 ? la distribucin ser asimtrica negativa.
Si As = 0 ? la distribucin ser simtrica.
Si As > 0 ? la distribucin ser asimtrica positiva.
Medida de Fisher
Para datos sin agrupar se emplea la siguiente frmula:
Donde:
= cada uno de los valores; n = nmero de datos; = media aritmtica; f = frecuencia
absoluta
= cubo de la desviacin estndar poblacional; xm = marca de clase
Nota:
Si As < 0 ?Indica que existe presencia de la minora de datos en la parte izquierda de la
media, aunque en algunos casos no necesariamente indicar que la distribucin sea
asimtrica negativa
3
ESTADISTICA
6
Si As = 0 ? la distribucin ser simtrica
Si As > 0 ? Indica que existe presencia de la minora de datos en la parte derecha de la
media, aunque en algunos casos no necesariamente indicar que la distribucin sea
asimtrica positiva
Ejemplo ilustrativo:
Calcular el Coeficiente de Pearson, Medida Cuartlica y la Medida de Fisher dada la
siguiente distribucin: 6, 9, 9, 12, 12, 12, 15 y 17
Solucin:
Calculando la media aritmtica se obtiene:
6 9 9 12 12 12 15 17
3
ESTADISTICA
7
Calculando el Coeficiente de Pearson se obtiene:
Datos
6 -166,375
9 -15,625
9 -15,625
12 0,125
12 0,125
12 0,125
15 42,875
17 166,375
Total 12
3
ESTADISTICA
8
Los clculos en Excel se muestran en la siguiente figura:
3
ESTADISTICA
9
2.2) MEDIDAS DE CURTOSIS
Medida de Fisher
Para datos sin agrupar se emplea la siguiente frmula:
Nota:
Si < 0,263 ? la distribucin es platicrtica
4
ESTADISTICA
0
Si = 0,263 ? la distribucin es normal o mesocrtica
Datos
6 915,0625
9 39,0625
9 39,0625
12 0,0625
12 0,0625
12 0,0625
15 150,0625
17 915,0625
Total 2058,5
4
ESTADISTICA
1
Para calcular los cuartiles y percentiles se ordena los datos de menor a mayor:
6 9 9 12 12 12 15 17
4
ESTADISTICA
2
EJEMPLO
4
ESTADISTICA
3