Professional Documents
Culture Documents
BIOESTADISTICA 2005
Medidas de
Posición y
Dispersión
14/10/08
La Estadística de Resumen
Después de construir tablas y gráficos, a partir
de una colección de datos, se requieren medidas
más exactas.
La estadística de resumen, proporciona medidas
para describir un conjunto de datos.
Existen dos tipos de medidas de resumen:
• De tendencia central.
• De dispersión.
14/10/08
Las medidas de posición
1. Reflejan la tendencia central y la localización de los
datos
2. Las medidas de tendencia central más importantes son la
media, la mediana y la moda.
Aritmética
Media Geométrica
Medidas de Mediana Armónica
tendencia central Moda
14/10/08
Principales medidas de
tendencia central
▼ Media Aritmética.
▼ Mediana.
▼ Moda.
▼ Cuantiles.
14/10/08
Media Aritmética
14/10/08
Definición
__ X1 + X2 + X3 +..........+ XN
X = ____________________________
N
14/10/08
Simbólicamente lo podemos
representar como:
∑Xi
µ = _______ N es el tamaño
N de la población
— ∑ Xi
X = _______ n es el tamaño
n de la muestra
14/10/08
Media Aritmética en datos
agrupados
fi es frecuencia
— ∑fi Xi absoluta simple.
X = ________
n Xi es una
marca de clase.
14/10/08
Propiedades de la Media
Aritmética
1. Es única, puede ser un valor positivo, cero o un valor
negativo.
14/10/08
Propiedades de la Media
Aritmética
4. La suma de las desviaciones de los datos con respecto a la
media es cero, es decir
N _
∑ ( xi - X) = 0
i=1
14/10/08
Ejemplo 1:
Los siguientes datos son edades de 10 madres que
asisten a un centro de salud en un día :
30, 43, 58, 61, 70, 42, 58, 39, 60, 55.
Ejemplo 2: 30,43,58,61,70,42,58,39
60,55,71,70,65,39,40,61
A continuación 65,56,38,57,49,61,69,43
se presenta las 46,69,44,59, 62,66
edades de 30
Tabla 1
personas con Edad fi Xi fi . Xi
cáncer pulmonar 30 - 36 1 33 33
que pasan a 37 - 43 7 40 280
consulta en el 44 - 50 3 47 141
Hospital María 51 - 57 3 54 162
Auxiliadora. 58 - 64 8 61 488
Lima. Julio 65 - 71 8 68 544
2004: Total 30 1648
PROCEDIMIENTO:
— ∑fi Xi 1648
X = ________ = ______ = 54.9
n 30
14/10/08
MEDIA GEOMETRICA
La media geométrica para un conjunto de
valores positivos: x1, x2, x3, ......xn, se define:
Mg = n x1, x2, x3, ......xn
50% | 50%
V. min. Me. V. máx.
14/10/08
Propiedades de la Mediana
14/10/08
MEDIANA EN DATOS NO
AGRUPADOS
▼ Se ordena los datos en forma ascendente o
descendente.
▼ Si el número de DATOS ES PAR, el valor de la
mediana va a estar dado por:
X N/2 + X (N/2 +1)
Me = _________________
2
14/10/08
Ejemplo:
Dado los valores: 11, 8, 13, 20, 14, 3, 7, 12. Hallar
la mediana
Ordenando ascendentemente: 3, 7, 8, 11, 12, 13, 14,
20.
POSICION:
N/2 = 4 Entonces X N/2 = 11
Me = 11 + 12 = 11.5
2
Por debajo de 11.5 existe un 50% de observaciones.
14/10/08
Mediana
▼ Si el número de DATOS ES IMPAR, el valor de la
mediana es el valor del centro.
Me = X (N+1)/2
14/10/08
Ejemplo:
Calcular la mediana dado los valores: 1, 9, 2,
6, 3, 5, 7 días.
Ordenando los valores: 1, 2, 3, 5, 6, 7, 9.
Posición:
(N+1)/2 = 4 entonces X (N+1)/2 = 5
Me = 5
Es decir por debajo de 5 existe un 50 % de
observaciones .
14/10/08
Mediana en datos agrupados.
Me = Li + (N/2 - Fi-1) x C
f Me
14/10/08
Ejemplo:
14/10/08
Procedimiento:
1. Calcular las frecuencias acumuladas Fi
2. Calcular N/2 = 40/2 = 20 sirve para detectar la clase
mediana.
3. Clase mediana: clase cuyo Fi excede a 20 (15 - 19)
4. De la clase mediana se obtiene:
L i = 14.5 Fi - 1 = 12 C = 5 fMe = 15 . Los valores
encontrados en (2), (3) y (4) lo reemplazamos en la
formula y se tiene:
Me = 14.5 + 20 - 12 x 5 Me = 17.17
15
Interpretación: El 50% de los puntajes están por debajo de
LA MODA
Se utiliza mayormente cuando la característica
en estudio se ha medido en escala nominal u
ordinal. La MODA es la observación que
mayormente se repite (observación más COMÚN)
Mo = 5
Propiedades de la Moda
14/10/08
Ejemplo:
Estado Civil fi
Soltero 30
Casado 60
Divorciado 10
Total 100
14/10/08
Ejemplo:Moda para datos agrupados
En una tabla de distribución de frecuencias es
aproximadamente la marca de clase o punto medio de la
clase que tiene la mayor frecuencia absoluta simple.
Variable fi
5-9 3
10 - 14 9
15 - 19 15
20 - 24 8
25 - 29 5
total 40
La moda estará ubicado en el intervalo:
Variable fi
14/10/08 15 - 19 15
Por lo tanto la marca de clase será:
Luego la Mo = 17.0
14/10/08
SIMETRÍA
▼ Cuando los datos de una población se
distribuyen con igual frecuencia y alejamiento por
debajo y por encima de la media aritmética, se
dice que la distribución es simétrica; pero, si los
datos por debajo de la media son más frecuentes
que aquellos por encima de la media, o viceversa,
se dice que la distribución es asimétrica.
14/10/08
SIMETRÍA
14/10/08
SIMETRÍA
14/10/08
LOS CUANTILES
▼ Deciles.
▼ Percentiles.
14/10/08
Cuartiles (Q).
Son aquellos que dividen a la distribución en cuatro partes iguales, en donde cada uno de
ellos incluye el 25% de las observaciones.
__25%_._25%__.__25%__.__25%__
Q1 Q2 Q3
Me
Las fórmulas para calcular los cuartiles son parecidas a la de la mediana, así:
Q1 = L1 + (N/4 - Fi-1) x C
fQ1
Q2 = Me
Q3 = Li + (3/4 N - F i-1) x C
fQ3
Donde:
Li = Limite real inferior de la clase que contiene el Q1 ó Q3 .
Fi-1 = frecuencia absoluta acumulada de la clase anterior a la que contiene a Q1 ó Q3
fQ1 ó fQ3 = frecuencia absoluta de la clase que contiene el Q1 ó Q3
C = ancho de la clase que contiene el Q1 ó Q3
14/10/08
DECILES (D)
Son aquellos que dividen a la distribución en diez partes iguales en donde cada uno de ello
incluye el 10% de las observaciones
_10%_._10%_.10%_._10%_._10%_._10%_._10%_._10%_._10%_._10%_
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Me
Las formulas son también similares a las de Q1 , Q3 Así:
D1 = Li + (N/10 - F i-1 ) x C
fD1
D5 = Me
D7 = Li + (7/10 N - F i-1 ) x C
fD7
Donde:
Li = Limite real inferior de la clase que contiene el D1 ó D7 .
Fi-1 = frecuencia absoluta acumulada de la clase
anterior a la que contiene a D1 ó Q7
fD1 ó fD7 = frecuencia absoluta de la clase que contiene el D1 ó D7
C = ancho de la clase que contiene el D1 ó D7
14/10/08
PERCENTILES (P)
Son aquellos que dividen a la distribución en cien partes iguales en donde cada
uno de ello incluye el 1% de las observaciones:
67 - 70 70 200
71 - 74 40 240
75 - 78 10 250
Total 250
Procedimiento:
1. Calcular las frecuencias acumuladas F
2. Calcular la posición de Q3: 3N/4 = 3(250) / 4 = 187.5
3. Clase que contiene a Q3: es la clase cuyo Fi excede a 187.5 y que corresponde
al intervalo 67 - 70
14/10/08
4. Limite real inferior de la clase que contiene a Q3 es Li = 66.5
5. Frecuencia absoluta acumulada anterior a la clase que contiene a Q3 es:
Fi-1 = 130
6. Frecuencia absoluta de la clase que contiene a Q3 es: fQ3= 70
Q3 = 66.5 + 187.5 - 30 x 4
70
Q3 = 69.8
Por consiguiente , se tiene que el 75% de los valores están por debajo
de 69.8 puntos y el 25% de los valores están por encima de 69.8
Q3 = 69.8
14/10/08
Percentiles para datos no
agrupados
Se determina el percentil k (Pk) de acuerdo a lo siguiente
(valor de la posición):
▼ Si k(n+1)/100 es un entero
14/10/08
Recordar:
▼ Q1 = P25
▼ Q2 = Mediana = P50
▼ Q3 = P75
14/10/08
14/10/08
Medidas de dispersión
Dr. Luis Roble Aleman.
Las medidas de dispersión
14/10/08
Medidas de dispersión
14/10/08
MEDIDAS QUE CALCULAN LA
DISPERSION
▼ RANGO ( Amplitud Total )
Es la medida más simple de dispersión
14/10/08
LA VARIANZA
14/10/08
Definición:
Si tenemos N datos X1, X2, X3, ...., XN . La varianza de
estos datos se define como:
__
∑ ( Xi _ X )2
V(x) = ____________
N
14/10/08
Varianza Poblacional
(∑ Xi)2
∑ Xi2 _ __________
N
V( x ) = ________________________
N
14/10/08
Varianza Muestral
(∑ xi)2
∑ xi2 _ __________
n
v(x ) = ________________________
n-1
14/10/08
EJEMPLO
Consideremos los siguientes datos de una
muestra :
4, 7, 8, 3, 5, 9, 10, 2.
__ 4+7+8+....+ 2
X = ____________ = 6
8
14/10/08
Ejemplo:
Se tiene la siguiente distribución de frecuencias:
Variable fi Xi fi . Xi fi . Xi2
55-58 20 56.5 1130 63845
59-62 30 60.5 1815 109807.5
63-66 80 64.5 5160 332820
67-70 70 68.5 4795 328457.5
71-74 40 72.5 2900 210250
75-78 10 76.5 765 5852.25
total 250 16565 1051032.25
14/10/08
FORMULA PARA DATOS
AGRUPADOS
(∑fi Xi)2
∑fi Xi2 _ __________
N
V( x ) = ________________________
N
14/10/08
RESULTADOS
(16565)2
1051032.25 - _________
250
V(x) = _______________________
250
= 186.26
14/10/08
DESVIACION ESTANDAR
14/10/08
El coeficiente de variación
Es una medida relativa de variabilidad de los datos entre la media y la
desviación estándar de una población o muestra. Permite comparar la
variabilidad de dos o más conjuntos de datos expresados en unidades
diferentes (por ejemplo peso en Kg. y libras).
para la población: σ
CV = ×100
µ
14/10/08
EJEMPLO:
Supongamos que de dos poblaciones se han obtenido los siguientes
datos:
Grupo 1 Grupo 2
__
Edad X = 25 años 11 años
__
Peso X = 72.5 Kgs. 40 Kgs
σ = 5 Kgs. 5 Kgs.
N = 15 15
¿Que grupo es más homogéneo o menos variable en relación al peso?
14/10/08
Grupo 1 Grupo 2
5 5
C.V = ______. 100 C.V = _____.100
72.5 40
= 6.9% = 12.5%
La muestra 1 posee menos dispersión de los pesos con
respecto a la media en relación a las muestra 2.
14/10/08
CONSIDERACIONES
SI:
14/10/08
RANGO
INTERCUARTILICO
Se define como:
R.I. (Q) = Q3 - Q1
Q1 es el primer cuartil
Q3 es el tercer cuartil
14/10/08
▼ El rango es una medida apropiada para
datos numéricos cuando el propósito es
enfatizar valores extremos.
▼ El coeficiente de variación es útil cuando la
intención es comparar dos distribuciones
numéricas medidas en escalas diferentes.
14/10/08
El “Boxplot” (Diagrama de
Caja)
▼ Al igual que el histograma y los gráficos de
Tallo y Hoja permite tener una idea visual
de la distribución de los datos (simetría y
variabilidad)
▼ Permite detectar outliers (valores extremos).
▼ Permite comparar la media y la variabilidad
de varios grupos (alternativa gráfica a
pruebas estadísticas)
14/10/08
Boxplot: Procedimiento
14/10/08
Boxplot: Procedimiento
14/10/08
2( n + 1) n + 1
= =
4 2
3(n + 1)
=
4
BoxPlot: Ejemplo
14/10/08
BoxPlot: Ejemplo
Proceso:
Q1 =13 Q2= 27.5 Q3 = 47
RIC = 47 – 13 = 34
Q3+1.5xRIQ = 47 + (1.5)(34)= 98
Q1-1.5xRIQ = 13 – (1.5)(34) = -38
Como no hay “outliers” o valores extremos,
entonces las líneas laterales de la caja llegan
hasta el valor minimo por abajo, y hasta el valor
maximo por arriba
14/10/08
BoxPlot: Ejemplo
50
40
30
Datos
20
10
14/10/08
MEDIDAS DE RESUMEN NUMÉRICO
PARA VARIABLES CUALITATIVAS
▼ Proporción
▼ Tasa
14/10/08
RAZON
Es la comparación por cociente entre dos cifras de
diferentes o similar naturaleza en donde el numerador y el
denominador son excluyentes.
Por ejemplo, si tenemos 380 camas hospitalarias y 95
enfermeras y queremos encontrar la razón entre ellas,
tenemos que dividir:
14/10/08
TASA
14/10/08
Muchas gracias.
14/10/08