You are on page 1of 73

14/10/08

BIOESTADISTICA 2005

Medidas de
Posición y
Dispersión

DR. LUIS ROBLE ALEMAN


Objetivo:

Al término de la clase el estudiante estará en


condiciones de calcular, interpretar y saber
usar las medidas de posición y dispersión.

14/10/08
La Estadística de Resumen
Después de construir tablas y gráficos, a partir
de una colección de datos, se requieren medidas
más exactas.
La estadística de resumen, proporciona medidas
para describir un conjunto de datos.
Existen dos tipos de medidas de resumen:
• De tendencia central.
• De dispersión.

14/10/08
Las medidas de posición
1. Reflejan la tendencia central y la localización de los
datos
2. Las medidas de tendencia central más importantes son la
media, la mediana y la moda.
Aritmética
Media Geométrica
Medidas de Mediana Armónica
tendencia central Moda

3. También es útil conocer las medidas de localización:


percentiles (o fractiles). Estas nos indican el lugar de los
datos más frecuentes.
14/10/08
Medidas de tendencia central

Las medidas de tendencia central


(denominadas también promedios) permiten
hallar un solo valor numérico alrededor del
cual los datos parecen agruparse de cierta
manera, como si fuera el “centro de
gravedad de los datos”. Debido a estas
circunstancias, suelen ser llamados de
POSICIÓN O TENDENCIA CENTRAL.

14/10/08
Principales medidas de
tendencia central
▼ Media Aritmética.
▼ Mediana.

▼ Moda.

▼ Cuantiles.

14/10/08
Media Aritmética

Es un valor representativo de un conjunto


de datos que se está estudiando y
caracteriza a toda una distribución. Se le
conoce también como promedio. En su
cálculo intervienen todo los valores que se
están estudiando.

14/10/08
Definición

Si tenemos N datos representados por: x1,


x2, x3, ......xN. La media aritmética de estos
N datos está dado por:

__ X1 + X2 + X3 +..........+ XN
X = ____________________________
N

14/10/08
Simbólicamente lo podemos
representar como:
∑Xi
µ = _______ N es el tamaño
N de la población

— ∑ Xi
X = _______ n es el tamaño
n de la muestra

14/10/08
Media Aritmética en datos
agrupados

fi es frecuencia
— ∑fi Xi absoluta simple.
X = ________
n Xi es una
marca de clase.

14/10/08
Propiedades de la Media
Aritmética
1. Es única, puede ser un valor positivo, cero o un valor
negativo.

2. Si a los valores que estudiamos le sumamos o restamos una


constante, el valor de la nueva media quedaría como la
media aritmética de los datos originales más o menos la
constante que se ha agregado.

3. Si a cada valor de la serie le multiplicamos por una


constante, la nueva media aritmética sería igual a la media
aritmética original multiplicada por la constante.

14/10/08
Propiedades de la Media
Aritmética
4. La suma de las desviaciones de los datos con respecto a la
media es cero, es decir
N _
∑ ( xi - X) = 0
i=1

5. Como incluye todos los datos, puede estar afectado por


valores extremos.

7. Es usada para variables medidas en escala de intervalo o


de razón.

14/10/08
Ejemplo 1:
Los siguientes datos son edades de 10 madres que
asisten a un centro de salud en un día :
30, 43, 58, 61, 70, 42, 58, 39, 60, 55.

La edad promedio de estas madres será:


— 30 + 43 + 58 + ..... + 55 516
X = _____________________ = _____ = 51.6 años
10 10

En promedio los valores de edad de las 10 madres


es 51.6 años.
14/10/08
14/10/08

Ejemplo 2: 30,43,58,61,70,42,58,39
60,55,71,70,65,39,40,61
A continuación 65,56,38,57,49,61,69,43
se presenta las 46,69,44,59, 62,66
edades de 30
Tabla 1
personas con Edad fi Xi fi . Xi
cáncer pulmonar 30 - 36 1 33 33
que pasan a 37 - 43 7 40 280
consulta en el 44 - 50 3 47 141
Hospital María 51 - 57 3 54 162
Auxiliadora. 58 - 64 8 61 488
Lima. Julio 65 - 71 8 68 544
2004: Total 30 1648
PROCEDIMIENTO:
— ∑fi Xi 1648
X = ________ = ______ = 54.9

n 30

En promedio los valores de la edad de


los 30 pacientes es de 54.9 años.

14/10/08
MEDIA GEOMETRICA
La media geométrica para un conjunto de
valores positivos: x1, x2, x3, ......xn, se define:
Mg = n x1, x2, x3, ......xn

▼ Si se trata de calcular la Mg de más de dos valores, y no se


dispone de una calculadora científica o computadora lo
preferible es tomar logaritmo de cada miembro y se tendría:
∑logXi
Log Mg = ________
n
14/10/08
Ejemplo: Supongamos que un conteo
bacterial se incrementa de la siguiente
manera en 6 dìas:
xi : 3, 9, 27, 81, 243 y 729
Calcular e interpretar la Mg:
Calculamos logaritmos en base 3. Se tiene:
Log3xi : 1, 2, 3, 4, 5 y 6
21

Luego: Log3 Mg = = 3.5 Mg = 3 3.5 = 47


6
El promedio
14/10/08
de número de bacterias contado en 6dìas es 47.
MEDIANA ( Me )

La mediana es un valor que divide a la


distribución ordenada en forma
ascendente o descendente en dos grupos
iguales.

50% | 50%
V. min. Me. V. máx.

14/10/08
Propiedades de la Mediana

1. Es única , existe solamente una mediana para un conjunto de


datos.

2. Los valores extremos no tienen efectos importantes sobre la


mediana.

3. Se aplica también a variables que pertenecen a la escala


ordinal.

4. Es muy variable de muestra a muestra.

14/10/08
MEDIANA EN DATOS NO
AGRUPADOS
▼ Se ordena los datos en forma ascendente o
descendente.
▼ Si el número de DATOS ES PAR, el valor de la
mediana va a estar dado por:
X N/2 + X (N/2 +1)
Me = _________________
2
14/10/08
Ejemplo:
Dado los valores: 11, 8, 13, 20, 14, 3, 7, 12. Hallar
la mediana
Ordenando ascendentemente: 3, 7, 8, 11, 12, 13, 14,
20.
POSICION:
N/2 = 4 Entonces X N/2 = 11

N/2 + 1 = 5 Entonces X (N/2 +1) = 12

Me = 11 + 12 = 11.5
2
Por debajo de 11.5 existe un 50% de observaciones.
14/10/08
Mediana
▼ Si el número de DATOS ES IMPAR, el valor de la
mediana es el valor del centro.

Me = X (N+1)/2

donde (N+1)/2 es la posición de la mediana

14/10/08
Ejemplo:
Calcular la mediana dado los valores: 1, 9, 2,
6, 3, 5, 7 días.
Ordenando los valores: 1, 2, 3, 5, 6, 7, 9.
Posición:
(N+1)/2 = 4 entonces X (N+1)/2 = 5
Me = 5
Es decir por debajo de 5 existe un 50 % de
observaciones .

14/10/08
Mediana en datos agrupados.
Me = Li + (N/2 - Fi-1) x C
f Me

N/2 Posición de la mediana


Li Límite real inferior de la clase que contiene a la Me
N Número total de observaciones
Fi-1 Frecuencia absoluta acumulada de la clase anterior
a la que contiene a la Me.
f Me Frecuencia absoluta de la clase que contiene a la Me
C Amplitud de la clase que contiene a la Me

14/10/08
Ejemplo:

Calcular la Me de la siguiente distribución:


Variable fi Fi
5–9 3 3
10 – 14 9 12
15 – 19 15 27
20 – 24 8 35
25 – 29 5 40
Total 40

14/10/08
Procedimiento:
1. Calcular las frecuencias acumuladas Fi
2. Calcular N/2 = 40/2 = 20 sirve para detectar la clase
mediana.
3. Clase mediana: clase cuyo Fi excede a 20 (15 - 19)
4. De la clase mediana se obtiene:
L i = 14.5 Fi - 1 = 12 C = 5 fMe = 15 . Los valores
encontrados en (2), (3) y (4) lo reemplazamos en la
formula y se tiene:
Me = 14.5 + 20 - 12 x 5 Me = 17.17
15
Interpretación: El 50% de los puntajes están por debajo de

17.17 y el 50% está por encima de 17.17 puntos.


14/10/08
14/10/08

LA MODA
Se utiliza mayormente cuando la característica
en estudio se ha medido en escala nominal u
ordinal. La MODA es la observación que
mayormente se repite (observación más COMÚN)

Ejemplo: Se tiene la siguiente


información:
2, 3, 4, 5, 5, 6, 4, 5

Mo = 5
Propiedades de la Moda

1. Si todos los valores son diferentes, no hay moda.

2. En una distribución puede existir dos o más modas

3. Es usada para variables categóricas o cualitativas.

14/10/08
Ejemplo:

Estado Civil fi
Soltero 30
Casado 60
Divorciado 10
Total 100

14/10/08
Ejemplo:Moda para datos agrupados
En una tabla de distribución de frecuencias es
aproximadamente la marca de clase o punto medio de la
clase que tiene la mayor frecuencia absoluta simple.
Variable fi
5-9 3
10 - 14 9
15 - 19 15
20 - 24 8
25 - 29 5
total 40
La moda estará ubicado en el intervalo:
Variable fi
14/10/08 15 - 19 15
Por lo tanto la marca de clase será:

14.5 + 19.5 = 17.0


2

Luego la Mo = 17.0

14/10/08
SIMETRÍA
▼ Cuando los datos de una población se
distribuyen con igual frecuencia y alejamiento por
debajo y por encima de la media aritmética, se
dice que la distribución es simétrica; pero, si los
datos por debajo de la media son más frecuentes
que aquellos por encima de la media, o viceversa,
se dice que la distribución es asimétrica.

14/10/08
SIMETRÍA

14/10/08
SIMETRÍA

14/10/08
LOS CUANTILES

Son aquellos que dividen a la


distribución en cuatro, diez o cien
partes iguales:
▼ Cuartiles.

▼ Deciles.

▼ Percentiles.

14/10/08
Cuartiles (Q).
Son aquellos que dividen a la distribución en cuatro partes iguales, en donde cada uno de
ellos incluye el 25% de las observaciones.
__25%_._25%__.__25%__.__25%__
Q1 Q2 Q3
Me
Las fórmulas para calcular los cuartiles son parecidas a la de la mediana, así:
Q1 = L1 + (N/4 - Fi-1) x C
fQ1
Q2 = Me
Q3 = Li + (3/4 N - F i-1) x C
fQ3
Donde:
Li = Limite real inferior de la clase que contiene el Q1 ó Q3 .
Fi-1 = frecuencia absoluta acumulada de la clase anterior a la que contiene a Q1 ó Q3
fQ1 ó fQ3 = frecuencia absoluta de la clase que contiene el Q1 ó Q3
C = ancho de la clase que contiene el Q1 ó Q3
14/10/08
DECILES (D)
Son aquellos que dividen a la distribución en diez partes iguales en donde cada uno de ello
incluye el 10% de las observaciones

_10%_._10%_.10%_._10%_._10%_._10%_._10%_._10%_._10%_._10%_
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Me
Las formulas son también similares a las de Q1 , Q3 Así:
D1 = Li + (N/10 - F i-1 ) x C
fD1
D5 = Me
D7 = Li + (7/10 N - F i-1 ) x C
fD7
Donde:
Li = Limite real inferior de la clase que contiene el D1 ó D7 .
Fi-1 = frecuencia absoluta acumulada de la clase
anterior a la que contiene a D1 ó Q7
fD1 ó fD7 = frecuencia absoluta de la clase que contiene el D1 ó D7
C = ancho de la clase que contiene el D1 ó D7
14/10/08
PERCENTILES (P)
Son aquellos que dividen a la distribución en cien partes iguales en donde cada
uno de ello incluye el 1% de las observaciones:

_1%_._1%_. 1%_._1%_._1%_. .........._1%_._1%_._1%_._1%_._1%_


P1 P2 P3 P4 ........... P96 P97 P98 P99

Las formulas son parecidas a los cuantiles y deciles, Así:

P10 = Li + (10/100 N - F i-1 ) x C


fP10

P60 = Li + (60/100 N - F i-1 ) x C


fP60

C = ancho de la clase que contiene el P10 ó P60


14/10/08
Ejemplo:
Como los cálculos de los cuantiles, deciles y percentiles son similares se
calculará el Q3 de la siguiente distribución :
Variable fi Fi
55 - 58 20 20
59 - 62 30 50
63 - 66 80 130

67 - 70 70 200
71 - 74 40 240
75 - 78 10 250
Total 250
Procedimiento:
1. Calcular las frecuencias acumuladas F
2. Calcular la posición de Q3: 3N/4 = 3(250) / 4 = 187.5
3. Clase que contiene a Q3: es la clase cuyo Fi excede a 187.5 y que corresponde
al intervalo 67 - 70
14/10/08
4. Limite real inferior de la clase que contiene a Q3 es Li = 66.5
5. Frecuencia absoluta acumulada anterior a la clase que contiene a Q3 es:
Fi-1 = 130
6. Frecuencia absoluta de la clase que contiene a Q3 es: fQ3= 70

reemplazando estos valores en la fórmula:

Q3 = 66.5 + 187.5 - 30 x 4
70

Q3 = 69.8

Por consiguiente , se tiene que el 75% de los valores están por debajo
de 69.8 puntos y el 25% de los valores están por encima de 69.8
Q3 = 69.8

14/10/08
Percentiles para datos no
agrupados
Se determina el percentil k (Pk) de acuerdo a lo siguiente
(valor de la posición):
▼ Si k(n+1)/100 es un entero

entonces el valor del percentil será el dato que se


encuentre en la posición calculada.
▼ Si k(n+1)/100 es fraccionario

hacemos una interpolación lineal entre los dos valores


correspondientes a las dos observaciones entre las
cuales se encuentra la fracción.

14/10/08
Recordar:

▼ Q1 = P25
▼ Q2 = Mediana = P50

▼ Q3 = P75

14/10/08
14/10/08

Medidas de dispersión
Dr. Luis Roble Aleman.
Las medidas de dispersión

Llamadas también medidas de variabilidad,


miden el grado de separación de los datos
respecto a un valor central.
Son útiles porque:
2. Permiten juzgar la confiabilidad de la
medida de tendencia central.
3. Los datos demasiados dispersos tienen un
comportamiento especial.
4. Es posible comparar dispersión de diversas
muestras.

14/10/08
Medidas de dispersión

Una medida de Dispersión indica cómo las


observaciones se separan de la Media
Arítmetica.

Esta medida será grande si las observaciones


están distantes de la media y pequeña si
están cerca.

14/10/08
MEDIDAS QUE CALCULAN LA
DISPERSION
▼ RANGO ( Amplitud Total )
Es la medida más simple de dispersión

A = Obs Max - Obs Min

14/10/08
LA VARIANZA

Es una medida de dispersión que


cuantifica la variabilidad de los
datos con respecto a la Media
Arítmetica.

14/10/08
Definición:
Si tenemos N datos X1, X2, X3, ...., XN . La varianza de
estos datos se define como:
__
∑ ( Xi _ X )2
V(x) = ____________
N

Para una muestra de tamaño n tendremos:


__
∑ ( Xi _ X )2
V(x) = ____________
n-1

14/10/08
Varianza Poblacional

(∑ Xi)2
∑ Xi2 _ __________
N
V( x ) = ________________________
N

14/10/08
Varianza Muestral

(∑ xi)2
∑ xi2 _ __________
n
v(x ) = ________________________
n-1

14/10/08
EJEMPLO
Consideremos los siguientes datos de una
muestra :
4, 7, 8, 3, 5, 9, 10, 2.

__ 4+7+8+....+ 2
X = ____________ = 6
8

(4-6)2 + ( 7-6)2 +...+(2-6)2


V(x) = _____________________ = 8.57
8-1

14/10/08
Ejemplo:
Se tiene la siguiente distribución de frecuencias:
Variable fi Xi fi . Xi fi . Xi2
55-58 20 56.5 1130 63845
59-62 30 60.5 1815 109807.5
63-66 80 64.5 5160 332820
67-70 70 68.5 4795 328457.5
71-74 40 72.5 2900 210250
75-78 10 76.5 765 5852.25
total 250 16565 1051032.25

14/10/08
FORMULA PARA DATOS
AGRUPADOS

(∑fi Xi)2
∑fi Xi2 _ __________
N
V( x ) = ________________________
N

14/10/08
RESULTADOS
(16565)2
1051032.25 - _________
250
V(x) = _______________________
250
= 186.26

14/10/08
DESVIACION ESTANDAR

Es la medida de dispersión más común para


definir datos médicos y del área de la salud.
Es la raiz cuadrada de la varianza
σ=√V(X).
Tanto la desviación estándar como la media
aritmética requieren datos númericos.

14/10/08
El coeficiente de variación
Es una medida relativa de variabilidad de los datos entre la media y la
desviación estándar de una población o muestra. Permite comparar la
variabilidad de dos o más conjuntos de datos expresados en unidades
diferentes (por ejemplo peso en Kg. y libras).

a) Cálculos a partir de datos no agrupados


para la muestra:
s
CV = ×100
x

para la población: σ
CV = ×100
µ

14/10/08
EJEMPLO:
Supongamos que de dos poblaciones se han obtenido los siguientes
datos:
Grupo 1 Grupo 2
__
Edad X = 25 años 11 años
__
Peso X = 72.5 Kgs. 40 Kgs
σ = 5 Kgs. 5 Kgs.
N = 15 15
¿Que grupo es más homogéneo o menos variable en relación al peso?

14/10/08
Grupo 1 Grupo 2
5 5
C.V = ______. 100 C.V = _____.100
72.5 40

= 6.9% = 12.5%
La muestra 1 posee menos dispersión de los pesos con
respecto a la media en relación a las muestra 2.

14/10/08
CONSIDERACIONES

SI:

C.V < 10% hay poca dispersión


10% < C.V < 33% Dispersión aceptable
33% < C.V < 50% Dispersión alta
C.V > 50% La dispersión es muy alta.

14/10/08
RANGO
INTERCUARTILICO
Se define como:
R.I. (Q) = Q3 - Q1

Q1 es el primer cuartil

Q3 es el tercer cuartil

Excluye el 25% más alto y el 25% más bajo, dando


un rango de 50% de los datos.
14/10/08
USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION

▼ La desviación estándar se emplea cuando también es


apropiado el uso de la media, es decir, con
distribuciones simétricas(no sesgadas) de datos
numéricos.
▼ Percentiles y rango intercuartilicos se emplean,
cuando la distribución no es simétrica(sesgada) y es
apropiado el uso de la mediana.

14/10/08
▼ El rango es una medida apropiada para
datos numéricos cuando el propósito es
enfatizar valores extremos.
▼ El coeficiente de variación es útil cuando la
intención es comparar dos distribuciones
numéricas medidas en escalas diferentes.

14/10/08
El “Boxplot” (Diagrama de
Caja)
▼ Al igual que el histograma y los gráficos de
Tallo y Hoja permite tener una idea visual
de la distribución de los datos (simetría y
variabilidad)
▼ Permite detectar outliers (valores extremos).
▼ Permite comparar la media y la variabilidad
de varios grupos (alternativa gráfica a
pruebas estadísticas)

14/10/08
Boxplot: Procedimiento

1. Dibujar una caja cuyo límite inferior será Q1 y


el superior Q3. Dentro de la caja trazar una
línea que localice la mediana.
2. Calcular el rango intercuartílico:
R.I. (Q) = RIQ = Q3 – Q1
3. Dibujar un “bigote” del borde inferior de la caja
hasta Q1-1.5xRIQ o hasta el valor mínimo de los
datos (se elige el mayor de estos dos resultados)

14/10/08
Boxplot: Procedimiento

1. Dibujar otro“bigote” del borde superior de la


caja hasta Q3+1.5xRIQ o hasta el valor máximo
de los datos (se elige el menor de estos dos
resultados)
2. Dibujar cualquier observación que se ubique
fueras de los bigotes (estos serán los outliers).

14/10/08
2( n + 1) n + 1
= =
4 2
3(n + 1)
=
4

BoxPlot: Ejemplo

Construir un boxplot con el siguiente grupo de


datos:
5 21 27.5 42 52
Recordar la posición de los cuartiles:
n +1
Q1 =
4
2( n +1) n +1
Q2 = =
4 2
3( n +1)
Q3 =
4

14/10/08
BoxPlot: Ejemplo
Proceso:
Q1 =13 Q2= 27.5 Q3 = 47
RIC = 47 – 13 = 34
Q3+1.5xRIQ = 47 + (1.5)(34)= 98
Q1-1.5xRIQ = 13 – (1.5)(34) = -38
Como no hay “outliers” o valores extremos,
entonces las líneas laterales de la caja llegan
hasta el valor minimo por abajo, y hasta el valor
maximo por arriba

14/10/08
BoxPlot: Ejemplo

50

40

30
Datos

20

10

14/10/08
MEDIDAS DE RESUMEN NUMÉRICO
PARA VARIABLES CUALITATIVAS

Las medidas de resumen numérico empleadas


para variables cualitativas son:
▼ Razón

▼ Proporción

▼ Tasa

14/10/08
RAZON
Es la comparación por cociente entre dos cifras de
diferentes o similar naturaleza en donde el numerador y el
denominador son excluyentes.
Por ejemplo, si tenemos 380 camas hospitalarias y 95
enfermeras y queremos encontrar la razón entre ellas,
tenemos que dividir:

380 camas hospitalarias/95 enfermeras=4 camas/enfermera


.
Este número constituye un valor que refleja una relación.
En este caso, el número 4 se interpreta como que por cada
cuatro camas hospitalarias hay una enfermera.
14/10/08
PROPORCIÓN

Es la comparación por cociente entre el número de


elementos de un subconjunto y el número de elementos de
un conjunto al que pertenece dicho subconjunto. En este
caso el numerador está incluido en el denominador, por
este motivo los valores siempre van a ser menores que la
unidad.
Por ejemplo, si en la población hubo 175 casos de cáncer
pulmonar de un total de 1925 casos de todos los tipos de
cáncer, la proporción se calculará.
175 / 1925 = 0.09

14/10/08
TASA

Es la comparación por cociente entre un


número de eventos ocurridos en un tiempo
y lugar determinados y la población que
estuvo expuesta al riesgo de que le ocurriera
dichos eventos en la misma época y en ese
lugar.

14/10/08
Muchas gracias.

14/10/08

You might also like