You are on page 1of 15

Bioestadstica

Tema 2: Estadsticos

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin
La altura media de los individuos de un pas La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra)


La altura media de los que estamos en este aula.
Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador.

Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y confiamos en que sean prximos. Ms adelante veremos como elegir muestras para que el error sea confiablemente pequeo.
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 2

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Un brevsimo resumen sobre estadsticos


Posicin Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...

Centralizacin Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda

Dispersin Indican la mayor o menor concentracin de los datos con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza

Forma Asimetra Apuntamiento o curtosis


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 4

Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Estadsticos de posicin
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.


Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05
Percentil 5 del peso
25 frecuencia 0 5 10 15 20

3 Peso al nacer (Kg) de 100 nios

5
7

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Ejemplos
Qu peso es superado slo por el 25% de los individuos?
Percentil 75 o tercer cuartil
Percentil 75 del peso
30 frecuencia 0 50 5 10 15 20 25

55

60

65

70

75

80

85

Peso (Kg) de 100 deportistas


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 8

Ejemplos
El colesterol se distribuye simtricamente en la poblacin. Supongamos que se consideran patolgicos los valores extremos. El 90% de los individuos son normales Entre qu valores se encuentran los individuos normales?
Percentiles 5 y 95
20 frecuencia 0 5 10 15

180

200

220 Colesterol en 100 personas

240

260

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Ejemplos
Entre qu valores se encuentran la mitad de los individuos ms normales de una poblacin?
Entre el cuartil 1 y 3
Percentiles 25 y 75

frecuencia

0 150

10

15

20

160

170 Altura (cm) en 100 varones

180

190

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

10

Diagrama de cajas de Tukey: Resumen en 5 nmeros


0.08 densidad 0.04 0.06

Diagramas de Tukey
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo. Suelen dar una buena idea de la distribucin.

0.02

Mn.

P25

P50

P75

Mx.

La zona central, caja, contiene al 50% central de las observaciones.


Su tamao se llama rango intercuartlico (R.I.)

0.00

40

45

50

55

60

65

Velocidad (Km/h) de 200 vehculos en ciudad

Diagrama de cajas de Tukey: Resumen en 5 nmeros

0.01

Es costumbre que los bigotes, no lleguen hasta los extremos, sino hasta las observaciones que se separan de la caja en no ms de 1,5 R.I.
Ms all de esa distancia se consideran anmalas, y as se marcan.
Bioestadstica. U. Mlaga.

densidad

0.02

0.03

0.04

Mn.

P25

P50

P75

Mx

0.00 80

90

100

110

120

130

140

Velocidad (Km/h) de 200 vehculos en autova

Tema 2: Estadsticos

11

Ejemplo
Nmero de aos de escolarizacin Porcentaje acumulado ,3 ,7 1,1 1,9 3,5 8,0 11,7 16,6 22,2 52,8 61,4 73,0 77,9 90,7 93,6 96,6 98,0 100,0

Estadsticos Nmero de aos de escolarizacin N Vlidos 1508 Perdidos 0 Media 12,90 Mediana 12,00 Moda 12 Percentiles 10 9,00 20 11,00 25 12,00 30 12,00 40 12,00 50 12,00 60 13,00 70 14,00 75 15,00 80 16,00 90 16,00

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total

Frecuencia 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1508

Porcentaje ,3 ,3 ,4 ,8 1,7 4,5 3,7 4,8 5,6 30,6 8,6 11,6 4,8 12,9 2,9 3,0 1,5 2,0 100,0

20%?

90%?

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

12

Estadsticos de centralizacin
Aaden unos cuantos casos particulares a las medidas de posicin. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral. Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda (mode) Es el/los valor/es donde la distribucin de frecuencia alcanza un mximo.


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 13

Altura mediana

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

14

Algunas frmulas
Datos sin agrupar: x1, x2, ..., xn
Media

x=

x
i

Datos organizados en tabla


si est en intervalos usar como xi las marcas de clase. Si no ignorar la columna de intervalos.
Media
Variable L0 L1 L1 L2 ... Lk-1 Lk xk n
Bioestadstica. U. Mlaga.

x=

xn
i

i i

fr. x1 x2 n1 n2 nk

fr. ac. N1 N2 Nk

Cuantil de orden i es el menor intervalo que tiene frecuencia acumulada superior a n =0,5 es mediana

C = Li 1 +

n N i 1
ni

( Li Li 1 )
15

Tema 2: Estadsticos

Ejemplo con variable en intervalos


Peso 40 50 50 60 60 70 70 - 80 80 - 90 90 - 100 100 130 M. Clase 45 55 65 75 85 95 115 frec 5 10 21 11 5 3 3 Fr. acum. 5 15 36 47 52 55 58

En el histograma se identifica unidad de rea con individuo. Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase. La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma estara en equilibrio si tuviese masa.

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

16

Ejemplo (continuacin)
Peso 40 50 50 60 60 70 70 - 80 80 - 90 90 - 100 100 130 M. Clase 45 55 65 75 85 95 115 58 Fr. 5 10 21 11 5 3 3 Fr. ac. 5 15 36 47 52 55 58

x=

xn
i

i i

45 5 + 55 10 + K + 115 3 = 69,3 58

0,5 58 Ni 1 ( Li Li1 ) ni ) 0,5 58 15 (70 60) = 66,6 = 60 + 21 Mediana = C0,5 = Li 1 +

P75 = C0, 75 = Li 1 +

0,75 58 N i 1 43,5 36 ( Li Li 1 ) = 70 + (80 70) = 76,8 ni 11

Moda = marca de clase de (60,70] = 65 Cada libro ofrece una frmula diferente para la moda (difcil estar al da.)
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 17

Variabilidad o dispersin
Los estudiantes de Bioestadstica reciben diferentes calificaciones en la asignatura (variabilidad). A qu puede deberse?
Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)? Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las notas seran las mismas en todos? Seguramente No.
Dormir poco el da del examen, el croissant estaba envenenado...
Diferencias individuales en la habilidad para hacer un examen.

El examen no es una medida perfecta del conocimiento.


Variabilidad por error de medida.

En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala
Variabilidad por azar, aleatoriedad.
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 18

Medidas de dispersin
0.05

Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.


Mn. P25 P50 P75 Mx.

Amplitud o Rango (range): Diferencia entre observacines extremas. 2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.

0.03

0.04

0.02

25%

25% 25%

25%

Rango intercuartlico

Rango intercuartlico (interquartile range): Rango Es la distancia entre primer y tercer cuartil. Rango intercuartlico = P75- P25 150 160 170 180 Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores.
0.00

0.01

190

No es tan sensible a valores extremos.


Bioestadstica. U. Mlaga. Tema 2: Estadsticos 19

Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

S2 =

1 ( xi x)2 n i

Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un principiante. La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la informacin geomtrica relevante en muchas situaciones donde la energa interna de un sistema depende de la posicin de sus partculas.
Energa de rotacin (va el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o recogidos (poco dispersos) Energa elstica: Muelles estirados con respecto a su posicin de equilibrio (dispersos) frente a muelles en posicin cercana a su posicin de equilibrio (poco dispersos)

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

20

10

Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza Tiene las misma dimensionalidad (unidades) que la variable. Versin esttica de la varianza. Cierta distribucin que veremos ms adelante (normal o gaussiana) quedar completamente determinada por la media y la desviacin tpica.
A una distancia de una desv. tpica de la media hay ms de la ms de la mitad. A una distancia de dos desv. tpica de la media las tendremos casi todas.
Bioestadstica. U. Mlaga.
50

S = S2
40 30

20

10 Desv. tp. = 568,43 Media = 2023 0 N = 407,00

Peso recin nacidos en partos gemelares

Dispersin en distribuciones normales


0.05 0.04
0.04 0.05

50 0

1. 30 0

90 0

Tema 2: Estadsticos

1. 70 0

2. 10 0

3.

2. 90 0 0

2. 50

30 0

21

0.03

0.02

0.01

xs 68.5 %

0.01

0.02

0.03

x 2s 95 %

0.00

150

160

170

180

190

0.00 150

160

170

180

190

Centrado en la media y a una desv. tpica de distancia hay aproximadamente el 68% de las observaciones. A dos desviaciones tpicas tenemos el 95% (aprox.)
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 22

11

Datos casi normales. Eje x medido en desviaciones tpicas Encuentras relacin entre rango intercuartlico y desviacin tpica? Y entre los bigotes y dos desviaciones tpicas? Podras caracterizar las observaciones anmalas?
0.3 0.3 0.1 xs 66 % 0.0 x 2s 95 % 0.0 0.2

0.1

0.2

x s 71 %

x 2s 94 %

-3 0.4

-2

-1

-3

-2

-1

0.3

0.2

0.1

0.2

0.3

0.1

xs 68 %

x 2s 94 %

x s 70 %

x 2s 94 %

0.0

-3

-2

-1

0.0 -3

-2

-1

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

23

Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes

CV =

S x

Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.


Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 24

12

Asimetra o Sesgo
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 25

Estadsticos para detectar asimetra


Hay diferentes estadsticos que sirven para detectar asimetra. Basado en diferencia entre estadsticos de tendencia central. Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3. Basados en desviaciones con signo al cubo con respecto a la media.
Los calculados con ordenador. Es pesado de hacer a mano.

En funcin del signo del estadstico diremos que la asimetra es positiva o negativa. Distribucin simtrica asimetra nula.
0.20 0.5 0.20 0.05 0.10 0.1 0.2 0.15

0.15

0.05

0.10

0.3

0.4

xs 78 %

xs 66 % 0.00

xs 78 %

0.00

10

12

14

16

18

20

0.0 -2

-1

0 x

10

12

14

Bioestadstica. U. Mlaga. x

Tema 2: Estadsticos x

26

13

Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin con respecto a la distribucin normal o gaussiana. Es adimensional. Platicrtica (aplanada): curtosis < 0 Mesocrtica (como la normal): curtosis = 0 Leptocrtica (apuntada): curtosis > 0
Aplanada

En el curso sern de especial inters las mesocrticas y simtricas (parecidas a la normal).

2.0

Apuntada como la normal


0.8

Apuntada

1.5

0.3

1.0

0.2

0.5

0.1

xs 57 % 0.0

xs 68 % 0.0

0.2

0.4

0.6

x s 82 % 0.0 -2

0.0

0.2

0.4

0.6

0.8

1.0

-3

-2

-1

-1

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

27

Ejercicio: descriptiva con SPSS


28%

Descriptivos para Nmero de hijos Media Intervalo de confianza para la media al 95% Estadstico 1,90 Lmite inferior Lmite superior 1,81
20%

n=419

25% n=375

Error tp. ,045

25%

17% n=255 14% n=215


15%

1,99

Porcentaje

Media recortada al 5% 1,75 Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil 2,00 3,114 1,765 0 8 8 3,00 Asimetra Curtosis 1,034 1,060 ,063 ,126

8% n=127
10%

4% n=54
5%

2%

2%

1%

n=24 n=23 n=17

7 Ocho o ms

Nmero de hijos

Est sombreado lo que sabemos interpretar hasta ahora. Verifica que comprendes todo. Qu unidades tiene cada estadstico? Variabilidad relativa? Calcula los estadsticos que puedas basndote slo en el grfico de barras. Tema 2: Estadsticos 28

Bioestadstica. U. Mlaga.

14

Qu hemos visto?
Parmetros Estadsticos y estimadores Clasificacin Posicin (cuantiles, percentiles,...)
Diagramas de cajas

Medidas de centralizacin: Media, mediana y moda


Diferenciar sus propiedades.

Medidas de dispersin
con unidades: rango, rango intercuartlico, varianza, desv. tpica sin unidades: coeficiente de variacin
Qu usamos para comparar dispersin de dos poblaciones?

Asimetra
positiva negativa
Podemos observar asimetra sin mirar la grfica? Cmo me gustan los datos?

Medidas de apuntamiento (curtosis)


Cmo me gustan los datos?
Bioestadstica. U. Mlaga. Tema 2: Estadsticos 29

15

You might also like