Professional Documents
Culture Documents
M. Gonzlez
Bioestadstica
Conceptos Bsicos
M. Gonzlez
Bioestadstica
Conceptos Bsicos
M. Gonzlez
Coneptos Bsicos
Seleccionar y recoger un conjunto de datos. Ordenar, resumir y analizar dicho conjunto de datos. Obtener inferencias cientcas a partir de dichos datos, es decir sacar conclusiones vlidas para toda la poblacin de la que proceden.
M. Gonzlez
Coneptos Bsicos
POBLACIN UNIVERSO. Conjunto de elementos o individuos de la misma naturaleza que presentan uno o varios caracteres comunes, susceptibles de medida o clasicacin.
Individuos, Unidades experimentales estadsticas.
MUESTRA. Porcin de la poblacin adecuadamente seleccionada. CARACTERES VARIABLES. Caractersticas comunes, susceptibles de medida o clasicacin, que presentan los individuos de una poblacin.
Modalidades. Diferentes formas en que puede presentarse un carcter o variable en cada unidad experimental. Clasicacin.
Caracteres Cualitativos. Variables Cuantitativas: Discretas y Continuas.
M. Gonzlez
Coneptos Bsicos
ESCALAS Modos de clasicar los datos dependiendo de su naturaleza y de las relaciones que pueden establecerse entre las modalidades. ESCALA NOMINAL
C. Cualitativo. Relaciones de igualdad-desigualdad.
ESCALA ORDINAL
C. Cualitativo - V. Cuantitativa. Relaciones de orden.
ESCALA NUMRICA
V. Cuantitativa. Relaciones de numricas (de proporcionalidad).
M. Gonzlez Bioestadstica: Estadstica Descriptiva
Estadstica Descriptiva
DATOS: Valores de triglicridos sricos totales (mg/100ml) medidos en 104 ratas de laboratorio normales:
59.7 70.7 73.3 69.2 75.3 60.5 74.2 62.1 80.2 63.0 79.8 57.9 69.6 69.5 72.9 91.5 63.0 72.1 56.6 83.0 72.2 59.0 68.9 74.8 72.5 70.6 78.6 69.1 70.6 69.0 83.5 67.1 71.7 69.9 69.2 52.7 47.7 74.8 68.9 78.5 69.8 75.2 63.5 61.4 65.4 66.5 80.4 70.4 77.3 78.2 68.7 71.4 71.8 75.6 76.1 78.6 76.6 71.0 72.9 61.7 70.2 59.9 59.6 59.8 74.3 68.6 82.1 71.1 73.7 60.6 61.1 73.1 80.6 68.8 78.4 61.5 61.9 70.8 63.8 61.1 64.3 66.5 50.2 72.4 61.3 70.7 66.9 74.7 66.0 67.8 63.4 67.5 79.7 77.8 69.5 60.9 55.6 67.0 81.4 86.3 57.1 57.6 65.2 60.6
M. Gonzlez
Tablas de Frecuencias
ESTRUCTURA BSICA Carcter Variable Modalidades valores posibles de la variable TOTAL Frecuencia Absoluta . . . fi . . . n= fi Frecuencia Relativa . . . hi . . . 1 Porcentaje . . . % . . . 100
Frecuencia Absoluta (fi ): nmero de datos de la muestra que corresponden a cada modalidad, valor o intervalo de valores de la variable. Freciencia relativa (hi ): hi = fi /n, n = Porcentaje (%): hi 100
M. Gonzlez Bioestadstica: Estadstica Descriptiva
fi
Tablas de Frecuencias
Ejemplo 1: Carcter Cualitativo
Al examinar 158 casos de parlisis de Bell se anotaron las diferentes terapias seguidas por estos pacientes, resultando el conjunto de datos: DQ, C, NT, ET, C, DQ, OT, NT, ET, C, C, DQ, OT,etc. (C: corticosteroides; DQ: descompresin quirrgica; ET: electroterapia; NT: ningn tratamiento; OT: otras modalidades).
Tratamiento C DQ ET NT OT TOTAL
fi 73 36 19 21 9 158
M. Gonzlez
Tablas de Frecuencias
Ejemplo 2: Variable Cuantitativa Discreta Se ha realizado un estudio sobre el nmero de piezas dentales con caries en una muestra de 135 nios de un determinado grupo de edad y condiciones de higiene y alimentacin particulares. Los datos, ya ordenados se recogen en la siguiente tabla: No caries 0 1 2 3 4 ms TOTAL fi 46 39 27 15 8 135 hi 0.341 0.289 0.200 0.111 0.059 1 % 34.1 28.9 20.0 11.1 5.9 100
M. Gonzlez
Tablas de Frecuencias
Ejemplo 3: Variable Cuantitativa Discreta
Se han tomado los valores de la frecuencia cardiaca (pul./m) de un grupo de 56 pacientes, un minuto despus de ser sometidos a un determinado ejercicio fsico. Los datos obtenidos, ya ordenados, se recogen en la siguiente tabla:
fi 2 7 7 18 16 6 56
M. Gonzlez
Tablas de Frecuencias
Ejemplo 4: Variable Cuantitativa Continua
Dentro de un estudio sobre la pacreatitis se han tomado los valores de triglicridos sricos totales (TST) medidos en mg/100ml en 104 ratas de laboratorio normales (trasparencia inicial). Los datos ordenados aparecen en la siguiente tabla: TST (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] (75,80] (80,85] (85,90] (90,95] TOTAL xi 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5 fi 1 2 10 18 24 26 14 7 1 1 104 hi 0.01 0.02 0.10 0.17 0.23 0.25 0.13 0.07 0.01 0.01 1 % 1 2 10 17 23 25 13 7 1 1 100
M. Gonzlez
Tablas de Frecuencias
Nmero de clases o intervalos Cuntas clases debemos formar para tabular un conjunto de datos? Pocas clases prdidad de mucha informacin. Muchas clases trabajar con muchos datos.
Frmula de Sturges El nmero de clases o intervalos que debemos formar si queremos tabular un conjunto de n datos, debe estar en torno a 1 + 3.322 log10 n
M. Gonzlez
Tablas de Frecuencias
Construccin de las clases o intervalos Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables en intervalos. La forma de hacerlo es la siguiente: Determinar valores mximo (Vmax ) y mnimo (Vmin ) de los datos. Determinar el nmero (k) de intervalos a construir (por ejemplo utilizando la frmula de Sturges), que deben ser todos de la misma amplitud (diferencia entre el lmite superior e inferior). Vmax Vmin Determinar la amplitud de los intervalos: c k A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDER NINGN DATO EN EL PROCESO.
M. Gonzlez
Tablas de Frecuencias
Ejemplo 5 En la siguiente tabla se muestran los niveles de colinesterasa de 33 agricultores expuestos a insecticidas agrcolas:
10.6 11.5 14.9 12.2 10.3 11.3 , 11.8 8.6 11.1 12.5 9.9 12.5 , 10.8 12.4 12.3 12.7 8.5 10.2 11.1 11.9 12.5 16.5 9.1 9.7 11.4 10.1 12.3 9.2 11.6 12.0 15.0 7.8 12.4
Vmin = 7.8
Vmax = 16.5 c
Sin redondear: [7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5] Redondeando: [7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5]
M. Gonzlez Bioestadstica: Estadstica Descriptiva
Tablas de Frecuencias
Frecuencias Acumuladas
i j=1 fj
i j=1
hj = Fi /n, Fi 1 3 13 31 55 81 95 102 103 104 Hi 0.01 0.03 0.12 0.30 0.53 0.78 0.91 0.98 0.99 1.00
n=
Pf
TST (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] (75,80] (80,85] (85,90] (90,95] TOTAL
xi 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5
fi 1 2 10 18 24 26 14 7 1 1 104
hi 0.01 0.02 0.10 0.17 0.23 0.25 0.13 0.07 0.01 0.01 1
% 1 2 10 17 23 25 13 7 1 1 100
M. Gonzlez
Ejemplo 1
Tratamiento C DQ ET NT OT TOTAL fi 73 36 19 21 9 158 hi 0.462 0.228 0.120 0.133 0.057 1 % 46.2 22.8 12.0 13.3 5.7 100
M. Gonzlez
nmero de casos
10
20
30
40
50
60
70
DQ
ET
NT
OT
Ejemplo 1
Tratamiento C DQ ET NT OT TOTAL fi 73 36 19 21 9 158 hi 0.462 0.228 0.120 0.133 0.057 1 % 46.2 22.8 12.0 13.3 5.7 100
M. Gonzlez
OT DQ NT ET
TST (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] (75,80] (80,85] (85,90] (90,95] TOTAL
xi 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5
fi 1 2 10 18 24 26 14 7 1 1 104
hi 0.01 0.02 0.10 0.17 0.23 0.25 0.13 0.07 0.01 0.01 1
% 1 2 10 17 23 25 13 7 1 1 100
nmero de casos
10
15
20
25
50
60
70
80
90
M. Gonzlez
POLGONO DE FRECUENCIAS Consiste en el polgono resultante de unir mediante segmentos los puntos del plano cuya primeras coordenadas son las marcas de clase y las segunda las frecuencias (absolutas relativas, con o sin acumular) de cada una de las clases que se pretenden representar
M. Gonzlez
TST (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] (75,80] (80,85] (85,90] (90,95] TOTAL
xi 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5
fi 1 2 10 18 24 26 14 7 1 1 104
hi 0.01 0.02 0.10 0.17 0.23 0.25 0.13 0.07 0.01 0.01 1
% 1 2 10 17 23 25 13 7 1 1 100
nmero de casos
10
15
20
25
50
60
70
80
90
M. Gonzlez
Medidas de Sntesis
M. Gonzlez
Medidas de Centralizacin
Media Aritmtica (Muestral): x
La media ( x) es el valor central en el sentido aritmtico. Viene a ser el centro de gravedad de los datos. x1 + + xn x= n Si los datos estn agrupados en una tabla de frecuencias x= x1 f 1 + + xk f k = x1 h1 + + xk hk n
Propiedades
Utiliza toda la informacin contenida en el dato. No es robusta: es inuida por la existencia de valores extremos (outliers). 6, 7, 8, 9, 10 x=8 6, 7, 8, 9, 30 x = 12
M. Gonzlez Bioestadstica: Estadstica Descriptiva
Medidas de Centralizacin
Media Ponderada: xp Datos: x1 , . . . , xn . Pesos: 1 , . . . , n xp =
n i=1 xi i n i= 1 i
M. Gonzlez
Medidas de Centralizacin
Media Geomtrica: xg Datos: x1 , . . . , xn xg = (x1 ...xn )1/n Se utiliza con variables que evolucionan exponencialmente respecto al tiempo: nmero de microorganismos de un cultivo. Media Armnica: xh Datos: x1 , . . . , xn xh =
n
n 1 i= 1 xi
Medidas de Centralizacin
Mediana: x Es un valor de la variable (no necesariamente un dato observado) tal que la mitad de los datos son menores que ella y la otra mitad mayores. Ocupa la posicin central en el sentido del orden.
Clculo: ordenar los datos de menor a mayor. Si n impar, x dato que ocupa la posicin
n+1 2 n 2
Si n par, x punto medio de los datos que ocupan las posiciones n + 1 2 Propiedades:
Utiliza de cada dato slo la posicin que ocupa en la muestra ordenada. Es robusta. 6, 7, 8, 9, 10 x = 8, x=8 6, 7, 8, 9, 30 x = 12 x=8
M. Gonzlez Bioestadstica: Estadstica Descriptiva
Medidas de Centralizacin
Mediana: x
Si los datos vienen dados por una tabla de frecuencias, entonces calcularemos la mediana a travs de la frmula: x = LI +
n 2
Fm1 cm fm
siendo LI el lmite inferior de la clase mediana, fm la frecuencia absoluta de la clase mediana, Fm1 la frecuencia absoluta acumulada de la clase anterior a la mediana y cm la amplitud de la clase mediana.
M. Gonzlez
Medidas de Centralizacin
Moda: x Valor del conjunto de datos que aparece con mayor frecuencia. Si los datos estn en una tabla de frecuencias la moda ser la marca de clase del intervalo o clase de mayor frecuencia.
M. Gonzlez
Medidas de Posicin
Cuartiles
Primer cuartil (Q1 ) es el valor que deja por debajo de l la cuarta parte de los datos ordenados. Para calcularlo se ordenan los datos de menor a 1 mayor y se toma n+ 2 redondeado por defecto. A este nmero lo llamamos q.
1 Si q es impar, Q1 es el dato que ocupa la posicin q+ 2 . Si q es par, Q1 es el punto medio de los datos que ocupan las q posiciones q 2 y 2 + 1.
Segundo cuartil (Q2 ) Es el valor que deja por debajo de l dos cuartas partes de los datos. Por tanto se trata de la mediana, Q2 = x. Tercer cuartil (Q3 ) Es el valor que deja por debajo de l las tres cuartas partes de los datos.
M. Gonzlez
Medidas de Posicin
Deciles El decil i-simo (Di ) deja i/10 de los datos por debajo de l, i = 1, . . . , 9.
Percentiles El percentil p (Pp ) deja el 100p% de los datos por debajo de l, p = 1, . . . , 99.
M. Gonzlez
Medidas de Dispersin
Rango (R)
Diferencia entre el dato mximo y el dato mnimo.
(xi x)2 =
i=1
1 n1
xi2 n x2
i=1
x)2 fi =
1 n1
n 2 i=1 xi fi
n x2
Se dene como s = s2 . La raz cuadrada compensa el hecho de haber elevado los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos.
M. Gonzlez Bioestadstica: Estadstica Descriptiva
Medidas de Dispersin
Rango Intercuartlico (RI ) Distancia entre Q1 y Q3 , RI = Q3 Q1 . En esta distancia se concentran el 50% de los datos que ocupan posiciones centrales.
Coeciente de Variacin (C.V .) Mide la dispersin de los datos en relacin a su orden de magnitud. Se utiliza para comparar la dispersin de distintos grupos de datos. C.V . = s 100 x
M. Gonzlez
Medidas de Forma
Coeciente de Asimetra: g1
El coeciente de asimetra (g1 ) se dene como: g1 =
1 n n i=1 (xi s3
x)3
Cuanto ms prximo est g1 a 0 ms simetra presentan los datos. Si g1 > 0 hay una asimetra hacia valores grandes de la variable y si g1 < 0 hacia valores pequeos de la variable.
0.05 0.15 0.04 0.12 0.10 Density Density 0.05 0.00 0 5 10 g1 > 0 15 50 60 70 g1 = 0 80 90 0.00 0 0.02 0.04 0.06 0.08 0.10 0.14
Density
0.00
0.01
0.02
0.03
10 g1 < 0
15
M. Gonzlez
Medidas de Forma
x)4
Si g2 = 0 (distribucin mesocrtica) el grado de aplastamiento de los datos ser similar al de una campana de Gauss. Si g2 > 0 (distribucin leptocrtica) los datos presentan un menor aplastamiento que la campana de Gauss y si g2 < 0 (distribucin platicrtica), los datos aparecen ms aplastados que la campana de Gauss.
M. Gonzlez
Medidas de Sntesis
Diagrama de Caja o Box-plot
Se trata de una representacin grca ligada a los cuartiles.
q
16
h3
14
Q3 ~ x Q1
10
12
h1
h1 es el dato ms prximo a Q1 1.5RI mayor que este valor. h3 es el dato ms prximo a Q3 + 1.5RI menor que este valor. Los valores menores que h1 mayores que h3 son valores atpicos (outliers) que pueden ser datos inuyentes o simplemente mal tomados.
M. Gonzlez Bioestadstica: Estadstica Descriptiva