Diseos Experimentales Medidas Estadsticas DATOS ATPICOS A veces una muestra puede contener algunos puntos que son mucho ms grandes o pequeos que el resto. Estos puntos se llaman datos atpicos ("Outliers"). Por ejemplo,
Dato Atpico 2 Ing Alberto Rdz Hdz DATOS ATPICOS A veces los datos atpicos son resultado de errores al ingresar datos; por ejemplo, un punto decimal perdido puede dar como resultado un valor que es de un orden de magnitud diferente del resto. Los datos atpicos se deben examinar siempre y cualquiera de ellos que se encuentre es resultado de un error que se debe corregir o eliminar. Aunque no todos los datos atpicos son errores. A veces una poblacin podra contener algunos valores que son muy diferentes del resto y los datos atpicos en la muestra reflejan este hecho. 3 Ing Alberto Rdz Hdz DATOS ATPICOS Los datos atpicos representan un verdadero problema para los analistas de datos. Como consecuencia de lo anterior, cuando las personas ven datos atpicos en sus datos, tratan de encontrar una razn o un pretexto para eliminarlos. Sin embargo, un dato atpico no se debe eliminar, a menos que se tenga la seguridad de que es resultado de un error. Cabe sealar que, si una poblacin realmente contiene datos atpicos y son eliminados de la muestra, esta ltima no caracterizar correctamente a la poblacin. 4 Ing Alberto Rdz Hdz MEDIA MUESTRAL La media muestral tambin llamada media aritmtica, o, simplemente promedio. Representa la suma de los nmeros en la muestra, dividido entre la cantidad total de nmeros que hay.
5 Ing Alberto Rdz Hdz MEDIA MUESTRAL Ejemplo. Una muestra aleatoria simple de cinco hombres se elige de entre una gran poblacin de hombres y se mide su estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la media muestral. Solucin:
6 Ing Alberto Rdz Hdz DESVIACIN ESTNDAR La desviacin estndar es una cantidad que mide el grado de dispersin en una muestra. 7 Ing Alberto Rdz Hdz DESVIACIN ESTNDAR Ejemplo. Una muestra aleatoria simple de cinco hombres se elige de entre una gran poblacin de hombres y se mide su estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la desviacin estndar muestral. Solucin:
8 Ing Alberto Rdz Hdz MEDIA Y DESVIACIN ESTNDAR 9 Ing Alberto Rdz Hdz MEDIANA La mediana, es el valor medio de un conjunto de datos ordenados de menor a mayor. Para calcular la mediana de una muestra, ordene los valores del ms pequeo al ms grande. La mediana es el nmero de en medio. Si el tamao de la muestra es un nmero par, se acostumbra tomar a la mediana muestral como el promedio de los dos nmeros colocados en medio. 10 Ing Alberto Rdz Hdz MEDIANA Ejemplo. Una muestra aleatoria simple de cinco hombres se elige de entre una gran poblacin de hombres y se mide su estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la mediana muestral. Solucin: Las cifras de los cinco casos de estatura, en orden creciente, son 65.51, 67.05, 68.31, 70.68, 72.30. La mediana muestral es el nmero de en medio, que es 68.31. 11 Ing Alberto Rdz Hdz MEDIANA La mediana se usa con frecuencia como una medida de tendencia central para muestras que contienen datos atpicos. Con el propsito de saber por qu, considere que la muestra consta de los valores 1, 2, 3, 4 y 20. La media es 6 y la mediana es 3. Es razonable pensar que cuando una muestra contiene datos atpicos, la mediana podra ser ms representativa de la muestra que la media.
1 2 3 4 6 20
Mediana Media 12 Ing Alberto Rdz Hdz MODA La moda muestral es el valor que tiene ms frecuencia en una muestra. Si algunos valores tienen una frecuencia igual, cada uno representa una moda. Por ejemplo: 29 31 35 39 39 40 43 44 44 52
Existen dos modas, 39 y 44 minutos, ya que cada uno de estos valores aparece dos veces. 13 Ing Alberto Rdz Hdz COEFICIENTE DE VARIACION El CV es una medida relativa de variacin que siempre se expresa como porcentaje y mide la dispersin de los datos con respecto a la media.
14 Ing Alberto Rdz Hdz COEFICIENTE DE VARIACION Ejemplo: 29 31 35 39 39 40 43 44 44 52
Para estos datos, la desviacin estndar es el 17.1% de tamao de la media.
Tips: Si CV <= 20% se dice que el promedio es representativo, o que los datos son homogneos Si el CV es mayor al 20%, el promedio no es representativo de los datos, o los mismos no son homogneos 15 Ing Alberto Rdz Hdz DIAGRAMA DE CAJA Un diagrama de caja y bigote constituye una grfica que incluye la mediana, el primero y el tercer cuartil y cualquier dato atpico que se presente en una muestra. 16 Ing Alberto Rdz Hdz DIAGRAMA DE CAJA Ejemplo: 29 31 35 39 39 40 43 44 44 52 Q1=35 Q2=39.5 Q3=44.
La grafica muestra una muy ligera asimetra a la derecha, ya que la distancia entre la medina y el valor mximo es levemente mayor que la distancia entre el menor valor y la mediana. El bigote derecho es un poco ms largo que el izquierdo. 17 Ing Alberto Rdz Hdz DIAGRAMA DE CAJA 18 Ing Alberto Rdz Hdz 19 Universidad Autnoma Agraria Antonio Narro Departamento de Estadstica y Clculo Diseos Experimentales