You are on page 1of 11

Conceptos b asicos de estad stica

1. Incertidumbre estad stica en la medici on

En el apunte anterior hab amos clasicado a los errores de observaci on en dos grandes grupos; los sistem aticos y los asistem aticos. En este apunte nos ocuparemos de estos u ltimos. Puede suceder que una medici on reiterada conduzca a resultados diferentes. Ya sea que la uctuaci on resulte inherente al sistema sujeto a investigaci on, o que provenga de nuestras dicultades para efectuar la medici on, debemos aprender a hacer armaciones sensatas sobre mediciones que muestren variaciones de este tipo. Al igual que en el caso de los errores sistem aticos daremos un valor central y un error pero esta vez interpretados en t erminos de probabilidades y no de incertidumbres. Supongamos que hemos hecho una sola medici on, y que, para comprobar nuestro trabajo, hemos efectuado esta medici on por segunda vez y obtuvimos un resultado diferente. Suponiendo que las condiciones bajo las que se realizaron ambas experiencias fueron id enticas no habr a porqu e priorizar una sobre la otra. Frente a esta ambig uedad, la reacci on natural ser a intentarlo una tercera vez, con la esperanza, quiz as, de que la tercera medici on conrme una u otra de las dos primeras. Muy probablemente nos arroje una tercera posibilidad. Enfrentados a esta complejidad creciente, podr amos resolver seguir efectuando mediciones para ver qu e sucede. Supongamos que nuestra curiosidad nos ha impulsado a realizar una cantidad considerable de mediciones sucesivas, digamos 100, y ahora nos preguntamos:Cu al es la respuesta? Ello depende mucho de la aplicaci on que querramos darle a los resultados. No hay una sola pregunta ni una respuesta u nica. El tratamiento que demos a nuestros resultados uctuantes depender a de las circunstancias. Consideremos ahora algunas de las posibilidades.

2.

Histogramas y distribuciones

Supongamos que hemos efectuado ya 100 mediciones de cierto par ametro, es com un que aparezcan algunos interrogantes tales como Hay alguna regularidad en los resultados?, alguno de ellos aparece con m as frecuencia que los dem as?, etc. A n de mostrar las caracter sticas de las mediciones con m as claridad resulta muy u til valerse de alguna representaci on gr aca. Una de las formas m as comunes de tal representaci on es el histograma. El histograma es un resumen gr aco de los valores producidos por las variaciones de una determinada caracter stica, representando la frecuencia con que se presentan distintas categor as dentro de dicho conjunto. Vemos en la Fig.(1) la imagen de un histograma que muestra los d as que tard o Edesur en atender cada uno de 61 reclamos.

Figura 1: D as que tarda Edesur en atender un reclamo

Una de las ventajas de esta herramienta es que permite resumir una gran cantidad de datos, favoreciendo el an alisis de la variable en consideraci on. Para construir este diagrama, se divide la escala sobre la cual se extienden las mediciones en intervalos, y se determinan los resultados que corresponden a cada uno. Se gracan luego estas cantidades en una escala vertical, en funci on de los intervalos mismos. Ilustraremos esto con un sencillo ejemplo. Supongamos que estamos interesados en hacer cierto control sobre la cantidad exacta de caf e contenido en paquetes de 250grs. Para eso se pesan 120 unidades. La tabla de abajo muestra los resultados obtenidos.

Figura 2: Peso de 120 bolsas de caf e

Lo primero que se debe determinar es el rango del histograma. Para esto hay que 2

identicar los valores m aximos y m nimos obtenidos y hacer la diferencia, esto es R = Vmax Vmin = 258gs 243gs = 15gs (1)

Con esto ya podemos denir las clases que contendr a el histograma. Estos son los intervalos en los que se divide la caracter stica sobre la que se han tomado los datos. El n umero de clases coincide con el n umero de barras del gr aco. Suele tomarse como norma para denir el n umero de clases la siguiente ecuaci on m = 1 + 3, 3 ln(n) (2)

donde n es el n umero de mediciones. En la tabla de abajo se muestra el n umero recomedado de clases en funci on del n umero de datos tomados.

Figura 3: N umero de clases recomendado.

Dependiendo del n umero de clases en que agrupemos los datos perderemos m as o menos informaci on tratando de identicar la pauta de comportamiento. La tabla anterior es de alg un modo un compromiso entre la m axima sencillez del an alisis y la m nima p erdida de informaci on. As , el pr oximo paso es obtener la amplitud del intervalo de cada clase. Todas las clases deben tener intervalos de la misma longitud, sin que haya solapamiento entre las distintas clases. La amplitud aproximada del intervalo se halla dividiendo el rango por el n umero de clases, redondeando a un n umero o cifra decimal conveniente para el manejo de las clases y la graduaci on del eje horizontal del histograma. En el ejemplo que estamos considerando hay 120 datos, mirando la tabla (3) vemos que necesitamos aproximadamente 8 clases para armar el histograma. La amplitud calculada de cada clase ser a 15gs/8 = 1,875gs, sin embargo, por conveniencia y ya que no altera signicativamente el desarrollo del problema tomaremos como amplitud elegida 2gs. Una vez establecido el n umero de clases hay que denir los l mites de cada una. El l mite inferior de la primera clase debe contener el valor m nimo (243gs en nuestro ejemplo) y el l mite superior de la u ltima clase debe contener el valor m aximo (esto es, 258gs). A n 3

de evitar que alg un dato coincida con el l mite de las clases es conveniente y usual denir estos de forma que tengan un decimal m as que los datos tomados. La siguiente tabla (4) muestra c omo quedar an los intervalos de cada clase en el ejemplo de las bolsas de caf e.

Figura 4: Intervalos de cada clase

El siguiente paso, que se observa en la Fig. (5) es determinar el n umero de datos que deben incluirse en cada una de las clases; a esto se lo llama la frecuencia de cada clase. Es recomendable vericar que el n umero total de datos concuerde con la suma de la frecuencia de cada clase.

Figura 5: Determinaci on de la frecuencia.

Por u ltimo queda hacer el gr aco propiamente dicho. Para esto primero hay que rotular los ejes; en el eje vertical se representan las frecuencias, por lo tanto en el se rotular an n umeros naturales sin unidades. En el eje horizontal se representa la magnitud de la caractear stica medida por los datos, de modo que debe rotularse con la unidad de medida 4

empleada. Este eje se divide en tantos segmentos iguales como clases se hayan denido, rotulando los l mites de cada intervalo. Luego queda dibujar las barras verticales correspondientes a cada clase; su base estar a situada en el eje horizontal y su altura corresponder a a la frecuencia de la clase representada, como se observa en la gura (6).

Figura 6: Histograma completo

En el ejemplo de los paquetes de caf e, la distribuci on result o ser en forma de campana, o sea, una forma sim etrica con un pico en la mitad del recorrido de los datos. Esta es la distribuci on natural, habitual gran cantidad de procesos; de ah que se la denomine con el nombre de distribuci on normal. Otra forma que suele aparecer, como se ve en la gura de abajo, es la doble campana o doble pico. Esta presenta un marcado valle en el medio con picos a ambos lados. Esta forma es, generalmente, la combinaci on de dos distribuciones y sugiere la presencia de dos procesos distintos.

Figura 7: Distribuci on normal y doble pico.

El siguiente diagrama de ujo muestra c omo es el proceso general para gracar un histograma.

Figura 8: Diagrama de ujo para la construcci on de un histograma

3.

Valores Centrales

Hasta ac a tenemos un an alisis casi cualitativo, sin embargo, queremos ir m as lejos y, encontrar alguna forma abreviada de escribir la distribuci on sin tener que mostrar efectivamente el diagrama completo. Nos interesa ver si de este conjunto ahora ordenado de datos podemos inferir conclusiones, por ejemplo, qu e resultado particular caracteriza mejor al grupo de observaciones en su totalidad. Resulta que existen dichos valores y los resumiremos a continuaci on. Moda La mayor a de las distribuciones tienen un punto m aximo o pico cerca del centro. Si ese pico est a bien denido, el valor sobre la escala horizontal en que ocurre se llama moda de la distribuci on. Siempre que querramos llamar la atenci on sobre esta concentraci on central de nuestros valores medidos, mencionamos el valor modal. A veces una distribuci on tendr a dos puntos m aximos; en este caso la denominamos distribuci on bimodal y se nalamos los dos valores modales. erico y los dividimos a la Mediana Si colocamos todos nuestros resultados en orden num mitad en dos partes iguales, el valor correspondiente a esta l nea divisoria se llama 6

mediana. Como es obvio que las barras bajo las gr acas de distribuci on representan grupos de observaciones (frecuencias), la mediana es aquel valor en el cual una l nea vertical divide a la distribuci on en dos partes de area equivalentes. Media El tercero de los valores com unmente citados es el conocido promedio o media aritm etica. Para un grupo de N observaciones, xi , la media x se dene como xi x = (3) N M as adelante veremos que, para nuestros prop ositos, la media es la m as u til de las tres cantidades que hemos denido. N otese que, para una distribuci on sim etrica, la media, la mediana y la moda coinciden todas en el centro de la distribuci on. Si, por otra parte, la distribuci on no es sim etrica, cada una tendr a unv alor diferente. Esto se observa en la gura (9).

Figura 9: Distintas distribuciones.

Este conjunto de diagramas muestra la diferencia en los valores centrales para cada tipo de distribuci on.

4.

Amplitud de las distribuciones

En la secci on anterior consideramos dar un valor representativo a partir de un conjunto de datos; la pregunta que cabe hacerse ahora es en qu e medida nuestro valor elegido representa a la distribuci on en su conjunto. Si bien no contamos con las herramientas matem aticas para justicar lo que sigue, conaremos en la intuici on y diremos que cuanto m as amplia sea la distribuci on, menor ser a la importancia que podamos asignar a

cualquiera de los tres valores centrales. Por otra parte, cuanto m as estrecha sea la distribuci on, tanto m as autorizados nos sentiremos a conar en la media, la moda o la mediana como los valores representativos de la distribuci on. Formulemos, pues, una cantidad que ser a una medida de la amplitud de la distribuci on. Podr amos inventar muchas de tales cantidades, pero, por razones de las que no es preciso ocuparnos por ahora, determinaremos una cantidad de uso casi universal. Denimos la desviaci on est andar de la distribuci on S , como ( x xi )2 S= (4) N Si bien la denici on es arbitraria existen varias razones para esa elecci on; una es que esta cantidad, por como est a denida nunca va a tomar valores negativos y s olo ser a cero en el caso que todas las observaciones arrojen el mismo resultado. En s ntesis, consideraremos la desviaci on est andar como una medida de la conanza que podemos tener en los resultados.

5.

Distribuci on de Gauss

Ya que la presencia de uctuaciones al azar nos ha privado de la oportunidad de identicar un intervalo realista dentro del cual podemos estar seguros de que se encuentra nuestro valor buscado, debemos cambiar nuestras expectativas del proceso de medici on. Por supuesto que no tiene sentido preguntarse cu al es la respuesta correcta. Ni siquiera es razonable plantearse que resultado obtendr e en la medici on 121- esimo paquete de caf e. En cambio podriamos preguntarnos por ejemplo, cu al es la probabilidad de que el resultado 121- esimo forme parte de un cierto intervalo de valores en nuestra escala. Podemos ahora preguntarnos si de nuestras 120 mediciones originales, una cierta porci on de los resultados queda incluida en ese intervalo particular, podr amos, con todo derecho, elegir esa fracci on como el ndice de probabilidad que buscamos. Ahora bien, si tuvi eramos que efectuar otra serie de 120 observaciones manteniendo todas las condiciones igual que al principio, con la esperanza de obtener el mismo histograma, quedar amos decepcionados. El nuevo histograma no coincidir a con el primero con exactitud. Podr a tener caracter sticas generales semejantes con respecto a su localizaci on y amplitud, pero su estructura detallada no ser a la misma que antes, y por lo tanto obtendr amos respuestas diferentes a preguntas sobre probabilidades. Una soluci on a este problema consiste en desistir de describir nuestro histograma en particular y empezar a hablar sobre distribuciones te oricas denidas. Muchas de esas distribuciones te oricas se han desarrollado para prop ositos especiales, pero aqu nos ocuparemos de una sola: la distribuci on Gaussiana o normal. Considerando a la curva exclusivamente desde el punto de vista matem atico, su ecuaci on en funci on de la diferencia entre el valor medido (x) y el valor central (X ) puede expresarse as : 2 2 y = C exph (xX ) (5) Aqu la constante C es una medida de la altura de la curva, ya que y = C para x = X , en el centro de la distribuci on. La curva es sim etrica alrededor de x = X y tiende a cero 8

asint oticamente. Es obvio que la cantidad h determina la amplitud de la curva, ya que s olo es un multiplicador en la escala x. Si h es grande, la curva es estrecha y alta en relaci on a su amplitud; si es peque na, la curva es baja y ancha. La cantidad h sin duda debe de estar relacionada con la desviaci on est andar de la distribuci on, y se puede demostrar que la relaci on en cuesti on es 1 = (6) 2h Emplearemos letras latinas, por ejemplo S para la desviaci on est andar, para las cantidades asociadas con conjuntos nitos de observaciones reales; y letras griegas, como , al referirnos a distribuciones denidas, o a un universo de observaciones. Ahora que tenemos una ecuaci on denida para la distribuci on, toda la ambig uedad original sobre la interpretaci on de la desviaci on est andar en t erminos de probabilidad desaparece, y tenemos valores denidos, u nicos y permanentes. Por ejemplo, el area incluida dentro del intervalo X para una distribuci on Gaussiana es de 68 %, y dentro del intervalo X 2 es de 95 %, e igual ocurre para todas las distribuciones Gaussianas. La relaci on entre los valores de y las areas bajo la curva de distribuci on normal se muestra en la gura (10).

Figura 10: Probabilidades dentro de cada clase en una distribuci on gaussiana

Los resultados ofrecidos en la secci on anterior proporcionan m etodos u tiles y precisos para interpretar las medias y las desviaciones est andar, pero los problemas surgen cuando intentamos aplicar estas ideas a mediciones reales. Los ndices anteriores reeren a una construcci on te orica mientras que nosotros contamos con un n umero nito de datos. El truco es invertir la idea y pensar a nuestro conjunto de observaciones (las 120 bolsas de caf e) como una muestra del universo o poblaci on innitamente grande de las

observaciones que podr an llevarse a cabo. Este universo permanecer a siempre inaccesible a nosotros; jam as conoceremos su distribuci on total o su media o su desv o est andar sino que desarrollaremos inferencias sobre estos a partir de las propiedades conocidas de nuestra muestra. Las desviaciones est andar de la muestra corresponden tambi en a una distribuci on Gaussiana, cuyo centro constituye la desviaci on est andar del universo. Este par ametro se denomina la desviaci on est andar de la media, y su valor es m = N (7)

donde N es la cantidad de observaciones de la muestra. As pues, una muestra en particular tiene un 68 % de probabilidad de estar incluida en el intervalo X m y un 95 % de probabilidad de formar parte del intervalo X 2m .

6.

Aplicaci on a las mediciones reales

En la poblaci on, se est a obteniendo la medida de un par ametro poblacional por denici on, dividiendo las diferencias cuadraticas entre N . Pero cuando se realiza un muestreo, se obtiene una medida muestral, con la cual se trata de hacer inferencia estad stica sobre el verdadero par ametro poblacional, entonces, se ha observado que al usar N en la muestra el estimador es sesgado en el contexto del muestreo repetido, en cambio cuando se usa N 1, el estimador resulta ser insesgado. De hecho, puede demostrarse que la mejor estimaci on de la desviaci on est andar del universo est a dada por la cantidad ( x xi )2 S= (8) N 1 Esta diere s olo un poco de nuestro valor original de la desviaci on est andar para un conjunto dado de observaciones. La diferencia entre las dos cantidades, obviamente, resulta signicativa s olo para valores peque nos de N . De aqu en adelante, cuando hablemos de la desviaci on est andar de una muestra, daremos por sentado que estamos usando la ecuaci on en esta nueva forma, y que en realidad estaremos considerando la mejor estimaci on del valor del universo, . Admitiendo a nuestra desviaci on est andar de la muestra como la mejor estimaci on de , estamos ahora en condiciones de hacer una clara proposici on sobre nuestra muestra aislada. Podemos reformular la ecuaci on (7) y denir S Sm = N (9)

como la desviaci on est andar de la media, que ahora es una cantidad conocida derivada de nuestra muestra real. Ahora podemos armar: hay una probabilidad del 68 % de que la media del universo X est e incluida en el intervalo x Sm y una probabilidad del 95 % de formar parte del intervalo x 2Sm . 10

7.

Error Efectivo

En el apunte de errores aprendimos a escribir el error absoluto de una medici on x como la suma del error observacional m as el de lectura del instrumento. La pregunta que surge entonces es, qu e papel juega el error estad stico en el error total. De lo que vimos hasta ac a podemos decir, groseramente, que el error estad stico puede expresarse como ( x xi ) 2 xe = (10) N (N 1) La combinaci on de los errores sistem aticos xs y estad sticos xe recibe el nombre de error efectivo y se calcula mediante la ecuaci on 2 x = x2 (11) s + xe o, en caso que haya diferencias de ordenes de magnitud, el mayor entre ambos.

8.

Precisi on y Exactitud

Precisi on se reere a la dispersi on del conjunto de valores obtenidos de mediciones repetidas de una magnitud. Cuanto menor es la dispersi on mayor la precisi on. Una medida com un de la variabilidad es la desviaci on est andar de las mediciones y la precisi on se puede estimar como una funci on de ella. Exactitud se reere a cu an cerca del valor real se encuentra el valor medido. En t erminos estad sticos, en el caso de una distribuci on normal, la exactitud est a relacionada con la posici on de la media.

Figura 11: Noci on estad stica de precisi on y exactitud.

11

You might also like