You are on page 1of 22

TCNICAS DE INVESTIGACIN EN OPININ

PBLICA Y MERCADO

TITULAR Y ADJUNTA: DRA. MNICA PETRACCI



CUADERNO DE CTEDRA N 9

INTRODUCCIN A LA ESTADSTICA PARA
ESTUDIANTES DE CIENCIAS SOCIALES
QUE PENSARON NO VOLVERAN A VER
UNA CALCULADORA

MARTN ROMEO


ORGANIZADORA DE ESTA PUBLICACIN:


MNICA PETRACCI


- 2008 -


Tcnicas de Investigacin en Opinin Pblica y Mercado
2

PALABRAS INICIALES


Tcnicas de Investigacin de Opinin Pblica y Mercado es una materia cuyo objetivo
principal, tal como su nombre lo indica, est centrado en la enseanza de las tcnicas de
recoleccin y anlisis de la informacin en el marco del proceso de investigacin social.
Dos son los criterios a partir de los cuales ese objetivo general fue pensado. Por un lado,
la comprensin por parte de los alumnos de los principios tericos en los que se basa la
investigacin cientfica. Por otro, la observacin de esos principios en el diseo y
aplicacin de las tcnicas a travs de las cuales la investigacin es realizada. En suma,
para conocer las tcnicas de relevamiento y anlisis es necesario que los alumnos
comprendan la lgica del proceso de investigacin social y, tambin, que realicen, en la
medida de lo posible, una prctica de investigacin. Dicho en otros trminos, es
investigando cmo se aprende a investigar.

El material elaborado por Martn Romeo es una contribucin para el aprendizaje y el
ejercicio de herramientas bsicas de anlisis estadstico. Fue pensado especialmente
para los alumnos y alumnas de Ciencias de la Comunicacin, en el marco de una prctica
que inici el Profesor Heriberto Muraro, primer titular de la ctedra, con el Cuadernillo
Manual de estadstica para estudiantes posmodernos en 1985, un clsico para los
aproximadamente cien estudiantes que cuatrimestre tras cuatrimestre hubieron cursado la
materia. Entre ellos, el autor de este trabajo.

Quiero sealar mis felicitaciones por la iniciativa y el resultado.






Mnica Petracci
Titular de Ctedra

Tcnicas de Investigacin en Opinin Pblica y Mercado
3

NDICE DEL TRABAJO




1. Estadstica descriptiva Pgina 4

2. Estadstica inferencial Pgina 9

3. Diferencias de proporciones Pgina 15

4. Diferencias de medias Pgina 21

5. Bibliografa consultada y citada Pgina 22

Tcnicas de Investigacin en Opinin Pblica y Mercado
4
1. ESTADSTICA DESCRIPTIVA

La ctedra se ha propuesto comparar los resultados de un parcial evaluatorio utilizado en
dos comisiones diferentes de la ctedra en la misma ocasin de examen. Para ello ha
seleccionado con un procedimiento probabilstico aleatorio una muestra de un conjunto de
10 parciales de cada una de las comisiones.

La hiptesis que gua dicho inters es la sospecha de que el rendimiento comparativo es
diferente frente al mismo estmulo evaluatorio y el supuestamente mismo estmulo
docente.

El cuadro N1 muestra una matriz de datos con los resultados de los parciales de diez
alumnos de dos comisiones diferentes en la ctedra que fueron seleccionados de manera
probabilstica.

CUADRO N1: MATRIZ DE DATOS CON CALIFICACIONES DE PARCIALES EN DOS
COMISIONES
alumno COM N1 COM N2
1 2 7
2 3 6
3 4 6
4 4 6
5 4 7
6 5 7
7 6 6
8 7 6
9 8 6
10 10 7

Con esta tabla de datos, el analista comenzar su trabajo. Las medidas ms utilizadas de
las estadstica descriptiva son la moda, la mediana, la media, la desviacin estndar,
el valor mnimo, el valor mximo y el rango.

La moda indica el valor que se observa con mayor repeticin hacia el interior de una
distribucin. La distribucin ser bimodal o trimodal en los casos en los que sean dos o
tres, respectivamente, los datos que tengan una misma frecuencia mxima absoluta. Por
el contrario, si sucediera que todas las categoras tienen la misma frecuencia diremos que
no existe moda en la distribucin. En la comisin N1 la moda se ubica en el valor 4
mientras que en la comisin N2 se ubica en el valor 6.

La mediana corresponde al valor de la variable en el que una distribucin queda dividida
en dos partes. Grficamente sera la cima de una montaa por cuanto a ambos de sus
lados se encuentran una ladera.
En este sentido, el conjunto de datos menores o iguales que la mediana representarn el
50% de los datos mientras que aquellos que sean mayores que la mediana representarn
el otro 50% del total de datos de la muestra.
Tcnicas de Investigacin en Opinin Pblica y Mercado
5
Para su ubicacin ser necesario ordenar ascendentemente la distribucin de frecuencias
de las variables.
En el caso de que el tamao muestral sea impar, la mediana ser la observacin central
de los valores. Si por el contrario, el tamao muestral es par, la mediana ser el promedio
aritmtico de las observaciones centrales. Tal es el caso de nuestra matriz de datos que
informan que la mediana de la comisin N1 = 4,5 (resultado de dividir la suma de 4 + 5
dividido 2) mientras que la de la comisin N2 = 6.
Obsrvese que la matriz de datos est ordenada de manera ascendente en relacin con
el resultado de los parciales de la comisin N1. La mediana de la comisin N2 se
observar ms claramente si ordenramos los datos de esta comisin ascendentemente.
Ahora bien, la mediana puede calcularse de esta manera en funcin de que estamos
trabajando con datos No agrupados, es decir, con una tabla que analiza las
observaciones de manera individual sin considerar las repeticiones de los valores.
En el caso de que trabajemos con datos agrupados que contemplan las repeticiones de
los valores la ubicacin de la mediana puede variar.
En este sentido, si la divisin por dos del tamao muestral (n/2) coincide con el valor de
una frecuencia acumulada, el valor de la mediana coincidir con la abscisa
correspondiente. Si por el contrario, no coincide con el valor de ninguna abscisa, la
mediana se calcular a travs de semejanza de tringulos en el histograma o polgono de
frecuencias acumuladas cuya frmula es la siguiente pero su explicacin dejaremos para
otra ocasin.


El valor mnimo y mximo informa de las observaciones mnimas y mximas de una
distribucin de frecuencia. La combinacin de estos datos a travs de su diferencia (X
max

X
min
) dan lugar al rango estadstico que se simboliza con la letra r.

El siguiente cuadro sintetiza estos valores correspondientes a ambas comisiones.
COMISIN N1 COMISIN N2
Mnimo 2 6
Mximo 10 7
Rango 8 1

Ahora calcularemos la media aritmtica de cada una de las comisiones. La media es una
medida estadstica descriptiva que conocemos comnmente como el promedio de algo.

La estadstica descriptiva es muy til para resumir en pocos valores el comportamiento
conjunto de una distribucin. Dichas medidas se calculan para variables con niveles de
medicin intervalares o de razn.

Tcnicas de Investigacin en Opinin Pblica y Mercado
6
A partir de ahora, las medidas que utilicemos tendrn una mayscula cuando refieran a la
poblacin total y una letra minscula cuando refieran a la muestra.

La media se designa con una X con una barra horizontal: ( ).
Dados los n nmeros a
1
,a
2
, ... , a
n
, la media aritmtica se como el resultado de la suma
de las observaciones divido por la cantidad de casos totales. Se expresa de la siguiente
forma:+

A partir de esta frmula, calcularemos la media aritmtica del parcial de la comisin N1
que ser igual a:

A partir del mismo procedimiento, podremos calcular que la media aritmtica del parcial
correspondiente a la comisin N2 es de:

Con las medias ya calculadas, es alta la tentacin de decir que el rendimiento en la
comisin N2 es mayor que el observado en la comisin N1. Veamos entonces por qu
hombre (o mujer) precavido vale por dos.

Calcularemos ahora la diferencia entre medias aritmticas para dos conjuntos.

Para ello ser necesario calcular la desviacin estndar
1
que hace referencia a la forma
que asume una distribucin dada. En la medida en que el desvo se acerca a cero (0), la
distribucin es cada vez ms homognea y en la medida que se aleja de dicho valor se
hace, por el contrario, ms heterognea.

La desviacin estndar
2
, sintetiza en un valor cunto se alejan (o dispersan) los valores
de la distribucin con relacin a la media aritmtica o promedio. La unidad de medida de
la desviacin es la misma que la de la media; en este caso, puntos de parcial.

El siguiente grfico muestra cmo puede variar una distribucin en cuanto a la dispersin
de los valores. Tomaremos como ejemplo el promedio obtenido en la comisin N1 igual a
5,30.


1
Puede encontrarse tambin como desviacin tpica, desvo estndar o desvo tpico.
2
Introducida en 1894 por el cientfico ingls Karl Pearson.
Tcnicas de Investigacin en Opinin Pblica y Mercado
7
DISTRIBUCIONES SEGN DISPERSIN
10
0,6
10
0,6
10
0,6
10
0,6
10
0,6
5,4
5,2
5,4
5,2
5,4
5,2
5,4
5,2
5,4
5,2
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10
ALUMNO
V
A
L
O
R

D
E

N
O
T
A
x max disp x min disp


Como se observa, las distribuciones son diametralmente opuestas an cuando comparten
la misma media aritmtica (5,30).

La distribucin de mxima dispersin supone la obtencin del mximo de nota posible de
una mitad de los alumnos conjuntamente con el mnimo posible de la otra mitad de forma
tal de alcanzar el promedio solicitado (5,30 puntos).

La distribucin de mnima supone el alejamiento de tan slo una dcima con relacin al
promedio ya sea por exceso como por defecto.

Veamos, entonces, cmo se calcula la desviacin estndar.



La desviacin estndar se simboliza con la letra S.

Calcularemos paso a paso el desvo del parcial de la comisin N1.
Tcnicas de Investigacin en Opinin Pblica y Mercado
8



alumno COM. N1

1 2 (2,0 - 5,3) -3,3 (-3,3)
2
10,89
2 3 (3,0 - 5,3) -2,3 (-2,3)
2
5,29
3 4 (4,0 - 5,3) -1,3 (-1,3)
2
1,69
4 4 (4,0 - 5,3) -1,3 (-1,3)
2
1,69
5 4 (4,0 - 5,3) -1,3 (-1,3)
2
1,69
6 5 (5,0 - 5,3) -0,3 (-0,3)
2
0,09
7 6 (6,0 - 5,3) 0,7 (0,7)
2
0,49
8 7 (7,0 - 5,3) 1,7 (1,7)
2
2,89
9 8 (8,0 - 5,3) 2,7 (2,7)
2
7,29
10 10 (10,0 - 5,3) 4,7 (4,7)
2
22,09

(sumatoria de x) 53

0,0

54,1
Sumatoria de x
Sumatoria de X
menos la media
Sumatoria de x menos la
media al cuadrado


Obsrvese que como consecuencia de trabajar con los datos no agrupados, la sumatoria
de debe ser igual a cero. Esta es una buena medida de control en los casos
en que se hacen los clculos manualmente. Dicha sumatoria es igual a cero porque todo
lo que algunos valores se alejan por exceso de la media estn compensados por otros
que se alejan pero por defecto.

Con los datos de la tabla anterior slo resta calcular:



Utilizando el mismo procedimiento de clculo obtendremos que la desviacin estndar de
la comisin N2 es = 0,51.

La primer lectura de estos datos permite asegurar que la distribucin de notas de la
comisin N2 es ms homognea que la observada en la comisin N1 dado que sus
valores se han dispersado menos y en consecuencia el valor de la desviacin estndar es
menor.

La siguiente tabla resume los datos obtenidos hasta ahora con relacin a las notas de los
parciales de dos comisiones comparadas.
Tcnicas de Investigacin en Opinin Pblica y Mercado
9

ESTADSTICA COMISIN N1 COMISIN N2
MEDIA 5,30 6,40
DESVACIN ESTNDAR 2,45 0,51

Los datos muestran que la comisin N2 ha obtenido un promedio de notas mayor que la
comisin N1 combinado con un desvo menor.

Ahora bien, son suficientes estos datos para asegurar que la comisin N2 ha tenido un
mejor rendimiento que la N1?


ESTADSTICA INFERENCIAL

Estos datos no son suficientes por cuanto para realizar dicha afirmacin necesitamos
hacer un clculo de diferencias de medias en funcin de su ubicacin en un intervalo de
confianza.

El intervalo de confianza se apoya sobre tres datos:

Una media o porcentaje obtenido de la muestra
Un lmite inferior y otro superior que enmarcan dicho intervalo
Una probabilidad asociada al intervalo que refiere a la probabilidad de que el valor
real de una variable en una poblacin est ubicado dentro del intervalo mencionado

Analicemos punto por punto cada uno de estos tems.

El primero de esto refiere a una estimacin media puntual a partir de los observados en
una muestra dada. En nuestro ejemplo, podra ser la calificacin de la comisin N1 en las
notas del parcial =6,40.

Los lmites inferiores y superiores de un intervalo informan el marco en el cual puede
oscilar la estimacin puntual. En este sentido, la correcta lectura de la estimacin puntual
ya no ser decir que la calificacin media de la comisin N1 es de 6,40 sino que ser un
nmero comprendido entre tal y cual nmero.

En este caso puntual, el lmite inferior ser 3,79 mientras que el superior ser 6,81.

En este punto es necesario pedirle al lector, paciencia y confianza (en trmino de fe) de
que dichos valores son correctos. Aunque luego veremos cmo calcularlos, ahora
necesitamos usar dichos valores para anclar las definiciones que se van utilizando.

Finalmente, la probabilidad asociada al intervalo es una suerte de pronstico. Este
pronstico indica qu probabilidad existe de que el valor real (de la nota del parcial) en
una poblacin (los estudiantes de la comisin N1) est ubicado entre el lmite inferior y
superior del intervalo antes mencionado. Para el caso que estamos analizando, se han
realizado los clculos a una probabilidad del 95%.

De esta manera, los resultados de nuestra muestra indican que existe un 95% de
probabilidad de que la nota de la poblacin de estudiantes de la comisin N1 (obsrvese
que hablamos de todos los estudiantes y ya no de la muestra extrada) sea un nmero
comprendido entre 3,79 y 6,81 puntos.
Tcnicas de Investigacin en Opinin Pblica y Mercado
10

Como se habr observado, el pronstico tiene un 95% de confianza que es mucho pero
no es lo que sera matemticamente un certeza del 100%.

En este punto, se abre una conclusin muy interesante con relacin a los pronsticos que
habitualmente realizan los estadsticos.

Sucede que si censramos las calificaciones de todos los estudiantes de la comisin N1
y observramos que efectivamente el promedio de notas es un valor ubicado entre los
lmites inferior y superior pronosticados; podremos decir que el pronstico ha sido
acertado. Ahora bien, si de dicho censo resultara que la calificacin promedio de dicha
comisin es de 2,40 (por ejemplo) que es un valor no comprendido entre dichos lmites, el
pronstico tambin habr acertado.

Cmo puede suceder tal cosa. Sucede que el pronstico adverta sobre una probabilidad
de un 95% de que dicho evento sucediera pero que tambin exista un 5% restante de
que dicho pronstico no sucediera.

Este artilugio estadstico puede resultar muy divertido para explicar matemticamente lo
sucedido pero a los ojos de un cliente puede resultar un intento por explicar lo inexplicable
y el analista seguramente deba revisar los clasificados en bsqueda de trabajo an
cuando est justificado tcnicamente.

En este punto es necesario hacer algunas aclaraciones al mismo tiempo que empezar a
dilucidar cmo se han calculado tales o cules valores.

El lector se preguntar de dnde sale tal 95% de probabilidad mencionado o por qu no
pronosticar con una mayor probabilidad ms cercana al 100%.

Por el teorema central del lmite, la mayora de las veces es posible asumir para los
estadsticos una ley normal de distribucin. El 95% de probabilidad supone una
distribucin normal con una media = 0 y una desviacin estndar = 1 que dan como
resultado un valor percentil de 1,96. Por si no ha quedado claro, esto permite afirmar que
el intervalo calculado a partir de la estimacin puntual de la muestra contiene al verdadero
valor del parmetro poblacional en 95 de cada 100 observaciones.

El teorema central del lmite supone que, en lneas generales, la distribucin de la suma
de variables aleatorias tiende a ser una distribucin normal
3
cuando la cantidad de dichas
variables es alta. En este sentido cuanto ms grande sea el valor de n mayor ser la
aproximacin.

La distribucin normal es frecuentemente utilizada en la teora de las probabilidades dado
que, por un lado, su funcin de densidad es simtrica y con forma de campana (de aqu
surge el concepto de campana de Gauss) por lo que facilita su aplicacin como modelo a
un importante nmero de variables estadsticas; y por el otro, es el lmite de otras
distribuciones y est vinculada por sus propiedades matemticas a mltiples resultados
ligados a la teora de las probabilidades.

La mayora de las variables aleatorias de tipo continuas presentan una funcin de
densidad que se grafican con una forma de campana de donde deriva el nombre de
campana de Gauss.

3
Conocida tambin como distribucin Gaussiana o distribucin de Gauss.
Tcnicas de Investigacin en Opinin Pblica y Mercado
11

El siguiente grfico muestra la funcin de densidad de probabilidad de la distribucin
normal en donde puede observarse la forma de campanas que dan origen a su nombre
artstico.

La lnea verde corresponde a la distribucin normal estndar con media = 0 y desvo estndar = 1
Como ya se ha dicho, el teorema del lmite central garantiza una distribucin normal
cuando n es lo suficientemente grande y la aproximacin entre las dos distribuciones es,
en lneas generales, mayor en el centro de las mismas que en sus extremos o colas.
El siguiente ejemplo puede ser algo clarificador entre tanta bruma matemtica. Suponga
Ud. que se dispone a comparar cuntas veces sale cara y ceca al arrojar una moneda.
La teora de las probabilidades dir que tanto cara como ceca saldrn la mitad de las
veces por cuanto la probabilidad de ambas es = 0,50.
Sin embargo, si el nmero de lanzamientos es pequeo Ud. podr poner en duda esta
mxima de la teora y con un justificativo emprico a partir de observar que alguna de las
caras (sea cara o sea ceca) ha salido ms veces que la otra.
Ahora bien, a medida que el nmero de lanzamientos aumenta, Ud. podr verificar que la
distancia entre la cantidad de veces que han salido cara y ceca disminuye hasta tender a
cero cuando el nmero de lanzamientos ronde el infinito.
De esta manera, cuando el nmero de lanzamientos sea lo suficientemente grande
estaremos cercanos a la distribucin normal que garantiza el teorema del lmite central.
Habida cuenta del origen del tan mentado 95% de probabilidad resta responder por qu
no pronosticar con una mayor probabilidad que se acerque an ms al 100%.

En primer lugar, diremos que no es posible hacerlo al 100% partiendo de una muestra.
Slo se puede alcanzar dicho valor a partir de censos que incluyan la totalidad de la
poblacin.

Ahora bien, s es posible aumentar la probabilidad pero con un costo. El investigador
puede aumentar la probabilidad del pronstico por ejemplo al 99% pero a costas de
aumentar o ensanchar el intervalo de confianza; es decir, aumentar lo que se conoce
Tcnicas de Investigacin en Opinin Pblica y Mercado
12
como el margen de error muestral. En este sentido el pronstico ser ms probable (casi
una certeza) pero ser ms impreciso.

Por el contrario, si le pedimos al investigador que reduzca el intervalo de modo de
pronosticar con mayor precisin debemos contemplar que la probabilidad de acertar el
dicho pronstico se ver reducida.

Como se observa, estos tres componentes estn ntimamente relacionados entre s y
resulta imposible pensar en bajar el margen de error muestral (lo que redundara en
achicar el intervalo de confianza) conjuntamente con aumentar la probabilidad de acertar
el pronstico.

Un ejemplo que sintetice esta problemtica puede ser el siguiente:

Un meteorlogo nos dice que hay un 95% de probabilidades de lluvia entre las 15 hs y las
16 hs.

Si le pidiramos que aumente su probabilidad de acertar el pronstico, nos dir que hay
un 99% de probabilidades de lluvia entre las 13 hs y las 18 hs.

En el transcurso de esta breve explicacin acerca de la interrelacin entre los
componentes del intervalo de confianza, se ha mencionado el error muestral o error de
muestreo o error estndar de la muestra.

El error de muestreo que, como se ver ms adelante, interviene en nuestros clculos
hace referencia a la incertidumbre con relacin a la exactitud del proceso de muestreo. El
error de muestreo refiere a la imprecisin en que se incurre al momento de estimar una
caracterstica de la poblacin estudiada (el parmetro) tomando como base los valores
obtenidos a partir de una muestra o recorte de dicha poblacin.

Este error est afectado por mltiples factores entre los que se cuentan el tamao de la
muestra, la naturaleza de la caracterstica a estimar, las incidencias producidas en el
proceso de recoleccin de la informacin, el tipo de procedimiento de seleccin y
extraccin de los elementos muestrales (el procedimiento de muestreo) as como el ajuste
paramtrico (comnmente conocido como ponderacin) al que se someten las muestras
una vez realizada la recoleccin de los datos. Cualquier alteracin en el desarrollo de una
encuesta implicar variaciones en el clculo de ponderadores que repercutirn sobre el
error muestral.

Ahora bien, esta incertidumbre a la que refiere el error de muestreo es habitualmente
denominada como el margen de error asociado.

El margen de error es inversamente proporcional al tamao de la muestra por lo que a
mayor tamao menor ser el margen de error. En rigor, la eleccin de con qu margen de
error se quiere trabajar debiera ser la primer eleccin que haga el investigador ya sea
para s mismo como de cara a un cliente.

Habitualmente el investigador tiene que hacer un equilibrio entre un margen de error
aceptable y el costo operativo del trabajo de campo. Las muestras que asocian
mrgenes de error aceptables oscilan entre los 400 y los 1.000 elementos efectivos.

Tcnicas de Investigacin en Opinin Pblica y Mercado
13
Al respecto, considrese que la reduccin del margen de error nunca se da en una forma
proporcional al aumento del tamao muestral. Por ejemplo, mientras una muestra de 400
elementos tendr un margen de error de +/- 4,9%, una muestra de 800 elementos (el
doble) tendr uno de +/-3,5%
4
.

Como se observa la duplicacin del tamao de la muestra y por ende del costo del trabajo
de campo, no reduce a la mitad el margen de error. Para reducir a la mitad el margen de
error de la muestra sern necesarios 1.600 elementos.

El margen de error se reduce sensiblemente a medida que agregamos casos en tamaos
muestrales pequeos pero se muestra cada vez ms inelstico a dichos agregados
cuando las muestras son grandes.

En este punto, es importante sealar que el % mencionado con relacin al margen de
error nada tiene que ver con el % mencionado con relacin al nivel de confianza del
pronstico aunque ambos estn expresados en la misma medida porcentual.

Hechas estas aclaraciones, estamos en condiciones de desarrollar nuestros clculos para
dar respuesta a la pregunta que dio origen a este tour estadstico matemtico.

Previamente a entrar en nuestro trance hipntico estadstico, habamos calculado con
relacin a los parciales de las comisiones los siguientes valores o medidas.

ESTADSTICA COMISIN N1 COMISIN N2
MEDIA 5,30 6,40
DESVACIN ESTNDAR 2,45 0,51

El siguiente paso ser calcular el error de muestreo a partir de la siguiente frmula:



Calcularemos el error de muestreo para la comisin N1:




Habiendo calculado el error de muestreo, el intervalo de confianza se calcula de la
siguiente manera:



De esta forma, el lmite inferior del intervalo ser el resultado de la media menos el valor
de la constante k; y el lmite superior, el resultado de la media ms el valor de la

4
Ambos casos suponen extracciones muestrales de poblaciones infinitas con un nivel de confianza del 95% (1,96 sigmas) cuando P y
Q = 50%, es decir, en la mxima heterogeneidad.
Tcnicas de Investigacin en Opinin Pblica y Mercado
14
constante k. Considrese que este k nada tiene que ver con Kirchner ni el
kirchnerismo.

El valor de k es el resultado de multiplicar el error muestral por el valor percentil que en
la curva de distribucin normal supone trabajar con un nivel de confianza asociada.
Supongamos que hemos decidido trabajar con un 95% de confianza asociada al
pronstico de la media poblacional y se calcular de la siguiente manera:



En este punto, es importante sealar que las frmulas y clculos hasta aqu desarrollados
en relacin con los intervalos de confianza suponen estimaciones y pronsticos para
medias poblacionales cuyos tamaos sean iguales o superiores a 30 elementos (cuya
notacin estadstica sera la siguiente para cuando n >= 30)

Considrese que si hubiramos decidido trabajar con un nivel de confianza diferente, el
valor percentil se hubiera modificado siendo mayor cuanta mayor sea la confianza en el
pronstico a realizarse.

As las cosas, calcularemos los lmites del intervalo de confianza de la media poblacin
correspondientes al parcial de la comisin N1.

Lmite inferior

5,30 (1,96 x 0,77) = 5,30 1,51 = 3,79
Lmite superior

5,30 + (1,96 x 0,77) = 5,30 + 1,51 = 6,81

La lectura de estos datos indica que existe un 95% de probabilidad de que la media
poblacional de los parciales de la comisin N1 sea un valor comprendido entre 3,79 y
6,81 puntos. Al respecto, considrese que estadsticamente se considera equiprobable
cualquier valor comprendido en dicho intervalo y en nada afecta al pronstico el hecho de
que el valor real se acerque ms a alguno de los lmites del intervalo.

En este sentido, si censramos los parciales de esta comisin y relevramos que la media
poblacional es de 6,81; el pronstico habr sido acertado tanto como si encontrramos
que dicha media poblacional es de 3,79 an cuando en ambos casos estn posados
sobre uno de los lmites del intervalo. El pronstico slo habr sido errado si
encontrramos que la media poblacional es un valor inferior a 3,79 o superior a 6,81; en
cuyo caso, estadsticamente, habr sucedido el 5% restante de la probabilidad no
asegurada.

Las expresiones tales como error calculado para dos sigmas, error calculado para p=0,95
o error calculado al 95% deben ser consideradas como sinnimo.

En este punto es interesante sealar la vinculacin de estos clculos y conceptos
estadsticos matemticos con el campo de la investigacin emprica, en general; y la
investigacin de mercados, en particular.

Como advirtiramos, la expresin del error calculado para dos sigmas es el sinnimo de
trabajar con estimaciones que tienen un 95% de probabilidad en el pronstico. En rigor, el
trmino dos sigmas es producto del redondeo del valor percentil 1,96 de la curva normal
que ya hemos analizado.

Tcnicas de Investigacin en Opinin Pblica y Mercado
15
Dicho trmino hace referencia a la cantidad de sigmas en la curva normal que suponen
trabajar con determinado nivel de confianza en el pronstico.

En el campo de las investigaciones de mercado es conocido el mtodo de mejora de la
calidad total llamado seis sigmas o 6 .
Dicha metodologa supone orientar esfuerzos para reducir los defectos y errores a un
valor cercano a cero de forma tal de alcanzar el concepto de calidad total en productos y
servicios. En este sentido, matemticamente supone trabajar con un nivel de confianza
superior al 99,9%.

Ahora bien, una ambiciosa meta sera trabajar con un nivel de confianza en el pronstico
de 99,9% pero veamos cules podran ser los efectos de trabajar con tal nivel de
confianza segn datos de EE.UU:

Las guarderas de los hospitales entregaran 12 bebes por da a padres que no
corresponden.
Algn banco descontara 22.000 cheques por hora de cuentas equivocadas
Se fabricaran 268,500 neumticos defectuosos
Se emitiran 20,000 recetas medicinales incorrectas.

Seis sigma reconoce que hay lugar para los defectos como consecuencia natural de los
procesos y plantea como nivel de funcionamiento correcto el 99,99966%. Dicho nivel de
confianza estipula una meta objetivo donde los defectos en muchos procesos y productos
son prcticamente inexistentes.

Matemticamente, dicho nivel de confianza supone que el 99,99966% equivale a
0,00034% defectos que equivalen a 3,4 defectos por milln (6 sigma = 3,4 Defectos Por
Milln de Oportunidades)
5
. La escala de calidad de la metodologa seis Sima mide el
nmero de sigmas que caben dentro del intervalo definido por los lmites de tolerancia.

Ahora bien, volvamos a nuestro objetivo que era comparar los resultados de los parciales
de dos comisiones.

A partir de las frmulas ya vistas, calcularemos el intervalo de confianza de la media
poblacional correspondiente a la comisin N2.

Lmite inferior

6,40 (1,96 x 0,16) = 6,40 0,31 = 6,09
Lmite superior

6,40 + (1,96 x 0,16) = 6,40 + 0,31 = 6,71

Con estos valores graficaremos los resultados de los intervalos de ambas comisiones.


5
Leo F. Jeri: Seis Sigma; una metodologa estadstica para la calidad total, presentacin ppt.
Tcnicas de Investigacin en Opinin Pblica y Mercado
16

Como se observa, los intervalos de confianza de ambas comisiones, muestra una zona de
superposicin o interseccin que nos impide asegurar que el rendimiento comparado de
los parciales de las comisiones ha sido diferente. La estadstica supone en dentro de los
lmites de los intervalos, los sucesos son equiprobables y no hay mayor preponderancia
de valores que tiendan ms a uno de sus lmites en detrimento del otro.

De esta forma, la superposicin de los intervalos obtura la posibilidad de asegurar que el
rendimiento de la comisin N2 a partir del anlisis de los parciales ha sido mejor que el
observado en la comisin N1 an cuando la media aritmtica de sea mayor (6,40 vs
5,30).

Vistos estos resultados y la imposibilidad de asegurar que las calificaciones de una de las
comisiones son distintas (y mejores) que la de su comparada, nos propusimos observar
si, al menos, existen diferencias estadsticamente significativas en relacin a la poblacin
que ha promocionado el parcial (con valores iguales o mayores a 7 puntos).

Para ello haremos algunos clculos vinculados a las diferencias de proporciones.

3. DIFERENCIAS DE PROPORCIONES

En primer lugar calcularemos qu porcentaje de alumnos ha promocionado el parcial en
cada una de las comisiones para lo cual volveremos a analizar la matriz de datos original.

alumno COM N1 COM N2
1 2
7
2 3 6
3 4 6
4 4 6
5 4
7
6 5 7
7 6 6
8
7
6
9 8
6
10 10 7

Tcnicas de Investigacin en Opinin Pblica y Mercado
17
Para visualizarlos mejor los hemos circulado en rojo en nuestra tabla. En el caso de que
trabajemos con bases de datos de mayores tamaos, los procesadores pueden presentar
una tabla de distribucin de frecuencias que permitan observar el dato de inters.

Como se observa, el 30% de los alumnos de la comisin N1 ha promocionado mientras
que lo ha hecho el 40% de los alumnos de la comisin N2. Ahora bien, puedo afirmar
que la proporcin de alumnos promocionados es diferente en ambas comisiones?

Para saber si las diferencias de proporciones son estadsticamente significativas, es
necesario realizar el siguiente clculo.



Dicho clculo supone la realizacin de un test o prueba de significacin estadstica. El
hecho de que una diferencia sea estadsticamente significativa es sinnimo de
considerarla NO nula. Como lo venamos haciendo, a partir de las proporciones
observadas en las muestras de ambas comisiones, intentaremos inferir si las
proporciones poblaciones (o sea del universo) de cada comisin son distintas de cero.

Veamos nuestro caso de anlisis.



Ahora calcularemos el valor proporcional de q que es todo aquello que NO es p.



Luego calcularemos s que es una medida de la dispersin a partir de la siguiente
frmula:



Aplicando esta frmula obtendremos que:



Ahora calcularemos el valor de z. Le pedimos tranquilidad al lector, estamos a escasas
letras de terminar el abecedario estadstico.

Tcnicas de Investigacin en Opinin Pblica y Mercado
18
El valor de z indicar el resultado de la prueba de significacin que en este caso apunta
a identificar si existen diferencias significativas entre las proporciones de alumnos
promocionados en ambas comisiones.

Antes de sumergirnos en sus clculos, corresponde hacer una referencia a los orgenes
de z.

En estadstica se conoce como normalizacin o estandarizacin al proceso de conversin
por el cual se obtiene un valor estndar. El valor estndar es una cantidad
indimensionable obtenida a partir de sustraer una media poblacional a partir de un clculo
individual crudo y luego dividiendo la diferencia por la desviacin estndar poblacional.

Segn la bibliografa que se est consultando, estos valores tambin son llamados
valores estndar de z, variables estandarizadas, z-scores, z-values.

El valor estndar indica qu cantidad de desviaciones estndar por encima o por debajo
de la media est ubicada una observacin. Este valor permite la comparacin de
observaciones de diferentes distribuciones normales.

Cuando el valor de z es negativo indica que el clculo crudo lo ubica por debajo de la
media poblacional mientras que cuando es positivo indica que se ubica por encima de la
misma.

Obsrvese que es el clculo de z supone el conocimiento de la media poblacional y la
desviacin estndar poblacional y no el conocimiento de la media muestral y las
desviacin estndar muestral. Sin embargo, este requerimiento es de difcil alcance por
cuanto no siempre es posible el conocimiento de tales medidas referidas a la poblacin
parmetro excepto en los casos en los que se han realizado censos en los cuales la
poblacin entera ha sido medida.

Para la mayora de los casos en donde resulta imposible conocer la media y el desvo
poblacional, se utilizan las medidas obtenidas a partir de muestras que hayan tenido
procedimientos de seleccin de elementos de tipo probabilsticos.

Para aquellos casos en los que la poblacin est normalmente distribuda el rango
percentil puede ser determinado a partir del valor estandarizado y una tabla estadstica.

Una variable aleatoria x ser estandarizada utilizando el valor de la media poblacional y
el desvo estndar poblacional y su expresin matemtica ser la siguiente:

Donde corresponde al valor de la media poblacional y corresponde a la desviacin
estndar de la distribucin de probabilidad de X.
Por otra parte, si la variable aleatoria analizada es producto de una muestra, la frmula
para su clculo ser la siguiente segn sea para el clculo de diferencias de medias o de
diferencias de proporciones:


Tcnicas de Investigacin en Opinin Pblica y Mercado
19



Retornemos a nuestra inquietud de observar la existencia de diferencias en ambas
comisiones y en funcin de que estamos trabajando con datos muestrales calcularemos el
valor de z segn la siguiente frmula:



Obsrvese que en la frmula se han incluido unas barras verticales que refieren al valor
absoluto del clculo por lo que se desestima su signo. Sucede que tal como se haba
informado anteriormente, el signo del valor estandarizado indica en qu posicin se ubica
con relacin a la media; siendo el signo negativo cuando el clculo crudo lo ubica por
debajo de la media y positivo cuando dicho clculo lo ubica por encima de la media.

En este sentido, nuestro inters es detectar una diferencia de tipo significativa en las
proporciones de parciales promocionados en ambas comisiones antes que conocer si tal
diferencia se ha dado por exceso o por defecto con relacin a la media. A partir de esto se
decide trabajar con el valor absoluto.

El valor de z = 0,47 nos indica que la diferencia de proporciones NO es significativa al
95% de confianza por cuanto dicho valor es menor que 2.

El lector se preguntar por qu una diferencia no es significativa cuando el valor de z < 2
y al mismo tiempo de dnde sale este 2 (dos).

Para despejar esta inquietud es necesario volver a la curva normal de distribucin que es
las que se presenta a continuacin.

Tcnicas de Investigacin en Opinin Pblica y Mercado
20



El grfico muestra la curva de distribucin normal segn el nivel de probabilidad, los
valores estandarizados y la cantidad de desviaciones respecto de la media; conceptos
todos que hemos ido viendo cmo se articulan entre s.

Como se observa en el grfico, el valor de z = 2 indica que estamos trabajando a 2
desviaciones estndar de la media (dos sigmas) lo que es equivalente a realizar
pronsticos con un 95,5% de confianza en los pronsticos a realizar.

El ensayo de hiptesis planteado con relacin a las diferencias de proporciones de
parciales promovidos se ha resuelto con el clculo del valor estandarizado z. El mismo
indica que NO es posible afirmar que la proporcin de parciales promovidos de la
poblacin de alumnos de ambas comisiones sea distinta por lo que debern ser
consideradas como iguales por cuanto las diferencias entre las proporciones muestrales
de ambas comisiones no han sido significativas al 95% de confianza.

Hasta aqu hemos, por un lado, realizado pruebas de significacin para identificar
diferencias significativas entre proporciones a partir del clculo de valores estandarizados;
y por el otro, hemos comparado las medias de las calificaciones de los parciales a partir
de la construccin de sus intervalos de confianza respectivos.

En rigor, la identificacin de diferencias estadsticas entre medias tambin podra haberse
calculado a partir del clculo de valores estandarizados sin necesidad de conocer los
lmites de los intervalos de confianza.

Veamos cmo hacerlo a partir de los siguientes clculos.


Tcnicas de Investigacin en Opinin Pblica y Mercado
21
4. DIFERENCIAS DE MEDIAS

En primer lugar calcularemos una medida de dispersin de la siguiente forma:


A partir de la estadstica descriptiva ya calculada reemplazaremos los trminos.



A continuacin, calcularemos el valor estandarizado a partir de la siguiente frmula.


Considrese que las aclaraciones hechas con relacin a la diferencia de los valores
estandarizados de poblaciones y muestras aplican tanto para diferencias de proporciones
como para diferencias de medias.

Por otra parte, la evaluacin del valor estandarizado en funcin de su ubicacin en la
curvan normal tambin aplica en esta caso como ya se hubo sealada oportunamente.

De esta manera y siendo el valor de z < 2, estamos en condiciones de decir que NO es
posible afirmar que la media aritmtica de los parciales de la poblacin de alumnos de
ambas comisiones sea distinta por lo que debern ser consideradas como iguales por
cuanto las diferencias entre las medias aritmticas muestrales de ambas comisiones no
han sido significativas al 95% de confianza.

Este dato no es una novedad por cuanto esta informacin ya haba sido inferida a partir
de observar la superposicin e interseccin de los intervalos de confianza de las
calificaciones de los parciales de ambas comisiones.

Las diferencias resultan significativas al 95% de confianza cuando el valor estandarizado
z >=2 sea tanto para medias como para proporciones.




MARTN ROMEO
Ciudad de Buenos Aires, 26 de Junio de 2008
Tcnicas de Investigacin en Opinin Pblica y Mercado
22
5. BIBLIOGRAFA CONSULTADA Y CITADA

Blalock, H. 1960. Social Statistics. New York: Mc Graw Hill.
Cramer, H. Elementos de la teora de probabilidades y algunas de sus aplicaciones y
mtodos matemticos de estadstica. Ed. Aguilar.
Hopkins, D.; Hopkins, B.R. y Gene Glass. 1997. Estadstica Bsica para las Ciencias
Sociales y el comportamiento. Mxico: Prentice Hall Hispanoamericana S.A..
Inchausti, A. 1976. Estadstica aplicada a Ciencias Sociales. Madrid: Pirmide.
Mood, A. y F. Graybill. 1969. Introduccin a la teora de la estadstica. Ed. Aguilar.
Muraro, H. 1985. Apuntes de Estadstica. Recetario Introduccin a la estadstica para
estudiantes postmodernos, mimeo.
Muraro, O. 1997. Estadstica elemental para Ciencias Sociales. Buenos Aires: Ediciones
Letra Buena.
Neumann, E. 1984. Handbook of Quantitative methods in the Social Science. Newbury
Park, CA: Sage Publications.

You might also like