Professional Documents
Culture Documents
ESTADSTICA I
Aguirre, Csar
Estadstica aplicada en las ciencias sociales y humanas / Csar Aguirre; M. Fernanda Nio y
Eduardo F. Simonetti; coordinado por Rodolfo Nicols Capaccio - 1a ed. 1a reimp. - Posadas:
Univ. Nacional de Misiones-Editorial Universitaria, 2005.
240 p.; 30x21 cm. (Cuadernos de Ctedra)
ISBN 987-9121-98-8
1. Sociologa I. Nio, M. Fernanda, II. Simonetti, Eduardo F., III. Rodolfo Nicols Capaccio,
coord. IV. Ttulo
CDD 301.
PRESENTACIN
POR QU SABER DE ESTADSTICA?
La Estadstica ha ganado reconocimiento como disciplina importante en la formacin profesional
universitaria de diferentes campos del conocimiento. Sus aportes a esta formacin ocurren en dos
niveles: el primero como disciplina contributiva a la preparacin cientfica de los estudiantes,
proporcionando los conocimientos indispensables e irremplazables en la produccin, tratamiento y
anlisis de datos cuantitativos. El segundo nivel se manifiesta en el plano de la formacin general
de los individuos que deben desenvolverse en el mundo actual, intensamente conectado por las
modernas telecomunicaciones, y cada vez ms interdependiente en lo econmico y social. En este
nuevo mundo es importante ser capaz de orientarse en la red de informacin disponible, mucha de
la cual es cuantitativa. El ciudadano debe moverse entre masas de datos cuantitativos que muchas
veces son contradictorios y requieren de un mnimo de conciencia sobre la forma en que tales
datos se recogen, organizan, analizan e interpretan. Como resultado se precisan nuevas
habilidades1.
El ciudadano medio de hoy necesita reunir conocimientos que le sirvan para decodificar la
cuantiosa informacin que recibe por diferentes medios, que le permitan juzgar la calidad de esa
informacin, que le sean tiles para comprender ideas expresadas por otros y formar las propias,
que le sirvan para construir y comunicar su propia informacin.
La Estadstica es la disciplina que aporta los recursos culturales y prcticos que el ciudadano
necesita para desenvolverse en la nueva sociedad de la informacin, y la enseanza de la disciplina
tiene el fin de generar y difundir una cultura estadstica dirigida a dotar al ciudadano comn de
tales recursos y habilidades.
OBJETIVOS GENERALES
El curso de estadstica aplicada tiene el propsito de promover la formacin de usuarios
competentes de esta disciplina y sus herramientas. Usuarios con habilidades que le permitan
vincular los conocimientos estadsticos con la solucin de problemas de su campo disciplinar o
profesional especfico.
Es decir, se trata de desarrollar en los alumnos la capacidad de abordar y resolver, desde la
Estadstica, problemas de produccin de informacin con fines cientficos o de tomar
decisiones.
Los objetivos generales derivados de este propsito de formacin, son:
1. Promover en los alumnos el desarrollo de habilidades intelectuales del pensamientorazonamiento estadstico. Ello supone abordar la solucin de un problema de trabajo desde los
siguientes elementos bsicos:
la necesidad de datos para alcanzar una correcta comprensin del fenmeno o problema
en estudio (impulso estadstico);
la idea de la transnumeracin, entendida como la habilidad de construir y producir datos
como representaciones de aspectos de un sistema real para lograr una mejor comprensin
de dicho sistema (datos que capturan informacin significativa sobre elementos del
sistema);
la necesidad de la observacin masiva (cantidad numerosa de datos: datos estadsticos)
como fundamento del anlisis estadstico de los fenmenos;
la presencia de la variacin en los datos (y en los fenmenos que ellos representan) y el
error e incertidumbre como consecuencia de ella;
OTTAVIANI, M. G. (1999): Notas sobre los Desarrollos y Perspectivas en Educacin Estadstica. International Association
for Statistical Education -IASE-.
"
1
Los Autores:
AGUIRRE, Csar Norberto
Estadstico (Universidad Nacional de Rosario -Argentina-), postgrado en Estadstica y
Cuentas Nacionales (Instituto de Estudios Sociales de La Haya -Holanda-), Especializacin en
Administracin Estratgica Universitaria (Universidad de Quebec -Canad-), Especializacin
en Administracin Estratgica de Negocios (Universidad Nacional de Misiones).
Profesor Regular Titular de Estadstica (Facultad de Humanidades y Ciencias Sociales UNaM-), Profesor Titular de Estadstica (Maestra de Gestin Pblica -UNaM-), ex Docente
de Cursos de Postgrado en Anlisis Exploratorio de Datos (Programa PRESTA, Universidad
Libre de Bruselas-Unin Europea).
NIO, Mara Fernanda
Profesora de Matemtica, Fsica y Cosmografa, Inst. Sup. del Profesorado "Pbro. Dr. Antonio
Saenz. Maestra en Docencia Universitaria, Fac. de Ingeniera-Univ. Nac. Misiones (etapa
elaboracin de tesis).
Ayudante de Primera (Regular) de Estadstica (Fac. de Humanidades y Ciencias Sociales de la
UNaM). Ex docente de Cursos de Posgrado de Mtodos Estadsticos Multivariados Aplicados
a las Ciencias Humanas Y Sociales, del Programa PRESTA (Univ. Libre de Bruselas),
auspiciado por la Unin Europea. Docente en el Curso de Estadstica Aplicada, (Maestra en
Gestin Pblica de la Facultad de Ciencias Econmicas-UNaM). Ex docente tutor del
Seminario Metodologa y Tcnicas de la Investigacin Social (Maestra en Gerencia y
Administracin de Proyectos Sociales -UNaM-)
SIMONETTI, Eduardo Francisco
Estadstico (Universidad Nacional de Rosario -Argentina-), Master en Desarrollo Econmico
para Amrica Latina, Universidad Internacional de Andaluca Sede Iberoamericana de La
Rbida (Espaa).
Profesor Titular Regular de Indicadores Socioeconmicos, (Facultad de Humanidades y
Ciencias Sociales de la UNaM). Docente en el Curso de Estadstica Aplicada, (Maestra en
Gestin Pblica de la Facultad de Ciencias Econmicas-UNaM). Docente del Seminario
Sistemas de Informacin y Herramientas Informticas para la Gestin de Programas
Sociales (Maestra en Gerencia y Administracin de Proyectos Sociales -UNaM-).
ndice
NDICE
Unidad 1: La Investigacin Estadstica
Pgina
1. Introduccin ........................................................................................................... 11
2. Intentando Definir la Estadstica........................................................................... 11
3. Problema de Trabajo e Investigacin Estadstica ................................................. 12
3.1. Las Preguntas de Investigacin ............................................................................ 13
3.2. Las Preguntas estadsticas ................................................................................... 13
4. Los Datos ................................................................................................................ 13
5. Las Variables .......................................................................................................... 15
6. Conjunto de Datos: Datos Estadsticos ................................................................. 17
7. Fuentes de Datos ................................................................................................... 18
8. Investigacin por Censo y por Muestra................................................................. 19
9. Qu Hemos Visto? ................................................................................................ 20
Esquema-La Estadstica en el Proceso de Investigacin .......................................... 21
Esquema Estructura del Curso Estadstica Descriptiva....................................... 22
Bibliografa ................................................................................................................. 23
ndice
ndice
ndice
Pgina
H) Coeficiente de Desviacin Mediana.............................................................. 94
2.2. Dispersin para variables categricas ................................................................. 94
3. Cmo Medir la Asimetra? .................................................................................. 97
3.1. Coeficiente de Asimetra de Pearson ................................................................... 98
3.2. Coeficiente intercuartlico de Bowley ................................................................... 99
4. Qu Hemos Visto? ............................................................................................ 101
Esquema Medidas de Dispersin y Asimetra..................................................... 102
Bibliografa ............................................................................................................. 103
ndice
Pgina
4.2. El Cambio de Base de un Nmero ndice ...........................................................147
4.3. El Empalme de Dos Nmeros ndices Solapados.................................................148
4.4. Procedimiento de Nmeros ndices en Cadena ...................................................149
4.5. La Deflacin de una Serie.................................................................................149
5. Problemas en la Construccin de los Nmeros ndices .........................................150
5.1. La Seleccin de la Muestra ...............................................................................150
5.2. La Eleccin del Perodo Base ............................................................................151
5.3. La Ponderacin Adecuada ................................................................................151
5.4. La Seleccin del Promedio ................................................................................151
5.5. Los Cambios de Producto .................................................................................151
6. Qu Hemos Visto? .................................................................................................152
Bibliografa ..................................................................................................................153
4. Introduccin
Al iniciar el aprendizaje de Estadstica elemental, aplicada a la solucin de problemas,
probablemente a Ud. se le plantean interrogantes como los siguientes:
11
Ms all de los matices que diferencian a estas ideas entre s, todas ellas coinciden en ciertos
elementos que conforman un mismo concepto bsico de estadstica aplicada, el que bien podramos
sintetizar del siguiente modo:
Es una disciplina que aporta los conocimientos y herramientas insustituibles para:
Disear y aplicar procedimientos de recoleccin de datos (experimentos,
muestras, censos, registros administrativos y fuentes secundarias), referidos a un
conjunto numeroso de personas, animales, objeto, etc.; necesarios para el estudio de
un fenmeno de nuestra esfera de inters cientfico, o de toma de decisiones.
Por ejemplo:
Como cientficos sociales nos proponemos conocer la situacin laboral de la mujer en nuestro
pas y, de este modo, contrastar ciertas proposiciones (hiptesis) que nos formulamos sobre el
tema.
Como gerentes de una empresa pblica, necesitamos explicar en todas sus dimensiones el
fenmeno del ausentismo de los funcionarios, con el fin de tomar decisiones al respecto.
En fin, los planteos pueden ser muy variados y estar relacionados con las ms diversas esferas de
las ciencias y de la vida cotidiana del hombre de nuestros das.
A este tipo de cuestiones las consideramos un problema de trabajo (problema del
entorno real o simplemente problema) porque se originan en preguntas (explcitas
o implcitas) que nos formulamos sobre el tema. Preguntas que llevarn a la
bsqueda de evidencias consistentes y precisas que permitan encontrar las mejores
respuestas. Esto es, que motivarn la necesidad de investigar sobre el tema.
La investigacin basada en mtodos estadsticos debe ser previamente diseada por el
investigador; ajustndose a principios, conceptos y procedimientos plenamente reconocidos y
aceptados para tal fin: la metodologa de investigacin cuantitativa.
El diseo metodolgico de una investigacin particular podr ser ms o menos complejo,
dependiendo ello de la complejidad del fenmeno en estudio, del carcter de los resultados buscados
y de las condiciones prcticas bajo las que se llevar a cabo, entre otras razones.
12
Lo cierto es que todo trabajo de estadstica aplicada debe, necesariamente, responder a cierto
diseo previo (aunque ms no fuere, simple y elemental), el que deber ser convenientemente
formalizado y explicitado.
Un buen diseo metodolgico de la investigacin (y del consecuente plan de accin para llevarla
a cabo) es de extrema importancia para:
orientar correctamente la construccin y obtencin de los datos apropiados al problema y a
la solucin buscada,
asignar validez a los resultados que se obtengan de los datos recogidos,
optimizar los esfuerzos de todo tipo que se dediquen al trabajo,
valorar las conclusiones de una investigacin.
Los temas metodolgicos de una investigacin cuantitativa escapan a los alcances del curso 3. Sin
embargo, presentaremos en los apartados siguientes algunos conceptos que son necesarios para
facilitar la comprensin de la estadstica, desde el enfoque que proponemos.
Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.
4. Los Datos
Para aquellos que deseen profundizar las cuestiones metodolgicas, les sugerimos la lectura de: BARANGER, D.: Construccin
y Anlisis de Datos, Editorial Universitaria UNaM, Posadas 2000.
13
IMPORTANTE
el dato supone:
un individuo que ha sido observado/medido en cierta
caracterstica de inters;
Un dato cobra significado por el individuo al que se remite, por la caracterstica de ese
individuo que representa y por la forma en que esa caracterstica ha sido medida. Es decir, un
dato reproduce informacin si y solo si se expresa en relacin con su contexto.
14
POBLACIN EN ESTUDIO
Es el conjunto de todas las unidades de anlisis que sern
consideradas en la investigacin.
Por ejemplo:
La poblacin en estudio se define por la naturaleza de los elementos que la forman, por el
espacio geogrfico en el que se ubican los elementos y el perodo de tiempo que se toma como
referencia.
IMPORTANTE
En todo trabajo estadstico es de extrema importancia una precisa
definicin de la unidad de anlisis y la poblacin en estudio, dado que los
datos y conclusiones que de ellos se obtengan, remitirn a esos
individuos, en el espacio y tiempo definidos.
5. Las Variables
Toda caracterstica de los individuos que es relevante en una investigacin, sin dudas
variar a lo largo de la poblacin en estudio. La edad de los usuarios de Internet vara de uno a
otro, lo mismo que la situacin ocupacional de cada uno de ellos o la cantidad de horas diarias que
cada usuario dedica a estar conectado en la red.
Variable
Algunas de estas variables se expresan como una cantidad numrica atribuible a cada
individuo observado: la edad, la frecuencia semanal de conexin, la cantidad de horas de uso. Otras
en cambio, expresan cierto atributo del individuo observado: el sexo de la persona, la situacin
ocupacional del individuo, el lugar desde donde se conecta a la red, etc., etc., etc.
15
En el esquema siguiente presentamos la forma en que se clasifican las variables segn como se
expresen sus datos (cantidades numricas o atributos) y a su vez la sub-clasifica cin que se puede hacer
para cada tipo de variables:
Nu mricas o
cuant itativas
Ejemplo
a . Discre ta s
n de hij os
Varia bles
a . Nomina le s
Categr icas o
cua litativas
b. Ord inale s
Na ciona lidad
Nivel de Educac in
Discretas
Continuas
generalmente son el resultado de mediciones con unidades de medida preestablecidas como: kilowatios hora, centmetros, kilogramos, dlares, minutos, etc.
16
Nominales
Ordinales
Obsrvese que la variable denota una caracterstica observable del individuo e n estudio (nivel
socioe conmico, estado de salud, ingreso del grupo familiar mensual, estatura). Y cada variable
admite diferentes valores (nmeros o categoras) posibles de ser observados en las unidades de
anlisis. Por e jemplo: para la variable nivel socioeconmico se han de finido como posibles valores a las
ca te gora s a lta , me dia a lta , me dia , me dia ba ja y ba ja . En ca mbio, la va ria ble ingre so fa milia r
tendr como valores posibles a nmeros comprendidos en el rango que va desde el ingreso ms bajo
posible al ms alto de la poblacin.
IMPORTANTE
Actividad N 2
Antes de continuar con la lectura, es ne cesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.
En la masividad de los datos, la estadstica se ocupa de estudiar las variaciones entre ellos
para encontrar, describir, e xplicar e inducir; tendencia s y regularidades de los individuos.
En resumen, el buen uso de las herramientas estadsticas supone un conjunto numeroso de datos
(numricos o categricos): datos estadsticos
.
17
observacin transversal
conjunto o serie de datos transversales
observacin
longitudinal
datos
longitudinales o serie temporal/ cronolgica
7. Fuentes de Datos
Los datos a emplear en una investigacin pueden provenir de difere ntes fuentes u orge nes y
encontrarse en difere ntes estados de elaboracin. Podemos considerar entonces:
Da to s Prim a rio s
Pro pio s
Da to s Se cunda rio s
Re g is tro s de te rce ro s
Datos Primarios
Son aquellos que se encuentran en la forma original en que fueron
registrados (datos brutos), sin haber sufrido ningn tipo de tratamiento
o elaboracin posterior.
Registros de terceros
18
Datos Secundarios
Son aquellos que fueron producidos (diseados y recopilados) por
terceros, con un fin ajeno al de la investigacin y que ya han sido
sometidos a alguna forma de elaboracin posterior. En consecuencia,
estos datos siempre se originan en terceras fuentes.
Por ejemplo: los datos que publican las oficinas de estadstica de
instituciones pblicas, de las empresas, etc.
Enumeracin completa
Por muestra
aplicar
para generalizar
19
Ambos temas sern tratados en el curso ms avanzado de Estadstica II. Hasta tanto, Ud. debe
tener presente que, a pesar de lo extremadamente relevante que significa distinguir una investigacin
basada en censos de aquellas basadas en muestras, las tcnicas y herramientas para la
descripcin inicial de los datos (Estadstica Descriptiva) que presentaremos en este curso,
son comunes a ambas situaciones de trabajo.
Observacin
Muestra
Anlisis de Datos
(Descripcin)
Curso de Estadstica I
Generalizacin
(Inferencia)
Curso de Estadstica II
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.
9. Qu Hemos Visto?
El propsito de esta unidad es introducir al lector interesado en temas de investigacin estadstica,
en los conceptos bsicos que resulta imprescindible manejar cuando se utiliza esta disciplina.
As, inscribiendo el uso de la estadstica en un proceso de investigacin o toma de decisiones, se
presentaron -en el marco de la produccin de informacin- aquellos elementos tericos recurrentes en
cualquier situacin de trabajo que implique el anlisis estadstico. De esta manera, se formalizan en la
presentacin los conceptos de: dato, unidad de anlisis, poblacin y variable.
Dado que la posibilidad de utilizar cualquiera de las tcnicas estadsticas, est condicionada por el
tipo de variables que se quieren analizar, se puso especial atencin en la clasificacin de variables que
resultan de las diferentes formas en que se registran los datos. As hemos distinguido variable
cualitativas y cuantitativas (con sus respectivas sub-clasificaciones), diferenciando adems, las
observaciones transversales y longitudinales.
Finalmente, se realiz una distincin de los datos segn la fuente de la cual se obtienen (Primarios
y Secundarios) y el tipo de investigacin que realizamos segn se observan todas las unidades de
anlisis de la poblacin (censo) o una parte de ella (muestra).
20
Preguntas de
Investigacin
PROBLEMA
??????
TRADUCCIN
RESPUESTAS
AL
PROBLEMA
Preguntas
Estadsticas
?????
INFORMACIN
Poblacin
OBSERVACIN
Primario o Secundario?
Censo o Muestra?
Transversal o Longitudinal?
ANLISIS
DATOS
ESTADSTICO
.............
- -- ---- - - -- --- -
21
???
22
ad 4
Un id
Estudio de Variabilidad y Asimetra
ad 3
Un id
Resumen con Valores Caractersticos
ad 2
Un id
Organizacin y Descripcin Inicial
ad 6
Un id
Nmeros ndices
d1
Los Datos
ad 6
Un id Nmeros ndices
ad 5
Un id
Estudio de la Relacin
entre Variables
da
ni
Transversales
Preguntas de Investigacin
Un id
Observacin
ad 6
Nmeros ndices
Longitudinales
Un id a d 1 : La I n v e s t ig a c i n Es t a d s t ic a
Bibliografa
ANDERSON, D; SWEENEY, D.; WILLIAMS, T (1999): Estadstica para Administracin y Economa.
International Thomson Editores, Mxico. Pginas 1 a 21.
DANIEL, WAYNE (1985): Estadstica con aplicacin a las ciencias sociales y a la educacin,
McGraw-Hill, Mxico.
MOORE, DAVID (1995): Estadstica Aplicada Bsica. Antoni Bosch Editor, Barcelona. Pginas: XXI
a XXIV, 1 a 5 y 6 a 7 (punto 1.2)
MOOD, A. M. (1965): Introduccin a la Teora de la Estadstica. Aguilar, Madrid (3ra. Edicin).
Conceptos Centrales
Variable
Dato
Poblacin en estudio
Tipos de variables
Habilidades
23
Cualesquiera sean los objetivos a alcanzar con el trabajo estadstico, el tratamiento inicial de los
datos registrados debe comenzar por organizarlos en forma tal que se facilite su tratamiento. La
manera de organizacin que se utiliza es la conocida como Matriz de datos que ordena los datos en
una planilla rectangular, posibilitando su tratamiento en los programas informticos.
Variable n 2
Individuo Variable X Variable Y
Fila que
describe
al individuo
i
....
Variable J
.....
Variable Z
x1
y1
....
j1
....
z1
x2
y2
....
j2
....
z2
xi
yi
xn
yn
....
jn
....
ji
zi
zn
25
Z: Sexo (varn-mujer).
la expresin (x1, x2, x3, ....xi, .....xn) denotar al conjunto de los n valores que la variable
simbolizada con X, registra a lo largo de los n individuos observados;
los subndices no guardan relacin con la magnitud o valor de los datos que representan,
simplemente indican el orden en que fueron incorporados a la matriz cada uno de los
individuos;
dos o ms datos simblicos cualesquiera (t3 y tn, por ejemplo) pueden registrar valores
diferentes de la variable, o bien a un mismo valor de T que, por corresponder a distintos
individuos, se representan con smbolos diferentes;
El propsito de este estudio era delinear un perfil socioeconmico y conocer algunos hbitos
vinculados al estudio de los alumnos que cursan esta asignatura en la FHyCS. La observacin se
realiz como actividad inicial de la primera clase y abarc a todos los alumnos inscriptos en la nmina
(enumeracin completa). El instrumento de recoleccin consisti en un cuestionario semi-estructurado
de diecisis preguntas, cuya aplicacin fue auto-administrada por los alumnos.
En la matriz del ejemplo se ordenan los datos de slo diez de esas variables, a saber:
2: Licenciatura en Turismo
4: Licenciatura en Antropologa Social
Ningn estudio
Primario completo
Secundario completo
Superior/universitario completo
2: Primario incompleto
4: Secundario incompleto
6: Superior/universitario incompleto
8: no sabe
(ESTMADRE) nivel mas alto de la educacin formal, alcanzado por la madre del alumno: mismas
categoras anteriores.
26
(RESIDEN) lugar de residencia permanente del alumno -el que comparte con su grupo familiar-:
1: Posadas
2: Localidad del interior de Misiones
3: Otro lugar del pas o del extranjero
(INGRET) nivel del ingreso mensual total por todo concepto (salarios, rentas, etc,), del grupo familiar
directo completo (incluyendo al alumno si corresponde), medido en pesos.
(HSESTUDI) nmero aproximado de horas semanales que dedica al estudio de todas las asignaturas
de su carrera, sin contar las horas de clases u otras actividades obligatorias.
(HSTV) nmero de horas diarias que mira Televisin.
19
27
26
28
37
25
20
29
25
19
18
18
19
19
19
29
19
22
19
20
22
20
22
19
21
.
.
.
.
.
30
2
2
2
2
2
2
2
2
1
1
1
2
2
1
2
2
2
1
2
2
2
1
2
1
1
.
.
.
.
.
2
3
3
1
2
3
3
2
3
1
2
3
3
2
2
3
3
2
2
2
2
2
2
3
2
2
.
.
.
.
.
3
2000
2001
1999
1999
2001
2000
2000
1999
1999
2001
2001
2000
2000
2001
2000
1999
2000
2000
2000
1997
2000
2000
.
.
.
.
.
2001
3
3
4
3
3
3
3
3
8
8
7
2
4
5
2
3
3
5
5
8
3
7
4
7
4
.
.
.
.
.
3
3
3
4
3
3
3
5
2
6
7
3
2
7
5
2
3
7
4
7
7
3
6
3
7
5
.
.
.
.
.
3
2
1
1
2
1
1
2
1
1
1
2
2
1
3
1
1
2
1
1
1
1
1
2
2
2
.
.
.
.
.
1
180
300
700
350
1500
500
1500
560
1000
250
200
300
2000
450
1600
1000
.
.
.
.
.
400
4
4
8
10
3
6
3
4
14
3
3
1
3
8
3
6
3
10
7
4
10
8
.
.
.
.
.
7
3
2
2
2
1
0
3
1
2
3
5
2
1
2
1
2
1
2
2
2
2
1
1
2
0
.
.
.
.
.
3
- El ejemplo en smbolos
Estas variables y sus datos se expresaran simblicamente del siguiente modo:
Si representramos con T a la variable estudios de la madre, t13 simbolizara el nivel de estudios
alcanzado por la madre del alumno 13 t13 = 7 (universitario completo).
Simbolizando con X a la variable ingreso total mensual del alumno y su grupo familiar, x139
representar el ingreso total mensual del grupo familiar declarado por el alumno 139 x139 = 400.
Si fuera Z la variable carrera que cursa el alumno, el conjunto simblico (z1, z2, z3, .....
z25.......z139), representar al conjunto (3,3,1,.......,2.......3) de datos de la matriz correspondiente a las
carreras cursadas.
27
Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad
No 1 de la Gua de Actividades correspondiente a esta unidad.
Aun cuando la matriz de datos constituye una organizacin que facilita el acceso a los
registros, es indudable que nuestra capacidad cognitiva no nos permite aprehender el
comportamiento de los datos y obtener informacin a partir de ellos. Ante 139 registros
como en el ejemplo, quizs con una mirada a la matriz podramos saber el sexo
mayoritario entre los estudiantes, pero difcilmente podremos concluir sobre el nivel educativo
predominante entre los padres, y sera imposible poder establecer si existe una relacin entre esta
variable y el ingreso familiar.
Esta limitacin de procesar mentalmente tal cantidad de informacin, nos obliga a recurrir a
nuevas herramientas que permitan resumir los datos haciendo visibles aspectos que de otra forma
permaneceran ocultos. Ahora bien, decidir sobre cules son las herramientas ms apropiadas
depende en primer lugar de las preguntas que intentemos responder y que, como ya dijimos,
son las que guan todo el proceso de anlisis.
En trminos del estudio de los alumnos de Estadstica y las necesidades de delinear un perfil socioeconmico de los mismos, nos planteamos algunas preguntas como las siguientes:
1.
2.
3.
4.
5.
6.
7.
8.
IMPORTANTE
Priorizar las herramientas numricas o las grficas en el trabajo de
exploracin, es una decisin del investigador.
Las distintas herramientas de tratamiento y anlisis de datos se irn presentando segn el tipo de variables involucradas.
28
Anlisis de Datos
elementos a considerar en la seleccin de herramientas estadsticas
???
Univariado
Categricas
Nu mricas
Bivariado
Herramientas nu mricas
Multivariado
Herramientas grficas
Frecuencia absoluta:
Es el nmero de veces que se repite un mismo valor de la variable (una misma categora si
se trata de una variable categrica, un mismo nmero si la variable es numrica) en el
conjunto de los n individuos observados.
Se simboliza con fi (i representa en este caso el orden en que se presentan los valores de la
variable).
En unidades posteriores se presentarn otras herramientas para resumen de los datos las cuales exigen condiciones de la
distribucin que habr que evaluar en esta etapa.
29
Distribucin de frecuencias:
Consiste en un arreglo en el cual se presentan los valores de la variable y las frecuencias
absolutas computadas para cada uno de ellos.
Una condicin que debe cumplir la distribucin de frecuencias absolutas es que la suma de
todas ellas es igual al total (n) de individuos observados.
f1 + f2 + ... + fk = fi =n
k
(3)
i=1
- el recurso numrico
Como hemos sealado, la variable sexo del ejemplo de los estudiantes de Estadstica
tiene dos valores posibles (varones y mujeres), y para computar las frecuencias
absolutas que le corresponden a cada una de estas categoras realizamos un conteo
del nmero de mujeres (109) y el nmero de varones (30) que aparecen entre los 139
casos registrados. As, estaramos distribuyendo a los 139 individuos observados en las
dos categoras definidas por el sexo.
Esta clasificacin se podra organizar en una tabla 4 como la siguiente:
Valores de
la variable
SEXO
n de
estudiantes
Varn
30
Mujer
109
Total
139
Cantidad de varones
observados
Frecuencias absolutas
Total de
individuos
observados
Es de notar que la tabla anterior resume la columna sexo de la matriz de datos originales, sin
perder informacin, ganando al mismo tiempo en claridad para comprender los datos. Esta
organizacin resumida de los datos se conoce como Tabla de Distribuciones de Frecuencias.
El smbolo
se denomina sumatoria y es una forma abreviada de sealar la suma de una serie de trminos; en este caso
30
- el recurso grfico
Las dos formas grficas ms utilizadas para presentar distribuciones de frecuencias de
variables categricas son: el grfico de barras y el grfico de sectores.
El denominado grfico de barra recoge en el eje horizontal (en este caso el eje no es
numrico) las categoras correspondientes a la variable (en nuestro ejemplo varn y
mujer). El eje vertical (de las Y) es un eje numrico, con una escala en la que se pueden representar
los valores de frecuencias observados. Las alturas de las barras de cada categora expresan la
frecuencia absoluta correspondiente.
La altura de la
corresponde a
la frecuencia
absoluta
n de estudiantes
120
Frecuencia
absoluta
(fi)
100
80
60
40
20
0
Varn
Mujer
Las
barras
son del
mismo
ancho
Sexo
El grfico de sectores o de torta, divide una circunferencia en porciones donde cada una de
ellas representa una categora de la variable; su tamao es proporcional a la frecuencia absoluta
de esa categora y el crculo representa al total de casos 5.
Distribucin de los estudiantes de la FHyCS, segn sexo. 2001
Varn
Mujer
A simple vista, los grficos construidos nos permiten captar rpidamente la desigual distribucin
por sexo de los estudiantes del curso Estadstica. Esta caracterstica de las herramientas grficas
hacen que las mismas sean apropiadas como:
La determinacin del nmero de grados del sector correspondiente a cada categora se obtiene razonando mediante regla de
tres simple. Al total de casos (en el ejemplo 139) le corresponden 360, consecuentemente a la categora mujeres se le
asignar un sector igual a 109 . 360 = 282 , 3
139
31
Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad .
Arreglo de Frecuencias:
Tabla en la que se presentan ordenados por magnitud (creciente o decreciente) los valores
individuales observados de la variable en estudio y sus correspondientes frecuencias.
Restricciones:
Comentario: al igual que para variables categricas se logra un resumen de los datos
La doble restriccin para construir un arreglo de frecuencias, se cumple para pocas variables,
por ejemplo n de hijos, cantidad de televisores en el hogar, n de tarjetas de crdito disponibles
en el hogar, etc.
En nuestro ejemplo, la variable cantidad de horas diarias que mira TV asume pocos
valores diferentes y el tiempo frente al televisor est medido en horas enteras, de
manera que es posible construir un arreglo de frecuencias.
Distribucin de los alumnos segn el tiempo que miran TV
Hs. de TV
Los
diferentes
valores de la
variable
"
n de estudiantes
25
26
49
18
13
Total
18 alumnos
miran TV
3hs.
diarias
139
32
IMPORTANTE
Siempre que intentamos dar cuenta de la variabilidad de los datos, la
descripcin de la distribucin de frecuencias no se agota con sealar
cul es el o los valores ms frecuentes.
Se logra comunicar esta diversidad sealando tanto los valores que ms se
repiten, como las singularidades, los mximos y mnimos, etc., de tal
manera que la descripcin genere una buena imagen de la
distribucin de los datos.
- el recurso grfico
Para la representacin de un arreglo de frecuencias, se recurre a un grfico
denominado de bastones que utiliza un sistema de ejes cartesianos, en cuyo eje de
abscisas (eje X) se representan los valores de la variable y en las ordenadas (eje Y) las
frecuencias absolutas. Para cada valor de la variable se levanta una lnea (o bastn)
cuya altura es la frecuencia absoluta correspondiente a ese valor. Debe destacarse que en este tipo
de grficos se traza una lnea y no una barra, debido a que a cada valor de la variable le
corresponde un punto en el eje de las abscisas.
Distribucin de los estudiantes segn el tiempo que miran TV-Ao
2001
60
n de estudiantes
50
40
30
20
10
0
"
Hs. de TV
Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica
alumnos y que es poco frecuente que los estudiantes miren ms de 5 horas de TV.
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad
Recordemos que este tipo de distribucin se utiliza en el caso de variables discretas con pocos valores diferentes.
33
Entre los alumnos se registran 25 edades diferentes, lo que resulta en una tabla extensa que
dificulta aprehender la tendencia general de la edad de los estudiantes. En consecuencia, esta tabla
no resulta un buen recurso para el anlisis de la variable.
Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001
Edad (*)
n de
estudiantes
17
18
22
19
29
20
21
10
22
10
23
24
25
26
27
28
29
30
31
32
33
34
35
37
38
40
41
44
47
Total
136
ganado en un resumen que permita visualizar rpidamente las principales caractersticas de la variable
en estudio.
4.2.2. Variables numricas con muchos valores diferentes
- el recurso numrico
Una solucin al problema de construir distribuciones de frecuencias para variables con
muchos valores diferentes evitando las tablas extensas, es construirlas de tal manera
que, en lugar de listar los valores individuales de la variable, se los presenta en grupos
de valores para los cuales se computa su frecuencia. A esta forma de presentar los
datos se la conoce como distribucin en intervalos de clase.
34
n de estudiantes
17-20
65
21-24
25
25-28
Ocho
Intervalos de
clase
"
17
29-32
14
33-36
37-40
41-44
45-48
Total
136
Hay 14
estudiantes
que tienen
entre 29 y
32 aos
Leyendo la tabla, vemos que (en cuanto a su edad) el grupo es bastante heterogneo,
con edades que van desde los 17 a los 48 aos; sin embargo, hay 90 estudiantes que no
exceden los 24 aos, y entre ellos el mayor nmero se concentra entre los 17 y 20 aos
de edad. Solamente 3 superan los 40 aos. Una vez ms, la descripcin de la edad de
los estudiantes no se puede reducir a la mencin de lo hegemnico que resulta el grupo de edades
entre 17 y 20 aos. Por ello, se intenta expresar la diversidad de edades en este grupo.
Se puede ver que, de esta manera, hemos ganado en claridad al lograr una mayor sntesis.
Debemos destacar a su vez que, mediante este procedimiento tambin hemos perdido
informacin, dado que no podemos recuperar desde esta tabla los valores individuales de los datos.
Por ejemplo: sabemos que hay 5 estudiantes que tienen entre 37 y 40 aos, pero desconocemos
cules son sus edades exactas; esto mismo vale para cada una de las clases restantes.
Esta prdida de informacin hace evidente el cuidado que debemos poner al agrupar los datos en
clases, es decir, al determinar la cantidad de intervalos que utilizaremos y la amplitud que daremos a
los mismos.
L
1
IMPORTANTE
En las distribuciones en intervalos de clase:
Hemos ganado en resumen y mayor claridad sobre el comportamiento de los
datos.
Conocemos la frecuencia absoluta de cada clase, pero perdemos o
desconocemos la frecuencia que le corresponde a cada valor individual.
La prdida de informacin exige cuidados en la construccin de los intervalos.
Construir una distribucin en intervalos supone decidir el nmero de estos y
su amplitud.
Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la Gua
de Actividades correspondiente a esta unidad.
35
Conceptos bsicos
Nmero de clases de la distribucin (K): cantidad de intervalos de clase en los que se
redistribuyen los valores de la variable.
Lmites de la clase: los valores que delimitan cada intervalo de clase. Existe un lmite inferior
y uno superior para cada clase (Li y Ls).
Amplitud de una clase (a): es la diferencia entre el lmite superior de esa clase y el lmite
superior de la clase anterior.
Punto medio de clase (PM): o marca de clase, es un valor representativo del intervalo
que se obtiene como el promedio de los lmites de la clase [(Li+Ls)/2].
Rango del conjunto de datos (R): es un valor que expresa de manera global el campo de
variacin de los datos. Cuando se cuenta con los datos individuales se lo obtiene como: xmx xmn ; en el caso de distribuciones en intervalos de caso es la diferencia entre el lmite superior de
la ltima clase y el lmite inferior de la primera.
En la distribucin por edades de los alumnos, las datos se ordenaron en 8 clases de igual
amplitud (a = 4); para la primer clase el lmite inferior es 17 y el lmite superior es 20, y
su punto medio de clase es 18,5. Es importante destacar que por tratarse en este caso
de una variable que asume valores enteros (se toma la edad en aos cumplidos), fue
posible construir intervalos discontinuos, esto es que el lmite superior de una clase no coincide con
el lmite inferior de la siguiente, de manera que hay una prdida de continuidad entre un intervalo y
otro, lo que no supone un problema en el caso de variables discretas.
En el caso de variables continuas se construirn intervalos donde el lmite superior de una clase
coincide con el lmite inferior de la siguiente (continuos). Por ejemplo en el caso de las edades se
construiran intervalos de 17 a 21, 21 a 25, 25 a 29, etc. En estos casos, para que no existan
problemas de decidir a qu intervalo asignar el valor que coincide con uno de los lmites, se acepta la
convencin de que los intervalos comprenden las edades que van de 17 a menos de 21, de 21 a
menos de 25, etc. De manera que, un individuo con 21 aos se computa en el segundo de los
intervalos definidos.
Si tomamos otro ejemplo como el ingreso mensual total del hogar de los estudiantes, se pueden
construir intervalos de 0-250, de 250-500, 500-750, etc. Un estudiante que pertenece a un hogar con
un ingreso total mensual de $500 ser asignado al tercer intervalo (de 500 a 750 pesos), porque el
intervalo de 250 a 500 incluir todos los ingresos desde 250 incluido, hasta $499,99.
Las clases debern ser -en lo posible- de igual amplitud y con lmites enteros.
36
El modelo de Sturges
Una primer respuesta sera la que propone Sturges quien, a partir del nmero de datos
que se quieren ordenar, recomienda como el nmero de clases apropiada el resultado
de la siguiente expresin:
k 1+3,3.log n
donde:
Obtenido el nmero de clases (k) la amplitud de las mismas ( a ), surge inmediatamente de hacer:
R
, donde R es el rango. Se expresa que la amplitud es aproximadamente igual ( ) al resultado
a
k
del cociente, porque este puede dar un valor no entero.
Por ejemplo, el valor 147 se puede dividir en un tallo de 14 (los dos primeros dgitos) y
una hoja de 7.
Tallo
hoja
14 | 7
Esta frmula es muy sencilla de utilizar en el caso de contar con una calculadora que disponga de la funcin logartmica.
La construccin de este Grfico tiene muchas variantes, aqu desarrollaremos la ms simple; sin embargo, para profundizar el
conocimiento sobre este recurso analtico, recomendamos la lectura de Moore (1995: 19-21) y Alaminos (1993: 32-33).
37
El tallo puede tener tantos dgitos como sean necesarios en tanto que la hoja solo un dgito.
Frecuencia
(57)
(58)
(17)
(4)
Ancho Tallo:
Cada hoja:
Tallo 1
2
3
4
|
|
|
|
777777888888888888888888888899999999999999999999999999999
0000000011111111112222222222334445555666666777778899999999
00111233344557788
Representa a
0147
10
los 8 estudiantes de 29 aos
1 caso o individuo
En el diagrama anterior vemos que los tallos (1,2,3,4) estn ordenados de manera vertical. A la
derecha de cada uno, se disponen en forma creciente las hojas, cada una de las cuales corresponde al
ltimo dgito de cada una de las edades observadas para ese tallo.
A la izquierda de cada tallo se consignan las frecuencias correspondientes a ese tramo de edad.
As, en el tramo ms largo del diagrama (el segundo) se indica que hay 58 estudiantes que registran
edades entre 20 y 29 aos. Podemos ver entonces que este diagrama combina una distribucin
de frecuencias y un grfico de barras horizontales.
En trminos generales, el diagrama de tallo-hoja presenta:
los tallos ordenados en forma vertical y creciente;
a la derecha de cada tallo, las hojas donde cada una representa un dato
(salvo que se indique lo contrario al pie del diagrama);
las hojas ordenadas en forma creciente, dentro de cada tallo, donde el
valor que asumen corresponde al dgito siguiente al tallo.
El diagrama nos permite analizar la distribucin de los individuos, y decidir
lmites para construir intervalos de clase que expresen de manera apropiada el
comportamiento de los datos: la forma de la distribucin (concentraciones,
valores poco frecuentes, extremos, etc.).
A partir de la forma de la distribucin que nos presenta este diagrama, podemos tomar decisiones
para construir los intervalos de clase. Una distribucin posible de las edades, resultara al dividirlas en
tantas clases como dcadas se identifican en el diagrama tallo-hoja. Esta decisin comportara una
gran prdida de informacin, as por ejemplo: se perdera aquella que supone conocer el nmero
importante de estudiantes con 19 aos (edad ms frecuente que surge de una simple observacin el
grfico). Entonces, se hace necesario proponer intervalos que resuman los datos sin tanta prdida de
informacin.
Una alternativa en este sentido sera analizar el interior de cada tramo de edades, considerando el
contexto de los datos (estudiantes del primer y segundo ao de la universidad) y las recomendaciones
generales de la construccin de una distribucin de frecuencias por intervalos de clase9.
Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001
Edades ms
frecuentes
Intervalos de
clase de
diferente
amplitud con
una clase
abierta
Edad
n de estudiantes
17-18
19-20
21-22
23-26
27-30
31-35
36 y ms
28
37
20
15
17
11
8
136
Total
Frecuencia
mxima
Queremos hacer notar que los cortes son subjetivos y consecuentemente la alternativa propuesta es solo una de las posibles
que se pueden construir.
38
n de estudiantes
17-19
57
20-29
58
30 y ms
21
Total
Hay 21
estudiantes de 30
aos y ms
136
Tenemos en este caso una distribucin u organizacin de los datos que resulta vlida, aun
cuando se trata de tres intervalos con distinta amplitud y uno de ellos es abierto (sin un lmite
superior). Lo que queremos destacar con el ejemplo, es que, al momento de construir una
distribucin, por encima de cualquier criterio estadstico que se pueda tomar en cuenta,
est el propsito del anlisis.
Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.
- el recurso grfico
El recurso grfico que se asocia a las distribuciones de frecuencias organizadas en intervalos de
clase es el histograma.
Histograma
Se trata de un grfico de barras en un sistema de ejes cartesianos, en
cuyo eje de las X se representa la variable en estudio, y en el eje de las Y las
frecuencias. En l, se hace corresponder a cada intervalo de clase una barra
cuya altura coincide con la frecuencia de esa clase.
Comentarios
1. Las barras deben cubrir todo el recorrido de la variable, lo que exige darle
continuidad a los intervalos que se construyen.
2. La presencia de clases de diferente amplitud y de clases abiertas exigen
soluciones particulares para graficar y es este uno de los motivos por los
cuales se busca evitar este tipo de situaciones.
3. La principal utilidad de este recurso analtico es facilitar la descripcin
general del conjunto de datos, analizando la forma que toma la
distribucin; esto es para qu valores existen mayores concentraciones,
como as tambin identificar aquellos muy diferentes (valores atpicos) al
comn de los datos del conjunto.
39
Indica que se ha
cortado el eje,
evitando un blanco
innecesario
L
"
IMPORTANTE
En este caso la forma del histograma nos indica la fuerte concentracin de estudiantes
entre 17 y 21 aos con una sostenida disminucin del nmero de ellos a partir de esa
edad. Otra manera de expresar la forma de esta distribucin sera sealando que en este
conjunto existe una concentracin de los datos en los primeros grupos de edades (es muy
frecuente la presencia de estudiantes jvenes) y pocos casos de estudiantes en las
edades ms altas.
El polgono de frecuencias constituye otra manera de presentar una distribucin de
frecuencias, que se obtiene uniendo mediante segmentos los puntos medios del lado
superior de cada una de las barras de frecuencia. En los extremos, el polgono se
cierra uniendo los extremos del primero y ltimo rectngulo con el punto medio de un
primer y ltimo intervalo hipottico construido a este fin (en nuestro ejemplo los intervalos de 13-17 y
49-53 aos de edad).
40
Punto medio
del ltimo
intervalo
hipottico
Las distribuciones en cuanto a su forma pueden ser de tres tipos (ver grfico):
Simtricas: cuando los datos se concentran en los valores centrales de la distribucin, y las
frecuencias decrecen hacia ambos extremos de manera simtrica.
10
Se puede demostrar adems, que la superficie de todas las barras del histograma y el rea comprendida bajo el polgono son
equivalentes.
41
Asimtrica a izquierda
Simtrica
Asimtrica a derecha
Actividad N 6
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 6 de la
Gua de Actividades correspondiente a esta unidad.
Con el fin de dar respuesta a este tipo de interrogantes, se re-expresan las frecuencias en otras
que facilitan la lectura e interpretacin: frecuencias relativas y acumuladas.
4.3.1. Las frecuencias relativas
Hay diversas situaciones en las que se requiere expresar la distribucin de frecuencias en
trminos relativos al total de datos; por ejemplo:
cuando queremos conocer la importancia relativa de ciertos valores o caractersticas en
el conjunto de datos observados. Ejemplo: El 40% de los rboles de Bs. As. son fresnos,
para sealar la abundancia de esta variedad en la ciudad;
cuando queremos comparar esa importancia relativa entre dos conjuntos de datos de
diferente tamao. Ejemplo: El 37,6% de la poblacin de Formosa es pobre mientras que en
Misiones esa poblacin alcanza al 24,9%, para comparar la incidencia de la pobreza en dos
poblaciones de diferente tamao;
cuando a partir de una muestra queremos sacar conclusiones sobre la presencia de
cierta caracterstica en la poblacin. Ejemplo: para concluir sobre el comportamiento de la
poblacin de Internet a partir de la observacin de una muestra, no brinda una informacin
pertinente decir 560 de los usuarios de Internet observados son mujeres sino: cuatro de
cada diez usuarios de Internet son mujeres.
42
Clculo
Se la obtiene como el cociente entre la frecuencia absoluta de una clase (valor individual o
categora de respuesta) y el total n de datos.
f
fr = i
n
Generalmente se la expresa en porcentaje, multiplicando por 100 la expresin anterior.
fr(%) =
fi
.100
n
La suma de todas las frecuencias relativas porcentuales es 100.
fr = 100
n de estudiantes
Frecuencia relativa
(%)
17-18
"
28
20,6
19-20
37
27,2
21-22
20
14,7
23-26
15
11,0
27-30
17
12,5
31-35
11
8,1
36 y ms
5,9
28
.100
136
El 11% de los
estudiantes
tienen entre
23 y 26 aos
La suma de
las
frecuencias
Total
136
100,0
relativas
Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica siempre da
100
En la tabla se puede leer, por ejemplo, que los 15 estudiantes de entre 23 y 26 aos,
representan el 11% del total.
43
Fa
n
Far(%) =
Fa
n
.100
IMPORTANTE
Estas frecuencias tienen sentido nicamente para datos numricos o datos
categricos en escala ordinal.
n de
Frec.
estudiantes relativa
Frec.
Frec.
Frec.
Frec.
(%)
Fa-
Far- (%)
Far+ (%)
Fa+
17-18
28
20,6
28
20,6
136
100,0
19-20
37
27,2
65
47,8
108
79,4
21-22
20
14,7
85
62,5
71
52,2
23-26
15
11,0
100
73,5
51
37,5
27-30
17
12,5
117
86,0
36
26,5
31-35
11
8,1
128
94,1
19
14,0
36 y ms
5,9
136
100,0
5,9
136
100,0
Total
"
71
.100
136
8+11+17
La acumulada
relativa
porcentual de
la ltima
clase es 100%
La acumulada absoluta de
la ltima clase es n
En este cuadro se incluyen todas las formas de expresar las frecuencias y en l podemos leer en la
lnea grisada y a modo de ejemplo que:
20 estudiantes tienen entre 21 y 22 aos, y constituyen el 14,7% del total del curso.
85 estudiantes tienen 22 aos o menos y representan el 62,5% del total.
71 tienen 21 aos o ms y este grupo representa el 52,2% del total.
44
Actividad N 7
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 7 de la
Gua de Actividades correspondiente a esta unidad.
Cuando se trata de una variable ordinal, el razonamiento es anlogo al desarrollado para las
variables numricas. Por ejemplo en el caso de la variable Nivel de estudios del Padre la informacin
se podra organizar en una tabla como la siguiente:
Estudiantes de Estadstica segn Nivel de estudios del Padre- FHyCS-Ao 2001
n de
estudiantes Frecuencias Frecuencias Frecuencias Frecuencias
Nivel de Estudios
del Padre
estudiantes
(%)
Acumuladas Acumuladas Acumuladas Acumuladas
(*)
Far- (%)
(Fa-)
Ninguno
(Fa+)
Far+ (%)
2,2
2,2
133
100,0
Prim. Incompleto
27
20,3
30
22,5
130
97,8
Prim. Completo
56
42,1
86
64,6
103
77,5
Sec. Incompleto
17
12,8
103
77,4
47
35,4
Sec. Completo
17
12,8
120
90,2
30
22,6
5,3
127
95,5
13
9,8
4,5
133
100,0
4,5
133
100,0
Terc./Univ. Incomp.
Terc./ Univ. Comp.
Total
"
Los que tienen padres con secundario incompleto o ms, son 47 y representan el
35,4% del total.
Actividad N 8
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 8 de la
Gua de Actividades correspondiente a esta unidad .
45
total; a un 28% de los hogares le corresponder el 28% del total de los ingresos, al 64% el 64% y as
sucesivamente.
Una situacin de estas caractersticas se puede representar grficamente, utilizando un
sistema de ejes cartesianos, en el que cada punto queda definido por el porcentaje de
hogares y su correspondiente porcentaje de ingresos, obteniendo una grfica como la
siguiente.
Curva de Lorenz para una situacin de equidistribucin (o mnima concentracin)
100
La situacin de equidistribucin
queda representada entonces por la
recta que divide al cuadrante en dos
partes iguales (bisectriz, diagonal del
cuadrado); expresando as el caso de
mnima concentracin
(estrictamente nula).
90
80
Ingreso (%)
70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90 100
Hogares (%)
90
80
Ingresos (%)
70
60
50
40
30
20
10
0
0
10
20 30
40
50
60
70
80
90 100
Hogares (%)
46
100
90
80
Ingresos (%)
70
60
50
Area de
concentracin
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90 100
Hogares (%)
Nmero de
hogares (fi)
450
Ingreso medio
de clase (xi)
207,0
249-414
486
331,5
414-829
1224
621,5
829-1243
576
1036,0
1243-1658
324
1450,5
1658-2487
162
2072,5
2487-3316
54
2901,5
3316-4146
54
3731,0
TOTAL
3330
La Tabla anterior presenta la distribucin de los ingresos monetarios mensuales percibidos por
3.330 familias de Posadas, agrupados en intervalos. Aceptando que los puntos medios representan a
los datos incluidos en cada clase, el producto de cada punto medio por su correspondiente frecuencia
absoluta (fi x xi) expresa el monto o volumen total de ingresos percibido por los hogares de esa clase.
As por ejemplo: 450 x 207,0 = $93.150.- Esto significa que los 450 hogares con niveles de ingresos
mensuales entre $165 y $249 perciben en conjunto un monto total de $93.150.De igual modo los 486 hogares con ingresos entre $249 y $414 perciben todos juntos un monto
total de ingresos de $161.109 (486 x 331,5). Es decir que utilizando los puntos medios de clase
(ingreso medio de ese grupo de hogares) y las frecuencias absolutas (cantidad de hogares de la clase)
47
es posible obtener el ingreso total de las familias que componen esa clase, tal como se muestra en la
columna (4) de la tabla siguiente.
Ingresos familiares mensuales - Posadas 1994
Ingresos
familiares (1)
Nmero de
hogares(fi) (2)
Ingreso medio
de clase (xi) (3)
Monto total de
ingresos en $ (4)
165-249
450
207,0
93150
249-414
486
331,5
161109
414-829
1224
621,5
760716
829-1243
576
1036,0
596736
1243-1658
324
1450,5
469962
1658-2487
162
2072,5
335745
2487-3316
54
2901,5
156681
3316-4146
54
3731,0
201447
TOTAL
3330
2775546
Sumando los ingresos correspondientes a cada clase, obtenemos el monto total de los ingresos
percibido por el conjunto de los 3.330 hogares observados ($2.775.546). Podemos ver adems que,
los 450 hogares de menores ingresos (entre $165 y $249) acumulan un total de $93.150; a su vez son
$161.109 los percibidos por hogares con ingresos mensuales entre $249 y $414, y as sucesivamente.
El nmero de hogares y el monto total de los ingresos que les corresponden, pueden ser
acumulados tal como se presenta en las columnas (5), (6), (7) y (8), de la Tabla siguiente.
Ingresos familiares mensuales Posadas, 1994
Ing. Acum.
Ingresos
Nmero de
Monto total de
Hogares
Ing. Acum. Hogares
(7)
(6)
(%) (8)
familiares (1) hogares (fi) (2) ingresos en $ (4) Acum. (Fa) (5)
Acum.(%)
($)
165-249
450
93150
450
93150
14
249-414
486
161109
936
254259
28
414-829
1224
760716
2160
1014975
65
37
829-1243
576
596736
2736
1611711
82
58
1243-1658
324
469962
3060
2081673
92
75
1658-2487
162
335745
3222
2417418
97
87
2487-3316
54
156681
3276
2574099
98
93
3316-4146
54
201447
3330
2775546
100
100
3330
2775546
TOTAL
Las columnas (5) y (6) expresan en valores absolutos, el nmero de hogares y monto total de
ingresos acumulados. Las columnas (7) y (8) presentan esos mismos valores expresados en
porcentajes.
As entonces, a manera de ejemplo, podemos observar en la fila sombreada que, los 2.736 hogares
con ingresos menores que $1.243, acumulan $1.611.711; esto significa que el 82% del total de
hogares que menos ganan, participan con slo el 58% del monto total de ingresos
percibido por el conjunto de familias observadas.
Con igual criterio se interpretan los valores acumulados (absolutos y relativos) para todas las
clases de la distribucin. Las cifras relativas presentadas en (7) y (8) permiten construir la curva de
Lorenz. El porcentaje acumulado de los hogares (7), estar representado en el eje de abscisas y el
porcentaje acumulado de los ingresos (8) en el eje de ordenadas.
De esta manera, la curva queda determinada por los puntos que tienen por abscisa el porcentaje
acumulado de hogares y por ordenadas el porcentaje de ingresos acumulados correspondientes. As
por ejemplo, el primer punto que representamos estar definido por las coordenadas (14;3), el
48
segundo punto perteneciente a la curva tendr coordenadas (28;9 ) y as sucesivamente con los
diferentes pares de porcentajes que tenemos en la tabla, hasta el punto (100;100).
Curva de Lorenz. Distribucin de los ingresos de 3.330 hogares de la ciudad de Posadas- 1994
100
90
80
70
ingresos
60
50
40
30
20
corresponde el 9% de los
10
ingresos
0
0
10
20
30
40
50
60
70
80
90 100
Hogares (%)
Ingresos (%)
At= +
Hogares (%)
49
El ndice de Gini
Se lo define como el cociente entre el rea de concentracin y el rea total At. En smbolos:
siendo: 0 IG 1
IG =
At
Como el clculo del rea resulta ms sencillo que el de , al ndice se lo plantea en trminos
de , reemplazando por (At - ); de lo que resulta:
IG =1-
(11)
At
El rea total A t se determina como la mitad del rea del cuadrado de lado 100; esto es 5.000. El
(X i-1 +X
i (Fi -Fi-1a) determinar el rea , que puede ser pensada como la sumatoria de las reas
problema
se i )reduce
2
de cada uno de los trapecios que componen el rea total . Se puede ver en el grfico que
tendremos tantos trapecios como intervalos de clase se hayan definido.
Ingresos (%)
Donde:
b2 : base mayor
h: altura
b1
Xi
b2
Xi-
Fi-1
Fi
Hogares (%)
b1= X i-1
b2= X i
h= Fi -Fi-1
11
IG =
At
At
At
=1
At
50
(X i-1 +X i ). (F -i Fi-1 )
2
i =1
i =1
Luego:
IG = 1
= 1 i =1
At
k
IG =1-
At
IG =1
k
1
(Xi-1 +X i ).(Fi -Fi-1 )
10000 i =1
(12)
Para los datos de los 3.330 hogares de Posadas, el Coeficiente de Gini, se obtendra
como:
Hog. Acum.
(%) (7)
Ing. Acum.
(%) (8)
Xi-1+Xi
(9)
Fi-Fi-1 (10)
165-249
14
14
42
249-414
28
12
14
168
414-829
65
37
46
37
1702
829-1243
82
58
95
17
1615
1243-1658
92
75
133
10
1330
1658-2487
97
87
162
810
2487-3316
98
93
180
180
3316-4146
100
100
193
386
TOTAL
6233
Reemplazando en la frmula:
k
1
1
IG =1
6233 = 1 0, 6233 = 0, 377
(Xi-1 +X i ).(Fi -Fi-1 ) =1
10000
10000 i =1
"
12
Se puede ver que el rea de concentracin representa un 37,7% del rea total, valor que
expresa una concentracin moderada de los ingresos.
Actividad N 9
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 9 de la
Gua de Actividades correspondiente a esta unidad.
Si los valores se expresaran en trminos relativos no porcentuales, la expresin del ndice es: I G =1
51
(X +X ).(F -F )
k
i =1
i-1
i-1
IMPORTANTE
Hemos presentado hasta aqu recursos grficos asociados a las distribuciones de
frecuencias absolutas (de sectores, de barras, de bastones, histogramas y
polgonos); es necesario destacar que esos mismos grficos pueden ser
construidos para las distribuciones de frecuencias relativas. Estos
grficos conservan la forma de la distribucin y segn sea el inters del
investigador se decidir por una u otra alternativa de representacin.
Sobre este recurso queremos destacar algunos aspectos, que entendemos fundamentales:
Los grficos no tienen un papel secundario en el anlisis y la presentacin de datos. No
son un adorno en los informes.
Su capacidad de expresar de manera sencilla una gran cantidad de informacin los convierte
en un recurso poderoso no solo para la presentacin de resultados, sino para la
exploracin y anlisis de los datos.
Esta capacidad de transmitir mucha informacin en forma inmediata exige que se deban
observar cuidadosamente algunos principios. Ellos tienen que ver con:
o Evitar el exceso de informacin en un mismo grfico.
o Evitar la inclusin de grficos que no aporten informacin relevante (son inexpresivos y
se sobrecarga intilmente el informe).
o Seleccionar grficos que tomen en cuenta el destinatario (cientficos, de divulgacin,
etc.). Hay grficos que normalmente slo podrn ser decodificados por especialistas.
o Respetar las reglas tcnicas, fundamentalmente relativas a la construccin de las
escalas, la consideracin del tipo de variables, etc.; para evitar el riesgo de generar una
impresin equivocada sobre los datos.
o De los grficos posibles para la presentacin o anlisis de un determinado tipo de datos,
seleccionar aquellos que mejor destacan las caractersticas que interesa mostrar
(estructura, evolucin, participacin, etc.).
Algunos grficos que ilustran los aspectos sealados precedentemente:
Visitantes Extranjeros a Cataratas
segn Origen
Brasil
Paraguay
Uruguay
USA
Otros Amrica
Italia
e
ab l
nd
Espaa
e
om
c
e
r
Gran Bretaa
No
Alemania
Francia
Otros Europa
Israel
Japn
Sudfrica
Oceana
Sin Datos
a) Queremos mostrar en un
grfico la distribucin de los
visitantes
extranjeros
a
Cataratas del Iguaz segn su
origen. Dado que se trata de
la distribucin de una variable
categrica un grfico de
sectores o de torta aparece
como una alternativa vlida de
presentacin para mostrar el
diferente peso relativo que
tienen los distintos emisores
identificados.
La gran cantidad de
categoras identificadas para
52
la variable origen, hace que este Grfico de sectores -tcnicamente correcto- resulte inapropiado
dado el gran nmero de comparaciones que obliga a realizar para su lectura. Esto es incongruente
con el propsito de la construccin de un grfico: simplicidad e inmediatez para captar la
informacin resumida.
Para presentar esta misma informacin una alternativa es
utilizar un grfico de barras horizontales 13 como el siguiente.
Pases
12
15
18
21
24
27
Visitantes (%)
Fuente: Estur 93/94, Fac. Hum. y Cs. Soc.-UnaM, 1995.
b) Modificando las escalas se pueden producir, para un mismo conjunto de datos, distorsiones en los
grficos que generan en un observador desprevenido impresiones totalmente diferentes respecto al
comportamiento de los mismos. Esto obliga a ser muy cuidadoso tanto en la construccin (en el caso
de quien los produce) como en la lectura de los mismos (por parte de quien los quiere interpretar).
Presentamos a continuacin dos conjuntos de datos longitudinales que ejemplifican diferentes
situaciones relativas a la modificacin de las escalas.
b.1) Son dos grficos sobre la produccin de yerba canchada en la provincia de Misiones durante
el perodo 1976-1981.
Aqu se presentan los datos con la
produccin por encima de las
15.000 toneladas. En trminos
grficos significa que el eje
horizontal no corta al vertical en el
origen (cero), sino a la altura de
los 15.000.
Toneladas
45000
35000
25000
15000
1976
1977
1978
1979
1980
1981
Aos
Toneladas
60000
40000
20000
0
1976
1977
1978
1979
1980
Aos
13
1981
Para evitar la superposicin de los nombres de las categoras (adems extensos en este caso) que ocurre cuando se usa un
grfico de barras verticales.
53
perodo analizado. Ejemplo: en el primer Grfico, la produccin del ao 78 pareciera representar menos de la tercera parte de la registrada en el 77. Esta impresin se corrige cuando observamos el
segundo Grfico.
b.2) Son tres Grficos en los que se representa la evolucin de la produccin de maz en Misiones
entre 1976 y 1981, tomando 1976 como base (=100).
En cada uno de ellos se
Evolucin de la Produccin de Maz . Misiones, 1976-1981
modifican las escalas de los ejes
x e y provocando en el
180
160
comportamiento de la serie
140
impresiones
visuales
muy
120
diferentes.
100
80
60
40
20
0
1976
1977
1978
1979
1980
1981
A os
200
150
100
50
1976
1977
1978
1979
1980
1981
0
Aos
200
150
100
50
1976
1977
1978
1979
1980
1981
0
Aos
Con estos ejemplos no pretendemos agotar los casos de distorsiones que se pueden producir a
la hora de utilizar el recurso grfico, sino ms bien alentar una actitud crtica cuando se construyen
grficos, y tambin cuando se interpretan grficos ya construidos.
54
4.5.Tipos
Esquema
de grficos
univariados
de grficos
univariados
Numricas
Fam i l i as s e g n n de h i jos
Bastones
2
n de hijos
O p in i n s o b re e l S e rv ic io
80
60
Barras
40
20
0
M uy
B ueno
B ueno
R egular
M ala
Categricas
Va ria ble
Opinin
G a n a d o f a e n a d o (1 9 8 0 -2 0 0 0 )
Numricas
50
40
30
Lneas
20
10
0
1 980
1 985
1 990
1 995
2000
aos
22%
40%
M ala
22%
M uy
B uena
40%
R egular
1 6%
B uena
22%
B uena
22%
Anillo
Mapas
R egular
16%
YYYY
1999 YYY
referencia:Y 100000 unidades
Otros
P ro d u c c i n d e c a m io n e s
2000
Pictograma
Categricas
O p in i n so b re e l re c u rso
M ala
M uy B uena
Numricas y
Categricas
Sectores
O p in i n so b re e l re c u rso
Circular
40
600
20
500
400
20
40
60
80
100
H ogares (% )
300
200
1 00
0
Histograma
In g r e s o ($ )
55
Numricas
Especiales
Lorenz (*)
56
139
Total
Varn
Sexo
Mujer
Mujer
Varn
Grfico de Sectores
120
100
80
60
40
20
0
Grfico de Barras
30
109
Varn
Mujer
SEXO
n de
estudiantes
Frecuencias
Relativas y
Acumuladas
Distribucin de frecuencias
Categricas
X
..
..
..
..
Y
..
..
..
..
..
..
..
..
..
Z
..
..
..
..
U n iva ria d o
???
139
Total
20
40
60
Hs. de TV
Grficos deBastones
25
26
49
18
13
5
2
1
n de estudiantes
0
1
2
3
4
5
6
8
Hs. de TV
Arreglos de frecuencias
Unidades
3y4
Unidad 5
Bivariado
Multiva ria d o
Frecuencias
Relativas y
Acumuladas
Numricas
65
25
17
14
7
5
2
1
136
Total
Fr ec u en ci a
(5 7)
(5 8)
(1 7)
( 4)
An ch o Ta l lo :
Ca da h oj a :
1
2
3
4
Ta ll o & Ho ja
| 7 77 77 78 8 88 88 88 88 8 88 88 88 8 88 88 99 99 9 99 99 99 99 9 99 99 99 9 99 99 99 99
| 0 00 00 00 0 11 11 11 11 1 12 22 22 2 22 22 33 44 4 55 55 66 66 6 67 77 77 8 89 99 99 99 9
| 0 01 11 23 3 34 45 57 78 8
| 0 14 7
10
1 c as o o in di vi d uo
Diagrama de Tallo-Hoja
n de
estudiantes
Edad
17-20
21-24
25-28
29-32
33-36
37-40
41-44
45-48
1
2
..
n
n de estudiantes
57
n de estudiantes
Matriz de
datos
Bibliografa
MOORE, D. (1995): Estadstica Aplicada Bsica. Antoni Bosch Editor, Barcelona. Pginas: 6 a 21.
ALAMINOS, A. (1993): Grficos. Coleccin Cuadernos Metodolgicos n 7. Centro de
Investigaciones Sociolgicas, Madrid. Pginas: 7 a 14 y 23 a 27.
BLALOCK, H. M (1986): Estadstica Social, Mxico, FCE. Pginas: 43 a 64.
Conceptos Centrales
Matriz de datos.
Distribuciones de frecuencias.
Frecuencias relativas y frecuencias acumuladas (absolutas y relativas).
Habilidades
58
datos:
Los grupos tursticos registran una estada promedio de 3 noches en Puerto Iguaz.
Es llamativo que el 50 por ciento de los usuarios de la red tiene ms de 50 aos.
El fresno es el rbol que ms abunda en la ciudad de Buenos Aires, con ms del 40%
del total de ejemplares.
En los tres ejemplos, cada uno de los conjuntos de datos analizados (pernoctes en Puerto Iguaz,
edad de los usuarios de Internet y variedad de los rboles de la CBA), queda resumido y expresado
por un nico valor de la variable en estudio: 3 noches, 50 aos y fresno. Estas son las medidas
estadsticas denominadas de tendencia central.
L
1
IMPORTANTE
Es oportuno reiterar que las medidas presentadas en el Captulo anterior
(frecuencias absolutas, relativas, etc.) y las que veremos en esta unidad,
se emplean de igual modo y con idnticos fines de resumen y
descripcin, ya sea cuando se trata de datos muestrales como de
datos poblacionales (censales). Es decir que, tanto los conceptos
como la forma de calcularlas y la interpretacin de los resultados, son
los mismos en ambas situaciones de trabajo.
En Captulos posteriores distinguiremos el significado que adquieren estas
medidas (estadstico muestral/estimador o parmetro) segn provengan de
datos muestrales o poblacionales.
Sugerimos que el lector identifique las medidas estadsticas utilizadas en cada una de estas afirmaciones y que, aplicndolas a
los datos de los ejemplos citados, verifique que todas ellas sean correctas.
59
2. Cules Son?
Las medidas de tendencia central de un conjunto de datos son valores que tienden a
ubicarse en el centro de la distribucin (de ah su nombre), cuando esta rene
ciertas condiciones: es unimodal 2 y la mayor concentracin de los datos (mayores
frecuencias) ocurre alrededor de los valores centrales de la variable observada.
Son varias las medidas de resumen llamadas de tendencia central: las que se construyen mediante
alguna forma (aritmtica, geomtrica, cuadrtica o armnica) de promediar todos los datos del
conjunto y las que se basan en un solo dato de la serie (mediana y modo). En este curso
analizaremos solo las tres de uso ms comn:
la moda o modo, y
la mediana.
IMPORTANTE
A lo largo del texto iremos introduciendo la notacin matemtica (frmulas) de
las herramientas estadsticas que analizaremos y, en ciertos casos, de algunas
demostraciones relacionadas con ellas.
Como regla general, estas expresiones estarn a continuacin del concepto
estadstico que representan. Por ello, recomendamos firmemente centrar la
atencin y asegurarse de comprender primero el concepto, luego su
formalizacin matemtica, y por ltimo el procedimiento de clculo.
3. Media Aritmtica
Concepto
La media aritmtica x de un conjunto de datos de una variable
numrica X, es el resultado de sumar todos los valores del conjunto y
dividir esa suma por el total n de observaciones que componen el
conjunto 3.
Simbologa: La notacin usual para representar a la media aritmtica es: x, y, z, etc., dependiendo
de la letra (X, Y Z) adoptada para simbolizar a la variable en estudio. La distincin entre letras
maysculas ( X ) y minsculas ( x ) generalmente se reserva para diferenciar una media poblacional
(mayscula) de una muestral (minscula). En este curso utilizaremos nica e indistintamente la
notacin x , debiendo el lector tener presente la advertencia anterior.
De igual modo, las letras n y N son usualmente reconocidas para distinguir en forma simblica al
total de observaciones de una muestra (n) y al total de datos de una poblacin (N). Utilizaremos el
smbolo n indistintamente.
19 + 27 + 26 + 28 +.........+ 30
136
3180
136
valor promedio o
media aritmtica
23, 4 aos del conjunto
total de
datos
2
El concepto de distribucin unimodal quedar debidamente aclarado en puntos posteriores de esta unidad.
Ntese que por tratarse de una medida calculada con los datos, solo es aplicable a datos de variables numricas.
60
"
Actividad N 1
Antes de continuar con la lectura, deber realizar aqu la Actividad No 1 de la Gua
de Actividades correspondiente a esta unidad.
En Frmula
x + x + x +...+ x +...+ xn
i
i
2
3
x= 1
= i=1
n
n
Notaciones Equivalentes
Otras formas matemticas equivalentes para expresar al promedio, son las siguientes:
xi
1
x=
x = xi
n
n
3.1. Principales Propiedades de x
La media aritmtica rene ciertas propiedades que es importante conocer para utilizarla
correctamente como resumen de un conjunto de datos, o bien para resolver algunos
problemas que pueden surgir en su aplicacin prctica.
Primera Propiedad
xi
n
i=1
i=1
Esta propiedad matemtica nos permitira saber, por ejemplo, que las n = 32 crceles federales 5
de todo el pas alojan un total de 60.416 internos, ya que cada una de ellas tiene una media de
1.888 presos. Esto es as porque:
x i = 32 . 1888 = 60416
32
Segunda Propiedad
El promedio es una medida calculada a partir de todos y cada uno de los datos de una serie,
en consecuencia resume apropiadamente la informacin del conjunto. Sin embargo, por esta
propiedad, en ciertas situaciones de trabajo puede perder eficacia como medida representativa
del conjunto de datos.
61
x = 11, 6 es el promedio de los siguientes datos: 12, 10, 9, 16, 11. En cambio, si el conjunto
fuera 12, 10, 9, 160, 11; el promedio resultara: x = 40, 4 . El valor atpico (160) afecta a
x alejndola de la tendencia central del conjunto, resultando esta en un valor muy
diferente al de los datos normales de la serie (12, 10, 9 y 11).
Valores
atpicos
a
izquierda
Resumiendo: en un conjunto de datos en el cual los valores atpicos tienen un peso significativo
(difieren mucho de los valores regulares), el promedio aritmtico, por ser una medida no
resistente, debe ser analizado con cuidado. Esto es as porque -como en el ejemplo anteriorpuede resultar fuertemente desplazado de la tendencia central e inducir a interpretaciones
errneas acerca del conjunto de datos que resume.
IMPORTANTE
La presencia de valores extremos en una distribucin se manifiesta por
formas (histogramas y polgonos de frecuencias) marcadamente
asimtricas. De ah la importancia de realizar una cuidadosa exploracin
previa (grfica y numrica) de los datos.
Tercera Propiedad
Se denomina residuo o desvo individual de un dato cualquiera de la serie, con respecto a la
media aritmtica de todo el conjunto, a la diferencia entre el valor de ese dato y el valor
de x .
Retomando el ejemplo de las edades de los alumnos del curso de Estadstica, el residuo o desvo
con respecto a la edad promedio de 23 aos, de cada uno de los datos del conjunto ser:
Dato
(xi)
Desvo
(di=xi -23 )
19
27
26
28
....
-4
4
-3
5
...
xi-23
...
7
xi
...
30
di=0
Los valores extremos pueden serlo por defecto o por exceso como en este ejemplo.
62
Cada desvo con respecto al valor de la media de todo el conjunto podr ser negativo, nulo o
positivo, segn el valor del dato sea menor, igual o mayor al del promedio. As, el desvo del
primer dato x1=19 aos es: d1=19-23=-4 aos. El desvo del segundo dato x2=27 aos es:
d2=27-23=+4 aos y as sucesivamente hasta el ltimo dato x139=30 aos, cuyo desvo es:
d139=30-23=+7 aos.
En forma simblica, el desvo de un dato genrico xi se expresa: di=xi - x y para un conjunto
x1, x2 , x3 , x4 , x5 , ... .. xi , ........ xn de observaciones, habr n residuos individuales d1, d2 ,
d3 , d4 , d5 , ... .. di , ........ dn.
Es de notar que los desvos (desprovistos del signo positivo o negativo) miden la distancia
que separa a cada individuo observado del promedio general del grupo. Por ejemplo: el
segundo individuo de la serie se diferencia en 4 aos del promedio general de 23 aos, mientras
que la distancia al promedio del individuo 139, es de 7 aos.
d
xj
xi
Los residuos de un conjunto de datos, con respecto a x , tienen la propiedad de que la suma de
todos ellos (cada uno con su signo negativo, nulo o positivo) es siempre igual a cero:
n
n
xi x = di = 0
i =1
i =1
Es decir que, por esta propiedad, la suma (-4+4-3+5.............+7) de los 139 residuos
individuales de las edades de los estudiantes de Estadstica, ser igual a cero 7.
Cuarta Propiedad
Esta propiedad puede ser verificada en forma completa, utilizando el conjunto de 5 datos 12, 10, 9, 16, 11 del ejemplo
anterior.
Es muy importante tener presente que los datos zi e yi deben ser conceptualmente promediables entre s, de tal modo que
63
"
= $1023, 27
IMPORTANTE
Recomendamos especialmente a los estudiantes del curso, familiarizarse con
el manejo de algn software que les permita resolver los clculos estadsticos
mediante el uso de computadoras.
Seguidamente presentamos los procedimientos para el clculo manual de x
(con la ayuda de una calculadora comn) con dos propsitos:
que puedan revisar los conocimientos tericos desde el clculo aplicado a
ejercicios concretos,
que puedan resolver problemas de trabajo aun cuando no disponen del
auxilio informtico.
Estudiantes
(fi)
25
26
49
18
13
Total
139
64
25 veces
x=
26 veces
49 veces
18 veces
x=
o sea:
0 . 25 + 1 . 26 + 2 . 49 + ... + 6 . 2 + 8 .1 275
=
= 2 horas diarias
139
139
139
absoluta, sumar entre s todos los productos y, finalmente, dividir la suma resultante por el total n de
datos.
A esta forma de promediar los datos se la llama media ponderada por las frecuencias y
simblicamente se expresa como:
x=
L
/
x f
i. i
IMPORTANTE
Ntese que la media ponderada calculada a partir de un arreglo de
frecuencias, reproduce estrictamente al concepto original del promedio,
en tanto se trata de: la suma de todas las observaciones dividida por el total
de datos.
Grupos
(fi)
Pto. Medio
(xi)
00 - 55
19
27,5
55 - 110
20
82,5
110 - 165
18
137,5
165 - 220
192,5
220 - 275
247,5
275 - 330
302,5
330 - 385
357,5
Total
72
La tabla permite saber, por ejemplo, que 20 grupos gastaron en un da entre $55 y $110, pero
no es posible conocer el gasto exacto de cada uno de ellos individualmente.
10
Comprende el gasto por todo concepto (alojamiento, alimentacin, transporte, esparcimiento, servicios varios, compras, etc.)
por grupo turstico, en 24 horas corridas de permanencia en Pto. Iguaz.
65
El clculo de la media en esta situacin de trabajo, se basa en asumir a cada dato individual
(desconocido) como equivalente al valor del punto medio o marca de la clase en que se
ubica. Por ejemplo, se asumir que el gasto individual de cada uno de los 18 grupos comprendidos
entre $110 y $165, fue equivalente a $137,5. De igual modo, asumiremos que el gasto individual de
cada grupo comprendido entre $275 y $330 fue equivalente a $302,5 y as sucesivamente para
todos los datos de la distribucin.
Al reemplazar los datos individuales por el valor del punto medio de clase que los representa, el
promedio resultar de un clculo similar al anterior. Es decir:
x=
O sea:
8085
L
1
IMPORTANTE
Ntese que el valor de la media que resulta por esta forma de clculo no es
exacto, en tanto se basa en los puntos medios de clase y no en los datos
originales. Se obtiene entonces, un valor aproximado al verdadero valor del
promedio.
Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad .
4. La Mediana
A diferencia de los promedios (la media aritmtica en nuestro caso) que resultan de una
operacin basada en todos los datos de la serie, la mediana marca la tendencia central del
conjunto tomando en consideracin a uno solo de ellos.
Concepto
La mediana (Ma) de una distribucin es el dato que ocupa la posicin
central del conjunto de observaciones, debiendo estar los datos
previamente ordenados en forma ascendente (o descendente) de
magnitud.
Smbologa: son diversos los smbolos aceptados para representar a esta medida: Mdn, M, Med, Md,
Me, X5, Xme; entre otros. Nuevamente, las letras maysculas y minsculas se reservan para
distinguir lo poblacional de lo muestral. En este curso emplearemos indistintamente la notacin
Ma.
Consideremos como ejemplo la siguiente serie de datos numricos, referidos al tiempo en
minutos que le requiri realizar un examen de Estadstica a un grupo de n = 13 alumnos:
Minutos: 120, 65, 110, 117, 65, 115, 88, 90, 103, 112, 90, 65, 115
66
6 datos mayores
En la
posicin 5
encontramos
el valor B
(Ma)
Primera Propiedad
Segunda Propiedad
Siendo Ma el dato que ocupa el lugar central de la distribucin ordenada, el concepto tiene
significado y, en consecuencia, es aplicable a datos categricos ordinales. Veamos el
ejemplo siguiente en el que se analizan las respuestas sobre la calificacin a la Fiesta Provincial
de La Flor 12 (Montecarlo, Misiones, ao 2001), obtenidas en un relevamiento efectuado a n = 9
personas mayores de 16 aos que asistieron al evento.
Calificaciones: R, MB, MB, B, M, MB, R, MB, B
M, R, R, B B
En la
posicin 5
encontramos
el valor B
(Ma)
Ma = bueno
"
Tercera Propiedad
La mediana de datos numricos tiene la propiedad de ser resistente a la presencia de
valores extremos en el conjunto de observaciones. Retomando el ejemplo de los minutos que les
11
12
Las categoras posibles de respuesta fueron: muy bueno (MB), bueno (B), regular (R), malo (M) y muy malo (MM).
67
llev a los 13 alumnos de Estadstica realizar el examen, si reemplazramos el dato del primer
alumno (65) por el valor 5 minutos; la mediana del conjunto permanecera inalterada en:
Ma = 103 minutos
Lo mismo ocurrira si se reemplazara el dato ms alto de la serie (120) por cualquier valor
atpico para ese conjunto de observaciones (por ejemplo 720 7200).
Ntese que en estos ejemplos, la cantidad de n = 13 observaciones de la serie se mantiene
inalterada, ya que suponemos la sustitucin de un valor original por otro atpico. Es decir, la Ma
es resistente a valores extremos si no se modifica el tamao n del conjunto de datos.
Cuarta Propiedad
En cambio, si al conjunto original se agregaran 2 nuevos alumnos (ahora n = 15) con 109 y 118
minutos respectivamente, la serie ordenada resultara:
65, 65, 65, 88, 90, 90, 103, 109 ,110, 112, 115, 115, 117, 118, 120
Quinta Propiedad
Por ser una medida que representa a todo el conjunto de datos mediante uno solo de sus
valores, cuando se trabaja con datos numricos la Ma no aporta elementos sobre la
conformacin general del grupo de observaciones (e individuos en consecuencia): hay datos
atpicos en la distribucin?, cun diferentes son los valores extremos en relacin con los datos
comunes?
Retomando el ejemplo de Actividad N 2, si dijramos que: la mitad de los 97 funcionarios
(incluidos los 7 cargos gerenciales) de la empresa perciben haberes netos mensuales superiores a
$753 13; sin conocer los datos originales, no sabramos que en el conjunto en estudio se
incluyen valores tan extremos como $4927,....., $5124,...$6701 y $6890.
4.2. Determinacin de la Ma
El procedimiento a seguir para determinar 14 el valor mediana de una distribucin en
estudio, depender del tipo de datos que se trate (numricos u ordinales) y del estado de
elaboracin en que se encuentran (datos brutos, arreglos de frecuencias, distribucin con
intervalos).
13
14
68
ambos lados. Por ejemplo, supongamos que fueron n = 16 los alumnos que rindieron el examen de
Estadstica:
7 datos menores
7 datos mayores
65, 65, 65, 85, 88, 90, 90, 103, 109 110, 112, 115, 115, 117, 118, 120
2 valores centrales
En este caso la Ma se determina por convencin, promediando ambos datos centrales. Es
decir:
103 +109
Ma =
=106 minutos 15
2
4.2.2. Datos numricos en arreglo de frecuencias
En esta situacin de trabajo el razonamiento debe seguir los mismos pasos anteriores,
considerando que en el arreglo de frecuencias los datos ya se encuentran ordenados por
magnitud. El problema entonces consiste en:
a- ubicar el lugar central del conjunto ordenado (posicin del valor Ma),
b- identificar el valor (o los valores si n es par) que ocupa esa posicin (o esas posiciones).
Retomemos como ejemplo la distribucin de los alumnos del curso de Estadstica,
segn las horas diarias que dedican a la TV:
Alumnos de Estadstica segn el tiempo diario que miran TV
Horas TV
(xi)
Ma
Estudiantes
(fi)
Fa
25
25
26
51
49
100
18
118
13
131
136
138
139
Total
139
15
Notar que en este caso, Ma no es exactamente un dato de la serie. La medida toma el valor terico que resulta de
promediar los dos datos centrales y, en consecuencia, ocupa un lugar tambin terico, ubicado entre ambos valores.
16
Imagine a los 139 valores individuales ordenados uno al lado del otro sobre una recta horizontal. El primero ser 0 (se
repite por 25 veces) y el ltimo ser 8 (una sola vez).
69
Posicin Ma =
n +1
2
- Si el nmero de observaciones es par (ej.: n = 160 alumnos), sern dos las posiciones
160
160
y Posicin 81 =
+1 ) las que dejan igual cantidad de observaciones
centrales ( Posicin 80 =
2
2
hacia ambos lados (79 en este caso).
Tratndose de un nmero par de datos, las dos posiciones centrales se determinan
mediante:
n
n
Posicin =
Posicin = +1
y
1 2
2 2
b- Determinacin del valor Ma
Habiendo identificado la posicin central (o las dos posiciones cuando n es par) del conjunto
ordenado, el problema ahora es identificar el dato (o los datos) que se ubica(n) en ese lugar. Para
ello nos valemos de las frecuencias acumuladas (en el sentido menor que), razonando en el
ejemplo anterior del siguiente modo:
Hasta el valor 1 de la distribucin se acumulan 51 datos ordenados y, en consecuencia,
ninguno de ellos (valores 0 y 1 del arreglo) alcanzan la posicin 70.
Al pasar al valor 2 ya son 100 las observaciones acumuladas, lo que significa que uno de los
49 datos iguales a 2 es el que ocupa la posicin central 70.
Es decir: la Ma= 2 horas diarias.
Este valor de la mediana nos indica que aproximadamente la mitad de los alumnos
entrevistados dedica 2 horas diarias o menos a ver TV (obviamente la otra mitad, dedica 2 horas
o ms por da).
El razonamiento es idntico cuando el nmero n de casos del conjunto es par, teniendo en
cuenta que ahora el problema consiste en identificar los valores que ocupan las dos posiciones
centrales y luego, determinar Ma como el promedio entre ambos datos.
4.2.3. Datos numricos en una distribucin con intervalos
En esta situacin de trabajo la mediana no puede ser determinada exactamente porque, al ser
desconocidos los datos individuales que forman el conjunto en estudio, no hay manera de
reconocer el valor que ocupa la posicin central de la serie ordenada 17. Por ello, el procedimiento
consiste en estimar la Ma mediante el siguiente razonamiento:
a.
Ma = Li + 2
siendo:
Ma : valor estimado de la mediana,
Li : lmite inferior de la clase mediana,
Fa
( i 1)
fi
.a
n
: punto medio de la serie de datos,
2
Fa ( i - 1 ) : frecuencia acumulada anterior a la clase mediana,
fi : frecuencia absoluta de la clase mediana,
a:
amplitud de la clase mediana.
17
Es de notar que los datos se encuentran ordenados por la magnitud de sus intervalos.
70
clase
Ma
Grupos
(fi)
00 - 55
19
19
55 - 110
20
39
110 - 165
18
57
165 - 220
64
220 - 275
68
275 - 330
71
330 - 385
72
Total
72
Fa
72
= 36
2
2
Analizando las frecuencias acumuladas se observa que la primera clase rene a los
primeros 19 datos ordenados de la distribucin y, en consecuencia, ninguno de ellos
alcanza al punto medio 36.
Al pasar a la segunda clase ya son 39 los datos acumulados en sentido ascendente de
magnitud, razn por la cual entre los 20 datos de esta clase se encuentran los dos valores
centrales de la distribucin. Es decir, sta es la clase mediana 18.
"
Usuarios
Muy Malo
Malo
Ma
20
Fa
3
23
Regular
151
174
Bueno
469
511
M. Bueno
42
TOTAL
685
685
18
La clase de la mediana siempre es aquella cuya frecuencia acumulada menor que, resulta igual o inmediatamente
mayor a:
n
2
n +1
, segn corresponda.
71
n +1
686
= 343
2
2
Localizada la posicin central del conjunto ordenado, nos valemos de las frecuencias
acumuladas para identificar al dato que se ubica en ese lugar. La categora muy
malo acumula 3 observaciones, la categora malo, 23 observaciones y 174 son las
opiniones regular o menos. Al pasar a la categora siguiente ya son 511 los datos
acumulados, razn por la que uno de los 469 datos bueno es el que ocupa el lugar central
343. En consecuencia Ma = bueno.
"
Si el nmero n de datos de la serie fuera par (por ejemplo n = 734 usuarios), existiran dos
n
n
y Posicin = + 1 (lugares 367 y 368 en nuestro
posiciones centrales: Posicin =
1 2
2 2
ejemplo). Con la ayuda de las frecuencias acumuladas, se podr localizar la Ma identificando
los datos (categora) que se ubican en estos lugares.
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.
5. El Modo
Concepto
El modo (Mo) de un conjunto de observaciones (numricas o categricas
nominales u ordinales) es el valor individual que ms veces se repite en
la serie. Mo ser el valor ms tpico, ms recurrente o bien, el que rene la
mayor frecuencia absoluta entre todos los valores (categoras) individuales
observados en el conjunto de datos que se analiza.
Smbologa: algunos smbolos utilizados para representar a esta medida son: Mdo, Xmo; entre otros.
Nuevamente, las letras maysculas y minsculas se reservan para distinguir lo poblacional de lo
muestral. En este curso emplearemos indistintamente la notacin Mo.
En este caso tenemos tambin una medida que toma en consideracin a una sola de las
observaciones, aunque no siempre se ubica en los valores centrales de la serie de datos.
Tomando como ejemplo la serie de datos referidos al tiempo en minutos que le requiri
realizar un examen a los alumnos de Estadstica y a las calificaciones a la Fiesta Provincial de La
Flor, realizadas por 9 visitantes al evento, tendremos:
dato ms frecuente
Minutos: 65, 65, 65, 88, 90, 90, 103, 110, 112, 115, 115, 117, 120
Mo= 65 minutos
dato ms frecuente
Mo = muy bueno
72
Segunda Propiedad
Por no requerir de ninguna forma de orden en los datos, tiene significado y es aplicable a
datos categricos nominales (es la nica de las tres medidas de tendencia central que hemos
tratado, posible de ser utilizada con este tipo de datos).
Tercera Propiedad
Cuando la diferencia entre la frecuencia mxima observada (frecuencia modal) con alguna de las
restantes no es muy grande, el Mo como medida caracterstica de la distribucin pierde
relevancia.
IMPORTANTE
Puede ocurrir que en un conjunto de datos se encuentren dos o ms valores que
renen la misma frecuencia absoluta mxima 19 (en nuestros ejemplos si
tuviramos dos alumnos ms con 90 y 115 minutos respectivamente o bien,
dos visitantes ms que califiquen la Fiesta de la Flor como Regular). En tales
casos las distribuciones resultaran bimodal (dos valores con la misma frecuencia
mxima) o multimodal (tres o ms valores con esta propiedad) y no es posible
determinar un nico valor/categora Mo para toda la serie.
Varn
Mo
Horas TV (xi)
Estudiantes
30
25
Mujer
109
26
Total
139
49
18
13
Mo
Total
19
Estudiantes (fi)
Esta situacin es muy raro que ocurra si el nmero (n) de observaciones es suficientemente grande.
73
139
Usuarios
M. Bueno
Mo
42
Bueno
469
Regular
151
Malo
"
20
Muy Malo
TOTAL
685
As entonces:
las mujeres predominan en el grupo de estudiantes de Estadstica y lo ms comn o
frecuente son los alumnos que dedican 2 horas diarias a ver TV, y
la opinin de que el servicio elctrico es bueno, es la ms tpica entre los usuarios de la
Empresa de Electricidad de Misiones.
clase
modal
Grupos (fi)
00 - 55
19
55 - 110
20
110 - 165
18
165 - 220
220 - 275
275 - 330
330 - 385
Total
72
d1
d1 + d2
/
"
.a
siendo:
Li : lmite inferior de la clase modal,
d1 : la diferencia entre la frecuencia absoluta de la clase modal y la
frecuencia absoluta de la clase inmediata anterior a la modal,
d2 : la diferencia entre la frecuencia absoluta de la clase modal y la
frecuencia absoluta de la clase inmediatamente posterior a la modal,
a: amplitud de la clase modal.
d2 = 20-18 = 2
1
. 55 = $73, 3
1+2
a = 55
diarios
74
IMPORTANTE
Este procedimiento para estimar el modo de datos numricos agrupados en
clases es altamente sensible a la forma en que se define la distribucin. Esto
es: al nmero de intervalos y a la amplitud de cada uno de ellos.
El siguiente ejemplo ilustra sobre este problema. El mismo grupo de n = 9 datos se organiza de 3
maneras distintas:
Situacin A
Mo
Situacin B
Datos
fi
65
2
Clase Mo
Situacin C
Datos
fi
65 - 69
70 74
Clase Mo
Datos
fi
65 - 69
70 79
70
72
75 79
80 - 89
73
80 84
Total
81
85 - 89
82
Total
86
87
Total
El modo verdadero de la serie es Mo = 65 ya que se trata del valor del conjunto con mayor
frecuencia (Situacin A).
En la Situacin B la clase modal es la segunda de la distribucin (7074) y aplicando el
procedimiento de estimacin por interpolacin resulta: Mo = 70,75.
En la Situacin C el Mo se ubicar en la tercera clase (8089), resultando su estimacin:
Mo = 81,5 20.
Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.
V
20
75
Cuartil 1 Primer Cuartil (Q1): es aquel valor del conjunto de observaciones que se ubica en
una posicin tal que a uno de sus lados deja una cuarta parte (25%) de los datos que son
menores o iguales a l, y hacia el otro lado las tres cuartas partes (75%) de los datos que son
mayores o iguales que l (es el valor que se ubica en la posicin del conjunto ordenado).
Cuartil 2 Segundo Cuartil (Q2): coincide con la mediana ya que divide al conjunto en dos
partes, cada una con la mitad de los datos: Q2 = Ma.
Cuartil 3 Tercer Cuartil (Q3): es el dato situado en la posicin que deja de las
observaciones menores o iguales que l hacia un lado y de las observaciones mayores o
iguales que l hacia el otro lado (el dato que se ubica en la posicin de la serie ordenada).
Grficamente
25%
75%
50%
Q1
50%
Q2
25%
Q3
25%
25%
25%
25%
Q1
21
75%
Q2 Q3
Una vez ms: no se trata de reducir la descripcin de un conjunto de datos en un nico valor, por ms expresivo que el
mismo pueda resultar, sino de comunicar la forma de la distribucin en la que se expresa la disparidad y repeticin de los
valores de la variable.
76
Ejemplo:
"
Para la distribucin de los grupos tursticos segn el nivel de gasto diario en Iguaz, los
cuartiles resultan:
Q1 = $52,11
Q2 = Ma = $101,75
Q3 = $155,83
Es decir que:
Una cuarta parte de los grupos (los 18 grupos que menos gastan) registra un nivel
de gasto diario igual o inferior a $52,11, mientras que el 25% de los que ms gastan
se ubican en $155 ,83 ms por da. Es decir que el 50% (36) de los grupos centrales
registra un nivel de gasto comprendido entre $52,11 y $155,83 diarios.
Considerando que el gasto mediana es de $101,75, una cuarta parte de los turistas registra
gastos diarios entre $52,11 y $101,75, y otra cuarta parte gasta entre $101,75 y $155,83.
Posicin Q = 3 .
3
n
4
72
= 18
Cuando los datos son numricos y se encuentran resumidos en una distribucin con
intervalos, primero debemos ubicar la clase del cuartil, y luego estimar su valor mediante
el siguiente clculo:
n
Q1 = Li +
- Fa
3.n
(i-1)
.a
Q1 = Li +
fi
- Fa
(i-1)
.a
fi
Donde los datos a considerar en cada una de estas expresiones (Li, Fa(i-1), fi, a) toman como
referencia a las clases de Q1 y Q3 respectivamente, con significado idntico al explicado para
determinar la Ma en esta situacin de trabajo.
- Fa
(i-1)
.a = 0+
fi
18-0
19
.55 = 52,11
77
hacia el otro lado, el 90% de los datos restantes que son mayores o iguales que l (es el valor que
separa el primer dcimo del conjunto ordenado en forma ascendente).
Deciles 2, 3, 4, 5, 6, 7, 8 y 9 (D2, D3, D4, D5, D6, D7, D8, D9): se definen trasladando el
concepto de D1 al segundo dcimo, tercer dcimo......., noveno dcimo de la serie ordenada en
forma ascendente (D5 = Ma).
En este caso, la forma sencilla de ubicar la posicin de un decil genrico i (para i = 1, 2, 3,
4, 5, 6, 7, 8 9) ser mediante el cociente:
i.n
10
- Fa(i-1)
fi
.a
Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.
ingreso.
78
Escala Ingresos
Hogares
(%)
Porcentaje
Ingreso total
Por Decil (miles) de Ingreso
Ingreso medio
por decil
20-200
10
549
1,9
127
200-250
10
976
3,3
225
250-330
10
1281
4,3
296
330-400
10
1603
5,4
371
400-500
10
1901
6,4
439
500-600
10
2316
7,8
533
600-710
10
2796
9,4
652
720-980
10
3584
12,1
830
980-1330
10
4935
16,7
1134
10
1330-10449
10
9668
32,7
2219
29609
100,0
684
Total
100
(43288)
"
En la tabla se aprecia que, entre los hogares de la ciudad de Formosa, existe una
concentracin de los ingresos: el 10% de los hogares que ms ganan concentran el
32,7% del total de los ingresos, mientras que el 10% de los hogares ms pobres
acumulan slo el 1,9%. Esta situacin produce una brecha entre ricos y pobres, en la
que el ingreso promedio del ltimo decil ($2219) es 17,5 veces mayor que el
ingreso promedio del primer decil. Esta comparacin se podra extender a otros grupos, por
ejemplo comparar el primer 20% de los hogares (primer quintil) que acumula slo el 5,2% frente al
ltimo 20% que acumula el 49,4% del total de los ingresos; y as sucesivamente.
La curva de Lorenz tiene la ventaja de expresar las situaciones de equidad/inequidad de manera
ms general, permitiendo apreciar el comportamiento de la variable en forma inmediata.
Segn hemos visto en la unidad anterior, para construir la curva de Lorenz tenemos que realizar
las siguientes transformaciones: acumular los porcentajes de hogares y acumular los porcentajes de
ingresos totales por decil.
Distribucin de los Hogares segn deciles de ingreso - Formosa, octubre 1997
Decil
Escala
Ingresos
Hogares
Acum.
(%)
Ingresos
Acum.
(%)
100
90
80
20-200
10
1,9
200-250
20
5,2
250-330
30
9,5
330-400
40
14,9
400-500
50
21,3
500-600
60
29,1
20
600-710
70
38,5
10
720-980
80
50,6
980-1330
90
67,3
10
1330-10449
100
100,0
70
60
50
40
30
0
0
10
20
30
40
50
60
70
80
90 100
Hogares (%)
La curva as construida expresa de manera elocuente la concentracin del ingreso que existe
en los hogares de Formosa, y el hecho de haber utilizado los deciles facilita la lectura comparativa de
los datos.
79
Actividad N 6
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 6 de la
Gua de Actividades correspondiente a esta unidad.
/
"
Q3) y otros dos valores entre los cuales se dispersa el conjunto total de los datos (Xmn y Xmx).
Si consideramos los gastos diarios de los grupos tursticos, podemos describir
mediante este criterio al conjunto de las observaciones utilizando los siguientes
valores:
Xmn= $ 0
Q1= $52,11
Ma= $101,75
Q3 = $155,83
Xmx= $385
La mitad de los grupos tursticos no superan los $101,75 de gasto diario, aunque los
gastos observados varan $0 y $385. Por otro lado, el 50% de los gastos centrales
se ubican entre $52,11 y $155,83.
As como el resumen de los cinco nmeros resulta un recurso apropiado para hacer una
descripcin de la distribucin, tambin se pueden incorporar otros valores caractersticos que
expresen nuevas especificidades del conjunto de datos. En este sentido, es posible agregar al anlisis,
otras medidas que nos permitan dar una mejor idea de la forma de la distribucin. Por ejemplo,
utilizando adems de los cinco nmeros vistos, los deciles 1 y 9 en un resumen que podramos llamar
de los siete nmeros.
"
Xmn= $ 0
D1= $20,8
Q1= $52,11
Ma= $101,75
Q3 = $155,83
D9= $231
Xmx= $385
El 10% de los que menos gastan no superan los $20,8 diarios, mientras que un 10%
de los grupos tursticos, gastan diariamente $231 o ms.
IMPORTANTE
La decisin del nmero de valores caractersticos a utilizar para la descripcin, e
incluso qu deciles incorporar, depende de las particularidades de la distribucin:
nmero de casos, forma, nmero de valores diferentes que tome la variable y
propsitos del anlisis.
80
300
250
Ma
200
Q3
150
100
50%
central de
los datos
Q1
50
0
Turistas
En este grfico podemos ver que los gastos diarios de los turistas tienen un comportamiento
bastante simtrico en el 50% de los datos centrales (la mediana se ubica en el centro de la caja, a
igual distancia de los cuartiles uno y tres). El conjunto total de los datos muestra una asimetra a la
derecha, (el bigote superior es ms largo que el inferior e incluso se aprecia la presencia de cuatro
grupos tursticos con gastos atpicos). Por otro lado el bigote inferior est indicando una mayor
concentracin de los gastos menores, no hay valores atpicos pequeos e incluso no se identifica
ningn grupo que no haya realizado gastos (el bigote no alcanza al valor $0).
Este tipo de recurso grfico resulta muy ilustrativo y en consecuencia recomendable cuando
queremos comparar dos o ms distribuciones 24.
Vemos entonces que el diagrama de caja permite visualizar una serie de aspectos
interesantes de la forma del conjunto de los datos:
- Presencia de valores atpicos
22
23
24
81
Actividad N 7
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 7 de la
Gua de Actividades correspondiente a esta unidad.
8. Qu Hemos Visto?
En esta unidad hemos avanzado un paso ms en el camino del tratamiento y anlisis estadstico
elemental de los datos.
Efectuados los primeros resmenes numricos y grficos, para una primera lectura del fenmeno
que representan los datos (unidad 2), el anlisis a menudo requiere de instrumentos que permitan
un mayor resumen de la informacin.
Las medidas de tendencia central tienen este propsito, y su aplicacin en un problema
particular depender bsicamente de las necesidades de informacin que motivan el
anlisis, del tipo de datos con los que se trabaja y de las propiedades del conjunto como un
todo.
El buen dominio del concepto, propiedades y limitaciones de cada una de ellas es el requisito para
utilizarlas correctamente.
Adems, hemos presentado las diferentes medidas de posicin que permiten complementar
la comprensin de un conjunto de datos, informando -con distintos niveles de detalle- sobre su
estructura.
En todos los casos, el nfasis est puesto en facilitar la comprensin conceptual de cada
herramienta, para luego pasar al plano de la formalizacin matemtica elemental y del clculo
aplicado a ejemplos de fcil comprensin.
En relacin con esto ltimo, reiteramos la recomendacin a quienes puedan hacerlo, de utilizar la
informtica como auxiliar del trabajo estadstico.
82
Nominales
Mo
Mo
Mo
Ma
Ma
u n va l o r
Resumen de
los cinco nmeros
Variables Categricas
Deciles
.... . ......
Cuartiles
Centiles
Deciles
.... . ......
Centiles
83
va r i o s va l o r e s
Cuartiles
percentiles
percentiles
Diagrama de Caja
(Box-Plot )
Variables Numricas
Bibliografa
BARBANCHO, A. (1978): Estadstica Elemental Moderna. Ed. Ariel, Barcelona, Espaa. pg. 117123, 127-132, 134-138.
BLALOCK, H. M.(1978): Estadstica Social, FCE, Mxico. pg. 67-72, 81-83.
UNIVERSIDAD NACIONAL DE CRDOBA (1993): Estadstica aplicada a la Investigacin. Curso a
distancia. Fac. de Cs. Econmicas, Crdoba, Mdulo III pg. 1-42.
Conceptos Centrales
Habilidades
84
Dicho en trminos estadsticos, los datos que obtenemos en relacin con alguna pregunta de
investigacin, varan a travs del conjunto de unidades observadas, y controlar esa
variabilidad es el fin ltimo en la tarea de describir los datos y producir informacin.
Hasta aqu todas las medidas o herramientas presentadas intentaban, de diferentes maneras,
resumir los datos para lograr una mejor descripcin de esa diversidad. As, las distribuciones de
frecuencias (en su forma numrica o grfica) nos permiten presentar y describir los diferentes
valores observados. En tanto que las medidas resumen desarrolladas en la unidad anterior, nos
facilitan la descripcin de los individuos a travs de un conjunto de valores caractersticos
que intentan dar cuenta de la variabilidad.
Asimismo, debemos destacar que la representatividad de las medidas de tendencia central
se vincula estrechamente con la dispersin de los datos y (concretamente en el caso de la
1
media) con la simetra de la distribucin . Consideremos los siguientes grficos donde se
representan tres distribuciones de frecuencias (polgonos A, B y C) que registran un mismo valor para
la media.
Frecuencia (fi)
Frecuencia (fi)
xA
Variable X
Frecuencia (fi)
Variable X
Variable X
Esto pone de manifiesto que tanto la variabilidad como la asimetra de la distribucin son aspectos a considerar a la hora de
evaluar estas medidas. Recordar que: cuando se observa la presencia de valores atpicos, el promedio aritmtico debe ser
analizado con cuidado, porque puede resultar fuertemente desplazado de la tendencia central e inducir a interpretaciones
errneas acerca del conjunto de datos que resume (Ver Unidad 3).
85
Anlisis de la Variabilidad
Tipo de
Variable?
N u m r i c a s
M e di d a s
A b s o l uta s
C a t e g r i c a s
M e di d a s
R e la tiv a s
M e di d a s
R e la tiv a s
Veamos en un sencillo ejemplo, las ideas anteriores: tenemos seis individuos para los
cuales se han registrado sus notas en Historia y Matemtica.
Simboliza al segundo individuo
i1
i2
i3
i4
i5
i6
Nota Historia
Nota Matemtica
10
Individuo
Media
Se puede observar que los promedios de las notas en estas materias son coincidentes. Sin
embargo, la variabilidad en las notas de Historia es claramente menor que en las de Matemtica; as
la mayor variacin que se registra entre las notas de Historia es de 2 puntos (entre i2 y i4, que son los
individuos ms diferentes entre s), mientras que en Matemtica, la mayor diferencia es de 6 puntos
(entre i5 y i1). Estamos en condiciones de afirmar para este pequeo conjunto de observaciones que,
a pesar de que la medida resumen es la misma, los conjuntos son diferentes: las notas de Matemtica
Aunque no lo desarrollaremos en este curso, otro aspecto a considerar en el anlisis de la forma es lo que se conoce como
curtosis.
86
IMPORTANTE
Las medidas de tendencia central ocultan la variabilidad del conjunto de
datos. Por ello, cuantificar la variabilidad constituye un complemento
imprescindible en la descripcin de una distribucin.
Conocer (medir) la variacin de los datos permite:
describir esta caracterstica inherente a todo conjunto de observaciones,
evaluar la calidad de las medidas de tendencia central, y
comparar mejor diferentes grupos de datos mediante sus promedios.
En general, las situaciones no sern tan evidentes, ni el nmero de datos tan pequeos como en el
ejemplo anterior; lo que obliga a construir medidas que nos permitan resumir y evaluar esa
variabilidad.
2.1.1. Las medidas absolutas
Para la construccin de medidas absolutas de variacin se pueden adoptar dos
perspectivas:
Considerar el campo de variacin de las variables: las medidas obtenidas
expresan la extensin o amplitud de variacin de los datos que se estn considerando.
Se identifican en este grupo: el Rango y el Rango Intercuartil.
Considerar las variaciones de los datos individuales: estas medidas resumen en
un valor la totalidad de las variaciones de los datos individuales. Entre estas medidas se
destacan: la Desviacin Media, la Desviacin Mediana, la Variancia y el Desvo Estndar.
Considerando el campo de variacin de las variables, tenemos:
A) El Rango, Amplitud o Recorrido: indica la extensin en la que varan la totalidad de los datos;
es la mayor diferencia que se puede registrar entre dos valores de la variable.
Esta medida se calcula como la diferencia entre el mximo valor y el mnimo valor observado de la
variable.
R = x mx - x mn
En el ejemplo de las notas el rango para la variable nota de Matemtica es de 6 (R = 10 - 4), lo
que indica que la totalidad de las notas observadas se registran en un campo o extensin de variacin
de 6 puntos. En el caso de las notas de Historia esta amplitud de variacin es de 2 puntos.
Cuando los datos estn agrupados en intervalos de clase, dado que no conocemos exactamente el
mximo y el mnimo, el rango se obtiene 3 haciendo la diferencia entre el lmite superior de la ltima
clase y el lmite inferior de la primera:
R = L sk - L 1 (donde k es el nmero de clases)
Comentarios:
Es una medida de muy fcil clculo, que permite una aproximacin rpida a la variabilidad
de los datos.
Al tomar slo los valores mximo y mnimo, si se observan valores muy atpicos, puede
brindar una idea distorsionada sobre la variabilidad como caracterstica del conjunto.
Dos distribuciones con el mismo rango pueden tener dispersin interna de los datos
muy diferentes (el conjunto de los valores pueden estar ms o menos concentrados).
Estrictamente se trata de una estimacin ya que desconocemos los verdaderos valores mximos y mnimos.
87
B) Rango intercuartil: indica la extensin en la que varan el 50% de los datos centrales de la
distribucin.
Se calcula como la diferencia entre el tercer y el primer cuartil.
RQ = Q3 - Q1
Comentarios:
Muchas veces es preferible medir la variabilidad del 50% de los datos centrales, descartando
el 25% de los valores ms bajos y el 25% de los ms altos, para evitar as la distorsin que
puede provocar la presencia de valores atpicos.
Simultneamente, estamos prescindiendo en este caso de la mitad de las observaciones.
Para describir la distribucin de las edades de los alumnos del curso de Estadstica
podemos utilizar algunas de las medidas de resumen presentadas en la unidad
anterior.
Mediana
21 aos
Mnimo
17 aos
Mximo
47 aos
Cuartil 1
19 aos
"
Rango:
R = 4 7 - 1 7 = 3 0 aos
Rango intercuartil:
RQ= 2 7 - 1 9 = 8 aos
Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.
i2
i3
i4
i5
i6
Nota Matemtica
10
Desvos individuales a la x
-3
-2
-1
Individuo
Media
7
Se puede ver que, mientras el individuo 1 est 3 puntos por debajo de la media, el individuo 5 est
en esa misma cantidad por encima de la media.
88
Para resumir en un nico nmero la variabilidad de las seis observaciones, podemos recurrir al
promedio pero, como ya hemos sealado en la unidad anterior, la suma de los desvos a la media es
cero 4. Para resolver este problema vamos a sumar los desvos absolutos, es decir el valor de los
desvos prescindiendo de su signo.
"
3 +1 + 2 + 2 + 3 +1 12
=
= 2 puntos
6
6
x i - x .fi
di .fi
(x - x ) = 0
n
Recordar que por una propiedad de la media la suma de los desvos individuales a la media siempre es cero.
i=1
89
"
Dividiendo la suma de los desvos en valores absolutos (716,4) por el nmero de casos (136), tenemos una
De svia cin Me dia e stim a da e n 5,27 a os.
La s e da de s de los a lumnos de e sta dstica ,se dispe rsa n e n prome dio-con re spe cto a la me dia
en 5,27 aos.
D) De svia cin me dia na : si e va lua mos que la me dia no e s una bue na me dida re sume n de los da tos y
opta m os por la m e dia na com o m e dida de te nde ncia ce ntra l, se ra a propia do utiliza r una m e dida de
dispersin relacionada a la m ediana.Asentonces,dem anera anlogaa la desviacin m edia,tenem osque:
Comentarios:
DMa=
x i -Ma .fi
donde:
fi es la frecuencia del valor xi
xi son los valores observados de la variable en el caso de un arreglo de
frecuencias, o el punto medio de la clase en el caso de una distribucin en
intervalos de clase.
Calculamos la
Desviacin Mediana
para las Notas de
Matemtica:
x i - Ma
Individuo
i1
i2
i3
i4
i5
i6
Ma
10
-3
-2
-1
D esvos a la M a
3 +1 + 2 + 2 + 3 +1
= 2 puntos
n
6
En consecuencia, las notas de Matemtica se desvan, en un promedio de 2 puntos, de la mediana.
DMa =
Edad
nde estud.(fi)
17-20
21-24
25-28
65
25
17
18,5
22,5
26,5
29-32
14
33-36
37-40
41-44
45-48
7
5
2
1
Total
PM
|di|.fi
-3
1
5
195
25
85
30,5
126
34,5
38,5
42,5
46,5
13
17
21
25
91
85
42
25
136
674
Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica
90
"
Luego: DMa=
674,0
=4,96 aos
136
Esta medida indica que en promedio las edades de los estudiantes se desvan de la
mediana en 4,96 aos.
E) Variancia y Desviacin estndar: en el clculo de la desviacin media se tomaron los valores absolutos de
los desvos evitando as que la suma nos d cero. Otro criterio para solucionar este mismo problema sera elevar
esos desvos al cuadrado, obteniendo de esta manera una nueva medida de variabilidad que se conoce como
Variancia.
Esta medida se simboliza utilizando la letra griega sigma elevada al cuadrado ( 2 ).
i1
i2
i3
i4
i5
i6
Media
Nota Matemtica
10
-3
-2
-1
( xi - x )
Desvos individuales a la
...?
Variancia (
2 ):
( x i -x )
Comentarios:
La variancia y el desvo estndar son, fundamentalmente por razones de orden terico,
las medidas ms utilizadas para cuantificar la variabilidad de un conjunto de datos.
Dado que los desvos a la media estn elevados al cuadrado, la variancia se expresa
en una unidad de medida que es el cuadrado de la unidad de medida de la
variable original. Esto dificulta la interpretacin del resultado en trminos del
problema.
La unidad de medida en la que queda expresada la variancia no es interpretable en trminos de la
variable que se analiza. Hasta aqu slo la podemos considerar como una cuantificacin de la
variabilidad existente en los datos.
Para resolver este problema, se calcula la raz cuadrada de la variancia, que resulta en una nueva medida
llamada Desvo Estndar ( ) , la que queda expresada en la unidad original.
"
/
= 2
Si no contramos con los datos originales, el clculo de la variancia y el desvo estndar para
las edades de los estudiantes de estadstica, a partir de la tabla, sera:
91
Desvos individuales a la
media
Edad
n de estud. (fi)
17-20
65
18,5
-5,1
26,0
1690,0
21-24
25
22,5
-1,1
1,2
30,0
25-28
17
26,5
2,9
8,4
142,8
29-32
14
30,5
6,9
47,6
666,4
33-36
34,5
10,9
118,8
831,6
37-40
38,5
14,9
222,0
1110,0
41-44
42,5
18,9
357,2
714,4
45-48
46,5
22,9
524,4
524,4
Total
PM
d i = (PM 24,1)
d i2
136
d i2
. fi
5709,6
Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica
"
La variancia es:
136
42=6,48 aos.
Entonces, los estudiantes del curso tienen una media de 24,1 aos y sus edades -en
promedio- se dispersan con respecto a ese valor 6,48 aos.
donde:
(x
=
x ) . fi
2
Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.
92
Ej e Y
A >B
A
B
x A = xB
Eje x
Eje Y
A =B
x A xB
300
900
Eje X
Ej e Y
A B
La dificultad de comparar no
se presenta tan clara en las
otras dos situaciones (2 y 3).
Es an ms evidente la dificul-
x A xB
Eje x
distribuciones tienen valores distintos de promedio y dispersin absoluta (situacin 3). Por ejemplo
esto ocurrira si queremos comparar:
93
.100
x
indica la cantidad de variacin expresada como un porcentaje de la media aritmtica.
CV =
Comentarios:
Si las medias aritmticas de dos conjuntos son iguales (o aproximadamente) las medidas
absolutas sern suficientes para la comparacin.
Edad
Hs. TV
136
139
23,4 aos
2,0 hs.
6,4 aos
1,5 hs.
CV
27,3 %
75,8 %
DM
.100
x
DMa
.100
Ma
L
1
IMPORTANTE
En la prctica no se construyen sucesivamente todas las medidas que
hemos presentado sino que, a partir de la medida de resumen
seleccionada como ms representativa de la tendencia central, se
seleccionar una medida de dispersin que la complemente, y
consecuentemente se construir la medida relativa correspondiente a esa
medida absoluta.
Una vez ms: la utilizacin de determinadas medidas es el resultado
de una decisin del investigador y surge de considerar las
caractersticas de ese particular conjunto de datos que se est analizando.
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad .
94
Supongamos que se observan seis individuos en una variable con dos categoras:
Cat1 y Cat2 de una escala nominal u ordinal. Tendramos as situaciones de:
Dispersin Nula (mxima concentracin): cuando todas las observaciones corresponden a
una sola de las categoras posibles. Es decir alguna de las siguientes dos situaciones.
Situacin A
Variable
n individuos
Cat1
Cat2
Total
Situacin B
Todos los
individuos
presentan
la
caracterstica Cat1
Variable n individuos
Cat1
Cat2
Total
Todos los
individuos
presentan la
caracterstica Cat2
n individuos
Cat1
Cat2
Total
n individuos
Cat1
Cat2
Total
Variable
n individuos
Cat1
Cat2
Total
Algunas de
las
categoras
tiene ms
casos que
las otras
A partir del concepto de dispersin para datos categricos, podemos ver la lgica que sirve de
base para la construccin del ndice de Dispersin.
El ndice de dispersin para una variable de dos categoras se obtiene a partir del nmero de pares
de individuos 5 que se pueden construir combinando los elementos de una categora con todos los de
otra. Hay que tener en cuenta que, en este caso, cada par es una combinacin de individuos
diferentes en trminos de la variable que se est analizando. Por ejemplo, si se tratara de la variable
sexo, cada par estara integrado por un hombre y una mujer. As, para una variable cuya distribucin
presenta cuatro individuos en una categora y dos en la otra, los pares que se pueden formar seran:
Si la variable tiene tres categoras sern ternas, si tiene cuatro sern grupos de cuatro individuos y as siguiendo.
95
Pares posibles
Categora 1
Categora 2
i1
El individuo 3
presenta la
caracterstica
1 de la variable
i5
i2
(i1,
(i2,
(i3,
(i4,
i5)
i5)
i5)
i5)
(i1,
(i2,
(i3,
(i4,
i6)
i6)
i6)
i6)
i3
i4
i6
En la tabla siguiente resumimos, para el ejemplo de seis observaciones en una variable de dos
categoras, el nmero de pares posibles de elementos con atributos diferentes que se
pueden construir para cada nivel de dispersin.
Nivel Dispersin
n individuos
en Cat1
n individuos
en Cat2
Nula
Intermedia 1
Intermedia 2
Mxima
N pares
posibles
En la tabla anterior se puede ver que, a medida que crece el nivel de dispersin de la
Donde:
n pares observados
8
= = 0, 89 u 89%
n pares posibles en situacin de Mx. Dispersin 9
96
k(n2 - fi2 )
n2 (k-1)
donde:
k : nmero de categoras de la variable
n : total de casos
fi : cantidad de observaciones o frec. Abs. en la categora i-sima.
Varones
Mujeres
1140
452
578
2.170
262
490
702
1.454
ID=
=0,91
"
1
ID=
1454 (3-1)
=0,93
Ambos grupos presentan una alta dispersin (ID cercano a 1). Dado que el ID de las
mujeres es mayor, las mujeres son ligeramente ms heterogneas que los hombres en
Eje de
simetra
Simtrica
x=Ma=Mo
97
A medida que la distribucin se hace ms asimtrica hacia uno u otro lado (derecha e izquierda),
las medidas de tendencia central tienden a alejarse unas de otras, siendo la media -por estar afectada
por los valores extremos- la que ms se desplaza hacia la cola de la distribucin (ver grficos
siguientes).
Asimetra
a Izquierda
Asimetra
a Derecha
x < Ma < Mo
Mo < Ma < x
Vemos en los Grficos que, en el caso de una asimetra a la izquierda, la media es menor que la
mediana y esta a su vez, menor que el modo. Inversamente, en la asimetra a derecha ser el modo
asume el menor valor y la media la mayor de las tres medidas. Se puede ver adems que la mediana,
siempre toma un valor intermedio entre las otras dos medidas, ubicndose ms prxima a la media 6.
A medida que la asimetra crece en una u otra direccin, tambin las distancias entre la
media y el modo, y la media y la mediana, crecen. En consecuencia, podemos utilizar estas
diferencias ( x- Mo , o x- Ma ) como medidas absolutas de la asimetra de una distribucin.
Adems se puede ver que si la asimetra es a la izquierda, x- Mo dar un valor negativo, en tanto que
si la asimetra es a la derecha esta diferencia ser positiva.
En sntesis:
x-Mo = 0 Simetra
Adems, cuanto mayor sea el valor absoluto de la diferencia, mayor ser el grado de asimetra de
la distribucin
A mayor | x-Mo |
mayor asimetra
Para poder comparar la asimetra de distribuciones de variables medidas en distintas escalas o
presentadas para valores con distinta magnitud, la solucin es construir medidas relativas de
asimetra.
3.1. Coeficiente de asimetra de Pearson
Una de las medidas de asimetra ms difundidas, es el Coeficiente de Asimetra de Pearson
que calcula esa diferencia en cantidad de desvos estndar.
En casos de asimetra moderada, la mediana se ubica -prxima a la media- a un tercio de la distancia entre la media y el
modo.
98
Comentarios
La magnitud absoluta del coeficiente indica la cantidad de desvos estndar a los que se
encuentra la media del modo.
Se lo puede expresar en porcentaje, multiplicando por 100 el resultado de la expresin anterior.
Si el coeficiente es igual a cero, estamos en una situacin de simetra perfecta.
En trminos tericos, este coeficiente puede tomar valores que varan entre 3 y +3.
3.2. Coeficiente intercuartlico de Bowley
Una medida alternativa del grado de asimetra se puede plantear a partir de las distancias que se
observan entre los cuartiles. En una situacin de simetra los cuartiles 1 y 3 estarn equidistantes de
la mediana. Es decir: Q3-Q2 = Q2-Q1
Ahora bien, si la distribucin es asimtrica, estas distancias no sern iguales y variarn
con el grado de asimetra; en consecuencia, las diferencias entre estas distancias pueden usarse como
base para medir la asimetra de una distribucin.
Asimetra
a Izquierda
Asimetra
a Derecha
Tomando en cuenta esta caracterstica de las distancias intercuartlicas, Bowley propone una
medida relativa que expresa estas diferencias en trminos del recorrido intercuartlico.
Coeficiente intercuartlico de Bowley (CAB)
Se define como:
CAB=
Q3 +Q1 -2.Q2
Q3 -Q1
Comentarios:
En situaciones de asimetra, el coeficiente puede tomar valores positivos o negativos:
- Los valores positivos estn indicando una asimetra a la derecha.
- Los valores negativos indican una asimetra a la izquierda.
En trminos tericos este coeficiente puede tomar valores que varan entre 1 y +1.
Segn Bowley:
- un valor de 0,1 (o 0,1) puede considerarse una asimetra moderada;
- un valor de 0,3 (o 0,3) puede considerarse como una marcada asimetra.
El coeficiente es igual a cero, en una situacin de simetra perfecta.
El coeficiente ser 1 (o 1) cuando el Q1 (o Q3) coincida con la mediana.
99
Como parte de un estudio de medicin de audiencia radial, se llev a cabo una encuesta
a 150 hogares de la ciudad para medir el tiempo de escucha de dos radios locales, entre
las 16 y las 19 horas. Los resultados de esta observacin se presentan en las tablas
siguientes:
FM Guaran
Tiempo de escucha
(minutos)
FM Acuario
Tiempo de escucha
(minutos)
Hogares
(n)
Hogares
(n)
0 15
14
0 15
15 30
18
15 30
45
30- 45
20
30- 45
25
45 60
25
45 60
20
60 75
45
60 75
18
75 90
18
75 90
18
90- 105
90- 105
14
105 120
105 120
TOTAL
150
MEDIDA
TOTAL
FM Guaran
x
Ma
Mo
Q1
Q3
"
7
150
FM Acuario
54,1 min
52,5 min
59,1
66,3
34,1
71,8
25,8
46,9
28,4
26,5
76,3
28,9
min
min
min
min
min
min
min
min
min
min
CABa=
IMPORTANTE
Las diferencias entre el coeficiente de Pearson y el de Bowley estn
expresando con claridad que, aun cuando ambos miden asimetra, lo
hacen sobre la base de criterios diferentes: el primero mide la asimetra de
toda la distribucin, mientras el segundo se refiere nicamente a los datos
centrales. En consecuencia aportan informacin complementaria
sobre esta caracterstica de la distribucin.
100
Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.
101
102
RQ
Rango
Interc ua rtil
CA P
C oef. de
Pearso n
C oef. de
Bow le y
CAB
Rango
R
Campo de Variacin
Medidas de Asimetra
ID
Ind ice de
Dispe rs i n
Var.Categricas
CD M
C oef.de Desviac i n
M edia
DM
Desviac i n
M edia
A bsolutas
CV
C oef. de
Var iac i n
R elativas
Desviac i n
Es t ndar
M e dia
DM a
DM a
Desviac i n
M edia na
M e dia na
Var.Num ricas
Bibliografa
BARBANCHO, A. (1978): Estadstica Elemental Moderna. Ed. Ariel, Barcelona, Espaa. Pginas:
145-146.
BLALOCK, H. M. (1986): Estadstica Social, Mxico, FCE. Pginas: 90 a 102.
SHAO, S. (1967): Estadstica Para Economistas y Administradores de Empresas. Herrero Hermanos
S.A., Mxico. Pginas: 218 a 237.
UNIVERSIDAD NACIONAL DE CRDOBA (1993): Estadstica aplicada a la Investigacin. Curso a
distancia. Fac. de Cs. Econmicas, Crdoba, 1993. Mdulo IV. Pginas: 3-16.
Conceptos Centrales
Variabilidad / Dispersin.
Habilidades
103
disminuyen el poder adquisitivo (clase baja, 51%, contra 17% de las clases alta y
media alta) y el nivel de educacin de los encuestados (46% entre aquellos con
educacin primaria y 33% en aquellos con estudios secundarios), entre los ms
jvenes (48% entre los menores de 35 aos) y los residentes en el interior y el
conurbano (43%, en promedio, contra 29% de la Capital Federal). (Diario La
Nacin, 06/08/2000).
A partir de una encuesta dirigida por la Sociedad de Estudios Laborales (SEL), se
pudo saber que el promedio de los egresados universitarios y terciarios gana 1.158
pesos. Y aqu un dato llamativo: al discriminar las cifras por sexo, los hombres
perciben una media de 1.648 pesos, mientras que las mujeres apenas alcanzan a
878 pesos. (Diario La Nacin, 8/8/2000).
IMPORTANTE
En las Ciencias Sociales, no se realizan experimentos como en otras
ciencias en las cuales se puede efectuar un control estricto de las variables
explicativas. Los valores de las distintas variables simplemente son
observados y -en estos casos- puede existir o no una relacin de causaefecto entre las variables cuya relacin se estudia.
106
Para iniciar un anlisis bivariado, es necesario considerar dos aspectos centrales que hacen a
cuestiones de diferente orden:
la naturaleza de la relacin entre las variables;
el tipo de variables que se estn analizando.
IMPORTANTE
La decisin sobre la naturaleza de la relacin entre las variables es
ajena a la Estadstica. Solo es posible determinarla a partir del
conocimiento del tema que se est estudiando. Sin embargo, esta
definicin es fundamental para la interpretacin de los resultados.
Recurrimos a ....
Tablas de contingencia
Comparacin de medias entre grupos
Anlisis de Correlacin
En todos estos casos podremos recurrir a alternativas grficas o numricas como herramientas de
anlisis.
Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.
BARBANCHO, Alfonso: Estadstica elemental moderna. Ed. Ariel Barcelona, Espaa, 1978.
Antes de iniciar el desarrollo de cada una de estas herramientas de anlisis, creemos conveniente sealar una cuestin de
terminologa que puede conducir a confusin a un lector desprevenido. Mientras algunos autores utilizan el trmino
asociacin como sinnimo de relacin, otros reservan el trmino asociacin cuando se trata de la relacin entre variables
categricas y hablan de correlacin para referirse a la relacin entre variables numricas. En la presentacin de esta unidad
adoptaremos este ltimo criterio.
107
ser
ser
ser
ser
Si realizado el conteo en la matriz de datos, observamos que fueron 86 las mujeres que asistieron
a un colegio pblico, y 24 los varones; y a un colegio privado asistieron 21 de las mujeres y 5 de los
varones, podramos organizar estos datos en una tabla como la siguiente:
Son 24 los varones
de colegios
pblicos
Sexo
Marginal:
Dist. segn Tipo de
colegio
Varn
Mujer
Total
Tipo de colegio
Pblico
24
86
110
Privado
21
26
29
107
136
Total
Marginal:
Distribucin segn sexo
Hay 29
varones en
total
Son 21
mujeres de
colegios
privados
Son 110
estudiantes
de colegios
pblicos
En total son
136
estudiantes
Esta forma de organizar los datos se conoce como tabla de contingencia. En el cuerpo de la
tabla (zona resaltada) se presenta la distribucin conjunta que da cuenta del nmero de
individuos que presentan cada una de las combinaciones posibles de las categoras de las variables. Se
distribuyen as los 136 estudiantes segn la doble clasificacin: tipo de colegio y sexo.
108
Tabla de contingencia:
Es una tabla que presenta la distribucin de los individuos clasificados segn dos
variables categricas simultneamente.
Hasta aqu slo hemos presentado la tabla de contingencia como una forma de
organizacin de los datos cuando se consideran simultneamente dos variables. A partir de
esta tabla, podemos responder a la pregunta que nos formulramos inicialmente: cuntos varones y
cuntas mujeres vienen de colegios privados?
A los efectos de avanzar en el estudio de las relaciones entre variables nos podemos plantear una
situacin que permita ilustrar ese proceso de anlisis.
En un estudio sobre hbitos alimenticios, una de las cuestiones de inters era conocer
sobre el consumo de productos dietticos. En particular, la investigacin se planteaba
como hiptesis que exista una mayor preferencia por este tipo de productos entre las
mujeres. Se observaron 850 individuos de los cuales reproducimos en forma parcial la
matriz de datos con las variables Sexo y Consumo de Productos Dietticos.
Matriz (parcial) sobre el consumo de productos dietticos
Individuos
1
2
3
4
5
6
7
8
9
10
11
12
...
850
Consumo de Productos
Dietticos
Sexo
Hombre
Hombre
Mujer
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Mujer
Hombre
...
Mujer
Consume
No consume
Consume
Consume
No consume
Consume
Consume
No consume
No consume
No Consume
Consume
No consume
...
Consume
A partir del conteo de los datos de la matriz, construimos la siguiente tabla de contingencia.
109
"
Total
Consumen
No Consumen
Hombres
150
300
450
Mujeres
350
50
400
Total
500
350
850
Sexo
500 que declaran consumir productos dietticos y 350 que no lo hacen. A su vez,
considerando el sexo, esos mismos 850 individuos se clasifican en 450 hombres y 400
mujeres.
En el cuerpo de la tabla (que contiene la distribucin conjunta) podemos ver que, del total de
individuos observados son: 150 los hombres que consumen productos dietticos y 300 los que no
consumen, 350 mujeres que declaran consumir estos productos y 50 que no lo hacen.
Ahora bien:
cmo valorar si es importante la cantidad de hombres no consumidores o de
mujeres consumidoras, etc.?
Una alternativa es apreciar esta informacin en relacin con el total de individuos
observados, lo que conduce a una tabla como la siguiente.
Distribucin de los Individuos segn Consumo de Productos Dietticos y Sexo (%)
Consumo de Productos Dietticos
Consumen
No Consumen
Total
Hombres
18
35
53
Mujeres
41
47
Sexo
"
Total
59
41
100 (850)
As entonces, esta tabla sirve para describir el porcentaje de individuos que registra cada par de
caractersticas. En este tipo de tablas es importante consignar:
que los valores corresponden a porcentajes (se lo puede hacer en el ttulo).
el total de casos sobre el cual estn calculados los porcentajes; generalmente se lo incluye
entre parntesis al lado del 100%.
Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.
110
Ahora bien, resuelta la organizacin de los datos y realizada una primera lectura de los
mismos, estamos en condiciones de estudiar la relacin entre estas dos variables.
Estudiar la existencia de relacin entre las variables nos remite a preguntas como:
Es diferente el comportamiento de hombres y mujeres en cuanto al consumo de
productos dietticos?
Vara la composicin por sexo de los consumidores y no consumidores?
No Consumen
Total
Sexo
Hombres
33
67
100 (450)
Mujeres
87
13
100 (400)
Total
58
41
100 (850)
"
Los hombres
son en total
450
50.100
400= 13% de las mujeres no consumen
hace evidente que el comportamiento vara con el sexo. Puede decirse entonces que
existe una relacin entre ambas variables o que el sexo y el consumo de
productos dietticos no son independientes.
En cuanto a la forma en que se da la relacin, deberamos poder responder cmo es esa
relacin:
son las mujeres ms consumidoras que los hombres?, o son los hombres los que tienden a
un mayor consumo de los mismos?
En la tabla, se puede ver que:
Mientras el 33% de los hombres consume productos dietticos, en el caso de las
mujeres ese porcentaje alcanza el 87%.
"
111
Otra manera de expresar la misma informacin que en el prrafo anterior, sera decir:
Entre los hombres hay un 67% de no consumidores, mientras entre las mujeres este
porcentaje es del 13%.
Las expresiones anteriores estn indicando de manera implcita que son las mujeres las que
presentan una mayor inclinacin hacia el consumo de los productos dietticos (la forma en que se
produce la relacin).
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.
No Consumen
Total
Sexo
Hombres
30
86
52
Mujeres
70
14
48
Total
150
"
500
100 (500)
100 (350)
100 (850)
El 52% de
los
individuos
son
hombres
300
.100 = 30% de los
350
Dado que:
Mientras entre los consumidores, las mujeres representan el 70%, entre los no
consumidores de productos dietticos estas constituyen solo el 14% 4.
Nuevamente aqu podemos concluir que existe relacin entre ambas variables (la composicin
por sexo de los consumidores es diferente a la composicin de los no consumidores), y la forma en
que se produce esa relacin es que los consumidores son mayoritariamente mujeres.
Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.
Pero...
cul es la mejor manera de calcular los porcentajes?
Cualquiera de las dos ltimas tablas permiten apreciar si existe relacin entre las variables. As,
conociendo el sexo de un individuo podemos predecir con buenas posibilidades de acertar si ser
consumidor de productos dietticos (ej. si se trata de un hombre puedo predecir que ser un no
El resultado de la comparacin tambin puede expresarse como El 30% de los consumidores son hombres, mientras entre los
112
consumidor y acertar con esta prediccin en 67 de cada 100 casos); a su vez, conociendo que no es
consumidor podemos arriesgar, con bastante chance de acertar, cul ser el sexo del individuo.
Si consideramos la necesidad de explicar el comportamiento de una de las variables, tiene sentido
pensar que el sexo explica el consumo de estos productos, y no que el consumo explica el sexo;
entonces resulta ms apropiada para este caso la tabla en la que se compara el consumo segn el
sexo (tabla con porcentajes calculados en el sentido de las filas).
En este punto del anlisis podramos plantearnos encontrar una medida o un nico valor que
resuma la fuerza o intensidad de la relacin entre las variables en estudio, y es indudable que una
medida de estas caractersticas tiene -entre otras ventajas- la posibilidad de comparar la fuerza de la
relacin que se observa en distintas tablas.
Una aproximacin intuitiva a la evaluacin de la fuerza de la relacin entre las variables en una
tabla de contingencia, puede lograrse calculando lo que se conoce como una diferencia de
proporciones o porcentajes. Para ello, y tomando el ejemplo del consumo de productos dietticos,
se procedera de la siguiente manera: considerando al sexo como variable explicativa debemos
comparar el comportamiento de hombres y mujeres, en cuanto al consumo de productos dietticos.
En otras palabras, queremos responder a la pregunta: quines presentan mayor tendencia a
consumir productos dietticos: los hombres o las mujeres? Para encontrar respuesta a esta pregunta,
habamos visto que debamos calcular los porcentajes de consumo sobre el total de hombres y sobre
el total de mujeres (en la tabla construida corresponde a porcentaje en el sentido de las filas).
As, nos encontrbamos con que mientras el 33% de los hombres consume productos dietticos,
en el caso de las mujeres ese porcentaje alcanza el 87%. En consecuencia, entre los hombres se
registra un 54% (33%-87%) menos de consumidores que entre las mujeres. Este ltimo clculo, que
expresa numricamente la diferencia del consumo entre los hombres y las mujeres, se conoce como
diferencia de proporciones.
Distribucin del Consumo de Productos Dietticos
segn Sexo y Diferencia de proporciones (d)
Consumo de Productos Dietticos
Consumen
No Consumen
Sexo
Hombres
33
67
Mujeres
87
13
-54
54
113
IMPORTANTE
Debe observarse que, segn sea la forma en que se calculan los
porcentajes (consumo segn sexo o sexo segn consumo) las
diferencias obtenidas pueden ser distintas ya que los marginales no
sern necesariamente iguales: no son simtricos. Es decir, no hay un
nico valor que resuma la relacin presente en la Tabla. (Determine
Ud. la diferencia de proporciones del sexo segn consumo).
Cuando se trate de tablas de una o ambas variables con ms de dos
categoras, hay ms de una diferencia de proporciones y, en
consecuencia, no se obtiene un nico nmero que sintetice la fuerza de la
relacin.
La Estadstica ofrece diversos coeficientes construidos segn criterios tambin diferentes que
responden a esta intencin, los que no sern tratados en esta presentacin dado que escapan a los
alcances propuestos para este curso 5.
Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.
100
90
80
70
60
50
40
30
20
10
0
Consumen
No Consumen
"
presencia de consumidores
de productos dietticos es
predominante
entre
las
Hombres
Mujeres
Sexo
mujeres, mientras entre los hombres
son minora.
An sin contar con la tabla de contingencia, este tipo de grficos facilita las comparaciones. As por
ejemplo, en el grfico siguiente se presenta la distribucin entre empresarios y sindicalistas, del nivel
de conocimiento que tenan sobre el proyecto de reforma laboral; rpidamente se puede ver que
entre los sindicalistas el nivel de conocimientos era mayor (en detalle y en trminos generales son
Al lector interesado le sugerimos remitirse a textos que le dedican especial atencin a este tema, tal el caso de BARANGER, D.:
Construccin y Anlisis de datos, Editorial Universitaria de la Univ. Nac. de Misiones, Posadas, 2000.
114
las categoras predominantes), mientras que entre los empresarios alcanza relevancia la categora
muy poco e incluso algunos nada saban sobre el proyecto.
Empresarios y sindicalistas segn conocimiento sobre el
proyecto de reforma laboral
Casos (%)
80
En detalle
60
40
En trminos
generales
20
Muy poco
Nada
Empresarios
Sindicalistas
120
100
%
80
60
40
"
20
0
Hombres
Mujeres
Sexo
de
el
el
se
100%
Casos (%)
80%
Nada
60%
Muy poco
40%
En trminos
generales
20%
0%
En detalle
Empresarios
Sindicalistas
Actividad N 6
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 6 de la
Gua de Actividades correspondiente a esta unidad.
116
Mn.
Mx.
Media Mediana
Desv.
Estndar
CV
Asimetra
No terminaron Primario
23
145
1300
475,4
400,0
286,5
60,3
0,79
Completaron Primario y no
Secundario
57
80
2000
621,6
500,0
428,1
68,9
0,85
Completaron Secundario o ms
22
200
2000
956,8
800,0
647,2
67,6
0,73
Tallo -
1
1 .
4
2 .
4
3 .
6
4 .
3
5 .
0
6 .
0
7 .
3
8 .
2 Extremos
Hoja
4
0005
0004
000005
005
000
(>=1000)
Tallo -
5
0 .
14
0 .
17
0 .
6
0 .
4
0 .
5
1 .
1
1 .
2
1 .
3 Extremos
Hoja
01111
22333333333333
44445555555555555
667777
8889
00001
3
55
(>=1600)
Frec.
9
3
4
2
4
Tallo 0
0
1
1
2
.
.
.
.
.
Hoja
233344444
888
0000
68
0000
A los efectos de facilitar el anlisis, la variable original fue recodificada en tres categoras.
Esta manera de expresar la forma de la relacin es posible en este caso, porque la variable categrica es ordinal. Si
tuviramos por ejemplo Nacionalidad, la descripcin sera del tipo a los de la nacionalidad A les corresponde mayores
ingresos que a los de la nacionalidad B, etc..
117
(8)
Donde:
SCT = suma de los cuadrados de los desvos individuales con respecto a la media
general.
SCintra = suma de los cuadrados de los desvos de cada individuo con respecto a la
media del grupo al que pertenece.
SCentre = suma de los cuadrados de los desvos de las medias de cada grupo con
respecto a la media general.
De acuerdo con la lgica planteada para construir la razn de correlacin, esperamos que
cuanto ms fuerte sea la relacin entre las variables menor ser el SCintra y mayor el SCentre; o sea,
si la relacin es perfecta la variabilidad total se debe a la variabilidad entre los grupos, en tanto que
ser igual a cero la variacin dentro grupos (todos los valores del grupo son iguales entre s).
Podemos expresar la razn de correlacin (simbolizada con la letra griega eta al cuadrado: 2 )
como:
/
8
2 =
donde: 0 2 1
SCentre
SCT
(y
n
i=1
- y) =
(y
h
nj
j=1 i=1
j=1
la variable cualitativa, nj el nmero de individuos de cada categora, y j es la media aritmtica de cada una de las
subpoblaciones; y es la media general de la variable numrica Y.
9
estadstico. De ah el nfasis puesto en transmitir la lgica de la construccin y funcionamiento de este ndice y no en los
clculos que el mismo demanda.
118
Suma de Cuadrados
Entre grupos
n j .(y j y )2
3061288
Intra grupos
(y i y j ) 2
20863881
Total
j =1
h
nj
j =1 i =1
(y i y ) 2
n
2 =
"
23925169
i =1
SCentre
3061288
=
=0,128
SCT
23925169
Podemos advertir que si bien, la diferencia entre las medidas de tendencia central eran
importantes, la razn de correlacin est indicando una relacin dbil entre las
variables. Esto se debe a que el reagrupamiento generado a partir del nivel de estudio
del padre, no produce grupos suficientemente homogneos dentro de ellos y muy
diferentes entre s. As, en los diagramas de tallo-hoja construidos inicialmente, se puede ver que sobre todo en las dos primeras clases- existe un solapamiento de los ingresos, producto de la
dispersin de esta variable dentro de cada grupo; incluso se puede destacar que el menor ingreso
observado de todo el conjunto de datos se da en el nivel intermedio de educacin y no en el ms
bajo. En consecuencia, podemos sealar que el nivel de educacin del padre no discrimina bien el
ingreso familiar.
3.2. El recurso grfico
Dado que se trata de la comparacin de distribuciones univariadas de una variable
numrica, valen para este caso los recursos grficos que se presentaron oportunamente
y, para un anlisis completo, es interesante incluir en los grficos la ubicacin de la
media y la mediana.
Por ejemplo, construir tantos histogramas o polgonos como clases o grupos queden
determinados por la variable categrica. El diagrama de tallo-hoja presentado en el ejemplo
constituye simultneamente -como ya hemos dicho- un recurso grfico y numrico pertinente para
este tipo de anlisis. Otro recurso muy til y expresivo para la comparacin es el diagrama de Caja
(Box-Plot), tal como se presenta en el siguiente ejemplo.
"
Actividad N 7
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 7 de la
Gua de Actividades correspondiente a esta unidad.
COMPONENTES
GASTO ($)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1
5
1
6
2
6
2
6
2
3
5
3
4
4
5
3
92
235
70
505
149
460
149
343
220
155
275
180
146
280
240
160
120
grupo 9:
2 componentes y $220
de gasto
500
Gasto ($)
400
300
275
200
grupo 11:
5 componentes
y $275 de gasto
100
0
0
Componentes
As, en este tipo de grficos se ubica en el eje de las X aquella variable que acta como
independiente, mientras que, en el eje de las Y, la variable considerada
dependiente 10. En el plano de representacin aparecern tantos puntos como
unidades de anlisis o individuos se hayan observado, correspondindole como
coordenadas a cada uno de ellos los valores registrados en cada variable. A cada punto se lo ubica
por un par ordenado (x; y).
As, en nuestro ejemplo, el grupo identificado con el nmero 11, aparece ubicado en el plano con
una coordenada en el eje X igual a 5 y una coordenada en el eje Y de 275.
El grupo 11
Representados todos los individuos de esta manera, se obtiene lo que se conoce como Diagrama
de Dispersin.
Actividad N 8
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 8 de la
Gua de Actividades correspondiente a esta unidad.
En el diagrama de dispersin anterior se aprecia inmediatamente que los grupos tursticos con
un mayor nmero de componentes presentan -en trminos generales- un gasto ms alto.
Se comprueba en este caso- un comportamiento sincrnico de las variables donde, al crecer los
valores de X, tambin crecen los valores de Y.
10
Cuando se trata de una relacin causal, la X corresponde a la variable explicativa, en tanto que la Y a la variable explicada.
Adems recordemos que la designacin de una variable como dependiente o independiente no es una cuestin estadstica,
sino una decisin que corresponde al conocimiento del investigador sobre el fenmeno que est estudiando.
121
Y 14
Y 300
12
250
10
200
8
150
6
4
100
50
0
0
10 11
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Y 14
35
12
30
10
25
20
15
10
5
0
0
10 11 12
8 10 12 14 16 18 20 22 24
Como hemos dicho, para que exista relacin entre las variables, a las variaciones en los
valores de una de ellas le correspondern variaciones definidas en la otra. Este
comportamiento no se observa en el grfico (a), mientras que s ocurre en los tres
restantes.
En el grfico (a):
Vemos que a las variaciones en X, le corresponden variaciones imprevisibles en Y. A
valores crecientes de X, se suceden tanto valores decrecientes como crecientes de Y; no
se aprecia una forma definida en el diagrama de dispersin. En consecuencia no hay
relacin entre ambas variables.
En el grfico (b):
Se puede ver que los cambios en X se corresponden con variaciones definidas en Y. En
consecuencia, existe relacin entre ambas variables.
122
Esos cambios son tales que, para valores crecientes de X, los valores de Y decrecen hasta
un cierto punto para posteriormente comenzar a aumentar, describiendo los puntos una
figura que se asemeja a una parbola. As entonces puede decirse que su forma es
curvilnea.
Adems, dado que los puntos se ajustan casi perfectamente a esa parbola, podemos
decir que la relacin es fuerte (para un valor dado de X es posible predecir con
bastante precisin el valor esperado de Y).
En el grfico (c):
Se puede ver que los cambios en X se corresponden con variaciones definidas en Y. En
consecuencia, existe relacin entre ambas variables.
Esos cambios son tales que, a valores crecientes de X, le corresponden valores crecientes
de Y, describiendo los puntos una figura que se asemeja a una recta. As entonces puede
decirse que su forma es lineal y creciente (tambin llamada lineal positiva).
Respecto a esa recta imaginaria, los puntos presentan un nivel de dispersin tal que nos
permite calificar como moderada la intensidad de esa relacin (para un valor de X
podemos predecir un valor de Y, pero con cierto margen de error).
En el grfico (d):
Se puede ver que los cambios en X se corresponden con variaciones definidas en Y. En
consecuencia, existe relacin entre ambas variables.
Esos cambios son tales que, a valores crecientes de X, le corresponden valores
decrecientes de Y, describiendo los puntos una figura que se asemeja a una recta. As
entonces puede decirse que su forma es lineal y decreciente (tambin llamada
"
lineal negativa).
Respecto a esa recta imaginaria, los puntos presentan un bajo nivel de dispersin, de
manera que nos permite calificar como fuerte la intensidad de esa relacin (para un
valor de X podemos predecir con poco margen de error el valor correspondiente de Y).
L
1
IMPORTANTE
Debemos destacar que el anlisis de la correlacin comienza
siempre por un estudio del diagrama de dispersin, a partir del cual
evaluamos si tiene sentido o no pensar en la existencia de una
relacin entre las variables consideradas y, en el caso que sea lineal,
pasar a calcular una medida que exprese la intensidad de la
relacin.
Actividad N 9
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 9 de la
Gua de Actividades correspondiente a esta unidad.
123
Eje Y
Ecuacin de la recta :
y = a + b.x
y = a + bx
Donde:
a
x
x+1
Eje X
Gasto ($)
Debemos buscar una recta que exprese o ajuste, de la mejor manera posible, los datos
observados. Intuitivamente podramos pensar que ser aquella recta que pase lo ms cerca posible
de todos los puntos que representan a los datos.
A mano alzada se pueden trazar
600
varias
rectas
que
en
apariencia responden a ese
propsito general, tal como las
500
que se presentan en el grfico.
Ejemplo: puedo trazar rectas
400
que pasen por pares de puntos
que resulten usuales (no
300
atpicos) dentro del conjunto,
identificando as tantas rectas
como pares de puntos no
200
atpicos se encuentren.
Pero...
100
0
0
Componentes
11
La pendiente se define como la tangente del ngulo que forma la recta con el semieje positivo de las X.
124
de Y. Ese par de valores (xi;i) define un punto que cae sobre la recta. En nuestro ejemplo,
utilizando el modelo, tendremos para cada nmero de componentes la estimacin de un gasto diario.
Las diferencias que se registran entre cada valor observado (yi) y el correspondiente valor
estimado por el modelo (i), constituye lo que se define como error de estimacin: ei = yi - i
Debe destacarse que el modelo va a estimar un valor promedio de Y para cada valor de X
(observe que, para cada valor de X: tamao de grupo, pueden existir distintos valores de Y: gasto
diario 12). En consecuencia, la estimacin no es exacta en trminos de lo que puede efectivamente
observarse para cada grupo, de ah la presencia de los errores individuales.
Encontrar la recta que mejor ajusta a la nube de puntos significa minimizar estos
errores. A partir de esta condicin se define el siguiente criterio para estimar la recta que mejor
ajusta las observaciones:
Criterio de mnimos cuadrados
Es aquel mediante el cual obtenemos la recta que hace mnima la suma de los
errores al cuadrado. En smbolos quedara expresado como:
(y
-
y
(y
- a - b.x
= mnimo
y4
Gasto ($)
450
e 4 = y4 -
300
e 13
150
i13: (4;146)
0
0
Componentes
El criterio de mnimos cuadrados presentado, permitir estimar los parmetros a y b del modelo
(ecuacin de la recta) que mejor ajusta nuestra nube de puntos 13. Soslayando los procedimientos
matemticos requeridos para su determinacin, encontramos que estos parmetros o coeficientes de
regresin se pueden calcular mediante las siguientes expresiones.
12
Es fcil de comprender que -en nuestro ejemplo- grupos de igual nmero de componentes pueden realizar distintos niveles
de gasto diario. Ej: grupos 13 y 14, o los grupos 2, 11 y 15, etc.
13
Los valores de los coeficientes a y b se obtienen fcilmente a travs de cualquier programa estadstico. Nuevamente aqu
resulta importante comprender la lgica para determinar la recta que mejor ajusta la nube de puntos y la utilidad de contar
con este modelo, ms que los clculos que requieren la determinacin de estos coeficientes.
125
Pendiente:
b=
Coeficientes de regresin
n xy x y
2
n x 2 ( x )
a = y bx
Ordenada al origen:
COMPONENTES
GASTO
x.y
x2
92
92
235
1175
25
70
70
505
3030
36
149
298
460
2760
36
149
298
343
2058
36
220
440
10
155
465
11
275
1375
25
12
180
540
13
146
584
16
14
280
1120
16
15
240
1200
25
16
160
480
Suma
58
3659
15985
256
Clculo de la Pendiente: b =
b=
n xy - x y
n x 2 - ( x )
A partir del valor de b podemos concluir que el aumento de un integrante en el grupo turstico
incrementar el gasto diario, en promedio, en $59,5.
Clculo de la Ordenada al origen: a = y - bx
x=
Entonces,
58
=3,6
16
a=228,7-59,5.3,6=14,5
y=
3659
=228,7
16
a=14,5
La ventaja de contar con un modelo matemtico que expresa la relacin entre estas variables es
que nos permite hacer pronsticos. As, si quisiramos estimar el gasto diario de un grupo de 8
126
"
personas, le damos a x el valor 8 y obtenemos una estimacin del gasto promedio para un grupo
turstico de 8 integrantes.
IMPORTANTE
Cuando realizamos un anlisis de regresin estamos suponiendo que existe
una relacin causal que va de X a Y (X es la variable explicativa e Y la
variable explicada). Como consecuencia, antes de realizar este anlisis
estadstico, ser preciso que el investigador decida -basndose en su
conocimiento del tema- cul es el sentido de la causalidad.
Cuando el pronstico se realiza para valores de la variable independiente que
estn fuera del recorrido observado (en nuestro caso grupos de 7 o ms
integrantes), se habla de una extrapolacin. Cuando el pronstico se refiere a
un valor que est dentro del recorrido observado (1 a 7 integrantes en el
ejemplo) hacemos una intrapolacin y en estos casos es cuando podemos
calcular el error cometido con nuestra estimacin media en relacin con el valor
de y efectivamente observado (el gasto diario medio de los grupos con ese
nmero de componentes).
La extrapolacin -en trminos generales- ir perdiendo precisin a medida que
nos alejamos del campo de variacin observado. Ahora bien, cul es el lmite
para hacer una extrapolacin? Esto depender del fenmeno en estudio y,
en consecuencia, solo puede ser respondido a partir del conocimiento sobre el
tema.
La intrapolacin ser tanto ms eficiente cuanto menor sea la dispersin
de los puntos en torno a la recta 14.
En trminos generales, la prediccin ser tanto ms eficiente cuanto mayor sea
la fuerza de la correlacin entre las variables.
Actividad N 10
Antes de continuar con la lectura, es necesario realizar aqu la Actividad N o 10 de la
Gua de Actividades correspondiente a esta unidad.
1 ( x i -x ) . ( y i -y )
n
x . y
14
Sobre este aspecto del anlisis de regresin y particularmente el uso del modelo de regresin lineal para efectuar
predicciones, ver Bibliografa propuesta para esta unidad.
15
En algunos textos en el coeficiente r se utiliza (n-1) en lugar de n. Esta distincin, que ser tratada en la Estadstica
Inferencial, se justifica en aquellos casos en los que se trabaja con una muestra y no con la poblacin total.
127
n x.y- x. y
n. x - ( x )2 . n. y 2 - ( y )2
Valores posibles de r
-1 r 1
IMPORTANTE
L
/
"
r = 0,85
El valor de r obtenido corrige nuestra impresin visual indicando que la relacin entre
las variables es fuerte y positiva (o directa). Como podemos suponer una relacin
causal entre X e Y, tiene sentido en este caso obtener el coeficiente de determinacin
R2 .
16
17
128
"
R2 = 72,3%
Lo que indica que un 72% de la variacin en los gastos diarios est explicada por las
variaciones en el nmero de componentes del grupo.
Actividad N 11
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 11 de la
Gua de Actividades correspondiente a esta unidad.
5. Qu Hemos Visto?
En esta presentacin, una vez precisado el tipo de cuestiones que estamos tratando de
responder con el anlisis bivariado de los datos, comenzamos por sealar la necesidad de
preguntarnos sobre el tipo de variables que estn involucradas en el estudio, como as tambin por
la naturaleza de la relacin que se puede establecer entre ellas, dado que estos dos aspectos
condicionan tanto las posibilidades de anlisis (las herramientas a las que podemos recurrir) como el
alcance de los resultados de nuestro estudio (la posibilidad de hacer pronsticos, explicar o
simplemente describir la relacin).
Para el anlisis de las relaciones, distinguimos estrategias diferentes segn el tipo de variable: 1)
Anlisis de Tablas de Contingencia, para dos variables cualitativas, 2) la comparacin de
medias, en el caso de una variable cualitativa y una cuantitativa, y 3) el anlisis de regresin y
correlacin lineal cuando se trata de dos variables cuantitativas.
Hemos destacado, adems, que en este tipo de anlisis existen tres aspectos que deben ser
considerados cualquiera sea el tipo de variables: a) la determinacin de la existencia de la relacin
entre las variables, b) la forma en que se da esa relacin, y c) la fuerza de esa relacin.
En todos los casos hemos presentado herramientas que nos permitan establecer la existencia o
no de la relacin, describir la forma en que se produca esta relacin, como as tambin una
medida (diferencia de proporciones, razn de correlacin y coeficiente de correlacin) para
valorar la intensidad de la relacin entre esas variables. Cuando se trata del anlisis de dos variables
numricas, presentamos adems la determinacin de un modelo matemtico que permite
hacer predicciones cuando la relacin existente es lineal y de naturaleza causal (anlisis de
regresin lineal).
129
Forma y E xistencia
Fuerza
59
Total
53
47
Total
100(850)
Sexo
Mujeres
Empresarios
0d1
Diferencia deProporciones
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Sindicalistas
Compuestos
Partes Componentes
20
40
60
80
Hombres
100
41
35
6
Grficos debarras
18
41
Consumen NoConsum.
Hombres
Mujeres
Sexo
Tablasdecontingencia
D os V a r. Categricas
Casos (%)
130
Tallo &
22
57
956,8
621,6
475,4
Media
800,0
500,0
400,0
Mediana
67,6
68,9
60,3
CV
Hoja
Transporte
Omnibus
Automotor part.
donde
0 1
01111
22333333333333
44445555555555555
667777
8889
00001
3
55
(>=1600)
Tallo &
5
0 .
14
0 .
17
0 .
6
0 .
4
0 .
5
1 .
1
1 .
2
1 .
3 Extremos
Frec.
Razn deCorrelacin
100
200
300
400
Areo
000
(>=1000)
4
0005
0004
000005
005
Hoja
1
1 .
4
2 .
4
3 .
6
4 .
3
5 .
0
6 .
0
7 .
3
8 .
2 Extremos
Frec.
SCentr
=
SCT
2
n
23
Secundario o ms
Secundario Incomp.
Sin Primario
Comparacin de medias/medianas
U n a V a r. C a teg rica
y u n a N u m rica
Tipo deVariables?
Recurso Nu mrico
Recurso Grfico
R2
Coef.de Determinacin
10
12
Y 14
1 r 1
r dePearson
10 11 12
Diagrama deDispersin
y = a + bx
D os V a r. Num ricas
Bibliografa
BARBANCHO, Alfonso: Estadstica elemental moderna. Ed. Ariel Barcelona, Espaa, 1978, pg.
211 a 221 y 237 a 245.
COLL, Sebastin; GUIJARRO, Marta: Estadstica aplicada a la historia y a las Ciencias Sociales.
Edic. Pirmide, Madrid, 1998, pg. 235 a 241 y 259 a 263.
DANIEL, Wayne: Estadstica con aplicacin a las ciencias sociales y a la educacin. McGraw-Hill,
Mxico, 1985, pg. 315- 331.
MOORE, David: Estadstica aplicada bsica, Antonio Bosch ed., Barcelona, 1998 (1ra. Ed. 1995).
Pg. 90 a 157.
Conceptos Centrales de esta Unidad
Distribuciones bivariadas.
Los tres aspectos del estudio de relacin entre variables: existencia, forma y fuerza.
Habilidades
131
As, las variaciones de los precios de diversos artculos, del costo de una canasta de bienes, de la
cantidad de visitantes a un centro turstico, del volumen producido mensualmente por una fbrica,
etc., pueden ser datos estratgicos a la hora de planificar una actividad o tomar decisiones.
La comparacin relativa de los cambios de los valores de una variable, ya sea a travs del
tiempo o del espacio, generalmente brinda al analista una idea ms precisa de la magnitud de tales
cambios que la simple comparacin en trminos absolutos. En efecto, la comprensin del cambio
experimentado es ms clara si la explicamos diciendo que la superficie cultivada con yerba mate
aument un 9,4% entre 1991 y 1998 , que si sealramos la superficie cultivada creci en 15 mil
ha en ese perodo de tiempo.
En otros problemas es necesario cuantificar mediante un nico valor la magnitud de los
cambios relativos de un conjunto de variables heterogneas, como, por ejemplo, las variaciones
conjuntas de los precios de venta de distintos artculos, de la cantidad consumida de diferentes
productos, etc.
Los nmeros ndices son las tcnicas estadsticas que nos permitirn resolver este tipo de
problemas.
133
El esquema siguiente resume la clasificacin de los nmeros ndices segn sea el nmero de
variables que intervienen en su construccin y el mtodo de clculo especfico de cada uno de ellos.
En este curso presentaremos solo las frmulas de los ndices cuyo uso es ms generalizado en la
prctica: ndices relativos simples, ndice compuesto de agregado no ponderado, ndice del promedio
de relativos no ponderado, ndices de Laspeyres e ndices de Paasche. En la bibliografa recomendada
para este Captulo el lector podr ampliar estos conocimientos bsicos con otros mtodos.
Diferentes Tipos de Nmeros ndices
SEGN EL NMERO DE
VARIABLES
SEGN LA METODOLOGA
DE CLCULO
Simples
(Una variable)
ndices
No ponderados
Agregados
Ponderados
Compuestos
(2 ms variables)
No ponderados
Promedio de Relativos
Ponderados
...i...
Valores de X
x1
x2
x3
. . . xi . . .
xt
134
Unidad 6: Lo s N m e r o s n d ic e s
El ndice relativo simple de base fija mide la variacin de la variable en estudio entre
un perodo i dado de la serie y otro perodo fijo llamado base (al que
simbolizamos con o). Se lo obtiene haciendo:
Donde:
R s i/o =
xo
i100
Precios ($/Kg)
IPRs (1992=100)
1992
0,67
100,0
1993
0,65
97,0
1994
0,66
98,5
1995
0,67
100,0
1996
1997
1998
1999
2000
0,54
80,6
0,43
64,2
0,38
56,7
0,35
52,2
0,34
50,7
0,43
R 97/92 =
s
i100 =64, 2%
0,67
El precio decreci
un 49,3% (100-50,7)
El ndice relativo simple de base fija del ao 93 con base en el ao 92, resulta de:
R s 93
92
0,65
100 = 97,0%
0,67
"
Es decir que en 1993 el precio de la yerba mate canchada decreci un 3% (100-97) con
respecto al valor registrado en el ao base.
Analizando los ndices relativos simples para la serie completa, notamos que el precio de
la yerba mate canchada muestra un comportamiento decreciente a lo largo del perodo
considerado ya que, a partir de 1995, ao en el que se produce una ligera recuperacin y
alcanza un precio igual al registrado en el ao base, decrece sostenidamente hasta
alcanzar el menor valor en el ao 2000, en el cual registra una cada del 49,3% con relacin al precio
de 1992.
2.2. El Relativo Simple de Eslabn (Re)
Este ndice mide los cambios relativos de una sola variable entre dos perodos sucesivos (aos,
meses, semanas, das, etc.) de una misma serie. Es decir, permite expresar en porcentajes la
variacin ocurrida en los datos entre un perodo i cualquiera y el perodo inmediato anterior (i-1).
Cuando nos informan que segn los datos que difundi ayer el INDEC, el valor de la canasta bsica
para una familia tipo subi en setiembre un 2,05%... (Clarn del martes 8/10/02), la operacin
realizada para obtener esta informacin es un ndice de estas caractersticas.
A los fines de este ndice cualquier perodo de la serie puede ser adoptado como base. En cada problema particular de
trabajo el investigador deber decidir el perodo base ms conveniente, segn las recomendaciones que se explican ms adelante.
135
El ndice relativo simple de eslabn mide las variaciones relativas de una variable
en estudio entre perodos consecutivos, por lo que se conocen tambin como
relativos simples con base mvil. Se lo obtiene haciendo:
R e i/(i - 1) =
x i-1
i1 00
Donde:
xi : es el valor de la variable en un perodo cualquiera de la
serie.
xi-1: es el valor correspondiente al perodo anterior.
0,67
100 = 101,5%
0,66
Es decir que el precio de la yerba mate canchada del ao 1995 aument el 1,5% con respecto
al precio anterior. La evolucin de los ndices en eslabn para la serie completa se presenta en la
tabla siguiente 2:
R s 95/94 =
"
Precios ($/Kg)
Re (%)
1992
0,67
1993
0,65
97,0
1994
0,66
101,5
1995
0,67
101,5
1996
0,54
80,6
1997
0,43
79,6
1998
0,38
88.4
1999
0,35
92,1
2000
0,34
97,1
0,43
R 97/96
e
i100 =79, 6%
0,54
Con excepcin de los aos 1994 y 1995 en los que el ndice registra una ligera
recuperacin del 1,5% con respecto al ao anterior, a lo largo del perodo analizado los
precios corrientes de la yerba mate canchada muestran un comportamiento
progresivamente decreciente, ya que los valores disminuyen sostenidamente de un ao a
otro desde 1995 en adelante, observando la mayor cada en 1997 con un descenso del 20,4% en
relacin con el precio de 1996.
2.3. El Relativo Simple en Cadena (Rc)
Es frecuente que a partir de los ndices en eslabn se necesite obtener los cambios relativos de
una variable con referencia a un nico perodo base. En este caso precisamos determinar, por
ejemplo, cunto se increment el costo de la canasta bsica de una familia tipo a lo largo
del ao, conociendo los aumentos proporcionados por el INDEC que se produjeron mensualmente.
En este tipo de situaciones recurrimos a los ndices relativos en cadena.
Se debe tener en cuenta que el 100% para cada valor de la serie corresponde al perodo inmediato anterior.
136
Unidad 6: Lo s N m e r o s n d ic e s
Los relativos simples en cadena se obtienen como el producto del relativo en eslabn
correspondiente al perodo en estudio ("i") por los sucesivos relativos en eslabn
entre ese perodo y la base, sin incluir al de esta. Es decir:
R c i/o = R e i/(i - 1) R e (i - 1)/(i - 2) ... R e 1/o 100
Por lo tanto si, conociendo los ndices relativos en eslabn, quisiramos saber cul fue
la variacin que registraron los precios corrientes de la yerba mate canchada del ao
2000, con referencia al perodo base 1995 3, la operacin que debemos realizar es:
R c 2000
1995
Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.
...
...
x11
x12
...
X1j
...
x1t
x21
x22
...
X2j
...
x2t
...
...
...
...
...
...
...
xi1
xi2
...
xij
...
xit
...
...
...
...
...
...
...
xn1
xn2
...
xnj
...
xnt
x21: valor observado (dato) de la segunda variable (X2) registrado en el primer perodo de la serie.
xi2: dato de la i-sima variable (Xi) registrado en el segundo perodo de la serie.
xnj: dato de la n-sima variable (Xn) registrado en el j-simo perodo de la serie.
xnt: dato de la n-sima variable (Xn) registrado en el t-simo (ltimo) perodo de la serie.
Contando con los precios corrientes, es evidente que resulta ms sencillo obtener la misma informacin calculando un ndice
relativo simple.
El valor (v) de un artculo se define como el producto del precio por la cantidad; es decir: v = pij qij.
137
Si las variables en anlisis fueran los precios de n artculos diferentes, el smbolo genrico que se
adopta (en lugar de xij) es Pij que denota: precio del i-simo artculo considerado, registrado en el jsimo perodo de la serie.
Como ya fuera sealado, de acuerdo con la forma de obtener este tipo de ndices se pueden
distinguir los ndices de agregados de los ndices promedios de relativos, los que a su vez
pueden ser no ponderados o ponderados.
3.1. ndice de Agregado no Ponderado
Con este ndice se miden las variaciones producidas en magnitudes que surgen de agregar
cantidades simples (ej.: precios de los cereales, cantidades exportadas de productos agrcolas, etc.).
Al ndice de agregado no ponderado se lo define como la suma de las magnitudes de
todas las variables consideradas, para un mismo perodo dado j de la serie; dividida
por la suma de todas las magnitudes correspondientes a esas mismas variables en el
perodo elegido como base. El valor del ndice expresado en porcentaje se obtiene
haciendo:
Donde:
n
xij: es la magnitud correspondiente a la i-sima
x ij
variable/artculo en el perodo j.
I j/o = i=1
i1 0 0
n
xio: es la magnitud de esa misma variable/artculo en
el perodo base.
x io
i=1
Si las variables en estudio fueran los precios de una canasta de n artculos diferentes, el ndice de
agregado no ponderado (para cierto perodo j con base en otro perodo o de la misma serie)
resultar:
p ij
i=1
n
I P j/o =
p io
i=1
n
i1 0 0
Yerba Mate
($/Kg)
T
($/kg)
pij
i=1
2
IP (1992=100)
1992
0,67
0,060
0,730
1993
0,65
0,058
0,708
100,0
97,0
1994
0,66
0,070
0,730
100,0
1995
0,67
0,057
0,727
99.6
1996
0,54
0,055
0,595
81,5
1997
0,43
0,055
0,485
66.4
1998
0,38
0,075
0.455
62,3
1999
0,35
0,050
0.400
54,8
2000
0,34
0,050
0.390
53,4
Fuente: Dir. de Economa Agraria. Min. de Asuntos Agrarios. Posadas, Misiones. 2002.
138
Es el resultado
de sumar el
precio de 1 kg
de yerba y 1
kg. de t en
1992
IP 97/92 =
0,485
i100=66,4%
0,730
Unidad 6: Lo s N m e r o s n d ic e s
92
0,65 + 0,058
0,708
i100 =
i 100 = 97,0%
0,67 + 0,060
0,730
En consecuencia, los precios de la yerba mate canchada y del brote de t verde en 1993
decrecieron, en conjunto, un 3% (100-97) con relacin a los precios que registraron ambos
productos en el ao base 1992.
"
Por lo tanto, a lo largo del perodo analizado los precios de estos cultivos muestran, en
conjunto, un comportamiento en general decreciente con respecto a los precios de 1992.
Solamente en el ao 1994 los precios logran una ligera recuperacin alcanzando el mismo
nivel del ao base y luego decrecen sostenidamente hasta alcanzar su menor valor en el
ao 2000, cuando el ndice mide una cada del 46,6% respecto de los precios de 1992.
IMPORTANTE
Al ser no ponderado, este ndice le asigna igual importancia al
cambio absoluto de cada variable. As, aquellas variables con
magnitudes altas impactarn ms en el resultado final del ndice.
En el caso de los precios, la unidad de medida de cada artculo
introduce una ponderacin no deseada. Es de esperar que artculos
fraccionados en unidades mayores tengan precios relativamente
mayores.
No se puede calcular el agregado simple de cantidad cuando las
variables que intervienen en su construccin estn expresadas en
unidades diferentes.
i=1
n
I j/o =
x ij
x io
i1 0 0
n
Donde:
xij: es la magnitud correspondiente al i-simo artculo
en el perodo j.
xio: es la magnitud correspondiente al i-simo artculo en
el perodo base.
Para calcular el ndice del promedio de relativos se deben realizar los siguientes pasos:
a. obtener las variaciones relativas (relativos simples) de cada variable para el mismo
perodo j y con la misma base,
b. obtener la suma de los relativos para el perodo j considerado,
c. dividir la suma obtenida por el nmero total n de variables incluidas en el ndice.
Si se tratara de un ndice de precios, se lo obtiene mediante la siguiente expresin:
i=1
n
IP
j/ o
139
p ij
p io
i1 0 0
Rs
($/Kg)
(92=100)
T
($/kg)
i=1 p
2
Rs
(92=100)
pij
i100
io
IP
(1992=100)
1992
0,67
100,0
0,060
100,0
200,0
1993
0,65
97,0
0,058
96,7
193,7
100,0
96,9
1994
0,66
98,5
0,070
116,7
215,2
107,6
1995
0,67
100,0
0,057
95,0
195,0
97,5
1996
0,54
80,6
0,055
91,7
172,3
86,2
1997
0,43
64,2
0,055
91,7
155,9
78,0
1998
0,38
56,7
0,075
125,0
181,7
90,9
1999
0,35
52,2
0,050
83,3
135,5
67,8
2000
0,34
50,7
0,050
83,3
134,0
67,0
Fuente: Direccin de Economa Agraria. Ministerio de Asuntos Agrarios. Posadas, Misiones. 2002.
El ndice de precios del promedio de relativos no ponderado del ao 95, tomando como referencia
el ao 92, resulta de:
0,67 0,057
+
195,0
0,67 0,069
i100 =
IP 95 =
= 97,5%
92
2
2
En 1995 el precio de la yerba mate canchada y el brote de t decrecieron -en promedio- un
2,5% (100-97,5) con relacin a los precios registrados en el ao base.
"
Nuevamente, notamos que este ndice tambin nos muestra la persistente cada de los
precios de los dos artculos en conjunto ya que, considerados aisladamente, el
comportamiento de los precios del t (relativos simples) muestra variaciones muy
diferentes a las de la yerba mate (relativos simples). En conjunto, los precios de ambos
cultivos son, ao a ao, inferiores a los de 1992. La excepcin es el ao 1994 en el cual
los precios, en promedio, superan a los de la base en un 7,6%. Los menores precios de la serie
analizada se registran en el ao 2000 para el cual el ndice muestra una cada conjunta de ambos
productos del orden del 33,0% con respecto a 1992.
IMPORTANTE
140
Unidad 6: Lo s N m e r o s n d ic e s
Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.
En general, los ndices compuestos presentados hasta aqu adolecen del mismo defecto: la falta
de ponderacin de las variables que lo constituyen. Estos ndices compuestos sern ms eficientes
en la medida en que cada una de las variables est convenientemente ponderada por un factor que
exprese su importancia relativa en el conjunto.
Se puede apreciar que los nmeros ndices se aplican principalmente a dos tipos de variables
econmicas: precios y cantidades. Tratndose de precios, las ponderaciones utilizadas ms
frecuentemente son las respectivas cantidades (de venta, de compra, de produccin, etc) y, si se trata
de cantidades, lo usual es ponderar por los precios respectivos.
3.3. Los ndices de Agregados Ponderados
Al construir un ndice de precios (o de cantidades) podemos tomar la decisin de ponderar por las
cantidades (o precios) del ao base, del ao que se est analizando o por un valor que promedia
ambas magnitudes. Segn sea la ponderacin que adjudiquemos a cada variable al construir el ndice,
vamos a estar en presencia de un tipo particular de ndice de agregados ponderados.
3.3.1. El ndice de Laspeyres
Para la construccin de este ndice se utilizan como ponderaciones magnitudes
(cantidades o precios) del ao base. Si se trata de un ndice de precios (IPL), este se
obtendr haciendo:
Donde:
n
pij: es el precio correspondiente al i-simo artculo
p iq
L
i=1 ij io
en
el perodo j.
IP j/o = n
i1 0 0
pio: es el precio correspondiente al i-simo
p i q io
artculo en el perodo base.
i=1 io
qio: es la cantidad correspondiente al i-simo
artculo en el perodo base.
La aplicacin de la frmula de Laspeyres para un perodo j dado (tomando como base otro
perodo o predeterminado), supone realizar los siguientes pasos:
a. multiplicar el precio de cada artculo en el perodo j dado por la cantidad de ese mismo
artculo registrada en el perodo base,
b. realizar la suma de los productos as calculados, a travs de los n artculos que intervienen en el
ndice,
c. multiplicar el precio de cada artculo en el ao base por la correspondiente cantidad en el mismo
perodo base y sumar estos productos a lo largo de todos los artculos,
d. dividir la suma realizada en b por la suma realizada en c y, luego, al resultado multiplicar por
cien.
Es obvio que para el clculo de este ndice se necesita ms informacin (datos) que para el clculo
de los ndices no ponderados que hemos visto. En efecto, el ndice de precios de Laspeyres requiere
de datos de cantidades (compradas, vendidas, producidas, etc.) de cada uno de los artculos que lo
integran para, al menos, el perodo seleccionado como base.
141
Produccin
(kg.)
$/kg.
p ij qio
2
Produccin
(kg.)
$/kg
i=1
IPL
(92 = 100)
1992
198.000.000
0,67
191.800.000
0,060
144.168.000
100,0
1993
230.000.000
0,65
226.300.000
0,058
139.824.400
97,0
1994
280.000.000
0,66
209.954.000
0,070
144.106.000
100,0
1995
270.000.000
0,67
211.000.000
0,057
143.592.600
99,6
1996
270.000.000
0,54
203.400.000
0,055
117.469.000
81,5
1997
280.000.000
0,43
220.000.000
0,055
95.689.000
66,4
1998
245.000.000
0,38
265.000.000
0,075
89.625.000
62,2
1999
231.000.000
0,35
266.300.000
0,050
78.890.000
54,7
2000
280.000.000
0,34
228.000.000
0,050
76.910.000
53,3
Valor de la
produccin
del ao 92
a los precios corrientes de
cada ao
Fuente: Direccin de Economa Agraria. Ministerio de Asuntos Agrarios. Posadas, Misiones. 2002.
"
92
q ip io
i= 1 i j
n
IQ
j/o =
i= 1
ip io
io
i1 0 0
"
92
142
Unidad 6: Lo s N m e r o s n d ic e s
ij
i=1 io
qij: es la cantidad correspondiente al i-simo
artculo en el perodo dado o en estudio.
El valor de este ndice debe interpretarse como: las cantidades producidas en el perodo en
estudio tienen un % ms (o menos) de valor de lo que esa misma lista hubiera tenido en
el ao base.
Si se tratara de un ndice de precios al consumidor, estaramos comparando el costo efectivo
en el perodo dado con el costo terico en el ao base, para mantener el estndar de vida del perodo
dado.
"
92
En 1996, el precio de la yerba mate canchada y el brote de t decrecieron -en promedioel 18,7% con relacin a los precios que obtuvieron en 1992.
q i ij
i= 1 i j
n
IQ
j/o =
q ip ij
i= 1 i o
n
i1 0 0
"
92
143
IMPORTANTE
En general -y an cuando miden lo mismo- los ndices de Laspeyres y Paasche
darn resultados diferentes por utilizar diferentes ponderaciones, lo que no indica
que uno sea mejor que el otro.
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.
io io
artculo en el perodo j.
i=1 p io
L
IP j/o =
i1 0 0 pio: es el precio correspondiente al i-simo
n
p io i q io
artculo en el perodo base.
i=1
qio: es la cantidad correspondiente al i-simo
artculo en el perodo base.
El ndice de cantidad se va a obtener utilizando las mismas ponderaciones, pero en
este caso considerando como variables los relativos de cantidad de cada uno de los
n artculos contemplados. As, este ndice se obtiene mediante la aplicacin de la
siguiente expresin:
144
Unidad 6: Lo s N m e r o s n d ic e s
IQ j/o =
ij
i=1 q io
n
io
p
i=1
io
iq
iq
io
io
i1 0 0
IP j/o =
p ij
i=1 p io
n
io
iq
p i q ij
i=1 io
ij
i1 0 0
Donde:
pij: es el precio correspondiente al i-simo
artculo en el perodo j.
pio: es el precio correspondiente al i-simo
artculo en el perodo base.
qit: es la cantidad correspondiente al i-simo
artculo en el perodo en estudio.
IQ P j/o =
ij
p iq
ij io
q
i=1 io
p ij i q io
n
i1 0 0
i=1
IMPORTANTE
Algunas de las ventajas que presentan los ndices promedios de relativos son:
Los precios o las cantidades relativas para cada tem en los agregados
constituyen un ndice simple, que a menudo da informacin valiosa para el
anlisis.
Cuando se introduce un nuevo bien para reemplazar a otro usado anteriormente,
los relativos para un nuevo tem pueden empalmarse a los relativos
para el antiguo, utilizando las ponderaciones de valores anteriores.
Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.
145
ij
ij
p ij i q ij
n
IV j/o =
i=1
n
io
p
i=1
iq
i1 0 0
io
Donde:
pij: es el precio correspondiente al i-simo
artculo en el perodo j (perodo dado o en
estudio).
pio: es el precio correspondiente al i-simo
artculo en el perodo base.
qij: es la cantidad correspondiente al i-simo
artculo en el perodo j.
qio: es la cantidad correspondiente al i-simo
artculo en el perodo base.
En este caso no es necesario introducir ponderacin alguna, porque esta es inherente a los
valores mismos.
Se puede apreciar que los precios y cantidades del numerador del ndice de valor son
variables respecto al denominador y -en consecuencia- su resultado no puede responder a las
preguntas que responden los ndices de precio y cantidad. Tenemos entonces que, cuando con el
paso del tiempo los precios crecen (ej.: un perodo inflacionario), resulta difcil poder apreciar si las
modificaciones que se produjeron en el ndice se deben a variaciones en las cantidades, a
variaciones en los precios o variaciones que se produjeron en ambas variables al mismo
tiempo 5.
Vamos a presentar la evolucin del valor de la yerba mate canchada y el brote de la hoja
verde de t.
kg.
$/kg.
p ij qij
2
kg.
$/kg
i=1
IV
(92 = 100)
1992
198.000.000
0,67
191.800.000
0,060
144.168.000
100,0
1993
230.000.000
0,65
226.300.000
0,058
162.625.400
112,8
1994
280.000.000
0,66
209.954.000
0,070
199.496.780
138,4
1995
270.000.000
0,67
211.000.000
0,057
192.927.000
133,8
1996
270.000.000
0,54
203.400.000
0,055
156.987.000
108,9
1997
280.000.000
0,43
220.000.000
0,055
132.500.000
91,9
1998
245.000.000
0,38
265.000.000
0,075
112.975.000
78,4
1999
231.000.000
0,35
266.300.000
0,050
94.165.000
65,3
2000
280.000.000
0,34
228.000.000
0,050
106.600.000
73,9
Valor de
la produccin
Fuente: Direccin de Economa Agraria. Ministerio de Asuntos Agrarios. Posadas, Misiones. 2002.
Se debe tener en cuenta que, en el caso de que ambas variables experimenten cambios, estos se pueden producir en forma
tal que: los precios y cantidades crecen o decrecen simultneamente (provocando un cambio conjunto en el mismo
sentido), o una de estas variables crece mientras la otra decrece, dependiendo la variacin del ndice de valor, de cmo se compensan las magnitudes de variacin producida en los precios y las cantidades.
146
"
Unidad 6: Lo s N m e r o s n d ic e s
El valor de la yerba mate canchada y el brote de t creci hasta 1994 (con un 38,4%
presenta el mayor incremento de la serie), para luego comenzar a disminuir
sostenidamente hasta 1999, en el que se registra una cada en el valor de estos productos
que lo ubican un 34,7% por debajo del que se registrara en 1992. En el ao 2000 se
observa una ligera recuperacin respecto al valor que se registrara en el ao anterior.
1992
96,0
1993
97,5
1994
98,2
1995
105,6
1996
109,6
1997
109,7
1998
106,2
1999
108,3
(*)
2000
111,4
(*)
(*)
Valores estimados
Fuente: Misiones, Instituto Provincial de Estadstica y Censos (IPEC)
Para transformar esta serie de ndices Mayoristas en nueva serie con base en el ao 1992,
debemos dividir todos los valores de la serie por el valor del ndice correspondiente a ese ao
(96,0%). As, al ao 1999 le va a corresponder el valor que se obtiene al hacer:
6
Por los clculos realizados anteriormente, podemos saber que, por ejemplo, el crecimiento del 8,9% que tuvo el valor de estos
productos en 1996 se debi al efecto conjunto de una cada de los precios del 17,5% (ndice de precios de Laspeyres), y un
aumento de la produccin del 33,6% (ndice de cantidad de Paasche).
p q i p q
p q p q
ij
io
ij
ij
io io
ij
io
p q
p q
ij
ij
= IV
io io
147
108,3
i100 =112,8%
96,0
La serie reconvertida con este criterio resultara en:
IMA '92=100 (1999) =
1992
100,0
1993
101,6
1994
102,3
1995
110,0
1996
114,2
1997
114,3
96,0
i100
96,0
98,2
i100
96,0
1998
110,6
1999
112,8
(*)
2000
116,0
(*)
(*)
Valores estimados
Fuente: Elab. propia basndose en datos del IPEC.
95,0
i100
115,0
Los valores grisados se obtuvieron mediante los dos diferentes mtodos de empalme que se
pueden utilizar.
En este caso se empalma en el perodo que es base del nuevo ndice; la relacin del antiguo al
nuevo ndice que se produce en este perodo prevalece para los perodos que siguen. As, en el
ejemplo, para todo perodo posterior, por regla de tres simple se establece que:
115,0 / 100,0 = x / 110,0 x = (115,0 / 100,0) 110,0 = 126,5
.
Es decir, para cambiar la base del nuevo ndice con el antiguo, se deben multiplicar los
valores del nuevo ndice por un factor constante equivalente a la razn entre el nuevo y el viejo
ndice en el perodo de empalme (en el ejemplo este valor es 1,15).
Para hacer continuo el antiguo ndice con el nuevo, hay que realizar un cambio de base dividiendo
tal como fuera desarrollado precedentemente todos los valores anteriores a la nueva base por el
valor correspondiente a este perodo.
148
Unidad 6: Lo s N m e r o s n d ic e s
IMPORTANTE
El procedimiento de nmeros ndices en cadena es til porque permite
efectuar cambios en la composicin del ndice de un perodo a otro, pero
se debe tener en cuenta que la comparabilidad estricta se reduce a los
nmeros ndices que siguen inmediatamente a la base fijada.
Cuando los artculos son continuamente sustituidos por nuevos, el significado del
ndice de encadenamiento se vuelve cada vez ms dudoso en el tiempo y, tal vez,
pasado cierto tiempo no se pueda describir qu mide el ndice.
IV
IPL
IV
(92 = 100)
(92 = 100)
(precios de 1992)
1992
100,0
100,0
100,0
1993
112,8
97,0
116,3
1994
138,4
100,0
138,4
1995
133,8
99,6
134,3
1996
108,9
81,5
133,0
1997
91,9
66,4
138,4
1998
78,4
62,2
126,0
1999
65,3
54,7
119,4
2000
73,9
53,3
138,6
149
Coincide con
un ndice de
Cantidad
91,9
i100
66, 4
140
120
100
80
60
40
20
0
1992 1993 1994 1995 1996 1997 1998 1999 2000
Ao
Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.
150
Unidad 6: Lo s N m e r o s n d ic e s
- al cambiar la ponderacin tambin cambia el significado del ndice; por lo tanto la ponderacin
depende del tipo de pregunta que deseamos responder;
- cuando dos tipos de ponderaciones pueden rendir informacin similar, se podr recurrir a la
que requiere menos esfuerzo de clculo o permite una interpretacin ms precisa o
proporcione una mayor consistencia terica.
5.4. La Seleccin del Promedio
Desde un punto de vista estrictamente matemtico al promediar relativos, la media geomtrica o
armnica resultaran ms eficientes que la media aritmtica. Sin embargo esta ltima es la ms
utilizada por su facilidad de clculo y, fundamentalmente, porque su significado es ms fcil
de interpretar.
La representatividad de los promedios obtenidos depende de la forma de distribucin de los
relativos; si los valores estn ampliamente dispersos el ndice puede perder significado. Al respecto se
ha demostrado que los relativos calculados a partir de una base reciente tienen una
pronunciada tendencia central y la proporcin de relativos bajo la clase modal es grande.
Cuando ms remota es la base, la distribucin se hace ms dispersa y negativamente asimtrica, con
una proporcin menor de relativos en la clase modal. Esto sugiere que el ndice es ms representativo
cuando la base es ms reciente.
Tambin se observa una tendencia central ms marcada en grupos de tems que son ms
homogneos (Ej.: productos agrcolas, bienes durables a los consumidores, etc.). Por lo tanto, en
forma ideal, un ndice -como cualquier otro promedio- debera ir acompaado de una medida de
dispersin.
5.5. Los Cambios de Producto
En una economa dinmica, los bienes son reemplazados permanentemente por productos nuevos.
Puesto que la significacin de un ndice depende de la constancia de significado del surtido de bienes
que lo conforman, la comparacin de los niveles de precios o cantidades a partir de puntos distantes
en el tiempo puede ser de difcil interpretacin o carente de sentido. Para atender este tipo de
problemas se utilizan los ndices en cadena, con todas las dificultades que ello acarrea segn se viera
precedentemente.
151
Por otra parte, mediante estos procedimientos no es posible presentar evidencia cuantitativa
que permita observar los cambios en la calidad de los productos.
6. Qu Hemos Visto?
Hemos desarrollado en esta unidad distintas maneras de obtener nmeros ndices; estos
ndices, que en rigor constituyen maneras particulares de promediar magnitudes, son una
forma clsica y difundida de analizar y presentar la evolucin de diferentes series,
particularmente aquellas que se refieren a precios, cantidades y valores. En la presentacin qued
expresado que este recurso es vlido para analizar series de tiempo como as tambin para realizar
el anlisis de otro tipo de series numricas.
As, tomando como ejemplos series de tiempo, fueron presentados terica y prcticamente
diferentes tipos de nmeros ndices simples (para una sola variable) y compuestos (dos o
ms variables) ponderados y no ponderados, realizando en cada caso la interpretacin de los
valores obtenidos y expresando los alcances y limitaciones de las frmulas utilizadas.
Se consideraron adems algunas cuestiones vinculadas a la utilizacin de los nmeros
ndices y otras que se refieren a problemas que se deben atender en la construccin de los
mismos.
152
Unidad 5: Lo s N m e r o s n d ic e s
Bibliografa
ANDERSON, D. R, SWEENEY, D. J., WILLIAMS, T. A.: Estadstica para Administracin y Economa. 7a
Edicin. Cap. 17. Internacional Thomson Editores. Mxico, 1999.
FERRUCCI, Ricardo J.: Instrumental para el Estudio de la Economa Argentina. Cap. 3. EUDEBA,
Buenos Aires. 1990.
FREDIANI, Ramn O.: Medicin del Desarrollo Econmico y Social de las Provincias Argentinas,
CIPESP. 1979.
YA-LUN CHOU: Anlisis Estadstico. Edit. Interamericana. Mxico. 1972.
YAMANE, Taro: Estadstica, Edit. Harla S.A. Mxico. 1974.
Habilidades
153
Anexo:
Guas de Actividades
Actividad N 2
Cuando se planifica o se intenta comprender una investigacin desarrollada con mtodos
estadsticos es necesario, por un lado, identificar claramente la situacin problemtica abordada por el
estudio, y que puede precisarse en alguna o varias preguntas de investigacin. Simultneamente, es
necesario definir con precisin (o reconocer) algunas caractersticas del trabajo (poblacin, unidad de
anlisis, etc.) para determinar el alcance que podemos dar a la interpretacin de los resultados.
En promedio, hay entre ocho y nueve rboles por cuadra en Buenos Aires
Diario Clarn, 08/07/01
Sin contar los que estn en plazas y parques, suman ms de 400.000 ejemplares. Hay unas 500 especies distintas.
El ms abundante es el fresno, con el 40% del total. El 13% del arbolado urbano sufre alguna enfermedad.
Mayora de fresnos, cientos de plantas exticas. Abundante presencia de palmeras y muchos rboles afectados
por cables y zanjas que dificultan su crecimiento. Estos son, a grandes rasgos, los primeros resultados del censo de
rboles que hace un ao puso en marcha la Secretara de Medio Ambiente del Gobierno porteo junto con las
Facultades de Agronoma y Ciencias Exactas de la UBA y la empresa Sistemas Catastrales S.A. Esta es la primera vez,
desde que se comenz con el arbolado urbano a fines del siglo XIX, que se realiza un censo global sobre la cantidad
158
dcadas en alcanzar su plenitud. Sin embargo, hay gente que no lo entiende. Es el caso de algunos comerciantes que
sacan rboles de su frente porque les tapan las marquesinas cont Mrquez -. Por eso, a partir de ahora, se va a
tener en cuenta un criterio ms paisajstico, con cada plantacin. No es lo mismo una calle con edificios torre que una
con casas bajas; una avenida que una callecita ms angosta.
Por ejemplo, a partir de la remodelacin prevista para la avenida Corrientes, donde hoy no hay casi rboles, se
van a plantar decenas de ejemplares de ibirapit, un rbol autctono que crece relativamente rpido y resiste
bastante la contaminacin.
Hoy, dos de las especies ms frecuentes en la ciudad, el paraso y el pltano, o bien son muy poco resistentes a la
polucin (los parasos) o, aunque resisten ms que otros la contaminacin (los pltanos), provocan alergias en las
personas.
Resultados de una encuesta entre 1.500 vecinos
Mientras se realizaba el primer censo de rboles de la ciudad, la Secretara de Medio Ambiente portea organiz una
encuesta entre vecinos (realizada por los Centros de Gestin y Participacin y los auxiliares vecinales en las calles). El
objetivo era conocer la opinin de los ciudadanos sobre los rboles que tiene en los frentes de su casas. Sobre mas de
1.500 encuestados, stos fueron los resultados.
La mayora cree que el mayor beneficio que le aportan los rboles es la sombra. Tambin la oxigenacin, la
belleza y la amortiguacin de los ruidos.
El 90% de los consultados prefiere las especies que dan sombra y las que tienen flores llamativas.
Entre los principales problemas enumerados por los encuestados, en primer lugar est la alergia (casi siempre
coincide con la presencia de pltanos), y en segundo lugar, la obstruccin de los desages por las hojas.
Otros encuestados se quejan de las ramas que tapan las luces y algunos temen la cada de los ejemplares. No
faltan tampoco los que se quejan porque las hojas le ensucian el auto.
Muchos admiten que ellos mismos plantaron el ejemplar frente a su casa. Y la mayora eligi el ficus.
Algunos chicos admiten que les gustan los rboles porque pueden treparse. Y otros confiesan que les asustan
las sombras de sus copas.
Diario Clarn, 08/07/01
1.
2.
3.
4.
5.
6.
7.
8.
Cules fueron los motivos que condujeron a realizar este estudio? En otras
palabras, cul es la importancia de los resultados de este trabajo?
El artculo podra titularse con la pregunta general que orient la
investigacin. Qu pregunta elegira Ud. como ttulo para esta nota?
Para poner un subttulo podra desagregarse esa pregunta general en varias
preguntas que ilustren sobre aspectos ms especficos de este trabajo de
investigacin. Proponga algunas sub- preguntas.
Defina con la mayor precisin posible, a qu o quines (objetos o
sujetos) se est describiendo en este estudio? (Unidad de anlisis).
Defina el conjunto total de esos elementos a los que se refiere la
investigacin (Poblacin bajo estudio).
Cules son las caractersticas o variables de esos elementos que se
consideraron relevantes para responder los objetivos propuestos?
A qu tipo de variable (numrica o categrica) corresponde cada una de las
identificadas en el punto anterior?
Basndose en la lectura de los resultados del estudio, identifique algunas
de las preguntas estadsticas, en que se tradujeron las preguntas de
investigacin.
Actividad N 3
Para continuar el anlisis del artculo de la actividad anterior: En promedio, hay entre ocho y
nueve rboles por cuadra en Buenos Aires, deber responder a las siguientes preguntas:
160
datos?
(observacin
transversal
Actividad N 4
En esta actividad encontrar distintos ejemplos que le permitirn revisar sus conocimientos sobre
los principales temas tratados en la Unidad N 1.
A. Una aerolnea distribuye entre los pasajeros que embarcan a uno de sus vuelos (Vuelo BA 178), el
siguiente cuestionario:
OPININ DE LOS PASAJEROS DEL VUELO BA 178
Formulario n: .......
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos complete
este formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ........
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB
MM
Muchas gracias
161
B. Cada una de las expresiones siguientes corresponden a resultados de alguna investigacin basada
en herramientas estadsticas.
Identifique en cada caso: la unidad de anlisis a la que se refieren, la
variable en estudio, y el tipo de variable (numrica o categrica).
162
D. El gerente de una importante agencia de viajes se propone disear una estrategia de ventas para
la prxima temporada alta de invierno. Para ello, y con el propsito de conocer mejor las
caractersticas y preferencias de sus clientes, realizar un estudio a partir de los datos que registra
la agencia en la Base de Clientes. Ha decidido trabajar solamente con aquellos que registran
alguna operacin (compra de pasajes, de excursiones, reservas hoteleras, etc.), realizada en la
temporada Diciembre-Febrero de 2002.
Nuestro gerente se ha planteado algunas preguntas generales que guiarn su trabajo, y las ha
concretado en otras preguntas estadsticas para orientar la bsqueda y el anlisis de los datos.
En el listado siguiente, aparecen mezcladas las preguntas de uno y otro tipo.
EVALUACIN PARCIAL -Unidad IDos son los propsitos de esta actividad. El primero es ofrecerle a Ud. un problema de trabajo que
le permitir revisar y ejercitar sus conocimientos sobre los temas de esta primera unidad. El
segundo propsito es permitirnos a los docentes evaluar sus avances en el aprendizaje.
El texto que se transcribe a continuacin fue extrado del informe final de la investigacin
Satisfaccin del Cliente, realizada por la Licenciada en Turismo CRISTINA TETZLAFF (diciembre de
1999), como Monografa de Grado para alcanzar el diploma de licenciatura.
El estudio tiene por tema general el anlisis y evaluacin de la calidad del servicio que presta a
sus pasajeros un importante hotel de la ciudad de Posadas1. En la presentacin del estudio, la autora
seala que el presente trabajo, por consiguiente, puede ser de gran utilidad para el hotel, por cuanto
se tratar de determinar el grado de satisfaccin de los clientes para la posterior elaboracin de un
Plan de Marketing, proponiendo estrategias tendientes a satisfacer las expectativas y necesidades del
cliente y consecuentemente cumplir con las metas de la empresa.
Los objetivos generales propuestos a tales fines son los siguientes:
1. Detectar y analizar el grado de satisfaccin que generan en los huspedes del hotel NHTL, los
1994
1995
1996
1997
1998
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
34,52
37,11
35,55
45,57
39,06
44,23
55,45
49,29
45,40
43,62
41,15
39,48
27,58
24,25
33,52
23,05
20,74
22,34
33,33
26,59
27,50
37,06
32,00
26,74
22,77
22,26
26,68
25,80
27,13
31,43
38,97
39,42
34,03
35,68
31,43
29,69
22,55
21,00
26,71
37,83
37,13
32,87
48,87
36,74
40,17
29,84
34,83
32,39
26,80
32,80
43,53
40,99
29,59
23,05
47,58
44,09
51,71
37,57
TOTAL
42,57
27,90
30,44
33,41
En relacin con este aspecto el informe expresa: ... el ao de mayor ocupacin ha sido 1994, esto
es dos aos despus de haber iniciado sus actividades el hotel.
En el ao 1995 hubo una fuerte capacidad ociosa durante todo el perodo. Las causas de este
fenmeno pudieron haber sido varias, una de ellas el cierre del hotel durante una semana en el mes
de abril para la regularizacin de ciertos aspectos internos de la empresa. Otra pudo haber sido la
cada de la bolsa mexicana, cuya repercusin, conocida como efecto tequila afect la economa de
muchos pases del mundo entre ellos la de la Argentina. ... [en] los aos 1996, 1997 y parcialmente a
1998, se observa como fue recuperndose lentamente el hotel despus de su cada de 1995.
En cuanto al Perfil de los huspedes, y basado en el anlisis de los datos de las encuestas, en
el informe se sealan las siguientes conclusiones:
Tipo de Huspedes de NHTL
De acuerdo con el criterio tomado para segmentar a los
Pasajeros
%
Tipo
huspedes, el 35% de ellos son habituales. Esto est
Habitual
53
35,3
directamente relacionado con el motivo de visita, ya que
No Habitual
97
64,7
en su mayora son hombres de negocios, que vienen a la
ciudad de Posadas por razones de trabajo.
TOTAL
150
100,0
Debido a este motivo laboral de visita, la mayora de los
huspedes se hospeda solo en el hotel y un considerable porcentaje lo hace con colegas.
Los porcentajes de ocupacin estn basados en las habitaciones ocupadas, independientemente del nmero de camas con
que cuente cada una de ellas.
164
Si tenemos en cuenta el lugar de origen de los encuestados, vemos que el 91% reside en la
Argentina, de los cuales el 50% proviene de Bs. As. (Capital y Gran Bs. As.), el 11% de la provincia
de Corrientes, y el porcentaje restante de Santa Fe y Chaco.
165
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos
complete este formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..60......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB
a. Cordialidad del personal en el Check-in
MM
X
X
Muchas gracias
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos
complete este formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..80......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB
MM
Muchas gracias
167
MM
X
Muchas gracias
................
.................
OPININ DE LOS PASAJEROS DEL VUELO BA 178
Formulario n: ...136....
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos complete este
formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..120......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB
MM
Muchas gracias
Basndose en los formularios, construya una matriz de datos para organizar esta
informacin y complete con los datos de los formularios anteriores
Actividad N 2
Durante el primer semestre de 2000, el movimiento internacional de pasajeros extranjeros que
llegaron a la ciudad de Buenos Aires por los Aeropuertos Jorge Newbery, y Ezeiza, y el Puerto de
Buenos Aires totaliz 1.934.854 personas. Estos extranjeros que ingresaron al pas estaban
conformados por 959.688 turistas procedentes de pases del Mercosur, 205.095 chilenos, 162.528
provenientes del resto de Amrica Latina, 274.749 de Estados Unidos y Canad, 286.358 de Europa,
y el resto de los pasajeros provienen de otros pases.
(Fuente: Sec. de Desarrollo Econmico del Gob. de la ciudad de Bs. As., basndose en datos del INDEC).
168
Actividad N 3
Durante el mes de mayo/94 se desarroll una encuesta por muestreo en el Parque Nacional de
Iguaz, con el objeto de recabar informacin sobre los hbitos de los turistas que visitaban este
recurso. Entre otras cuestiones, se les indagaba sobre la cantidad de noches (pernoctes) que
pensaban permanecer en la regin. Seguidamente se detallan los datos obtenidos sobre esta variable,
correspondientes a cada una de las 156 encuestas realizadas en esa oportunidad.
encuesta noches
encuesta noches
encuesta noches
encuesta noches
encuesta noches
33
65
97
129
34
66
98
130
35
67
99
131
36
68
100
132
37
69
101
133
38
70
102
134
39
71
103
135
40
72
104
136
41
73
105
137
10
42
74
106
138
11
43
75
107
139
12
44
76
108
140
13
45
77
109
141
14
46
78
110
142
15
47
79
111
143
16
48
80
112
144
17
49
81
113
145
18
50
82
114
146
19
51
83
115
147
20
52
84
116
148
21
53
85
117
149
22
54
86
118
150
23
55
87
119
151
24
56
88
120
152
25
57
89
121
153
26
58
90
122
154
27
59
91
123
155
28
60
92
124
156
29
61
93
125
30
62
94
126
31
63
95
127
32
64
96
128
169
Actividad N 4
Tomando en consideracin la tabla siguiente:
Distribucin de la poblacin por edades Pcia. de Misiones. 1991
Edad
0-9
10-19
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90 y ms
TOTAL
Poblacin
219.474
175.189
118.516
101.689
70.091
49.739
32.611
15.704
5.001
901
788.915
Actividad N 5
Ingreso
Frecuencia (*)
80
1
130
1
145
1
150
2
180
1
200
6
250
1
300
14
Ingreso: Diagrama de Tallo-Hoja
340
1
Frecuencia Tallo - Hoja
350
6
400
11
1
0 . 8
450
3
5
1 . 34558
480
1
7
2 . 0000005
21
3 . 000000000000004555555
500
14
15
4 . 000000000005558
550
1
16
5 . 0000000000000056
560
1
2
6 . 05
600
1
4
7 . 0005
650
1
9
8 . 000000005
700
3
1
9 . 0
750
1
9
10 . 000000000
1
11 . 0
800
8
0
12 .
850
1
2
13 . 00
900
1
0
14 .
1000
9
2
15 . 00
1100
1
9 Extremos
(>=1600)
1300
2
1500
2
Ancho del tallo: 100
Cada hoja:
1 caso
1600
2
1800
2
2000
5
104
Total
(*) 35 estudiantes no declaran el ingreso del hogar.
170
A partir de ellos:
Presente los datos en una tabla que resuma mejor los ingresos del hogar de
los estudiantes, utilizando el o los criterios que considere ms apropiado(s)
para definir esos intervalos de clase. Comente las decisiones adoptadas para
obtener la tabla anterior.
Justifique la necesidad de utilizar intervalos de clases para esta distribucin.
Actividad N 6
Actividad N 7
Para la tabla construida en la actividad 5, calcule las frecuencias relativas y
acumuladas (absolutas y relativas).
Actividad N 8
En el trabajo sobre el curso de Estadstica se requiri tambin el Nivel de Estudios de la Madre del
estudiante. En la tabla siguiente se presenta la distribucin de frecuencias correspondientes.
Estudiantes del curso de Estadstica segn
Nivel de estudios de la Madre - FHyCS-Ao 2001
Nivel Estudios Madre Frecuencia
Ninguno
Primario Incompleto
33
Primario Completo
42
Secundario Incompleto
23
Secundario Completo
14
Terc./Univ. Incompleto
Terc./Univ. Completo
TOTAL
7
15
136
171
las
Actividad N 9
La distribucin que sigue corresponde a jefes de hogares de la ciudad de Posadas, distribuidos
segn escala de ingreso. Los datos fueron obtenidos por la Encuesta Permanente de Hogares en
1993.
Ingresos monetarios de jefes de hogares Posadas, 1993
Ingreso
($)
Jefes de
Hogares
235-280
280-325
325-385
385-465
465-545
545-630
630-725
725-835
184
342
2354
864
738
546
379
486
TOTAL
5892
Jef. de Hog.
Acum.
Ingreso Total
Acum. ($)
184
526
2880
3744
4482
5028
5406
5892
47380
150835
987505
1354705
1727395
2048170
2190865
2569945
Actividad N 10
Prctico complementario
En esta actividad encontrar distintos ejemplos que le permitirn revisar sus conocimientos
sobre los principales temas tratados en la Unidad N 2.
1. Cul es el propsito de construir tablas de distribuciones de frecuencias?
2. En relacin con la matriz de datos cul es la informacin que se pierde al construir una tabla
de frecuencias? Evale la situacin para el caso de distribuciones de variables categricas,
arreglos y distribuciones en intervalos de clase.
3. Explique en qu situacin se planteara la necesidad de construir:
a. una distribucin con clases abiertas,
b. una distribucin con clases vacas o intervalos de distinta amplitud,
c.
172
Segn el artculo, hoy en da 4 de cada 10 usuarios son mujeres. Adems, En cuanto al perfil
del navegante, el 97 por ciento de los usuarios trabaja y el 59 por ciento es el principal sostn
econmico del hogar. El 53 por ciento est en pareja....
a. Qu variables se analizan en este prrafo?
b. Con esa informacin, reconstruya las tablas de frecuencias correspondientes a esas
variables.
6. En las tablas siguientes se presentan las distribuciones del plantel de empleados de una empresa
de servicios, discriminados por sexo segn sus salarios mensuales en mayo de 1996. El propsito
de este resumen es analizar si la empresa tiene una poltica salarial diferencial por sexo.
HOMBRES
Ingreso ($)
MUJERES
Empleados
Ingreso ($)
Empleados
300 450
300 450
55
450 600
39
450 600
116
600 750
126
600 750
32
750 900
26
750 900
11
900 1050
900 1050
1050 1200
20
1050 - 1200
TOTAL
221
TOTAL
216
EVALUACIN PARCIAL -Unidad 2Dos son los propsitos de esta actividad. El primero es ofrecerle a Ud. un problema de trabajo que le
permitir revisar y ejercitar sus conocimientos sobre los temas de esta segunda unidad. El
segundo propsito es permitirnos a los docentes evaluar sus avances en el aprendizaje.
Esta propuesta est basada en el estudio ESTUR 93/94 realizado por la Fac. de Hum. y Cs. Soc. a
solicitud de la Secretara de Turismo de la Pcia. de Misiones y financiado por el Consejo Federal de
Inversiones (CFI). A los efectos de simplificar esta prctica del curso, hemos seleccionado slo
algunos aspectos de la encuesta realizada en los lugares de alojamiento a turistas que viajaron por
cuenta propia en el mes de febrero.
A continuacin se describen algunas definiciones metodolgicas del estudio.
OBJETIVO
Esta encuesta est dirigida a los turistas alojados en la ciudad de Puerto Iguaz, con el fin de
conocer sus hbitos y preferencias tursticas, su evaluacin sobre diferentes componentes
(infraestructura, equipamiento, etc) de la oferta y la estructura y nivel del gasto turstico.
173
UNIDAD DE ANLISIS
Grupos tursticos primarios que se encuentran hospedados en hoteles y establecimientos similares
(residenciales, cabaas, etc) y campings. El informante ser uno de sus miembros mayor de 16 aos y
preferentemente el que ejerce el liderazgo del grupo.
VARIABLES SELECCIONADAS:
1) Nivel de alojamiento
1. Nivel I: 4 y 5 estrellas
4. Nivel IV: Residenciales
Nota: Los nmeros que aparecen en la matriz de datos son los cdigos asignados a cada lugar de
residencia. (ejemplo: 54 corresponde a la pcia. de Misiones). Ud. no necesitar el detalle de estos
cdigos para la tarea que deber realizar.
3) Medio de transporte para el arribo a la Regin:
1. automotor privado
2. mnibus de lnea regular
3. mnibus servicio especial
4. areo en vuelo regular
5. areo especial (charter)
6. otros
7. Sin Datos
4) Total de componentes del grupo primario entrevistado, incluyendo al informante.
5) Opinin del informante sobre la arquitectura y urbanizacin de Pto. Iguaz:
discriminando por niveles de satisfaccin (1. Buena, 2. Regular, 3. Mala, 4. Sin Opinin).
6) Gasto total efectivamente realizado por el grupo primario, durante el da de permanencia en el
rea inmediato anterior a la entrevista
Para las variables seleccionadas presentamos a continuacin la matriz de datos y tablas y grficos
para algunas de ellas.
MATRIZ DE DATOS
ENCU NIVEL RESI COMPO TRANS ARQ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
2
2
2
3
3
3
3
4
5
1
1
1
1
2
2
3
4
4
1
2
2
3
3
5
5
5
1
6
6
6
82
6
18
6
6
6
42
2
2
2
6
102
26
6
6
6
6
6
6
6
6
18
6
2
2
2
3
1
4
2
1
3
2
4
2
4
1
2
3
4
2
3
5
6
1
7
2
4
3
2
5
4
1
1
2
1
2
2
1
1
1
4
1
4
2
1
4
2
2
1
4
2
1
2
1
1
2
1
4
2
1
1
2
2
1
1
1
1
1
2
2
2
3
1
1
2
2
1
3
1
1
1
1
1
2
GTOT
125
75
181
109
202
79
33
71
30
75
34
20
40
113
210
100
76
110
316
125
30
100
62
43
60
29
572
174
4
5
5
1
3
4
5
1
1
2
2
2
5
5
2
2
2
2
5
5
1
1
1
1
1
4
2
6
6
6
107
6
82
22
54
6
34
6
2
6
6
6
6
14
26
6
6
6
6
2
6
6
6
6
2
5
4
2
3
2
4
3
6
5
2
3
1
6
2
5
4
4
3
4
3
4
5
5
5
2
4
2
1
1
4
1
1
1
1
1
1
2
2
2
1
1
1
1
4
1
1
1
1
1
1
1
2
1
1
1
2
1
2
3
1
1
1
1
1
1
1
1
1
2
1
1
1
4
1
3
3
2
1
1
1
140
18
45
205
135
75
00
190
270
140
319
151
24
300
79
150
119
104
59
72
110
20
75
70
75
66
632
(Continuacin)
ENCU NIVEL RESI COMPO TRANS ARQ
6
55
3
1
4
1
6
1
2
1
56
3
57
4
54
1
2
1
58
2
6
3
1
1
59
2
14
3
1
1
22
60
2
5
1
3
18
61
5
2
1
2
6
62
5
6
1
1
82
63
1
6
1
1
18
64
1
7
1
1
65
1
2
2
1
1
66
1
105
1
4
2
67
1
2
4
4
4
68
1
2
4
1
1
69
2
6
5
1
1
70
4
6
4
1
1
2
71
4
110
4
1
72
4
105
2
2
2
73
1
6
2
4
1
4
1
2
74
2
14
75
2
105
2
4
2
76
2
18
6
1
2
77
2
54
5
1
2
2
78
4
14
2
3
79
4
2
1
2
2
80
1
30
4
1
1
81
3
2
3
2
1
82
4
133
2
2
1
83
4
128
3
2
1
84
4
6
2
2
1
85
4
105
1
4
4
86
5
82
3
1
1
GTOT
129
22
44
131
99
113
41
102
95
95
378
160
18
158
217
100
50
51
143
273
165
165
379
76
37
130
149
72
57
77
42
56
ENCU
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
16
58
7
5
2
4
1
1
1
2
3
7
1
1
4
1
2
1
1
118
Fr (%)
13,6
49,2
5,9
4,2
1,7
3,4
,8
,8
,8
1,7
2,5
5,9
,8
,8
3,4
,8
1,7
,8
,8
100,0
Medio de Arribo
Automotor Privado
mnibus Regular
Areo Regular
Total
Opinin sobre
Arq. y Urb.
Buena
Regular
Mala
Sin Opinin
Total
175
Frec. Abs.
74
28
16
118
Frec.
Abs.
78
29
7
4
118
Fr (%)
62,7
23,7
13,6
100,0
Fr (%)
66,1
24,6
5,9
3,4
100,0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0011
22222333333
444444555555
666666777777777777777
9999
0000000011111
2222333
444445555
66666
88999
00111
2
4
6777
8
011
4
77
8
(>=387)
176
Prrafo 1:
Una encuesta realizada en el ao 2001 a 1.297 alumnos de escuelas primarias de la ciudad de
Buenos Aires, revel que los escolares (a esa fecha la poblacin era de 150.000 estudiantes en todas
las escuelas primarias porteas) dedican en promedio 13 horas semanales a ver televisin y (tambin
en promedio por alumno) 6 horas semanales a la lectura de libros, diarios y revistas.
Prrafo 2:
Segn los resultados de un censo realizado en el ao 2000, en las 32 prisiones del Servicio
Penitenciario Federal distribuidas en todo el pas, haba una cantidad media de 1.888 presos alojados
en cada una de ellas.
Prrafo 3:
De acuerdo con datos oficiales, en el perodo de 8 aos comprendido entre 1991/98, se
registraron exportaciones misioneras de yerba mate por un monto anual promedio de U$S
22.852.325.
Prrafo 4:
Un estudio realizado en Capital Federal y el Gran Buenos Aires en el mes de abril de 2001, en el
cual fueron encuestados 1.200 comercios del total de 4.200 establecimientos que forman el sector
autoservicios3, permiti conocer que estos negocios en promedio, facturan $3.000 por da y
funcionan en locales cuya superficie media es de 550 metros cuadrados.
Pequeos supermercados de barrio que comercializan productos de almacn, de limpieza, verdulera, carnicera, bazar etc.
177
Actividad N 2
Primera Parte
El trabajo que dio origen a los datos que analizaremos inmediatamente tena el propsito general
de aportar informacin sobre diferentes caractersticas de los obreros y empleados calificados de
una empresa industrial de Misiones. (Entre otras: estudios alcanzados, antigedad en la empresa,
sexo, edad, estado civil, rea de trabajo, cantidad de das y de horas trabajadas en el mes anterior,
etc.).
La poblacin bajo anlisis se compona de los n=90 obreros y empleados (excluidos los
funcionarios de nivel gerencial o superior) que conformaban la plantilla de personal permanente de la
empresa, al mes de marzo de 1998.
El relevamiento alcanz a todos los individuos de la poblacin y los datos se recopilaron de los
legajos personales y otras fuentes administrativas disponibles.
Una de las variables observadas fue:
Haber
($)
Empl/
obrero
Haber
($)
Empl/
obrero
Haber
($)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
571
545
846
632
558
880
567
623
753
511
633
719
641
824
887
588
740
846
729
523
476
613
883
899
852
932
845
904
743
723
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
778
603
681
456
479
808
741
631
587
567
846
782
667
891
914
460
833
927
582
701
740
661
578
857
841
771
756
543
845
738
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
967
775
589
478
490
932
778
772
803
545
927
945
780
867
982
716
809
541
537
890
717
756
690
765
822
645
743
560
656
784
178
z = $684,63
2. Si a los datos de los 90 empleados y obreros se agregan los haberes que perciben los 5
3. El empleado que figura en el orden 76 difiere en menos de $2 (d76=$-1,89) del haber promedio
general de los 90 asalariados observados, mientras que los empleados del orden 21 y 66 se
diferencian de dicho promedio en $-241,89 y $214,11, respectivamente. La suma de los residuos
de todos los empleados y obreros es nula.
4. A cunto asciende la suma de los haberes netos de los 90 empleados?
Segunda Parte
En la tabla siguiente se presenta la distribucin que resume los datos sobre camas disponibles
en 190 hosteras y residenciales relevados en una encuesta.
Hosteras y residenciales segn el nmero de camas disponibles
Cantidad
camas
Host/Resid.
(fi)
0-19
20-39
40-59
60-79
80-99
100-119
120-139
15
32
60
47
23
10
3
TOTAL
190
Actividad N 3
1. Las 3 frases siguientes expresan algunas de las conclusiones que se pueden obtener al describir
los datos sobre el haber mensual neto percibido por los obreros calificados del ejemplo
anterior.
179
mensuales superiores o iguales a $740. La otra mitad de los salarios se ubica por debajo de
dicho valor.
b. Al incorporar en el anlisis a los gerentes y subgerentes de la firma, el haber neto mediana
de los funcionarios se eleva a $987,60 por lo que, la mitad de todo el personal percibe
haberes iguales o inferiores a esa suma.
c. Tal incremento en el valor medio de los haberes se debe a los haberes extremadamente
atpicos de los subgerentes y gerentes de la empresa.
2. Determinar
El nmero de camas disponibles, por debajo del cual se ubican los 95
establecimientos hoteleros (hosteras y residenciales) ms pequeos,
analizados en la actividad anterior.
Actividad N 4
Continuando con los datos de los dos ejemplos anteriores, su actividad consistir en:
Actividad N 5
Ampliar el anlisis de las series de datos anteriores (en el caso de los
haberes netos, trabajar con el conjunto original de 90 datos), utilizando las
medidas de posicin que considere pertinentes para completar la
descripcin de los individuos observados en cada ejemplo.
Actividad N 6
Basndose en las tablas que presentan -para dos departamentos de la pcia. de Misiones- los datos
sobre las explotaciones agropecuarias distribuidas segn deciles de superficie (tamao), realizar:
180
OBER (2)
Superf. Total Explot. Acum. Sup. Total Superf. Total Explot. Acum. Sup. Total
(has.)
(%)
Acum. (%)
(has.)
(%)
Acum. (%)
229
10,0
0,080
1181
10,0
0,75
744
20,0
0,338
8325
20,0
6,06
744
30,0
0,596
12479
30,0
14,00
744
40,0
0,855
12480
40,0
21,95
1354
50,0
1,325
12480
50,0
29,90
1659
60,0
1,901
12480
60,0
37,86
1659
70,0
2,477
12480
70,0
45,81
2628
80,0
3,399
12480
80,0
53,76
7879
90,0
6,126
18971
90,0
65,85
270314
100,0
100,000
53604
100,0
100,00
10
Total
287954
156960
Actividad N 7
80
70
(%)
90
60
50
40
30
181
Actividad N 8
Prctico Complementario
1. En la Actividad N 3 de la Unidad anterior, Ud. resumi en forma numrica y grfica los datos de
una muestra de 156 turistas observados en el Parque Nacional Iguaz, referidos a la cantidad de
noches (pernoctes) que planeaban permanecer en la regin. Tambin comenz la descripcin de
los turistas desde esta caracterstica en estudio. Trabajando con los mismos datos, su actividad
consistir en:
2. El prrafo siguiente resume algunas conclusiones sobre la distribucin por edades de los
habitantes de Misiones, censados en 1991 (Unidad 2 - Actividad N 4).
3. Trabajando sobre el nivel de estudios alcanzado por las madres de los alumnos del curso de
Estadstica (Actividad N 8Unidad 2):
4. Trabajando sobre los salarios de hombres y mujeres analizados en ejercicio 6 Actividad N 10,
Unidad 2:
Complete sus conclusiones acerca de la poltica salarial que lleva a cabo la
empresa, utilizando las medidas que considere pertinente incluir en el anlisis.
182
EVALUACIN PARCIAL -Unidad 3Como actividad de evaluacin de la Unidad anterior, Ud. comenz a analizar y describir -en
trminos de seis variables relevantes- a una muestra de 118 turistas que viajaron por cuenta propia a
las Cataratas del Iguaz, en el mes de febrero de 1994.
183
Actividad N 2
1. Para los haberes de empleados y obreros de la empresa industrial de
la actividad anterior, elabore un breve informe que describa esa
distribucin, utilizando para ello las medidas de tendencia central, posicin
y variacin que considere pertinentes.
2. De acuerdo con lo analizado en el punto 2 de la Actividad 2-Unidad n 3,
sobre el salario promedio de todo el personal de la empresa, indique y
justifique cules seran las medidas de tendencia central y dispersin que
utilizara para describir la variabilidad de los datos y complementar el
anlisis ya realizado.
Actividad N 3
1. El intendente de la ciudad de Leones-Cba., analizando la cantidad de
metros mensuales de bacheo realizados (arreglo de pozos en el asfalto) y
comparndola con la produccin de la ciudad de Bs. As., observ con
satisfaccin que, si bien el promedio mensual era de 80 metros contra
1500 metros en Bs. As., la produccin de esta tarea en su municipio
mostraba una mayor regularidad ( Leones = 30 metros y BA = 200
metros); es realmente ms regular la tarea en el municipio de Leones?
Justifique su respuesta.
2. A partir de la encuesta permanente de hogares se pudo determinar que
en 1998 el ingreso de los hogares de las ciudades de Santiago del Estero
y Jujuy sorprendentemente presentan la misma desviacin mediana.
Bajo qu condiciones se podra asegurar que los ingresos de los hogares
en ambas ciudades son igualmente heterogneos?
185
Actividad N 4
Describa brevemente el nivel de estudios de padres y madres de los
estudiantes de Estadstica, considerando en la descripcin la
heterogeneidad que presentan estos conjuntos de datos.
Estudiantes del curso de Estadstica segn Nivel de estudios del Padre y de la MadreFHyCS-Ao 2001
Nivel de Estudios
del Padre
Ninguno
n de estudiantes
(*)
Nivel de Estudios
de la Madre
Ninguno
n de estudiantes
(**)
Prim. Incompleto
27
Primario Incompleto
33
Prim. Completo
56
Primario Completo
42
Sec. Incompleto
17
Secundario Incompleto
23
Sec. Completo
17
Secundario Completo
14
Terc./Univ. Incomp.
Terc./Univ. Incomp.
Terc./Univ. comp.
Total
133
Total
7
15
136
Actividad N 5
Evale el nivel de asimetra de la distribucin que sigue (ya trabajada en la
Unidad 3), utilizando los coeficientes de asimetra que conoce.
Describa esta caracterstica de los datos y evale a partir de esta
informacin si el promedio obtenido en la unidad anterior es una medida
representativa del conjunto.
Host/Resid
(fi)
0-19
20-39
40-59
60-79
80-99
100-119
120-139
15
32
60
47
23
10
3
190
TOTAL
Actividad N 6
Prctico Complementario
1. Se cuenta con informacin sobre el gasto per cpita diario efectuado el da inmediato anterior a
la entrevista y la cantidad de componentes de los 118 grupos tursticos entrevistados entre
186
quienes visitaron Parque Nacional Iguaz en febrero de 1994. Calculadas algunas medidas de
resumen sobre esta informacin, se obtuvo:
MEDIDA
Mnimo
Mximo
$ 0,00
$ 230,00
$ 51,45
x
Ma
Mo
Q1
Q3
$
$
$
$
$
37,00
39,50
21,71
62,68
47,62
Componentes
1 pers.
8 pers.
3,32 pers.
3
2
2
4
1,60
pers.
pers.
pers.
pers.
pers.
2. En una encuesta realizada por FIEL y la Fac. de Hum. y Cs. Soc. en el ao 1991 se consult a los
habitantes de la ciudad de Posadas sobre su opinin en relacin con medidas que se deban tomar y
calidad del servicio de las empresas del Estado Nacional y Provincial. En relacin con las empresas
provinciales, se pudo observar que las opiniones sobre las medidas a tomar se distribuan en los
distintos niveles socioeconmicos, de la siguiente manera.
Opinin sobre medidas a tomar con empresas provinciales en diferentes niveles
socioeconmicos Pdas. 1991
Opinin sobre
medidas a tomar
Vender totalmente
Vender parcialmente
Mejorarlas
No vender
Otra medida
Sin opinin
Total
NES BAJO
11
15
100
7
0
12
145
NES MEDIO
21
40
190
9
6
13
279
NES ALTO
15
30
43
4
5
3
100
187
EVALUACIN PARCIAL -Unidad 4En la Unidad 2, hemos trabajado las distribuciones del plantel de empleados de una empresa de
servicios, discriminados por sexo segn sus salarios mensuales en mayo de 1996. El propsito era
analizar si la empresa tiene una poltica salarial diferencial por sexo.
Distribucin de los salarios mensuales de empleados de una empresa de servicios,
discriminados por sexo. Mayo de 1996
HOMBRES
Ingreso ($)
300 450
MUJERES
Empleados
2
Ingreso ($)
300 450
450 600
39
600 750
126
600 750
32
750 900
26
750 900
11
900 1050
900 1050
20
1050 1200
1050 1200
TOTAL
450 600
Empleados
55
221
TOTAL
116
1
216
188
Actividad N 1
Cada una de las preguntas siguientes plantea la necesidad de un anlisis bivariado.
Para cada una de ellas, identifique:
a) las variables que intervienen y su tipo;
b) la naturaleza de la relacin que puede suponerse entre esas variables.
Actividad N 2
Al finalizar un curso de especializacin para abogados, se pide a los participantes su opinin sobre
la calidad del mismo. El propsito es conocer si hay alguna relacin entre la opinin y la especialidad
del participante. Se presenta la matriz de datos y la especialidad de cada participante.
189
Opinin
Especialidad
Bueno
Malo
Bueno
Bueno
Malo
Bueno
Bueno
Bueno
Regular
Regular
Bueno
Regular
Bueno
Bueno
Regular
Regular
Bueno
Malo
Bueno
Bueno
Bueno
Malo
Regular
Malo
Malo
Bueno
Bueno
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Civil y Comercial
Laboral
Civil y Comercial
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Laboral
Laboral
Laboral
Civil y Comercial
Laboral
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Civil y Comercial
Laboral
Civil y Comercial
Actividad N 3
En la tabla siguiente se presentan los datos de la poblacin urbana y rural de la Argentina en 1914,
por grandes regiones geogrficas.
Poblacin urbana y rural de la Argentina por regiones. Ao 1914 (en miles)
REGIONES
Urbana
Rural
3604
2200
5804
Cuyana
145
368
513
Nordeste
135
331
466
Noroeste
260
735
995
12
94
106
4156
3728
7884
Pampeana
Patagnica
Total
Total
190
Actividad N 4
Basndose en la Tabla anterior, calcule los porcentajes en columna y compare
la distribucin por Regiones de cada tipo de asentamiento (urbano y rural).
Describa esa comparacin.
Actividad N 5
A. La siguiente tabla muestra la clasificacin de todos los empleados de una empresa de transportes
segn edad y categora de empleo. Los datos fueron relevados por la empresa en 1998.
Distribucin de los empleados segn edad y categora de empleo - 1998
Categora de Empleo
Grupos de Edad
Pers. Ejecutivo
Administrativos
Obreros
Total
Menos de 40 aos
28
160
193
40 aos o ms
14
40
67
121
Total
42
45
227
314
Pobre
No Pobre
Total
9.058.454
14.906.587
23.965.041
Resto Pas
5.581.978
6.480.022
12.062.000
14.640.432
21.386.609
36.027.041
Total
Actividad N 6
Actividad N 7
A. Segn la Encuesta de Desarrollo Social realizada por la Secretara de Desarrollo de la Nacin, los
Ingresos medios y el nmero de personas promedio del hogar en 1997, registraban por regiones
los siguientes valores.
Total
Pas
Cuyo
1136,7
992,2
3,7
4,1
Promedio de pers./hogar
Gran
Bs. As.
NEA
NOA
Pampeana Patagnica
1377,1
815,6
915,6
949,9
1190,9
3,5
4,3
4,6
3,5
3,9
Sobre la base de los datos aportados escriba sus conclusiones en relacin con el
ingreso y las personas por hogar en las distintas regiones del pas.
B. El gerente de personal de una empresa del sector alimentacin debe exponer, ante el nuevo
directorio, la poltica salarial que la empresa ha llevado hasta el momento en materia de
remuneraciones. Para fundamentar su exposicin cuenta con los datos que se presentan a
continuacin.
Caracterizacin de la distribucin del salario mensual segn categoras de empleo2002
n
Categora de Empleo
Obreros y Pers. Seguridad
Media(*)
Mediana (*)
Desv.
CV (%)
Estndar (*)
390
315
1600
561,1
540,0
147,3
26,3
Administrativos
73
688
2075
1232,2
1187,5
324,4
26,3
Directores y Gerentes
11
1163
2700
1593,9
1385,0
471,7
29,6
(*)
En ($)
471
460
432
454
Salario
2000
271
142
1000
29
116
197
123
163
156
117
173
190
140
316
0
N=
390
73
11
Categoras de Empleo
192
Entre grupos
36.929.198
Intra grupos
18.237.400
Total
55.166.598
Actividad N 8
Segn datos del Censo Nac. de Poblacin y Vivienda 1991, en las provincias del pas se
registraban las siguientes tasas de analfabetismo y mortalidad infantil.
PROVINCIA
ANALFAB.
MORT. INF.
PROVINCIA
ANALFAB
MORT. INF.
0,69
12,20
Mendoza
4,56
16,70
Buenos Aires
2,35
18,80
Misiones
8,30
21,30
Catamarca
4,52
25,60
Neuqun
5,33
13,80
Crdoba
3,18
16,30
Ro Negro
5,60
15,50
Corrientes
9,34
22,80
Salta
6,72
20,50
Chaco
11,31
28,20
San Juan
4,25
21,50
Chubut
4,47
19,10
San Luis
4,31
19,90
Entre Ros
4,92
19,60
Santa Cruz
2,19
16,00
Formosa
8,18
29,80
Santa Fe
3,66
16,30
Jujuy
6,68
24,00
8,64
16,60
La Pampa
4,03
12,10
1,10
11,20
4,01
19,30
Tucumn
4,96
19,60
La Rioja
Actividad N 9
Analizando el diagrama de dispersin anterior describa el tipo de relacin
observada.
Actividad N 10
Debido a la sobreoferta de yerba mate, la Cmara de Molineros est interesada en expandir el
consumo de este producto en pases en que es poco conocido. A tal fin realiza un estudio para el ao
1998 sobre empresas que exportan yerba mate, observando las variables inversin en publicidad
(en miles de $) e ingresos por ventas (expresadas en millones de pesos), con el objetivo de
analizar la relacin entre las mismas. Los datos sobre las 25 empresas observadas son:
193
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Inv. en Pub.
(miles de $)
250
310
320
125
80
150
270
90
260
300
130
200
60
100
230
340
300
290
70
220
280
340
160
180
120
Diagrama de Dispersin
Ingreso por Ventas (millones de $)
Empresa
35
30
25
20
15
10
5
0
0
100
200
300
400
Actividad N 11
En el anlisis de los gastos en publicidad e ingresos por ventas, los clculos de los coeficientes de
correlacin y de determinacin, arrojaron los siguientes resultados:
R2= 0,774
r= 0,88
Interpretar los valores de r y R2
194
Actividad N 12
Prctico Complementario
1. Para cada una de las preguntas de la Actividad n 1, indique cul es la herramienta de anlisis
bivariado que utilizara (Anlisis de Tablas de Contingencia, Diferencia de medias, Anlisis de
correlacin).
2. Sobre una muestra de 180 agentes de la administracin pblica provincial, se analiz la distribucin
por sexo y niveles de ingreso, obtenindose los datos que se presentan a continuacin.
Distribucin de agentes pblicos segn sexo y nivel de ingreso (*)
Nivel de Ingreso
Sexo
Bajo
Medio
Alto
Total
Varn
26
60
21
107
Mujer
25
36
12
73
Total
51
96
33
180
(*)
3.
a. Si el coeficiente de correlacin r de Pearson entre dos variables es r=0 se puede asegurar que no
existe relacin entre ellas.
b. El coeficiente r de Pearson permite determinar la existencia de relacin entre cualquier par de
variables.
c.
5. En un estudio sobre presentismo escolar realizado en una escuela rural del interior de la provincia,
se recogieron los siguientes datos de una muestra de 15 alumnos:
195
Alumno
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Distancia (1)
(Km)
Asistencia (2)
(%)
0,8
5,3
2,3
3,8
4,0
4,2
3,3
6,1
0,9
1,2
2,5
1,1
7,3
1,8
1,9
83,4
50,8
73,4
75,6
67,0
76,9
75,1
40,3
88,2
61,8
76,5
79,6
45,3
88,3
75,7
Diagrama de dispersin
90
80
70
60
50
40
30
20
10
0
0
D istancia (Km )
b= - 6,0
R = 66,3%
r= - 0,81
EVALUACIN PARCIAL -Unidad 51. En la matriz que se adjunta, se presentan los datos de una muestra de 28 empleados calificados,
con el fin de analizar la posible asociacin entre los aos de educacin formal aprobados y el
salario mensual que perciben. A partir de esos datos:
b= 35,2
r= 0,88
R = 0,77
196
Matriz de datos
Empleado
Aos de Educacin
Formal
Sueldo Inicial
($)
408
408
420
440
488
10
517
10
480
11
520
11
450
10
11
510
11
12
508
12
12
480
13
12
540
14
12
580
15
13
450
16
13
580
17
13
564
18
13
570
19
14
510
20
14
570
21
14
600
22
15
720
23
15
680
24
16
630
25
17
810
26
17
770
27
18
680
28
18
850
2. En un estudio dirigido a los ingresantes de la UNaM, se pregunt a los estudiantes sobre el lugar
donde recibi charlas de orientacin vocacional y el tipo de colegio del cual egresaron. A
continuacin se presentan los resultados de clasificar a los alumnos en forma bivariada segn sus
respuestas en ambas preguntas. Los datos corresponden al ao 1995.
Distribucin de los Estudiantes segn Lugar donde recibi orientacin vocacional y
Tipo de colegio- UNaM - 1995
Lugar donde recibi orientacin vocacional
Tipo de Colegio
No recibi
Colegio
Familia
Otro lugar
Total
Pblica
907
2082
219
465
3673
Privada
158
927
30
74
1189
1065
3009
249
539
4862
Total
197
198
U$S/kg
Exportaciones de T
Tn.
U$S/kg
Exportaciones de Tung
Tn. de Aceite
U$S/kg
1990
4.266
0,835
42.584
0,77
8.550,00
0,743
1991
9.022
1,073
34.658
0,77
8.522,00
1,019
1992
13.491
1,025
34.809
0,78
5.883,00
1,719
1993
15.689
1,065
41.872
0,88
2.497,00
1,904
1994
15.667
0,943
41.188
0,87
2.415,00
1,013
1995
37.488
0,802
40.466
0,77
3.519,00
0,918
1996
39.499
0,714
39.069
0,75
2.427,00
1,073
1997
33.277
0,677
41.465
0,77
3.978,90
1,681
1998
34.916
0,663
57.738
0,93
2.204,00
1,340
1999
30.269
0,640
51.090
0,75
1.424,00
0,944
2000
36.528
0,561
49.240
0,76
1.840,99
0,800
Fuente: Direccin General de Economa Agraria. Ministerio de Asuntos Agrarios. Provincia de Misiones. 2002.
Primera Parte
a- Tomando como perodo base al ao 1994 (1994=100), calcular el ndice relativo
simple (Rs) de la cantidad y el precio de exportacin de la yerba mate, para todos
los perodos de la serie.
b- Interpretando los resultados que obtuvo en el punto anterior deber decidir si
cada una de las siguientes afirmaciones es verdadera o falsa. En cada caso
tendr que justificar tericamente su respuesta y, si la calific como falsa, tendr
que redactar la interpretacin correcta.
1. El ao 1990 registra la menor cantidad exportada de la serie en estudio
siendo el ndice relativo simple Rs90/94 = 27,2%, lo que significa una merma
para ese ao del 72,8% con respecto al volumen exportado en 1994.
2. A su vez, 1999 es el ao en el cual Misiones export la mayor cantidad de
yerba mate en todo el perodo bajo anlisis, siendo Rs99/94 = 252,1%, lo que
indica un aumento del 252,1% con respecto a la cantidad exportada en 1994.
3. A partir de 1995 el precio de exportacin de la yerba mate decrece
199
Segunda Parte
a- Calcular el ndice relativo simple en eslabn (Re) de la cantidad y el precio de
exportacin de la yerba mate, para todos los perodos de la serie en estudio.
b- Confirmar que:
1. Entre 1992 y 1993 se registra la mayor cada en la cantidad exportada de
tung ya que Re93/92 = 42,4%, lo que significa una disminucin del 57,6% de
un ao a otro.
2. El mayor incremento interanual del precio de exportacin del tung se
registra en 1992, con un crecimiento relativo del 68,7% con respecto al
precio anterior, siendo:
Re92/91 = 42,4%
c- Utilizando los ndices en eslabn calculados al comienzo, calcular el ndice relativo
simple en cadena (Rc) para los aos 1999 y 2000, tomando como base a 1996.
Interpretar los resultados que obtenga.
d- Realizar el clculo de los ndices relativos en eslabn (Re) para los datos de
exportaciones de t (cantidad y precio) y elaborar un breve informe con sus
conclusiones.
Actividad N 2
Supongamos por un momento que nos hemos propuesto estudiar la evolucin de los precios en los
primeros seis meses del ao 2002 (enero-junio), de cinco artculos de consumo inevitable y
permanente en nuestro hogar (los simbolizaremos con A, B, C, D y E)4. A los fines del trabajo hemos
recurrido a nuestros registros contables hogareos, de los cuales pudimos extraer los siguientes datos
de las cantidades mensuales adquiridas y de los precios mensuales promedio pagados, para cada uno
de los bienes y servicios que nos ocupan y en cada uno de los meses del perodo en cuestin.
Cantidades Mensuales Compradas y Precios Mensuales Promedio Pagados por Cinco
Artculos de Consumo Familiar . Perodo Enero/junio de 2002.
A
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Precio
($/Kg.)
4,80
5,70
7,20
7,80
8,10
6,40
Cant.
(Kg.)
27
23
20
20
19
23
Precio
Cant.
($/unid.) (unidad)
0,50
118
0,55
118
0,72
156
0,72
155
0.81
156
0,81
154
C
Precio
($/Kg.)
0,85
1,50
1,80
2,80
2,20
2,00
Cant.
(Kg.)
13
12
14
13
14
14
D
Precio
($/litro.)
1,10
1,80
2,20
2,40
2,20
1,85
Cant.
(litros)
33
33
33
32
34
35
Precio
Cant.
($/unid.) (unidad)
63,00
2
79,20
2
91,60
2
108,45
2
108,45
2
97,10
2
Segunda Parte
a- Es correcta la siguiente expresin para calcular el ndice de precios de agregado
no ponderado (IP) para el mes de abril con base en el mes de enero?:
p
5
IPAb/En =
i4
100 =
7, 80 + 0, 72 + 2, 8 + 2, 40 +108, 45
4, 80 + 0,50 + 0, 85 +1,10 + 63, 00
100 =
122,17
70, 25
100 = 173, 9%
i0
En consecuencia, es correcto sealar que comprar en abril una unidad (Kg., Lt.,
4
Imagine bienes y servicios de consumo indispensable en los hogares, como ser: leche en envase de un litro, boleto del
transporte colectivo, Kwh de luz, kilogramos de determinado corte de carne, cantidad de unidades de cierto elemento que los
nios utilizan en la escuela, etc, etc.
200
Segunda Parte
a- Es correcta la siguiente expresin para calcular el ndice de precios del promedio
de relativos no ponderado (IP), para el mes de marzo con base en el mes de
enero (enero=100)?.
p
5
IPMar/En =
=
pi4
i0
7, 20
100 =
4, 80
0, 72
0,50
1, 80
0, 85
2, 20
1,10
91, 60
63, 00
100 =
8,51
5
100 =
100 = 170, 2%
Actividad N 3
Imaginemos ahora a una gran empresa mayorista de viajes y turismo (EVYT) que comercializa
diferentes productos tursticos (paquetes) de diversos destinos del Pas y del exterior. El problema
consiste en analizar la evolucin de las ventas (cantidad comercializada y precios pagados por los
clientes) de los cuatro productos de mayor demanda en la temporada alta de verano (enero y
febrero), en el quinquenio 1999-2003. Para realizar este cometido contamos con los datos de la Tabla
siguiente:
Evolucin de las Ventas (cantidades comercializadas y precios promedio pagados) de Cuatro
Productos Tursticos Lderes de la Temporada Alta de Verano. Perodo 1999-2003.
A
Ao
1999
2000
2001
2002
2003
Precio
($/unid.)
450
433
460
583
505
Cant.
(unidad)
1.610
1.177
1.222
854
1.056
B
Precio
($/unid.)
681
748
725
1.328
1.362
Cant.
(unidad)
521
1.011
1.230
583
474
201
Precio
($/unid.)
166,00
188,30
167,70
187,80
291,10
D
Cant.
(unidad)
1.168
1.073
1.158
725
1.443
Precio
($/unid.)
3.602
3.579
2.958
6.140
11.771
Cant.
(unidad)
350
386
460
233
271
Primera Parte
a- Tomando al ao 2001 como base de comparacin (2001=100), son correctas las
pi1qi0
4
pi0qi0
L
IP99/01
=
1
4
100 =
4501.222+6811.230+1661.158+3.602460
100 =
4601.222+7251.230+167,701.158+2.958460
3.236.678
100 =1,0757100 =107,6%
3.008.746,6
pi5 qi0
4
L
IP03/01
=
pi0 qi0
1
4
100 =
8.044.128,80
100 = 2,673100 = 267,3%
=
3.008.746,60
b- A la luz de los resultados anteriores, es correcto afirmar que:
1. los precios de los cuatro artculos en el ao 1999 fueron, en conjunto o en
L
promedio, un 7,6% superiores a los del ao 2001 ya que IP99/01
=107,6% ?,
2. y que, por su parte, la variacin conjunta de los precios del 2003, comparada
IPL
(2001=100)
Ao
99
97,8
93,9
98,9
121,8
107,6
100,0
100,0
100,0
100,0
100,0
109,8
187,9
173,6
397,9
167,3
00
01
02
03
202
Segunda Parte
a- Recordar que el ndice de cantidad de Laspeyres IQL (de agregado), para el ao
2003 con base 2001=100, se obtiene de:
q p
4
i5
q p
i0
IQ03/01 =
100 =
i0
100 =
i0
1.872.939,1
3.008.746, 6
Que, en consecuencia, IQ L03/01 = 62,2% expresa que las cantidades de los cuatro
productos lderes de nuestra AVYT, comercializadas en el verano del 2003,
fueron (en conjunto o promedio) un 37,8% menores que en el 2001.
b- Completar el clculo de IQL de agregado para los restantes perodos de la serie y
analizar la evolucin conjunta del volumen de ventas en todo el quinquenio.
Le sugerimos que en su anlisis contraste las variaciones del IQL con las
variaciones del IPL calculado en el problema anterior.
Tercera Parte
a- Corroborar que el ndice de precios de agregado de Paasche -IPP-, para el ao 2000
con base 2001=100, se obtiene haciendo:
p q
4
i2
IP00/01 =
i2
p q
1
i0
100 =
100 =
i2
2.849.408, 9
2.596.125,1
P
= 109,8% :
Es correcto afirmar que, siendo IP00/01
los precios del ao 2000 fueron (en conjunto o promedio) un 9,8% superiores
que los del 2001?,
esta variacin en los precios se explica porque las cantidades comercializadas
en el 2000 valorizadas a los precios vigentes en ese ao, suman un valor de
$2.849.408,9; mientras que esas mismas cantidades pero a los precios del
2001, alcanzan el valor total de $2.596.125.1?
b- Completar el clculo del IPP con base 2001=100 para todos los perodos de la serie.
c- Comparar los resultados obtenidos por este ndice con los valores del IPL calculados
en el problema anterior.
d- Considerando que ambos ndices son diferentes mtodos para medir el mismo
fenmeno: la variacin conjunta o promedio de los precios de los cuatro artculos
lderes de nuestra AVYT, con referencia a un mismo perodo base:
1. A qu razn atribuye Ud. el hecho de que los valores de IPL e IPP en general
son diferentes para perodos idnticos?
2. Qu argumentos tericos y prcticos considerara Ud. para decidirse a utilizar
uno u otro mtodo en un problema como el que nos ocupa?
203
Cuarta Parte
a- Los ndices de cantidad de Laspeyres y Paasche (de agregado) para el ao 2003
con base 2001=100, son los siguientes:
qi5pi0
4
qi0pi0
IQL03/01 =
1
4
100 =
2.849.408,9
100 = 0,623100 = 62,3%
=
3.008746,6
qi5pi5
4
IQP03/01 =
qi0pi5
1
4
100 =
4.788.866,3
100 = 0,595100 = 59,5%
=
8.044.123,8
Completar el clculo de ambos ndices para toda la serie.
b- Con estos resultados analizar la evolucin de las cantidades comercializadas por
nuestra AVYT durante el quinquenio que nos ocupa; y relacionar el
comportamiento de estos ndices con los respectivos ndices de precios (IPL e IPP)
calculados en los dos problemas anteriores.
Actividad N 4
Con esta actividad retomaremos el anlisis de los datos sobre las exportaciones misioneras de yerba
mate, t y tung con los que hemos trabajado en la Actividad N 1. Ahora, con los ndices Rs de
precio y de cantidad que Ud. calcul con base 1990=100 (consigna c), ejercitaremos el clculo e
interpretacin de los ndices ponderados del promedio de relativos de Laspeyres y Paasche.
pi5
IP94/90 =
pi0 qi0
p q
i0
i0
100 =
i0
qi5
IQ 94/90 =
qi0pi0
i0
= 116,5%
100 =
204
= 109, 2%
p q
i0
i5
qi5
IQ 94/90 =
= 113, 9%
pi0 qi5
pi0 qi5
i0
100
= 106, 7%
c- Completar el clculo de estos mismos ndices (IPL, IQL, IPP e IQP; todos con base
1990=100) para los aos 1992, 1997 y 2000. Dar su interpretacin de los
resultados.
Actividad N 5
ndice de Precios Internos al por Mayor (IPIM). Misiones, 1990/2000.
Ao
1990
43,04
1991
90,59
1992
96,02
1993
100,00
1994
99,81
1995
106,27
1996
109,63
1997
109,75
1998
106,22
1999
102,19
2000
106,27
205
Aos
Toneladas
Mandarina
$/Tn
Toneladas
Naranja
$/Tn
Toneladas
Pomelo
$/Tn
Toneladas
$/Tn
1994
28587,5
480,8
81677,5
468,3
119579,2
383,3
20570,7
470,0
1995
30360,1
375,8
88887,7
433,3
123022,5
396,7
23701,7
465,0
1996
31374,6
361,7
80093,3
352,5
110780,0
354,2
24824,9
441,7
1997
29057,8
356,7
85615,6
513,3
106777,6
362,5
23151,6
400,8
1998
34455,5
311,7
86752,5
373,3
119056,4
333,3
26286,2
411,7
1999
36513,0
283,3
82684,1
407,5
105257,8
372,5
24904,1
392,5
2000
34676,2
295,8
74643,3
334,2
102556,2
442,5
22758,8
444,2
206
Bibliografa General
ALAMINOS, A. (1993): Grficos. Coleccin Cuadernos Metodolgicos, n 7. Centro de
Investigaciones Sociolgicas, Madrid.
ANDERSON, D.; SWEENEY, J. D.; WILLIAMS, T. (1999): Estadstica para Administracin y
Economa. International Thomson ed., Mxico.
BARBANCHO, A. (1978): Estadstica Elemental Moderna. Ed. Ariel, Barcelona, Espaa.
BLALOCK, H. M (1986): Estadstica Social, Mxico, FCE.
BLANCH, N.; JOEKES, S. (1993): Estadstica aplicada a la Investigacin. Curso a distancia. Fac. de
Cs. Econmicas, Universidad Nacional de Crdoba, Argentina.
CHOU, Ya-Lun (1977): Anlisis Estadstico. Ed. Interamericana, Mxico.
COLL, S.; GUIJARRO, M. (1998): Estadstica aplicada a la historia y a las Ciencias Sociales. Edic.
Pirmide, Madrid.
CRIVISQUI, E. (1993): Anlisis Factorial de Correspondencias: un instrumento de investigacin en
ciencias sociales. Laboratorio de Informtica Social, Universidad Catlica de Asuncin, Paraguay.
DANIEL, W. (1985): Estadstica con aplicacin a las ciencias sociales y a la educacin. McGraw-Hill,
Mxico.
GMEZ de AZEVEDO, A.; BORGES de CAMPOS, P. H. (1981): Estadstica Bsica: Cursos de Cincias
Humanas e de Educaao. Livros Tcnicos e Cientficos Editora S.A., Rio de Janeiro.
MOOD, A. M. (1965): Introduccin a la Teora de la Estadstica. Aguilar, Madrid (3ra. Edicin).
MOORE, D. (1998): Estadstica aplicada bsica. Antonio Bosch ed., Barcelona (1ra. Ed. 1995).
PILCHER, Donald M. (1990): Data Analysis for the Helping Professions: A Practical Guide, Sage
Publications, California, USA.
SHAO, S. (1967): Estadstica Para Economistas y Administradores de Empresas. Herrero Hermanos
S.A., Mxico.