You are on page 1of 203

ESTADSTICA APLICADA

EN LAS CIENCIAS SOCIALES


Y HUMANAS

ESTADSTICA I

Csar N. AGUIRRE M. Fernanda NIO Eduardo F. SIMONETTI

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

EDITORIAL UNIVERSITARIA DE MISIONES

San Luis 1870


Posadas - Misiones Tel-Fax: (03752) 428601
Correos electrnicos:
edunam-admini@arnet.com.ar
edunam-direccion@arnet.com.ar
edunam-produccion@arnet.com.ar
edunam-ventas@arnet.com.ar
Coleccin: Cuadernos de Ctedra
Coordinacin de la edicin: Nicols Capaccio
Tapa: Francisco Snchez
Compaginacin y armado de interiores: Amelia E. Morgenstern
Correccin: Hedda Giraudo - Amelia E. Morgenstern
ISBN 987-9121-98-8
1 reimpresin
Impreso en Argentina
Editorial Universitaria
Universidad Nacional de Misiones
Posadas, 2005

Aguirre, Csar
Estadstica aplicada en las ciencias sociales y humanas / Csar Aguirre; M. Fernanda Nio y
Eduardo F. Simonetti; coordinado por Rodolfo Nicols Capaccio - 1a ed. 1a reimp. - Posadas:
Univ. Nacional de Misiones-Editorial Universitaria, 2005.
240 p.; 30x21 cm. (Cuadernos de Ctedra)
ISBN 987-9121-98-8
1. Sociologa I. Nio, M. Fernanda, II. Simonetti, Eduardo F., III. Rodolfo Nicols Capaccio,
coord. IV. Ttulo
CDD 301.

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

PRESENTACIN
POR QU SABER DE ESTADSTICA?
La Estadstica ha ganado reconocimiento como disciplina importante en la formacin profesional
universitaria de diferentes campos del conocimiento. Sus aportes a esta formacin ocurren en dos
niveles: el primero como disciplina contributiva a la preparacin cientfica de los estudiantes,
proporcionando los conocimientos indispensables e irremplazables en la produccin, tratamiento y
anlisis de datos cuantitativos. El segundo nivel se manifiesta en el plano de la formacin general
de los individuos que deben desenvolverse en el mundo actual, intensamente conectado por las
modernas telecomunicaciones, y cada vez ms interdependiente en lo econmico y social. En este

nuevo mundo es importante ser capaz de orientarse en la red de informacin disponible, mucha de
la cual es cuantitativa. El ciudadano debe moverse entre masas de datos cuantitativos que muchas
veces son contradictorios y requieren de un mnimo de conciencia sobre la forma en que tales
datos se recogen, organizan, analizan e interpretan. Como resultado se precisan nuevas
habilidades1.
El ciudadano medio de hoy necesita reunir conocimientos que le sirvan para decodificar la
cuantiosa informacin que recibe por diferentes medios, que le permitan juzgar la calidad de esa
informacin, que le sean tiles para comprender ideas expresadas por otros y formar las propias,
que le sirvan para construir y comunicar su propia informacin.
La Estadstica es la disciplina que aporta los recursos culturales y prcticos que el ciudadano
necesita para desenvolverse en la nueva sociedad de la informacin, y la enseanza de la disciplina
tiene el fin de generar y difundir una cultura estadstica dirigida a dotar al ciudadano comn de
tales recursos y habilidades.
OBJETIVOS GENERALES
El curso de estadstica aplicada tiene el propsito de promover la formacin de usuarios
competentes de esta disciplina y sus herramientas. Usuarios con habilidades que le permitan
vincular los conocimientos estadsticos con la solucin de problemas de su campo disciplinar o
profesional especfico.
Es decir, se trata de desarrollar en los alumnos la capacidad de abordar y resolver, desde la
Estadstica, problemas de produccin de informacin con fines cientficos o de tomar
decisiones.
Los objetivos generales derivados de este propsito de formacin, son:
1. Promover en los alumnos el desarrollo de habilidades intelectuales del pensamientorazonamiento estadstico. Ello supone abordar la solucin de un problema de trabajo desde los
siguientes elementos bsicos:
la necesidad de datos para alcanzar una correcta comprensin del fenmeno o problema
en estudio (impulso estadstico);
la idea de la transnumeracin, entendida como la habilidad de construir y producir datos
como representaciones de aspectos de un sistema real para lograr una mejor comprensin
de dicho sistema (datos que capturan informacin significativa sobre elementos del
sistema);
la necesidad de la observacin masiva (cantidad numerosa de datos: datos estadsticos)
como fundamento del anlisis estadstico de los fenmenos;
la presencia de la variacin en los datos (y en los fenmenos que ellos representan) y el
error e incertidumbre como consecuencia de ella;

OTTAVIANI, M. G. (1999): Notas sobre los Desarrollos y Perspectivas en Educacin Estadstica. International Association
for Statistical Education -IASE-.

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

la necesidad del resumen, descripcin y modelizacin de la variacin.

2. Capacidad para formalizar un problema de trabajo o investigacin en trminos (preguntas)


estadsticos.
3. Capacitar para la construccin y obtencin de los datos que requiere la solucin de un
problema.
4. Conocer herramientas estadsticas para el tratamiento y anlisis de datos y comprender sus
fundamentos lgicos, limitaciones, propiedades, etc.
5. Manejar la tecnologa auxiliar disponible para la aplicacin de las herramientas estadsticas.
6. Integrar apropiadamente diferentes herramientas estadsticas en el anlisis de un problema
(estrategia de abordaje estadstico del problema).
7. Interpretar los resultados estadsticos en el contexto del problema de estudio y comunicar los
hallazgos o respuestas a las preguntas iniciales (informacin-comunicacin).
ENFOQUE DEL CURSO
Tratndose de un Curso de Estadstica para no estadsticos y considerando los objetivos
generales citados anteriormente, la estrategia pedaggica a seguir enfatizar la comprensin
conceptual de los contenidos a desarrollar. Es decir, se privilegiar la conceptualizacin de la
Estadstica, por sobre la demostracin y el tratamiento matemtico de sus conocimientos.
Tambin se pondr mucho nfasis en vincular los conceptos y herramientas con la
solucin de problemas reales de investigacin o de decisiones. De ah que el clculo
estadstico no constituye una actividad central del curso y se realizar nicamente- con
propsitos pedaggicos.
En este primer nivel del Curso de Estadstica se presentarn con la mayor profundizacin
posible, temas relativos a un anlisis descriptivo de los datos (Estadstica Descriptiva). En esta
pretensin, resulta bsico e insoslayable el abordaje de los siguientes tpicos:
La Investigacin Estadstica (Unidad 1)
Organizacin y Descripcin Inicial de los Datos (Unidad 2)
Los valores que Caracterizan al Conjunto de Datos (Unidad 3)
Anlisis de la Variacin y Asimetra (Unidad 4)
Estudio de la Relacin entre Variables (Unidad 5)
Los Nmeros ndices (Unidad 6)
Este Curso de Estadstica ha sido pensado como una propuesta no presencial de formacin.
Por ello, los contenidos y las actividades han sido organizados y producidos de tal manera que el
trabajo pueda auto-administrarse sin grandes dificultades.
El presente material incluye, para cada unidad, lo que se dio en llamar Notas de Ctedra,
en las que se desarrollan los conceptos tericos centrales, orientando el aprendizaje 2.
Adems, las Notas de Ctedra remiten peridicamente a las Guas de actividades, en las que
se proponen consignas de trabajo (tericas y/o prcticas) que facilitan la comprensin de los
conceptos tratados y le plantean situaciones concretas de anlisis de datos que favorecen el
desarrollo de las habilidades necesarias para el tratamiento de datos y la produccin de
informacin.
Al final de las Guas de Actividades se presenta un propuesta de trabajo denominada
Evaluacin Parcial de la Unidad..... Se trata de una actividad de sntesis de los
conocimientos tericos y prcticos desarrollados en la unidad, mediante la cual se podrn evaluar
los avances en sus conocimientos.

En cada unidad, se recomienda bibliografa complementaria.

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

ORIENTACIONES PARA EL USO DEL MATERIAL


El material incluye seales que intentan orientar la lectura y subrayar aquellas cuestiones en las
que se debe poner especial atencin. Tambin ofrece esquemas y grficos que sintetizan un
conjunto de conceptos y las relaciones que se pueden establecer entre ellos.
Adems de los recursos utilizados tradicionalmente para destacar algn aspecto parcial de la
presentacin (uso de negritas y/o cursivas), en las Notas de Ctedra se han utilizado un conjunto
de conos que sealan partes diferentes -en cuanto a su naturaleza- del desarrollo terico. As,
aparecern:

"
1

En general, los temas se presentan a partir de situaciones que ponen en evidencia


la necesidad de nuevas herramientas de anlisis. Estas situaciones se traducen en
preguntas de investigacin y estadsticas, las que requieren el uso de
herramientas especficas para encontrar una respuesta. El icono seala el carcter
de planteo general del texto.

Destaca en el texto los conceptos y definiciones.

Indica el desarrollo de un ejemplo donde se utilizan los conceptos presentados.

Enfatiza lo importante de algunas cuestiones consideradas en el desarrollo del


tema.

Seala la parte del texto donde se realiza la interpretacin de los resultados


estadsticos obtenidos.

Advierte sobre la necesidad de hacer un alto en la lectura y realizar la


actividad que se indica.

Seala las consignas de trabajo a realizar, en las Guas de Actividades de


cada unidad.

En todas las unidades se han incluido esquemas de los contenidos tratados,


una sntesis de lo visto, una enumeracin de los conceptos centrales y las
habilidades que se pretendieron transmitir. El propsito de incluir estos recursos
es brindarle una mirada global sobre la unidad y simultneamente destacar
las ideas centrales que la estructuran, as como las habilidades que se
asocian a esas ideas en la prctica. Consecuentemente, le recomendamos especial
atencin a estas diferentes formas de sntesis de cada unidad, ya que constituyen
otra forma de aproximacin a los conceptos desarrollados y le permitirn
reorientar una segunda lectura del material.

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Los Autores:
AGUIRRE, Csar Norberto
Estadstico (Universidad Nacional de Rosario -Argentina-), postgrado en Estadstica y
Cuentas Nacionales (Instituto de Estudios Sociales de La Haya -Holanda-), Especializacin en
Administracin Estratgica Universitaria (Universidad de Quebec -Canad-), Especializacin
en Administracin Estratgica de Negocios (Universidad Nacional de Misiones).
Profesor Regular Titular de Estadstica (Facultad de Humanidades y Ciencias Sociales UNaM-), Profesor Titular de Estadstica (Maestra de Gestin Pblica -UNaM-), ex Docente
de Cursos de Postgrado en Anlisis Exploratorio de Datos (Programa PRESTA, Universidad
Libre de Bruselas-Unin Europea).
NIO, Mara Fernanda
Profesora de Matemtica, Fsica y Cosmografa, Inst. Sup. del Profesorado "Pbro. Dr. Antonio
Saenz. Maestra en Docencia Universitaria, Fac. de Ingeniera-Univ. Nac. Misiones (etapa
elaboracin de tesis).
Ayudante de Primera (Regular) de Estadstica (Fac. de Humanidades y Ciencias Sociales de la
UNaM). Ex docente de Cursos de Posgrado de Mtodos Estadsticos Multivariados Aplicados
a las Ciencias Humanas Y Sociales, del Programa PRESTA (Univ. Libre de Bruselas),
auspiciado por la Unin Europea. Docente en el Curso de Estadstica Aplicada, (Maestra en
Gestin Pblica de la Facultad de Ciencias Econmicas-UNaM). Ex docente tutor del
Seminario Metodologa y Tcnicas de la Investigacin Social (Maestra en Gerencia y
Administracin de Proyectos Sociales -UNaM-)
SIMONETTI, Eduardo Francisco
Estadstico (Universidad Nacional de Rosario -Argentina-), Master en Desarrollo Econmico
para Amrica Latina, Universidad Internacional de Andaluca Sede Iberoamericana de La
Rbida (Espaa).
Profesor Titular Regular de Indicadores Socioeconmicos, (Facultad de Humanidades y
Ciencias Sociales de la UNaM). Docente en el Curso de Estadstica Aplicada, (Maestra en
Gestin Pblica de la Facultad de Ciencias Econmicas-UNaM). Docente del Seminario
Sistemas de Informacin y Herramientas Informticas para la Gestin de Programas
Sociales (Maestra en Gerencia y Administracin de Proyectos Sociales -UNaM-).

ndice

NDICE
Unidad 1: La Investigacin Estadstica
Pgina
1. Introduccin ........................................................................................................... 11
2. Intentando Definir la Estadstica........................................................................... 11
3. Problema de Trabajo e Investigacin Estadstica ................................................. 12
3.1. Las Preguntas de Investigacin ............................................................................ 13
3.2. Las Preguntas estadsticas ................................................................................... 13
4. Los Datos ................................................................................................................ 13
5. Las Variables .......................................................................................................... 15
6. Conjunto de Datos: Datos Estadsticos ................................................................. 17
7. Fuentes de Datos ................................................................................................... 18
8. Investigacin por Censo y por Muestra................................................................. 19
9. Qu Hemos Visto? ................................................................................................ 20
Esquema-La Estadstica en el Proceso de Investigacin .......................................... 21
Esquema Estructura del Curso Estadstica Descriptiva....................................... 22
Bibliografa ................................................................................................................. 23

Unidad 2: Organizacin y Descripcin Inicial de los Datos


1. Los Datos y la Informacin .................................................................................. 25
2. La Primera Organizacin de los Datos: la Matriz de Datos................................. 25
3. El Anlisis de la Matriz de Datos.......................................................................... 28
4. Las Distribuciones de Frecuencias en el Anlisis Univariado ............................ 29
4.1. Variables categricas ........................................................................................ 30
- el recurso numrico ..................................................................................... 30
- el recurso grfico ......................................................................................... 31
4.2. Variables numricas .......................................................................................... 32
4.2.1. Variables numricas con pocos valores diferentes......................................... 32
- el recurso numrico .................................................................................... 32
- el recurso grfico ......................................................................................... 33
4.2.2. Variables numricas con muchos valores diferentes...................................... 34
- el recurso numrico ..................................................................................... 34
- el recurso grfico ......................................................................................... 39
4.3. Transformaciones de las frecuencias absolutas.................................................... 42
4.3.1. Las frecuencias relativas ............................................................................ 42
4.3.2. Las frecuencias acumuladas ....................................................................... 43
4.3.3. La curva de Lorenz y el ndice de Gini ......................................................... 45
4.4. Otras consideraciones sobre los recursos grficos ............................................... 52
4.5. Esquema Tipos de grficos univariados ............................................................ 55
5. Qu Hemos Visto? ............................................................................................. 56
Esquema El Anlisis de Datos: Distribuciones de Frecuencias ............................ 57
Bibliografa ............................................................................................................... 58

ndice

Unidad 3: Los Valores que Caracterizan al Conjunto de Datos


Pgina
1. Por qu son Necesarios?.................................................................................... 59
2. Cules Son?........................................................................................................ 60
3. Media Aritmtica.................................................................................................. 60
3.1. Principales Propiedades de x ........................................................................... 61
3.2. Clculo de la Media .......................................................................................... 64
3.2.1. Datos sin resumir...................................................................................... 64
3.2.2. Datos agrupados en arreglo de frecuencias ................................................. 64
3.2.3. Datos agrupados en una distribucin con intervalos ..................................... 65
4. La Mediana........................................................................................................... 66
4.1. Principales propiedades de Ma........................................................................... 67
4.2. Determinacin de la Ma .................................................................................... 68
4.2.1. Datos numricos sin resumir ...................................................................... 68
4.2.2. Datos numricos en arreglo de frecuencias ................................................. 69
4.2.3. Datos numricos en una distribucin con intervalos ..................................... 70
4.2.4. Datos categricos ordinales ....................................................................... 71
5. El Modo ................................................................................................................ 72
5.1. Principales Propiedades del Mo .......................................................................... 73
5.2. Determinacin del Mo ....................................................................................... 73
5.2.1. Para arreglos de frecuencias y datos categricos ......................................... 73
5.2.2. Para una distribucin con intervalos............................................................ 74
6. Cuartiles, Deciles, Centiles .................................................................................. 75
6.1.
6.2.
6.3.
6.4.

Los Cuartiles .................................................................................................... 76


Los Deciles ...................................................................................................... 77
Los Centiles ..................................................................................................... 78
Curva de Lorenz asociada a las medidas de posicin............................................ 78

7. Cmo Integrar estas Medidas de Resumen? .................................................... 80


7.1. El resumen de los cinco nmeros ....................................................................... 80
7.2. El diagrama de Caja (Box-plot) .......................................................................... 81
8. Qu Hemos Visto?.............................................................................................. 82
Esquema Valores que Caracterizan un Conjunto de Datos ................................. 83
Bibliografa............................................................................................................... 84

Unidad 4: Anlisis de la Variacin y Asimetra


1. Por qu Evaluar la Variabilidad y la Asimetra? ................................................ 85
2. Cmo Medir la Variabilidad?.............................................................................. 86
2.1. Para variables numricas .................................................................................. 86
2.1.1. Las medidas absolutas ............................................................................. 87
A) El Rango, Amplitud o Recorrido .................................................................. 87
B) El Rango Intercuartil.................................................................................. 88
C) Desviacin Media....................................................................................... 88
D) Desviacin Mediana................................................................................... 90
E) Variancia y Desviacin estndar .................................................................. 91
2.1.2. Las medidas relativas ................................................................................ 92
F) Coeficiente de variacin ............................................................................. 93
G) Coeficiente de Desviacin Media ................................................................. 94

ndice

ndice

Pgina
H) Coeficiente de Desviacin Mediana.............................................................. 94
2.2. Dispersin para variables categricas ................................................................. 94
3. Cmo Medir la Asimetra? .................................................................................. 97
3.1. Coeficiente de Asimetra de Pearson ................................................................... 98
3.2. Coeficiente intercuartlico de Bowley ................................................................... 99
4. Qu Hemos Visto? ............................................................................................ 101
Esquema Medidas de Dispersin y Asimetra..................................................... 102
Bibliografa ............................................................................................................. 103

Unidad 5: Estudio de la Relacin entre Variables


1. Por qu Estudiar la Relacin entre Variables? ................................................ 105
2. La Relacin entre Variables Categricas ........................................................... 108
2.1. El recurso numrico ........................................................................................ 108
2.2. El recurso grfico ........................................................................................... 114
2.2.1. Grficos compuestos................................................................................ 114
2.2.2. Grficos de partes componentes ............................................................... 115
3. La Relacin entre Variables Categricas y Numricas...................................... 116
3.1. El recurso numrico ........................................................................................ 116
3.2. El recurso grfico ............................................................................................ 119
4. La Relacin entre Variables Numricas............................................................. 120
4.1. El recurso grfico............................................................................................ 120
4.2. El recurso numrico ........................................................................................ 124
4.2.1. El anlisis de regresin lineal simple.......................................................... 124
4.2.2. El coeficiente de correlacin lineal de Pearson............................................ 127
5. Qu Hemos Visto? ............................................................................................ 129
Esquema Estudio de la Relacin entre Variables ............................................... 130
Bibliografa ............................................................................................................. 131

Unidad 6: Los Nmeros ndices


1. Qu son y cul es su utilidad? .............................................................................. 133
2. Los Nmeros ndices Simples ................................................................................ 134
2.1. El Relativo Simple de Base Fija......................................................................... 134
2.2. El Relativo Simples de Eslabn ......................................................................... 135
2.3. El Relativo Simple en Cadena........................................................................... 136
3. Los Nmeros ndices Compuestos ......................................................................... 137
3.1. El ndice de Agregados no Ponderados ............................................................. 138
3.2. El ndice de Promedio de Relativos no Ponderados ............................................ 139
3.3. Los ndices de Agregados Ponderados .............................................................. 141
3.3.1. El ndice de Laspeyres.............................................................................. 141
3.3.2. El ndice de Paasche ................................................................................ 143
3.4. Los ndices de Promedios Ponderados de Relativos............................................ 144
3.4.1. El ndice promedio ponderado de relativos de Laspeyres ............................. 144
3.4.2. El ndice promedio ponderado de relativos de Paasche ............................... 145
4. Algunas Consideraciones Especiales Temas Especiales ........................................ 146
4.1. El ndice de Valor ........................................................................................... 146

ndice

Pgina
4.2. El Cambio de Base de un Nmero ndice ...........................................................147
4.3. El Empalme de Dos Nmeros ndices Solapados.................................................148
4.4. Procedimiento de Nmeros ndices en Cadena ...................................................149
4.5. La Deflacin de una Serie.................................................................................149
5. Problemas en la Construccin de los Nmeros ndices .........................................150
5.1. La Seleccin de la Muestra ...............................................................................150
5.2. La Eleccin del Perodo Base ............................................................................151
5.3. La Ponderacin Adecuada ................................................................................151
5.4. La Seleccin del Promedio ................................................................................151
5.5. Los Cambios de Producto .................................................................................151
6. Qu Hemos Visto? .................................................................................................152
Bibliografa ..................................................................................................................153

Anexo: GUA DE ACTIVIDADES


Unidad 1: La Investigacin Estadstica..........................................................................157
Unidad 2: Organizacin y Descripcin Inicial de los Datos ..............................................167
Unidad 3: Los Valores que Caracterizan al Conjunto de Datos.........................................177
Unidad 4: Anlisis de la Variacin y Asimetra................................................................185
Unidad 5: El Estudio de la Relacin entre Variables........................................................189
Unidad 6: Los Nmeros ndices ...................................................................................199

Bibliografa General ..............................................................................................157

Unidad 1: La Investigacin Estadstica

UNIDAD 1: LA INVESTIGACIN ESTADSTICA

4. Introduccin
Al iniciar el aprendizaje de Estadstica elemental, aplicada a la solucin de problemas,
probablemente a Ud. se le plantean interrogantes como los siguientes:

A qu tipo de problemas nos referimos?


Cmo abordar la bsqueda de respuestas a un tema/problema desde la
Estadstica?
A lo largo de este primer bloque de contenidos, Ud. encontrar la informacin para explicar estas
preguntas.

2. Intentando Definir la Estadstica


Hemos seleccionado algunos autores, quienes se refieren a la disciplina estadstica del siguiente
modo:
Daniel, W. W. pp 1

La palabra estadstica tiene relacin con aquellos conceptos y tcnicas que se


emplean en la recopilacin, organizacin, resumen, anlisis, interpretacin y
comunicacin de informacin numrica.
Anderson, Sweeney y Williams; pp 3

En un sentido amplio, la estadstica es el arte y la ciencia de reunir, analizar,


presentar e interpretar datos. Especialmente en los negocios y en la economa,
una razn bsica para esa recopilacin, presentacin e interpretacin de datos, es
proporcionar a los administradores y a quienes toman decisiones, una mejor
comprensin del entorno para permitirles tomar mejores decisiones.
Moore, D. S.; pp XXI y XXII

La estadstica es la ciencia que trata sobre la obtencin de informacin a partir


de datos numricos[...] Para la mayora de las personas que utilizan la estadstica,
e incluso para muchos estadsticos profesionales, la estadstica es la disciplina que
proporciona instrumentos e ideas que permiten utilizar datos numricos para
profundizar en la comprensin de distintos temas [...] A pesar de que la
estadstica se fundamenta en una slida base matemtica, nuestro inters se
centra en la estadstica aplicada, que se puede dividir en tres campos de estudio:
el anlisis de datos, la obtencin de datos y la inferencia estadstica.
Mood, A. M. pp 3
La concepcin profana de estadstica suele incluir la recogida de grandes masas
de datos y la presentacin de stos en tablas y grficos; puede incluir tambin el
clculo de totales, promedios, porcentajes, etc. En todo caso, esta concepcin
tiene unos treinta aos de retraso; estas operaciones, ms o menos rutinarias,
constituyen solamente parte incidental de la estadstica de hoy. Estadstica es
tambin el diseo de experimentos, el diseo de sobrevisiones muestrales, la
reduccin y el proceso de datos y otras muchas cuestiones. (...) Describiremos la
estadstica como la tecnologa del mtodo cientfico que proporciona instrumentos
para la toma de decisiones cuando prevalecen condiciones de incertidumbre.

11

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Ms all de los matices que diferencian a estas ideas entre s, todas ellas coinciden en ciertos
elementos que conforman un mismo concepto bsico de estadstica aplicada, el que bien podramos
sintetizar del siguiente modo:
Es una disciplina que aporta los conocimientos y herramientas insustituibles para:
Disear y aplicar procedimientos de recoleccin de datos (experimentos,
muestras, censos, registros administrativos y fuentes secundarias), referidos a un
conjunto numeroso de personas, animales, objeto, etc.; necesarios para el estudio de
un fenmeno de nuestra esfera de inters cientfico, o de toma de decisiones.

Organizar y resumir los datos masivos recogidos.

Describir y analizar a las personas, animales u objetos observados, mediante los


datos organizados y resumidos.

Realizar inferencias sobre la poblacin de la que provienen los datos recogidos,


cuando estos se originan en procedimientos muestrales.
Obtener conocimientos e informacin sobre el fenmeno en estudio, a partir de
interpretar los resultados del anlisis estadstico.

3. Problema de Trabajo e Investigacin Estadstica


A menudo y cada vez con mayor frecuencia, sea como profesionales, como
investigadores, como administradores, como personas de negocios, como docentes o
como simples ciudadanos; deseamos conocer en la forma mas completa y convincente
posible, el estado o el comportamiento de algn aspecto de la realidad que nos rodea.

Por ejemplo:

Como administradores pblicos necesitamos describir la situacin del sistema de salud de la


provincia, con el fin de disear polticas (tomar decisiones) para mejorarlo.
Como investigadores de la economa regional, deseamos explicar la evolucin que han tenido
la produccin y los precios del tabaco en los ltimos aos, y pronosticar sus comportamientos
hacia el futuro.
Como empresarios de la actividad turstica, necesitamos conocer el perfil de los grupos
tursticos que visitan el Parque Nacional Iguaz para elaborar estrategias de marketing a
aplicar en los centros emisores mas importantes de la Argentina.
Como docentes o directivos del sistema educativo oficial, deseamos dimensionar el fenmeno
de la violencia estudiantil en el nivel medio.
Como ciudadanos deseamos calificar a nuestros gobernantes y su gestin de gobierno.

Como cientficos sociales nos proponemos conocer la situacin laboral de la mujer en nuestro
pas y, de este modo, contrastar ciertas proposiciones (hiptesis) que nos formulamos sobre el
tema.
Como gerentes de una empresa pblica, necesitamos explicar en todas sus dimensiones el
fenmeno del ausentismo de los funcionarios, con el fin de tomar decisiones al respecto.

En fin, los planteos pueden ser muy variados y estar relacionados con las ms diversas esferas de
las ciencias y de la vida cotidiana del hombre de nuestros das.
A este tipo de cuestiones las consideramos un problema de trabajo (problema del
entorno real o simplemente problema) porque se originan en preguntas (explcitas
o implcitas) que nos formulamos sobre el tema. Preguntas que llevarn a la
bsqueda de evidencias consistentes y precisas que permitan encontrar las mejores
respuestas. Esto es, que motivarn la necesidad de investigar sobre el tema.
La investigacin basada en mtodos estadsticos debe ser previamente diseada por el
investigador; ajustndose a principios, conceptos y procedimientos plenamente reconocidos y
aceptados para tal fin: la metodologa de investigacin cuantitativa.
El diseo metodolgico de una investigacin particular podr ser ms o menos complejo,
dependiendo ello de la complejidad del fenmeno en estudio, del carcter de los resultados buscados
y de las condiciones prcticas bajo las que se llevar a cabo, entre otras razones.

12

Unidad 1: La Investigacin Estadstica

Lo cierto es que todo trabajo de estadstica aplicada debe, necesariamente, responder a cierto
diseo previo (aunque ms no fuere, simple y elemental), el que deber ser convenientemente
formalizado y explicitado.
Un buen diseo metodolgico de la investigacin (y del consecuente plan de accin para llevarla
a cabo) es de extrema importancia para:
orientar correctamente la construccin y obtencin de los datos apropiados al problema y a
la solucin buscada,
asignar validez a los resultados que se obtengan de los datos recogidos,
optimizar los esfuerzos de todo tipo que se dediquen al trabajo,
valorar las conclusiones de una investigacin.
Los temas metodolgicos de una investigacin cuantitativa escapan a los alcances del curso 3. Sin
embargo, presentaremos en los apartados siguientes algunos conceptos que son necesarios para
facilitar la comprensin de la estadstica, desde el enfoque que proponemos.

Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.

3.1. Las preguntas de investigacin


Toda investigacin surge y es guiada por una o varias preguntas generales (explcitas o
implcitas) o supuestos que el investigador formula sobre las cuestiones centrales de su
problema de trabajo. El valor de estas preguntas (preguntas de investigacin) es el de
acotar el tema de trabajo, esbozar el objeto de estudio y orientar la estrategia de
abordaje del tema.
Consideremos ahora como ejemplo el artculo que Ud. acaba de leer. Aunque en el texto no se
expresan explcitamente los propsitos (interrogantes o hiptesis) que guiaron el trabajo, podemos
imaginar algunas preguntas e hiptesis que formularon los investigadores. Por ejemplo las siguientes:
Qu dimensin tiene el mercado de usuarios de Internet en Argentina?
Se ha expandido este mercado en los ltimos aos o se ha mantenido relativamente estable?
Internet es una herramienta mayormente utilizada por adolescentes y jvenes, con fines
recreativos y educativos.
3.2. Las preguntas estadsticas
Cada una de estas preguntas generales, a su vez, derivar en otras preguntas ms especficas que
tendern a expresar el problema en trminos numricos concretos. Por ejemplo, algunas podran ser:
Cuntos son los usuarios efectivos de Internet en nuestro pas?
En qu medida ha crecido el nmero de usuarios en los ltimos aos?
Qu edad tienen en general, los usuarios de Internet?, cul es la edad ms frecuente?
Son las mujeres y los adolescentes los que ms utilizan el servicio?
cules son los fines ms difundidos entre los usuarios de la red?
Predominan los usuarios de un determinado nivel socioeconmico?
Con qu intensidad (cantidad de horas diarias) se utiliza el servicio?

4. Los Datos

Es evidente que la secuencia Problema Investigacin Estadstica Respuesta supone la


presencia de un elemento sustancial: los datos.

Para aquellos que deseen profundizar las cuestiones metodolgicas, les sugerimos la lectura de: BARANGER, D.: Construccin
y Anlisis de Datos, Editorial Universitaria UNaM, Posadas 2000.

13

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

El problema nos coloca ante la necesidad de reunir indicios/evidencias (datos) suficientemente


capaces de informar sobre los aspectos del contexto que nos preocupan.

Mediante el diseo y la prctica de la investigacin se resolver a qu datos recurrir, cmo


obtenerlos y cmo utilizarlos apropiadamente.
Finalmente, los resultados y conclusiones del anlisis que se realice sobre los datos,
aportarn la informacin y respuestas al problema planteado. Entonces:
Qu es un dato?
Es el registro (numrico o no) que se obtiene como resultado de observar
cierta caracterstica de inters en un individuo (persona, animal, cosa o
entidad de naturaleza abstracta) que constituye el objeto de estudio.
En este concepto se resumen las siguientes ideas centrales:

IMPORTANTE
el dato supone:
un individuo que ha sido observado/medido en cierta
caracterstica de inters;

esta observacin/medicin se realiza mediante criterios e


instrumentos previamente determinados;

el dato se materializa en el registro de la medicin realizada.

Un dato cobra significado por el individuo al que se remite, por la caracterstica de ese
individuo que representa y por la forma en que esa caracterstica ha sido medida. Es decir, un
dato reproduce informacin si y solo si se expresa en relacin con su contexto.

Por ejemplo: el nmero 36 y la palabra media, por s solas no aportan informacin


relevante. En cambio, si las relacionamos con el contexto en el que se inscriben,
aclarando que se trata de la edad en aos cumplidos de un usuario argentino de
Internet, quien pertenece a la clase socioeconmica media; pasan a representar
una buena informacin sobre el individuo observado.
Unidad de Anlisis / Unidad de observacin / Elemento / Individuo

Es la persona, animal, cosa o entidad de naturaleza abstracta, sometido a la


observacin/medicin y a la cual harn referencia los datos.
En cada tema de estudio particular, la unidad de anlisis tendr una entidad especfica. Por
ejemplo:
persona residente en la Repblica Argentina que en el ao 2001 que es usuaria del servicio
de Internet,
establecimiento hotelero de la ciudad de Puerto Iguaz.
mercado misionero del tabaco.

Utilizaremos indistintamente los trminos individuo o elemento para referirnos en forma


genrica a las unidades de anlisis de la investigacin, cualquiera sea su naturaleza. As entonces,
un rbol de la ciudad de Bs. As. es un individuo, como tambin lo es un usuario de Internet
entrevistado en el G. Bs. As, un establecimiento carcelario de la Patagonia o un turista encuestado en
Puerto Iguaz.

14

Unidad 1: La Investigacin Estadstica

POBLACIN EN ESTUDIO
Es el conjunto de todas las unidades de anlisis que sern
consideradas en la investigacin.

Por ejemplo:

todos los usuarios del servicio de Internet en la Argentina, en el ao


2001,
todos los hoteles, residenciales, hosteras, etc. existentes en la ciudad
de Puerto Iguaz (Misiones), en el mes de julio de 2001.

La poblacin en estudio se define por la naturaleza de los elementos que la forman, por el
espacio geogrfico en el que se ubican los elementos y el perodo de tiempo que se toma como
referencia.

IMPORTANTE
En todo trabajo estadstico es de extrema importancia una precisa
definicin de la unidad de anlisis y la poblacin en estudio, dado que los
datos y conclusiones que de ellos se obtengan, remitirn a esos
individuos, en el espacio y tiempo definidos.

5. Las Variables
Toda caracterstica de los individuos que es relevante en una investigacin, sin dudas
variar a lo largo de la poblacin en estudio. La edad de los usuarios de Internet vara de uno a
otro, lo mismo que la situacin ocupacional de cada uno de ellos o la cantidad de horas diarias que
cada usuario dedica a estar conectado en la red.
Variable

Denominaremos variable en estudio o simplemente variable, a toda


caracterstica que ser observada/medida en los individuos de la
poblacin en estudio.
Vemos en nuestro ejemplo que fueron varias y muy diferentes las variables que se
utilizaron para describir a los usuarios de Internet. Cada uno de las personas
entrevistadas fue observada en caractersticas como las siguientes:
edad (en aos cumplidos),
sexo,
lugar de residencia,
situacin ocupacional,
nivel socioeconmico,
frecuencia semanal de conexin a la red,
cantidad de horas de uso de la red,
lugar de donde se conecta a la red,
etc.

Algunas de estas variables se expresan como una cantidad numrica atribuible a cada
individuo observado: la edad, la frecuencia semanal de conexin, la cantidad de horas de uso. Otras
en cambio, expresan cierto atributo del individuo observado: el sexo de la persona, la situacin
ocupacional del individuo, el lugar desde donde se conecta a la red, etc., etc., etc.

15

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

En el esquema siguiente presentamos la forma en que se clasifican las variables segn como se
expresen sus datos (cantidades numricas o atributos) y a su vez la sub-clasifica cin que se puede hacer
para cada tipo de variables:

Tipo de Var ia ble

Nu mricas o
cuant itativas

Ejemplo

a . Discre ta s

n de hij os

b. Con tin uas

Sup. de la Vivie nda

Varia bles
a . Nomina le s

Categr icas o
cua litativas

b. Ord inale s

Na ciona lidad
Nivel de Educac in

Variables Numricas o Cuantitativas


Denotan una cantidad del individuo observado y sus datos se expresan
en nmeros (dimetro del tallo del rbol, antigedad como usuario de la
red, ingreso del grupo familiar, etc.).

Discretas

Continuas

sus datos solamente pue den expresarse mediante nmeros enteros;

sus datos se expresa n en nmeros no


enteros (nmeros reales);

generalmente son el resultado de la


enumeracin o el conteo de ciertos
elementos en la unidad de observacin.

generalmente son el resultado de mediciones con unidades de medida preestablecidas como: kilowatios hora, centmetros, kilogramos, dlares, minutos, etc.

Por ejemplo: nmero de personas que


son miembros del hogar, nmero de
sucursales que integran la cadena de una
firma, cantidad de rboles implantados en
una manzana, etc.

Por ejemplo: la estatura (que puede ser


de 1,874 m), el tiempo de conexin a
Internet (que puede ser 1,25 horas), etc.

Variables Categricas o Cualitativas


Denotan una cualidad del individuo, y sus datos se expresan como una
categora predefinida del atributo observado (la cualidad sexo admite
las categoras varn-muje r, la variable lugar de residencia puede
expresarse mediante las categoras Posadas-interior de la provincia-Otras
provincias-Otros pases, la variable nivel socioe conmico de los usuarios
de Internet se expresa mediante las categoras alta-media alta-mediamedia baja-baja).

16

Unidad 1: La Investigacin Estadstica

Nominales

Ordinales

sus datos se expresa n con categoras que


nicame nte permiten clasificar a los
individuos, sin establecer ningn tipo de
orden o jerarqua entre ellos.

sus datos se expresan con categoras que


adems de clasificar a los individuos,
permiten establecer un orden entre ellos,
aunque sin establecer distancias exactas
entre las diferentes categoras.

Por ejemplo: las categoras varn-mujer


de la variable sexo, las categoras catlicoprotestante-luterano-e vangelista-etc. de la
variable religin, las ca tegoras OberEldorado- Apstoles-El Soberbio- etc, de la
variable lugar de residencia. En ninguno de
estos casos se puede establecer una
jerarqua entre ellos, por la categora que
detenta cada uno de ellos.

Por ejemplo: la variable nivel socioeconmico de los usuarios de Internet, cuyas


categoras son alta, media alta, media,
media baja y baja .
Tambin puede ser la va riable estado de
salud de un pacie nte si se lo clasifica en
muy bue no, bueno, regular, grave,
muy grave.
NOTA: En e stos e je m plos los individuos pue de n
ser ordena dos (en forma a scendente o
descendente) segn la categora de la varia ble en
que se ubica ca da uno de ellos, pero no
sabemos, exactamente, cunto peor es el estado
grave con re specto al re gular.

Obsrvese que la variable denota una caracterstica observable del individuo e n estudio (nivel
socioe conmico, estado de salud, ingreso del grupo familiar mensual, estatura). Y cada variable
admite diferentes valores (nmeros o categoras) posibles de ser observados en las unidades de
anlisis. Por e jemplo: para la variable nivel socioeconmico se han de finido como posibles valores a las
ca te gora s a lta , me dia a lta , me dia , me dia ba ja y ba ja . En ca mbio, la va ria ble ingre so fa milia r
tendr como valores posibles a nmeros comprendidos en el rango que va desde el ingreso ms bajo
posible al ms alto de la poblacin.
IMPORTANTE




En consecuencia, la distincin de los datos (y las variables) segn su


tipo (cua ntitativos, categricos nominales u ordinales) es extremadamente
importante para el uso correcto de las herramientas estadsticas.
Como veremos ms adelante, algunas herramientas solamente son
aplicables a ciertos tipos de datos y a otros no.

Actividad N 2
Antes de continuar con la lectura, es ne cesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.

6. Conjunto De Datos: Datos Estadsticos

Los mtodos y tcnicas de la estadstica no son aplicables a observaciones individuales.


Requieren de conjuntos suficie ntemente grandes de datos, recogidos mediante la
observacin sistemtica de un nmero suficie ntemente grande de individuos.

En la masividad de los datos, la estadstica se ocupa de estudiar las variaciones entre ellos
para encontrar, describir, e xplicar e inducir; tendencia s y regularidades de los individuos.
En resumen, el buen uso de las herramientas estadsticas supone un conjunto numeroso de datos
(numricos o categricos): datos estadsticos
.

17

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Los datos estadsticos de una variable en estudio se pueden obtener:


Observando al mismo tiempo y bajo
las mismas condiciones, a un gran
nmero de individuos diferentes

observacin transversal
conjunto o serie de datos transversales

Obse rvando a un mismo individuo, bajo las


mismas condiciones, a lo largo de numerosos
momentos diferentes de tiempo:

observacin
longitudinal
datos
longitudinales o serie temporal/ cronolgica

En el estudio de los usuarios de Internet se utilizaron ambos tipos de datos:


Por un lado se observ la variable cantidad de usuarios en la unidad de anlisis mercado
de Internet en Argentina, a lo largo de diferentes perodos anuales consecutivos, dando
lugar a una serie cronolgica de cinco datos (Grfico: Usuarios de Internet en la Argentina).
Por el otro, se observaron transversalmente a 1.400 usuarios, e n difere ntes varia bles de
inters (edad, sexo, nivel socioeconmico, situacin ocupacional, lugar de reside ncia, etc.), dando lugar a
un conjunto de 1.400 datos transversales por cada una de ellas. Es decir, que esta observacin result e n
tantos conjuntos de 1.400 datos cada uno, como varia bles diferentes fueron obse rvadas de esta manera.

7. Fuentes de Datos
Los datos a emplear en una investigacin pueden provenir de difere ntes fuentes u orge nes y
encontrarse en difere ntes estados de elaboracin. Podemos considerar entonces:

Da to s Prim a rio s

Pro pio s

Da to s Se cunda rio s

Re g is tro s de te rce ro s

Datos Primarios
Son aquellos que se encuentran en la forma original en que fueron
registrados (datos brutos), sin haber sufrido ningn tipo de tratamiento
o elaboracin posterior.

Este tipo de datos, segn su fuente, pueden ser:


Propios

Registros de terceros

Cuando fueron diseados con el fin especfico de la


investigacin y expresamente recolectados por
quien los utilizar.

Son datos primarios que se recopilan con fines


ajenos a los de la investigacin, pero que por su
definicin y procedimientos de captacin se ajustan
a nuestras necesidades. Generalmente se trata de
datos que se registran con fines administrativos.

Por ejemplo: los datos recogidos mediante la


encuesta realizada a los usuarios de Internet.

Por ejemplo: los datos que sobre sus clientes


llevan los diferentes servidores de la red. Otro
ejemplo: los datos que se registran en el legajo de
cada cliente de una empresa o de cada alumno de
la UNaM.

18

Unidad 1: La Investigacin Estadstica

Datos Secundarios
Son aquellos que fueron producidos (diseados y recopilados) por
terceros, con un fin ajeno al de la investigacin y que ya han sido
sometidos a alguna forma de elaboracin posterior. En consecuencia,
estos datos siempre se originan en terceras fuentes.
Por ejemplo: los datos que publican las oficinas de estadstica de
instituciones pblicas, de las empresas, etc.

8. Investigacin por Censo y por Muestra


La poblacin en estudio puede ser observada (transversalmente) de dos maneras:

Enumeracin completa

Por muestra

Consiste en observar las


variables de estudio en todos
los individuos que forman
la poblacin. Usualmente se
denomina censo a esta forma
de recopilacin de datos.

Consiste en seleccionar una parte de


la poblacin (la muestra), observar a
los individuos elegidos en las
elaborar
variables
en
estudio,
conclusiones a partir de los datos de la
muestra y, cuando esto es posible,
generalizar estas conclusiones al
conjunto de toda la poblacin de origen
(inferir conclusiones sobre la poblacin
a partir de los resultados muestrales).

El estudio de las 2.000.000 de personas conectadas a Internet se bas en una


muestra de solo 1.400 casos efectivamente observados. Sin embargo, las
conclusiones extradas del anlisis de estos casos se atribuyen a toda la poblacin.
Por ejemplo:
el 50 por ciento de los usuarios de la Red tiene ms de 35 aos,

4 de cada 10 usuarios son mujeres,


slo el 3 por ciento de los navegantes est desocupado.

Los procedimientos de observacin por muestras y de generalizacin (inferencia) de los


resultados, nos llevan a ciertas preguntas clave como las siguientes:
Cules son los argumentos para realizar un estudio por enumeracin completa o
por muestra?
Cmo elegir una muestra de manera que reproduzca (sea representativa) lo
mejor posible a la poblacin en estudio?
Qu mecanismos o procedimientos se deben
correctamente las conclusiones de la muestra?

aplicar

para generalizar

Qu exactitud o confiabilidad pueden tener estas generalizaciones?


Es decir, la investigacin basada en muestras nos coloca frente a dos temas centrales de la
Estadstica:
Muestreo

Estadstica inductiva o inferencial

Que trata sobre los procedimientos y


tcnicas para seleccionar muestras de una
poblacin.

Que aporta los conocimientos para


realizar generalizaciones (inferencias)
confiables de los resultados muestrales.

19

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Ambos temas sern tratados en el curso ms avanzado de Estadstica II. Hasta tanto, Ud. debe
tener presente que, a pesar de lo extremadamente relevante que significa distinguir una investigacin
basada en censos de aquellas basadas en muestras, las tcnicas y herramientas para la

descripcin inicial de los datos (Estadstica Descriptiva) que presentaremos en este curso,
son comunes a ambas situaciones de trabajo.

Estadstica Descriptiva y Estadstica Inferencial


Censo

Observacin

Muestra

Anlisis de Datos

(Descripcin)
Curso de Estadstica I

Generalizacin
(Inferencia)
Curso de Estadstica II

Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.

9. Qu Hemos Visto?
El propsito de esta unidad es introducir al lector interesado en temas de investigacin estadstica,
en los conceptos bsicos que resulta imprescindible manejar cuando se utiliza esta disciplina.
As, inscribiendo el uso de la estadstica en un proceso de investigacin o toma de decisiones, se
presentaron -en el marco de la produccin de informacin- aquellos elementos tericos recurrentes en
cualquier situacin de trabajo que implique el anlisis estadstico. De esta manera, se formalizan en la
presentacin los conceptos de: dato, unidad de anlisis, poblacin y variable.
Dado que la posibilidad de utilizar cualquiera de las tcnicas estadsticas, est condicionada por el
tipo de variables que se quieren analizar, se puso especial atencin en la clasificacin de variables que
resultan de las diferentes formas en que se registran los datos. As hemos distinguido variable
cualitativas y cuantitativas (con sus respectivas sub-clasificaciones), diferenciando adems, las
observaciones transversales y longitudinales.
Finalmente, se realiz una distincin de los datos segn la fuente de la cual se obtienen (Primarios
y Secundarios) y el tipo de investigacin que realizamos segn se observan todas las unidades de
anlisis de la poblacin (censo) o una parte de ella (muestra).

20

Unidad 1: La Investigacin Estadstica

LA ESTADSTICA EN EL PROCESO DE INVESTIGACIN

Preguntas de
Investigacin

PROBLEMA

??????

TRADUCCIN
RESPUESTAS
AL
PROBLEMA
Preguntas
Estadsticas
?????
INFORMACIN

Poblacin

Unidad de anlisis Variables

OBSERVACIN
Primario o Secundario?

Censo o Muestra?
Transversal o Longitudinal?

ANLISIS

DATOS

ESTADSTICO

.............
- -- ---- - - -- --- -

21

???

22

ad 4
Un id
Estudio de Variabilidad y Asimetra

ad 3
Un id
Resumen con Valores Caractersticos

ad 2
Un id
Organizacin y Descripcin Inicial

ad 6
Un id
Nmeros ndices

d1

Los Datos

ad 6
Un id Nmeros ndices

ad 5
Un id
Estudio de la Relacin
entre Variables

Anlisis de dos Variables

da
ni

Transversales

Anlisis de una Variable

Preguntas de Investigacin

Un id

Poblacin- Unidad de anlisis - Variables

Observacin

ad 6
Nmeros ndices

Longitudinales

Estructura del Curso - Estadstica Descriptiva

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Un id a d 1 : La I n v e s t ig a c i n Es t a d s t ic a

Bibliografa
ANDERSON, D; SWEENEY, D.; WILLIAMS, T (1999): Estadstica para Administracin y Economa.
International Thomson Editores, Mxico. Pginas 1 a 21.
DANIEL, WAYNE (1985): Estadstica con aplicacin a las ciencias sociales y a la educacin,
McGraw-Hill, Mxico.
MOORE, DAVID (1995): Estadstica Aplicada Bsica. Antoni Bosch Editor, Barcelona. Pginas: XXI
a XXIV, 1 a 5 y 6 a 7 (punto 1.2)
MOOD, A. M. (1965): Introduccin a la Teora de la Estadstica. Aguilar, Madrid (3ra. Edicin).
Conceptos Centrales

Preguntas de investigacin y preguntas estadsticas

Unidad de anlisis o individuo

Variable

Datos transversales y longitudinales

Investigacin por enumeracin completa y por muestra

Dato

Poblacin en estudio

Tipos de variables

Datos primarios (propios y de registros) y secundarios


Muestreo e inferencia estadstica

Habilidades

Identificar en un trabajo de investigacin estadstica las preguntas que lo orientaron (de


investigacin y estadsticas).
Distinguir en una situacin concreta: la poblacin en estudio, la unidad de anlisis, las
variables de inters y el tipo de variables a que corresponde cada una.
Reconocer para cualquier situacin de trabajo que se presenta: si se trata de datos
longitudinales o transversales, el tipo de fuente utilizada, y si corresponde a un relevamiento
por muestra o por enumeracin completa.

23

Unidad 2: Organizacin y Descripcin Inicial de los Datos

UNIDAD 2: ORGANIZACIN Y DESCRIPCIN INICIAL DE LOS


DATOS
1. Los Datos y la Informacin
Una vez obtenidos los datos primarios, recogidos mediante alguna de las estrategias de
observacin transversal descriptas en el captulo anterior, el investigador debe encontrar el mejor
camino para convertirlos en informacin sobre los individuos observados; informacin que deber
acercar respuestas a las preguntas que dieron inicio a la investigacin. En consecuencia, en la
produccin de esa informacin son los objetivos de la investigacin los que definirn el curso a seguir
en el tratamiento y anlisis de los datos.

Cualesquiera sean los objetivos a alcanzar con el trabajo estadstico, el tratamiento inicial de los
datos registrados debe comenzar por organizarlos en forma tal que se facilite su tratamiento. La
manera de organizacin que se utiliza es la conocida como Matriz de datos que ordena los datos en
una planilla rectangular, posibilitando su tratamiento en los programas informticos.

2. La Primera Organizacin de los Datos: la matriz de datos


En el sentido prctico, es una forma de organizar los registros originales (de los
cuestionarios, entrevistas, archivos, etc.), por la cual se ponen en relacin los individuos
con sus datos y permite visualizar estas relaciones. Consiste en un arreglo matricial de
filas y columnas (elaborado manualmente o por medios electrnicos) como el siguiente:

Matriz de datos de n individuos y p variables


Variable n p

Variable n 2
Individuo Variable X Variable Y

Fila que
describe
al individuo
i

....

Variable J

.....

Variable Z

x1

y1

....

j1

....

z1

x2

y2

....

j2

....

z2

xi

yi

xn

yn

....

jn

....

ji

zi

zn

Cada fila de la matriz representa a un individuo de la muestra o poblacin en estudio y cada


columna identifica a una de las variables observadas. En las celdas se ubican los valores
correspondientes a los individuos en cada una de estas variables (numricas o categricas).
As entonces, la i-sima fila de la matriz presentar al individuo genrico i de la muestra (o
poblacin) y sus datos en las p variables en estudio. A su vez, la j-sima columna contendr los
valores de la variable j, registrados a travs de los n individuos observados.
- Notacin bsica
Emplearemos una notacin sencilla para simbolizar a las variables y sus datos. Esto es, las letras
maysculas X o Y o Z o T o J o V se utilizarn para designar a una variable en estudio (el concepto
que enuncia la caracterstica observada en los individuos). Por ejemplo:
X: Edad del Usuario de Internet (expresada en aos cumplidos),

25

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Y: Intensidad de Uso del Servicio de Internet (expresada en horas diarias de conexin),

Z: Sexo (varn-mujer).

La letras minsculas x, y, z, t, j, v, simbolizarn los valores de las variables observadas, y el


subndice que las acompaa (1, 2, 3, ....., i,....... n), representa a los individuos con los que se
corresponden cada uno de ellos. As, continuando con el ejemplo anterior, tenemos que:
x1: denotara la edad observada en el usuario de Internet, registrado como individuo 1 de la
matriz,

yi: simbolizara la intensidad de uso del servicio de Internet, registrada en el individuo


genrico i de la muestra o poblacin,

zn: representara el sexo, observado en el n-simo individuo genrico de la muestra o


poblacin.
De ello resulta que:

la expresin (x1, x2, x3, ....xi, .....xn) denotar al conjunto de los n valores que la variable
simbolizada con X, registra a lo largo de los n individuos observados;

los subndices no guardan relacin con la magnitud o valor de los datos que representan,
simplemente indican el orden en que fueron incorporados a la matriz cada uno de los
individuos;

dos o ms datos simblicos cualesquiera (t3 y tn, por ejemplo) pueden registrar valores
diferentes de la variable, o bien a un mismo valor de T que, por corresponder a distintos
individuos, se representan con smbolos diferentes;

en el caso de datos categricos ui representa ahora a una de las categoras de respuesta o


valor de la variable cualitativa simbolizada con U, categora que fue observada en el isimo individuo de la muestra o poblacin.

- Un ejemplo de la matriz de datos


Los datos se originan en un relevamiento dirigido a los alumnos de diferentes carreras
universitarias de grado de la Facultad de Humanidades y Ciencias Sociales (Licenciaturas
en Trabajo Social, Antropologa Social y Turismo; Profesorado en Ciencias Econmicas y
Tcnico en Investigacin Socioeconmica), que iniciaron en forma regular el curso del
primer nivel de Estadstica (Estadstica I Primer Cuatrimestre del 2001).

El propsito de este estudio era delinear un perfil socioeconmico y conocer algunos hbitos
vinculados al estudio de los alumnos que cursan esta asignatura en la FHyCS. La observacin se
realiz como actividad inicial de la primera clase y abarc a todos los alumnos inscriptos en la nmina
(enumeracin completa). El instrumento de recoleccin consisti en un cuestionario semi-estructurado
de diecisis preguntas, cuya aplicacin fue auto-administrada por los alumnos.
En la matriz del ejemplo se ordenan los datos de slo diez de esas variables, a saber:

(EDAD) Edad del alumno en aos cumplidos.


(SEXO) Sexo: 1: masculino, 2: femenino.
(CARRERA) Carrera que cursa en la FHyCS, por la cual asiste al curso de Estadstica:
1: Profesorado en Cs. Econmicas
3: Licenciatura en Trabajo Social
5: Tcnico en Investigacin Socioeconmica

2: Licenciatura en Turismo
4: Licenciatura en Antropologa Social

(INGRESO) ao de ingreso a la Carrera de referencia.


(ESTPADRE) nivel ms alto de la educacin formal, alcanzado por el padre del alumno:
1:
3:
5:
7:

Ningn estudio
Primario completo
Secundario completo
Superior/universitario completo

2: Primario incompleto
4: Secundario incompleto
6: Superior/universitario incompleto
8: no sabe

(ESTMADRE) nivel mas alto de la educacin formal, alcanzado por la madre del alumno: mismas
categoras anteriores.

26

Unidad 2: Organizacin y Descripcin Inicial de los Datos

(RESIDEN) lugar de residencia permanente del alumno -el que comparte con su grupo familiar-:
1: Posadas
2: Localidad del interior de Misiones
3: Otro lugar del pas o del extranjero
(INGRET) nivel del ingreso mensual total por todo concepto (salarios, rentas, etc,), del grupo familiar
directo completo (incluyendo al alumno si corresponde), medido en pesos.
(HSESTUDI) nmero aproximado de horas semanales que dedica al estudio de todas las asignaturas
de su carrera, sin contar las horas de clases u otras actividades obligatorias.
(HSTV) nmero de horas diarias que mira Televisin.

Matriz del Estudio de los Alumnos de Estadstica I


Alumno Edad Sexo Carrera Ingreso Estpadre Estmadre Residen Ingretot Hsestudi Hstv
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
.
.
.
.
.
139

19
27
26
28
37
25
20
29
25
19
18
18
19
19
19
29
19
22
19
20
22
20
22
19
21
.
.
.
.
.
30

2
2
2
2
2
2
2
2
1
1
1
2
2
1
2
2
2
1
2
2
2
1
2
1
1
.
.
.
.
.
2

3
3
1
2
3
3
2
3
1
2
3
3
2
2
3
3
2
2
2
2
2
2
3
2
2
.
.
.
.
.
3

2000
2001
1999
1999
2001
2000
2000
1999
1999
2001
2001
2000
2000
2001
2000
1999
2000
2000
2000
1997
2000
2000
.
.
.
.
.
2001

3
3
4
3
3
3
3
3
8
8
7
2
4
5
2
3
3
5
5
8
3
7
4
7
4
.
.
.
.
.
3

3
3
4
3
3
3
5
2
6
7
3
2
7
5
2
3
7
4
7
7
3
6
3
7
5
.
.
.
.
.
3

2
1
1
2
1
1
2
1
1
1
2
2
1
3
1
1
2
1
1
1
1
1
2
2
2
.
.
.
.
.
1

180
300
700
350
1500
500
1500
560
1000
250
200
300
2000
450
1600
1000
.
.
.
.
.
400

4
4
8
10
3
6
3
4
14
3
3
1
3
8
3
6
3
10
7
4
10
8
.
.
.
.
.
7

3
2
2
2
1
0
3
1
2
3
5
2
1
2
1
2
1
2
2
2
2
1
1
2
0
.
.
.
.
.
3

- El ejemplo en smbolos
Estas variables y sus datos se expresaran simblicamente del siguiente modo:
Si representramos con T a la variable estudios de la madre, t13 simbolizara el nivel de estudios
alcanzado por la madre del alumno 13 t13 = 7 (universitario completo).
Simbolizando con X a la variable ingreso total mensual del alumno y su grupo familiar, x139
representar el ingreso total mensual del grupo familiar declarado por el alumno 139 x139 = 400.
Si fuera Z la variable carrera que cursa el alumno, el conjunto simblico (z1, z2, z3, .....
z25.......z139), representar al conjunto (3,3,1,.......,2.......3) de datos de la matriz correspondiente a las
carreras cursadas.

27

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad
No 1 de la Gua de Actividades correspondiente a esta unidad.

3. El Anlisis de la Matriz de Datos

Aun cuando la matriz de datos constituye una organizacin que facilita el acceso a los
registros, es indudable que nuestra capacidad cognitiva no nos permite aprehender el
comportamiento de los datos y obtener informacin a partir de ellos. Ante 139 registros
como en el ejemplo, quizs con una mirada a la matriz podramos saber el sexo
mayoritario entre los estudiantes, pero difcilmente podremos concluir sobre el nivel educativo
predominante entre los padres, y sera imposible poder establecer si existe una relacin entre esta
variable y el ingreso familiar.
Esta limitacin de procesar mentalmente tal cantidad de informacin, nos obliga a recurrir a
nuevas herramientas que permitan resumir los datos haciendo visibles aspectos que de otra forma
permaneceran ocultos. Ahora bien, decidir sobre cules son las herramientas ms apropiadas
depende en primer lugar de las preguntas que intentemos responder y que, como ya dijimos,
son las que guan todo el proceso de anlisis.
En trminos del estudio de los alumnos de Estadstica y las necesidades de delinear un perfil socioeconmico de los mismos, nos planteamos algunas preguntas como las siguientes:

1.
2.
3.
4.
5.
6.
7.
8.

es heterogneo el grupo en cuanto a la edad?


hay predominio de mujeres?
la composicin por sexo vara segn sea la carrera?
en su mayora se trata de alumnos ingresantes?
sus padres han alcanzado el nivel universitario?
se trata de estudiantes provenientes de hogares de bajos ingresos?
est relacionado el ingreso de los hogares con el lugar de Residencia?
el perfil determinado por el sexo del estudiante y su carrera, se relaciona con las horas
dedicadas al estudio?
En este sinttico listado de preguntas podemos distinguir aquellas que involucran a una sola
variable (preguntas 1,2,4,5,6), a dos variables (preguntas 3 y 7) y a tres o ms variables (pregunta
8). Para la bsqueda de respuestas a esas preguntas ser necesario utilizar herramientas
estadsticas diferentes segn sea el nmero de variables consideradas.
Cuando el anlisis de los individuos se realiza a partir de una nica variable sin
tomar en cuenta el resto de la matriz, hablamos de un anlisis univariado.
Si el tratamiento de los datos involucra dos variables simultneamente se trata de
un anlisis bivariado.
Cuando trabajamos con tres o ms variables simultneamente recurrimos al
anlisis multivariado.
Otro aspecto a tener en cuenta al considerar la herramienta apropiada para el anlisis 1 es el tipo
de variable con el que se est trabajando: cuantitativas, o cualitativas (ordinales o nominales).
Adems, las herramientas estadsticas para el anlisis de datos se pueden clasificar en dos grandes
familias: numricas y grficas, ambas concurrentes para hacer visible el comportamiento de los
datos y complementarias en la intencin de producir informacin.

IMPORTANTE
Priorizar las herramientas numricas o las grficas en el trabajo de
exploracin, es una decisin del investigador.

Las distintas herramientas de tratamiento y anlisis de datos se irn presentando segn el tipo de variables involucradas.

28

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Anlisis de Datos
elementos a considerar en la seleccin de herramientas estadsticas

???
Univariado

Categricas

Nu mricas

Bivariado

Categricas y/o Nu mricas

Herramientas nu mricas

Multivariado

Categricas y/o Nu mricas

Herramientas grficas

Las herramientas que se presentarn en este curso corresponden fundamentalmente al anlisis


univariado y se tratan algunas de las ms utilizadas del anlisis bivariado.

4. Las Distribuciones de Frecuencias en el Anlisis Univariado


Independientemente de la necesidad de responder aquellas preguntas que suponen el tratamiento
de una nica variable, cualquier anlisis bi o multivariado requiere de la exploracin de cada una de
las variables de la matriz de datos. Las distribuciones de frecuencias constituyen un primer
resumen de los datos, que nos permitirn formarnos una primera idea de cada una de las
caractersticas consideradas en la investigacin, construir nuevas clasificaciones, evaluar la posibilidad
de aplicar otras herramientas de anlisis 2, reformularnos algunas de las preguntas iniciales, plantear
otras, etc.
La construccin de una distribucin de frecuencias es un procedimiento sencillo e
intuitivo que consiste en contar el nmero de veces que se repite cada valor de la
variable en estudio (sea esta cualitativa o numrica), en el conjunto de todas las
observaciones. Por ejemplo, si consideramos la variable sexo de los estudiantes de
Estadstica, contamos el nmero de veces que se presenta el valor varn y el valor mujer en el
conjunto de los 139 individuos. As, resulta que 30 es el nmero de veces que se repite la categora
varn y 109 la categora mujer. Este nmero de repeticiones que corresponde a cada valor de la
variable recibe el nombre de frecuencia absoluta.

Frecuencia absoluta:
Es el nmero de veces que se repite un mismo valor de la variable (una misma categora si
se trata de una variable categrica, un mismo nmero si la variable es numrica) en el
conjunto de los n individuos observados.
Se simboliza con fi (i representa en este caso el orden en que se presentan los valores de la
variable).

En unidades posteriores se presentarn otras herramientas para resumen de los datos las cuales exigen condiciones de la
distribucin que habr que evaluar en esta etapa.

29

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Distribucin de frecuencias:
Consiste en un arreglo en el cual se presentan los valores de la variable y las frecuencias
absolutas computadas para cada uno de ellos.
Una condicin que debe cumplir la distribucin de frecuencias absolutas es que la suma de
todas ellas es igual al total (n) de individuos observados.
f1 + f2 + ... + fk = fi =n
k

(3)

i=1

En nuestro ejemplo, f1 = 30 y f2 = 109 y la suma de ambas frecuencias es igual al total de


individuos observados (n = 139).
Si bien el concepto de distribuciones de frecuencias siempre es el mismo, la construccin cambia
segn se trate de variables numricas o categricas, y esto es as tanto para los recursos de anlisis
numricos (tablas de frecuencias) como para los grficos (grficos de distribuciones de frecuencias).
Distinguiendo estas situaciones, se presentarn las distintas herramientas estadsticas referentes a las
distribuciones de frecuencias.
4.1. Variables categricas

- el recurso numrico
Como hemos sealado, la variable sexo del ejemplo de los estudiantes de Estadstica
tiene dos valores posibles (varones y mujeres), y para computar las frecuencias
absolutas que le corresponden a cada una de estas categoras realizamos un conteo
del nmero de mujeres (109) y el nmero de varones (30) que aparecen entre los 139
casos registrados. As, estaramos distribuyendo a los 139 individuos observados en las
dos categoras definidas por el sexo.
Esta clasificacin se podra organizar en una tabla 4 como la siguiente:

Distribucin de estudiantes del curso de Estadstica segn sexo. FHyCS-Ao 2001.


Nombre de la
variable

Valores de
la variable

SEXO

n de
estudiantes

Varn

30

Mujer

109

Total

139

Fuente: elaboracin propia basada en datos


del Estudio de los Alumnos de Estadstica

Cantidad de varones
observados
Frecuencias absolutas
Total de
individuos
observados

Es de notar que la tabla anterior resume la columna sexo de la matriz de datos originales, sin
perder informacin, ganando al mismo tiempo en claridad para comprender los datos. Esta
organizacin resumida de los datos se conoce como Tabla de Distribuciones de Frecuencias.

El smbolo

Es importante destacar que toda tabla se puede identificar:


un ttulo que responda a qu se est describiendo, cmo se lo describe (en base a qu caracterstica), cundo fueron
obtenidos los datos, dnde fueron obtenidos (lugar al que refieren);
una columna principal donde se consigna el nombre de la variable y sus valores posibles y encabezados descriptivos
del contenido de la o las columnas;
un cuerpo donde estn los datos;
una fuente que indica la institucin, investigacin, texto, etc. del cual provienen los datos;
las notas aclaratorias o de calce: que sirven para clarificar alguna parte de la tabla y tienen la misma finalidad que las
notas al pie en un texto. No siempre son necesarias.

se denomina sumatoria y es una forma abreviada de sealar la suma de una serie de trminos; en este caso

la suma de todas las frecuencias absolutas desde la primera (i = 1) hasta la nmero k.

30

Unidad 2: Organizacin y Descripcin Inicial de los Datos

- el recurso grfico
Las dos formas grficas ms utilizadas para presentar distribuciones de frecuencias de
variables categricas son: el grfico de barras y el grfico de sectores.
El denominado grfico de barra recoge en el eje horizontal (en este caso el eje no es
numrico) las categoras correspondientes a la variable (en nuestro ejemplo varn y
mujer). El eje vertical (de las Y) es un eje numrico, con una escala en la que se pueden representar
los valores de frecuencias observados. Las alturas de las barras de cada categora expresan la
frecuencia absoluta correspondiente.
La altura de la

Distribucin de los estudiantes de la FHyCS, segn sexo. 2001 barra

corresponde a
la frecuencia
absoluta

n de estudiantes

120

Frecuencia
absoluta
(fi)

100
80
60
40
20
0
Varn

Mujer

Las
barras
son del
mismo
ancho

Sexo

El grfico de sectores o de torta, divide una circunferencia en porciones donde cada una de
ellas representa una categora de la variable; su tamao es proporcional a la frecuencia absoluta
de esa categora y el crculo representa al total de casos 5.
Distribucin de los estudiantes de la FHyCS, segn sexo. 2001
Varn

Mujer

A simple vista, los grficos construidos nos permiten captar rpidamente la desigual distribucin
por sexo de los estudiantes del curso Estadstica. Esta caracterstica de las herramientas grficas
hacen que las mismas sean apropiadas como:

un recurso de anlisis de los datos, y


una forma efectiva de presentar y comunicar los resultados.

La determinacin del nmero de grados del sector correspondiente a cada categora se obtiene razonando mediante regla de
tres simple. Al total de casos (en el ejemplo 139) le corresponden 360, consecuentemente a la categora mujeres se le
asignar un sector igual a 109 . 360 = 282 , 3
139

31

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad .

4.2. Variables numricas


Cuando se construyen distribuciones de frecuencias para variables cuantitativas, los recursos
numricos y grficos difieren segn las mismas presenten pocos o muchos valores
diferentes. Esta distincin entre las variables numricas es al nico efecto de poder destacar las
particularidades de las tcnicas que se utilizan en uno y otro caso.
4.2.1. Variables numricas con pocos valores diferentes
- el recurso numrico
En el caso de una variable numrica, el criterio para resumir los datos en una tabla de
frecuencias es esencialmente el mismo: a cada valor diferente que toma la variable, se
le asigna el nmero de individuos que presentan ese valor (frecuencia absoluta).

Arreglo de Frecuencias:
Tabla en la que se presentan ordenados por magnitud (creciente o decreciente) los valores
individuales observados de la variable en estudio y sus correspondientes frecuencias.
Restricciones:

* slo tiene sentido en el caso de variables discretas, y


* cuando la variable presenta pocos valores diferentes.

Comentario: al igual que para variables categricas se logra un resumen de los datos

originales sin perder informacin.

La doble restriccin para construir un arreglo de frecuencias, se cumple para pocas variables,
por ejemplo n de hijos, cantidad de televisores en el hogar, n de tarjetas de crdito disponibles
en el hogar, etc.

En nuestro ejemplo, la variable cantidad de horas diarias que mira TV asume pocos
valores diferentes y el tiempo frente al televisor est medido en horas enteras, de
manera que es posible construir un arreglo de frecuencias.
Distribucin de los alumnos segn el tiempo que miran TV
Hs. de TV

Los
diferentes
valores de la
variable

"

n de estudiantes

25

26

49

18

13

Total

18 alumnos
miran TV
3hs.
diarias

139

Fuente: elaboracin propia basada en datos


del Estudio de los Alumnos de Estadstica

A partir de la lectura de la tabla, se puede sealar que mayoritariamente los alumnos


miran TV 2 horas o menos por da, y son pocos los que le dedican 5 horas o ms.

32

Unidad 2: Organizacin y Descripcin Inicial de los Datos

IMPORTANTE
Siempre que intentamos dar cuenta de la variabilidad de los datos, la
descripcin de la distribucin de frecuencias no se agota con sealar
cul es el o los valores ms frecuentes.
Se logra comunicar esta diversidad sealando tanto los valores que ms se
repiten, como las singularidades, los mximos y mnimos, etc., de tal
manera que la descripcin genere una buena imagen de la
distribucin de los datos.

- el recurso grfico
Para la representacin de un arreglo de frecuencias, se recurre a un grfico
denominado de bastones que utiliza un sistema de ejes cartesianos, en cuyo eje de
abscisas (eje X) se representan los valores de la variable y en las ordenadas (eje Y) las
frecuencias absolutas. Para cada valor de la variable se levanta una lnea (o bastn)
cuya altura es la frecuencia absoluta correspondiente a ese valor. Debe destacarse que en este tipo
de grficos se traza una lnea y no una barra, debido a que a cada valor de la variable le
corresponde un punto en el eje de las abscisas.
Distribucin de los estudiantes segn el tiempo que miran TV-Ao
2001
60
n de estudiantes

50
40
30
20
10
0

"

Hs. de TV
Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica

El grfico permite observar inmediatamente que, como se describiera a partir de los


datos de la tabla, los valores 0, 1 y 2 horas de mirar TV concentran el mayor nmero de

alumnos y que es poco frecuente que los estudiantes miren ms de 5 horas de TV.
Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad

Consideremos ahora la edad de los estudiantes. Es importante sealar que -como en la


tabla que se presenta a continuacin- si no se cumplen los requisitos sealados
precedentemente para la construccin de un arreglo 6, la tabla de frecuencias no
constituye un buen resumen de la informacin, que permita una mayor
comprensin del comportamiento de los datos.

Recordemos que este tipo de distribucin se utiliza en el caso de variables discretas con pocos valores diferentes.

33

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Entre los alumnos se registran 25 edades diferentes, lo que resulta en una tabla extensa que
dificulta aprehender la tendencia general de la edad de los estudiantes. En consecuencia, esta tabla
no resulta un buen recurso para el anlisis de la variable.
Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001
Edad (*)

n de
estudiantes

17

18

22

19

29

20

21

10

22

10

23

24

25

26

27

28

29

30

31

32

33

34

35

37

38

40

41

44

47

Total

136

(*) Hay tres estudiantes que no declaran la edad


Fuente: elaboracin propia basada en datos del
Estudio de los Alumnos de Estadstica.

La construccin de cualquier tabla debe lograr un equilibrio entre la mayor claridad y la


menor prdida de informacin; en este caso, si bien no perdimos informacin tampoco hemos

ganado en un resumen que permita visualizar rpidamente las principales caractersticas de la variable
en estudio.
4.2.2. Variables numricas con muchos valores diferentes
- el recurso numrico
Una solucin al problema de construir distribuciones de frecuencias para variables con
muchos valores diferentes evitando las tablas extensas, es construirlas de tal manera
que, en lugar de listar los valores individuales de la variable, se los presenta en grupos
de valores para los cuales se computa su frecuencia. A esta forma de presentar los
datos se la conoce como distribucin en intervalos de clase.

34

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001


Edad

n de estudiantes

17-20

65

21-24

25

25-28
Ocho
Intervalos de
clase

"

17

29-32

14

33-36

37-40

41-44

45-48

Total

136

Hay 14
estudiantes
que tienen
entre 29 y
32 aos

Fuente: elaboracin propia basada en datos


del Estudio de los Alumnos de Estadstica.

Leyendo la tabla, vemos que (en cuanto a su edad) el grupo es bastante heterogneo,
con edades que van desde los 17 a los 48 aos; sin embargo, hay 90 estudiantes que no
exceden los 24 aos, y entre ellos el mayor nmero se concentra entre los 17 y 20 aos
de edad. Solamente 3 superan los 40 aos. Una vez ms, la descripcin de la edad de
los estudiantes no se puede reducir a la mencin de lo hegemnico que resulta el grupo de edades
entre 17 y 20 aos. Por ello, se intenta expresar la diversidad de edades en este grupo.
Se puede ver que, de esta manera, hemos ganado en claridad al lograr una mayor sntesis.
Debemos destacar a su vez que, mediante este procedimiento tambin hemos perdido
informacin, dado que no podemos recuperar desde esta tabla los valores individuales de los datos.
Por ejemplo: sabemos que hay 5 estudiantes que tienen entre 37 y 40 aos, pero desconocemos
cules son sus edades exactas; esto mismo vale para cada una de las clases restantes.
Esta prdida de informacin hace evidente el cuidado que debemos poner al agrupar los datos en
clases, es decir, al determinar la cantidad de intervalos que utilizaremos y la amplitud que daremos a
los mismos.

L
1

IMPORTANTE
En las distribuciones en intervalos de clase:
Hemos ganado en resumen y mayor claridad sobre el comportamiento de los
datos.
Conocemos la frecuencia absoluta de cada clase, pero perdemos o
desconocemos la frecuencia que le corresponde a cada valor individual.
La prdida de informacin exige cuidados en la construccin de los intervalos.
Construir una distribucin en intervalos supone decidir el nmero de estos y
su amplitud.

Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la Gua
de Actividades correspondiente a esta unidad.

Distribucin en intervalos de clase:


Tabla en la que se presentan los datos agrupados en ciertas clases o intervalos de
valores de la variable en estudio y las frecuencias computadas para cada clase o
intervalo.

35

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Conceptos bsicos
Nmero de clases de la distribucin (K): cantidad de intervalos de clase en los que se
redistribuyen los valores de la variable.
Lmites de la clase: los valores que delimitan cada intervalo de clase. Existe un lmite inferior
y uno superior para cada clase (Li y Ls).
Amplitud de una clase (a): es la diferencia entre el lmite superior de esa clase y el lmite
superior de la clase anterior.
Punto medio de clase (PM): o marca de clase, es un valor representativo del intervalo
que se obtiene como el promedio de los lmites de la clase [(Li+Ls)/2].
Rango del conjunto de datos (R): es un valor que expresa de manera global el campo de
variacin de los datos. Cuando se cuenta con los datos individuales se lo obtiene como: xmx xmn ; en el caso de distribuciones en intervalos de caso es la diferencia entre el lmite superior de
la ltima clase y el lmite inferior de la primera.

En la distribucin por edades de los alumnos, las datos se ordenaron en 8 clases de igual
amplitud (a = 4); para la primer clase el lmite inferior es 17 y el lmite superior es 20, y
su punto medio de clase es 18,5. Es importante destacar que por tratarse en este caso
de una variable que asume valores enteros (se toma la edad en aos cumplidos), fue
posible construir intervalos discontinuos, esto es que el lmite superior de una clase no coincide con
el lmite inferior de la siguiente, de manera que hay una prdida de continuidad entre un intervalo y
otro, lo que no supone un problema en el caso de variables discretas.
En el caso de variables continuas se construirn intervalos donde el lmite superior de una clase
coincide con el lmite inferior de la siguiente (continuos). Por ejemplo en el caso de las edades se
construiran intervalos de 17 a 21, 21 a 25, 25 a 29, etc. En estos casos, para que no existan
problemas de decidir a qu intervalo asignar el valor que coincide con uno de los lmites, se acepta la
convencin de que los intervalos comprenden las edades que van de 17 a menos de 21, de 21 a
menos de 25, etc. De manera que, un individuo con 21 aos se computa en el segundo de los
intervalos definidos.
Si tomamos otro ejemplo como el ingreso mensual total del hogar de los estudiantes, se pueden
construir intervalos de 0-250, de 250-500, 500-750, etc. Un estudiante que pertenece a un hogar con
un ingreso total mensual de $500 ser asignado al tercer intervalo (de 500 a 750 pesos), porque el
intervalo de 250 a 500 incluir todos los ingresos desde 250 incluido, hasta $499,99.

Qu criterios utilizar para construir los intervalos?


Esta pregunta no tiene una nica respuesta. La construccin de la distribucin por intervalos se
puede guiar por distintos criterios, como el propuesto por Sturges, la exploracin previa de los
valores individuales y los propsitos del anlisis. Sin embargo, pueden sealarse algunas
recomendaciones.
Recomendaciones generales para la construccin:

El nmero de clases no debera ser inferior a 4 ni superior a 15.

Las clases debern ser -en lo posible- de igual amplitud y con lmites enteros.

Evitar la presencia de clases abiertas (sin lmite superior en la ltima clase o


inferior en la primera).
Evitar la presencia de clases vacas (intervalos de clase con frecuencia cero).

Con la redistribucin en clases, se buscar manifestar la tendencia de los datos a


concentrarse en determinados valores.

Los intervalos deben comprender todo el rango de variacin de la variable.

36

Unidad 2: Organizacin y Descripcin Inicial de los Datos

El modelo de Sturges
Una primer respuesta sera la que propone Sturges quien, a partir del nmero de datos
que se quieren ordenar, recomienda como el nmero de clases apropiada el resultado
de la siguiente expresin:
k 1+3,3.log n

donde:

k es el nmero de clases que se quiere determinar,


n es el nmero total de datos y
log es el logaritmo 7 en base 10.

Obtenido el nmero de clases (k) la amplitud de las mismas ( a ), surge inmediatamente de hacer:
R
, donde R es el rango. Se expresa que la amplitud es aproximadamente igual ( ) al resultado
a
k
del cociente, porque este puede dar un valor no entero.

En nuestro ejemplo, para determinar el nmero de intervalos de clase, dado que n es


igual a 136, la frmula de Sturges sugiere: k 1 + 3, 3log136 8 intervalos
Entonces, dado que la edad mxima es de 47 aos y la mnima de 17 aos, la amplitud
47-17
=3,75 aproximadamente igual a 4.
es a
8
Determinado el nmero de intervalos y la amplitud, construimos las clases tomando como lmite
inferior el menor valor observado (en nuestro ejemplo 17 aos), o un valor que comprenda a ese
mnimo. As, el primer intervalo en este caso podra ser de 17 a 21 (si hacemos intervalos continuos)
y, a partir de all, los intervalos se sucedern de la siguiente manera: 21 a 25, 25 a 29 y as siguiendo
hasta el intervalo que cubra el valor mximo.
El modelo de Sturges presenta como ventaja su simplicidad, y como limitacin el hecho de que se
basa nicamente en el nmero de datos observados sin tener en cuenta la distribucin de los mismos.
En consecuencia, debe ser tomado como una primera aproximacin al nmero y amplitud de
intervalos, la que ser ajustada en funcin del comportamiento de los datos y tomando en cuenta las
recomendaciones que hemos sealado precedentemente.

La exploracin previa de los valores individuales


Una forma de explorar la distribucin de los valores de la variable es mediante la
construccin y observacin del arreglo de frecuencias. A partir del arreglo, y tomando
en cuenta las reglas generales de organizacin de los datos en intervalos, se puede ir
construyendo un mejor resumen, mediante un proceso de prueba y error, hasta cumplir
con el requisito final de expresar de la mejor manera posible la tendencia o comportamiento de los
datos. Un procedimiento de estas caractersticas es el que hemos utilizado para la construccin de la
distribucin en intervalos presentada anteriormente. Sera un buen ejercicio para el lector, ensayar
distintas organizaciones de los datos a partir del anlisis del arreglo de las edades de los estudiantes.
Otra forma de exploracin inicial es recurrir a un tipo de grfico especial que se conoce como
diagrama de tallo-hoja (en ingls denominado Stem & Leaf). El diagrama presenta los datos de la
variable ordenados de una manera particular, en el que se descomponen los valores en dos
partes 8:
el tallo, que toma los primeros dgitos, y
la hoja que toma el dgito siguiente.

Por ejemplo, el valor 147 se puede dividir en un tallo de 14 (los dos primeros dgitos) y
una hoja de 7.
Tallo

hoja
14 | 7

Esta frmula es muy sencilla de utilizar en el caso de contar con una calculadora que disponga de la funcin logartmica.

La construccin de este Grfico tiene muchas variantes, aqu desarrollaremos la ms simple; sin embargo, para profundizar el
conocimiento sobre este recurso analtico, recomendamos la lectura de Moore (1995: 19-21) y Alaminos (1993: 32-33).

37

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

El tallo puede tener tantos dgitos como sean necesarios en tanto que la hoja solo un dgito.
Frecuencia
(57)
(58)
(17)
(4)
Ancho Tallo:
Cada hoja:

Tallo 1
2
3
4

|
|
|
|

Diagrama de tallo-hoja para la Edad


Hoja

777777888888888888888888888899999999999999999999999999999
0000000011111111112222222222334445555666666777778899999999
00111233344557788
Representa a
0147
10
los 8 estudiantes de 29 aos
1 caso o individuo

En el diagrama anterior vemos que los tallos (1,2,3,4) estn ordenados de manera vertical. A la
derecha de cada uno, se disponen en forma creciente las hojas, cada una de las cuales corresponde al
ltimo dgito de cada una de las edades observadas para ese tallo.
A la izquierda de cada tallo se consignan las frecuencias correspondientes a ese tramo de edad.
As, en el tramo ms largo del diagrama (el segundo) se indica que hay 58 estudiantes que registran
edades entre 20 y 29 aos. Podemos ver entonces que este diagrama combina una distribucin
de frecuencias y un grfico de barras horizontales.
En trminos generales, el diagrama de tallo-hoja presenta:
los tallos ordenados en forma vertical y creciente;
a la derecha de cada tallo, las hojas donde cada una representa un dato
(salvo que se indique lo contrario al pie del diagrama);
las hojas ordenadas en forma creciente, dentro de cada tallo, donde el
valor que asumen corresponde al dgito siguiente al tallo.
El diagrama nos permite analizar la distribucin de los individuos, y decidir
lmites para construir intervalos de clase que expresen de manera apropiada el
comportamiento de los datos: la forma de la distribucin (concentraciones,
valores poco frecuentes, extremos, etc.).
A partir de la forma de la distribucin que nos presenta este diagrama, podemos tomar decisiones
para construir los intervalos de clase. Una distribucin posible de las edades, resultara al dividirlas en
tantas clases como dcadas se identifican en el diagrama tallo-hoja. Esta decisin comportara una
gran prdida de informacin, as por ejemplo: se perdera aquella que supone conocer el nmero
importante de estudiantes con 19 aos (edad ms frecuente que surge de una simple observacin el
grfico). Entonces, se hace necesario proponer intervalos que resuman los datos sin tanta prdida de
informacin.
Una alternativa en este sentido sera analizar el interior de cada tramo de edades, considerando el
contexto de los datos (estudiantes del primer y segundo ao de la universidad) y las recomendaciones
generales de la construccin de una distribucin de frecuencias por intervalos de clase9.
Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001
Edades ms
frecuentes
Intervalos de
clase de
diferente
amplitud con
una clase
abierta

Edad

n de estudiantes

17-18
19-20
21-22
23-26
27-30
31-35
36 y ms

28
37
20
15
17
11
8
136

Total

Frecuencia
mxima

Fuente: elaboracin propia basada en datos


del Estudio de los Alumnos de Estadstica

Queremos hacer notar que los cortes son subjetivos y consecuentemente la alternativa propuesta es solo una de las posibles
que se pueden construir.

38

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Los propsitos del anlisis


Los propsitos del anlisis pueden guiar la construccin de intervalos de clase diferentes a los que
surgen de un modelo como el de Sturges o del anlisis de la distribucin a partir del diagrama de
tallo-hoja. As por ejemplo, en la construccin de intervalos de clase para la variable edad, puede ser
de inters del investigador reconocer la distribucin segn grupos de edades que tienen sentido
en trminos de que cada tramo de edad permite suponer caractersticas particulares de quienes lo
integran (experiencia de vida, intereses, hbitos, trabajo, rol en el hogar, etc.). As, podramos
imaginar intervalos de clase definidos como:
Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001
Edad
Intervalos de clase
de diferente
amplitud
Intervalo
de clase
abierta

n de estudiantes

17-19

57

20-29

58

30 y ms

21

Total

Hay 21
estudiantes de 30
aos y ms

136

Fuente: elaboracin propia basada en datos


del Estudio de los Alumnos de Estadstica

Tenemos en este caso una distribucin u organizacin de los datos que resulta vlida, aun
cuando se trata de tres intervalos con distinta amplitud y uno de ellos es abierto (sin un lmite
superior). Lo que queremos destacar con el ejemplo, es que, al momento de construir una
distribucin, por encima de cualquier criterio estadstico que se pueda tomar en cuenta,
est el propsito del anlisis.

Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.

- el recurso grfico
El recurso grfico que se asocia a las distribuciones de frecuencias organizadas en intervalos de
clase es el histograma.
Histograma
Se trata de un grfico de barras en un sistema de ejes cartesianos, en
cuyo eje de las X se representa la variable en estudio, y en el eje de las Y las
frecuencias. En l, se hace corresponder a cada intervalo de clase una barra
cuya altura coincide con la frecuencia de esa clase.

Comentarios
1. Las barras deben cubrir todo el recorrido de la variable, lo que exige darle
continuidad a los intervalos que se construyen.
2. La presencia de clases de diferente amplitud y de clases abiertas exigen
soluciones particulares para graficar y es este uno de los motivos por los
cuales se busca evitar este tipo de situaciones.
3. La principal utilidad de este recurso analtico es facilitar la descripcin
general del conjunto de datos, analizando la forma que toma la
distribucin; esto es para qu valores existen mayores concentraciones,
como as tambin identificar aquellos muy diferentes (valores atpicos) al
comn de los datos del conjunto.

39

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Histograma de Edad de los Estudiantes

Hay 65 alumnos con edades


que van de 17 aos a menos Edad frec.
17-21 65
de 21
21-25 25
25-29 17
29-33 14
33-37
7
37-41
5
41-45
2
45-48
1
Total 136

Indica que se ha
cortado el eje,
evitando un blanco
innecesario

L
"

136 casos computados 3 casos sin datos

IMPORTANTE

El histograma se construye con intervalos de clase continuos y de igual


amplitud, que es la manera ms sencilla de hacerlos, y permite estudiar la
forma de la distribucin, finalidad fundamental de este recurso. La
forma est dada -como fuera sealado anteriormente- por los aspectos
ms generales (concentraciones) y singularidades (valores atpicos) que
presentan los datos.

En este caso la forma del histograma nos indica la fuerte concentracin de estudiantes
entre 17 y 21 aos con una sostenida disminucin del nmero de ellos a partir de esa
edad. Otra manera de expresar la forma de esta distribucin sera sealando que en este
conjunto existe una concentracin de los datos en los primeros grupos de edades (es muy
frecuente la presencia de estudiantes jvenes) y pocos casos de estudiantes en las
edades ms altas.
El polgono de frecuencias constituye otra manera de presentar una distribucin de
frecuencias, que se obtiene uniendo mediante segmentos los puntos medios del lado
superior de cada una de las barras de frecuencia. En los extremos, el polgono se
cierra uniendo los extremos del primero y ltimo rectngulo con el punto medio de un
primer y ltimo intervalo hipottico construido a este fin (en nuestro ejemplo los intervalos de 13-17 y
49-53 aos de edad).

40

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Histograma y Polgono de Frecuencias de la Edad de los Estudiantes

Punto medio del


lado superior de la
barra

Punto medio
del ltimo
intervalo
hipottico

136 casos computados 3 casos sin datos

El polgono se representa normalmente en forma separada al histograma ya que ambos tienen la


misma finalidad 10. De esta manera con el polgono obtenemos un grfico simple, que constituye una
silueta de la forma de la distribucin, y en consecuencia nos permite al igual que el histograma,
describir el comportamiento general del conjunto de datos.
Tanto el histograma como el polgono de frecuencias son recursos fundamentales para explorar y
presentar un conjunto de datos numricos en los que tenga sentido realizar agrupamientos en
intervalos de clase.
El diagrama de tallo-hoja que presentramos anteriormente, tambin funciona como un recurso
exploratorio que nos permite captar la forma de la distribucin, sin perder los valores individuales
que se agrupan en los distintos intervalos. De hecho, este es uno de los usos ms frecuentes del
diagrama y varios autores lo presentan como un recurso que conserva las bondades de una tabla de
frecuencias y las de un histograma.

Las distribuciones en cuanto a su forma pueden ser de tres tipos (ver grfico):

Simtricas: cuando los datos se concentran en los valores centrales de la distribucin, y las
frecuencias decrecen hacia ambos extremos de manera simtrica.

Asimtricas a la derecha: cuando los datos se concentran a la izquierda y disminuyen las


frecuencias a medida que aumentan los valores de la variable.
Asimtricas a la izquierda: cuando los datos se concentran a la derecha de la distribucin
y las frecuencias disminuyen gradualmente a medida que los valores de la variable decrecen.

10

Se puede demostrar adems, que la superficie de todas las barras del histograma y el rea comprendida bajo el polgono son
equivalentes.

41

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Formas tpicas de una distribucin de frecuencias

Asimtrica a izquierda

Simtrica

Asimtrica a derecha

Es la cola de la distribucin, la que califica el tipo de asimetra


En el ejemplo del histograma o polgono de las edades se observa una distribucin marcadamente
asimtrica a la derecha.

Actividad N 6
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 6 de la
Gua de Actividades correspondiente a esta unidad.

4.3. Transformaciones de las frecuencias absolutas


Muchas veces la necesidad de interpretar la informacin producida en una tabla de
frecuencias absolutas y/o responder preguntas que nos formulamos en relacin al
comportamiento de los datos nos obligan a re-expresar o transformar la informacin
contenida en la tabla. Por ejemplo,

decir que 65 estudiantes tienen entre 17 y 21 aos, no brinda informacin respecto a la


importancia de este grupo en el conjunto de estudiantes observados, es ms ilustrativo sealar
que el 48% de los estudiantes tienen entre 17 y 21 aos.

de la misma manera, responder a la pregunta cuntos estudiantes tienen menos de 29 aos?,


obligara a recalcular la frecuencia absoluta reagrupando a los estudiantes que tienen menos de
29 aos.

Con el fin de dar respuesta a este tipo de interrogantes, se re-expresan las frecuencias en otras
que facilitan la lectura e interpretacin: frecuencias relativas y acumuladas.
4.3.1. Las frecuencias relativas
Hay diversas situaciones en las que se requiere expresar la distribucin de frecuencias en
trminos relativos al total de datos; por ejemplo:
cuando queremos conocer la importancia relativa de ciertos valores o caractersticas en
el conjunto de datos observados. Ejemplo: El 40% de los rboles de Bs. As. son fresnos,
para sealar la abundancia de esta variedad en la ciudad;

cuando queremos comparar esa importancia relativa entre dos conjuntos de datos de
diferente tamao. Ejemplo: El 37,6% de la poblacin de Formosa es pobre mientras que en
Misiones esa poblacin alcanza al 24,9%, para comparar la incidencia de la pobreza en dos
poblaciones de diferente tamao;
cuando a partir de una muestra queremos sacar conclusiones sobre la presencia de
cierta caracterstica en la poblacin. Ejemplo: para concluir sobre el comportamiento de la
poblacin de Internet a partir de la observacin de una muestra, no brinda una informacin
pertinente decir 560 de los usuarios de Internet observados son mujeres sino: cuatro de
cada diez usuarios de Internet son mujeres.

42

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Frecuencia relativa (fr):


Mide la proporcin de datos del conjunto que presentan un determinado valor de
la variable, generalmente expresado en porcentaje.

Clculo
Se la obtiene como el cociente entre la frecuencia absoluta de una clase (valor individual o
categora de respuesta) y el total n de datos.
f
fr = i
n
Generalmente se la expresa en porcentaje, multiplicando por 100 la expresin anterior.
fr(%) =

fi

.100
n
La suma de todas las frecuencias relativas porcentuales es 100.

fr = 100

Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001


Edad

n de estudiantes

Frecuencia relativa
(%)

17-18

"

28

20,6

19-20

37

27,2

21-22

20

14,7

23-26

15

11,0

27-30

17

12,5

31-35

11

8,1

36 y ms

5,9

28
.100
136
El 11% de los
estudiantes
tienen entre
23 y 26 aos

La suma de
las
frecuencias
Total
136
100,0
relativas
Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica siempre da
100

En la tabla se puede leer, por ejemplo, que los 15 estudiantes de entre 23 y 26 aos,
representan el 11% del total.

4.3.2. Las frecuencias acumuladas


Muchas veces interesa conocer el nmero total (o el porcentaje) de individuos que
tienen menos que (a lo sumo) un determinado valor de la variable o ms que (al
menos) un cierto valor. Por ejemplo: cuntos estudiantes tienen hasta 22 aos? o

cuntos estudiantes tienen ms de 26 aos?


Intentemos responder intuitivamente estos dos interrogantes. En el primer caso, deberamos
considerar a los estudiantes que tienen 17, 18, 19, 20, 21 y 22 aos. El nmero de estudiantes con a
lo sumo 22 aos surgir de sumar el total de estudiantes que tienen entre 17 y 18 aos, ms los que
tienen entre 19 y 20, y los que tienen 21 y 22 aos. Es decir que acumulamos las frecuencias
absolutas de todos los intervalos de edades que no excedan los 22 aos. En consecuencia tenemos
(28+37+20 = 85) 85 estudiantes de 22 aos o menos.
De manera anloga se puede razonar para encontrar la cantidad de estudiantes que tienen ms de
26 aos.
Para responder a este tipo de interrogantes resulta conveniente construir una distribucin de
frecuencias acumuladas.

43

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

- Frecuencias acumuladas menos que (Fa-)


Indican el nmero de observaciones en la distribucin que son menores al lmite
superior de cada una de las clases (valor individual o categora de respuesta) en
que fueron organizados los datos.
Clculo:
Para una clase genrica i de la distribucin (o valor individual si se trata de un arreglo de
frecuencias o categora si se trata de una variable ordinal), la frecuencia acumulada menos que se
obtiene sumando la frecuencia absoluta de esa clase ms las frecuencias absolutas de todas las
clases anteriores a ella.
Fa- = fi
i

- Frecuencias acumuladas ms que (Fa+)


Indican el nmero de observaciones en la distribucin que son mayores al lmite inferior de cada
una de las clases (valor individual o categora de respuesta) en que fueron organizados los datos.
- Frecuencias acumuladas relativas (Far)
Indican la proporcin o porcentaje de observaciones acumuladas respecto al total de datos.
Clculo
Se obtiene como proporcin o porcentaje de las frecuencias acumuladas absolutas (menos
que o ms que) al total n de datos.
Far =

Fa
n

Far(%) =

Fa
n

.100

IMPORTANTE
Estas frecuencias tienen sentido nicamente para datos numricos o datos
categricos en escala ordinal.

Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001


Edad

n de

Frec.

estudiantes relativa

Frec.

Frec.

Frec.

Frec.

Acumulada Acumulada Acumulada Acumulada

(%)

Fa-

Far- (%)

Far+ (%)

Fa+

17-18

28

20,6

28

20,6

136

100,0

19-20

37

27,2

65

47,8

108

79,4

21-22

20

14,7

85

62,5

71

52,2

23-26

15

11,0

100

73,5

51

37,5

27-30

17

12,5

117

86,0

36

26,5

31-35

11

8,1

128

94,1

19

14,0

36 y ms

5,9

136

100,0

5,9

136

100,0

Total

Fuente: elaboracin propia basada en datos del


Estudio de los Alumnos de Estadstica

"

71
.100
136
8+11+17

La acumulada
relativa
porcentual de
la ltima
clase es 100%

La acumulada absoluta de
la ltima clase es n

En este cuadro se incluyen todas las formas de expresar las frecuencias y en l podemos leer en la
lnea grisada y a modo de ejemplo que:

20 estudiantes tienen entre 21 y 22 aos, y constituyen el 14,7% del total del curso.
85 estudiantes tienen 22 aos o menos y representan el 62,5% del total.
71 tienen 21 aos o ms y este grupo representa el 52,2% del total.

44

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Actividad N 7
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 7 de la
Gua de Actividades correspondiente a esta unidad.

Cuando se trata de una variable ordinal, el razonamiento es anlogo al desarrollado para las
variables numricas. Por ejemplo en el caso de la variable Nivel de estudios del Padre la informacin
se podra organizar en una tabla como la siguiente:
Estudiantes de Estadstica segn Nivel de estudios del Padre- FHyCS-Ao 2001
n de
estudiantes Frecuencias Frecuencias Frecuencias Frecuencias
Nivel de Estudios
del Padre
estudiantes
(%)
Acumuladas Acumuladas Acumuladas Acumuladas
(*)

Far- (%)

(Fa-)

Ninguno

(Fa+)

Far+ (%)

2,2

2,2

133

100,0

Prim. Incompleto

27

20,3

30

22,5

130

97,8

Prim. Completo

56

42,1

86

64,6

103

77,5

Sec. Incompleto

17

12,8

103

77,4

47

35,4

Sec. Completo

17

12,8

120

90,2

30

22,6

5,3

127

95,5

13

9,8

4,5

133

100,0

4,5

133

100,0

Terc./Univ. Incomp.
Terc./ Univ. Comp.
Total

(*) Hay 6 estudiantes que no declaran el nivel de estudios de su padre.


Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica

"

En la lnea grisada se lee:

Los 17 estudiantes cuyos padres tienen secundario incompleto, representan el 12,8%.


Son 103 los estudiantes cuyos padres no superaron el secundario incompleto (tienen
un nivel de estudios de secundario incompleto o menos). Estos representan el 77,4%
del total de los estudiantes.

Los que tienen padres con secundario incompleto o ms, son 47 y representan el
35,4% del total.

Actividad N 8
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 8 de la
Gua de Actividades correspondiente a esta unidad .

4.3.3. La curva de Lorenz y el ndice de Gini

La Curva de Lorenz es un recurso grfico que permite analizar el grado de


concentracin/desconcentracin de ciertas variables particulares. As, para el
ingreso, la renta, la tenencia de la tierra, etc. tiene sentido y resulta de inters
conocer la mayor o menor concentracin de esos recursos en una cierta poblacin en
estudio. Este grfico ser til cuando intentemos responder preguntas como:
La superficie de tierra productiva de la provincia, aparece concentrada entre pocos
propietarios?
Cmo se distribuye el ingreso entre los hogares de la ciudad de Posadas?
Cul es la distribucin de los 37 millones de argentinos segn el tamao de las localidades?
etc.
A manera de ejemplo consideremos la distribucin del ingreso entre los hogares de Posadas.
Analizar la distribucin de estos ingresos entre los hogares, nos lleva a observar si el monto total de
los ingresos registrados se reparte equitativamente (o no), entre el total de hogares; as, en una
situacin de equidistribucin, a cada hogar le correspondera el mismo ingreso. Intuitivamente,
podemos entender que, en este caso, el ingreso del 5% de los hogares representa un 5% del ingreso

45

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

total; a un 28% de los hogares le corresponder el 28% del total de los ingresos, al 64% el 64% y as
sucesivamente.
Una situacin de estas caractersticas se puede representar grficamente, utilizando un
sistema de ejes cartesianos, en el que cada punto queda definido por el porcentaje de
hogares y su correspondiente porcentaje de ingresos, obteniendo una grfica como la
siguiente.
Curva de Lorenz para una situacin de equidistribucin (o mnima concentracin)
100

La situacin de equidistribucin
queda representada entonces por la
recta que divide al cuadrante en dos
partes iguales (bisectriz, diagonal del
cuadrado); expresando as el caso de
mnima concentracin
(estrictamente nula).

El 64% de los hogares


acumulael 64% de
los ingresos

90
80

Ingreso (%)

70
60
50
40
30

El 28% de los hogares


acumulael 28% de
los ingresos

20
10
0
0

10

20

30

40

50

60

70

80

90 100

Hogares (%)

Curva de Lorenz para una situacin de mxima concentracin


100

La situacin opuesta (de mxima


concentracin) estara dada por aquel
caso en que el total de los ingresos se
concentra en un solo hogar. Entonces, al
10% de los hogares les corresponde el 0%
de los ingresos, al 30% tambin el 0%, y as
sucesivamente, hasta llegar al ltimo hogar
(que completa el 100%) al que le
corresponde el 100% de los ingresos.

90
80

Ingresos (%)

70
60
50

De esta manera el grfico define un


rea que se corresponde con el tringulo inferior del cuadrado (rea
sombreada): rea de mxima co
concentracin. Estamos aqu
nuevamente ante una situacin terica.

40
30
20
10
0
0

10

20 30

40

50

60

70

80

90 100

Hogares (%)

46

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Curva de Lorenz para una situacin de concentracin intermedia

Entre estos dos extremos, de


mxima y nula concentracin, en la
realidad encontraremos una infinidad
de situaciones intermedias, que
definirn curvas que a medida que
se alejan de la bisectriz nos
hablan de situaciones cada vez
menos equitativas o de mayor
concentracin de la variable que se
est analizando. El rea definida entre
la bisectriz y la curva se conoce como
rea de concentracin.

100
90

al 82% de los hogares le


corresponde el 58% de los
ingresos

80

Ingresos (%)

70
60
50

Area de
concentracin

40
30

En el grfico siguiente presentamos


una curva de Lorenz que representa
una situacin intermedia a los
extremos planteados.

20
10
0
0

10

20

30

40

50

60

70

80

90 100

Hogares (%)

La construccin de la curva de Lorenz


La construccin de la curva es sencilla, debindose contar para ello con la distribucin de
frecuencia de la variable en estudio; en este caso la distribucin de la variable ingreso en
los 3.300 hogares de Posadas. A continuacin desarrollaremos las transformaciones
necesarias para disponer de los datos que se representan en la curva de Lorenz
(porcentaje de ingresos que acumulan diferentes porcentajes acumulados de hogares).
Ingresos familiares mensuales- Posadas 1994
Ingresos
familiares
165-249

Nmero de
hogares (fi)
450

Ingreso medio
de clase (xi)
207,0

249-414

486

331,5

414-829

1224

621,5

829-1243

576

1036,0

1243-1658

324

1450,5

1658-2487

162

2072,5

2487-3316

54

2901,5

3316-4146

54

3731,0

TOTAL

3330

La Tabla anterior presenta la distribucin de los ingresos monetarios mensuales percibidos por
3.330 familias de Posadas, agrupados en intervalos. Aceptando que los puntos medios representan a
los datos incluidos en cada clase, el producto de cada punto medio por su correspondiente frecuencia
absoluta (fi x xi) expresa el monto o volumen total de ingresos percibido por los hogares de esa clase.
As por ejemplo: 450 x 207,0 = $93.150.- Esto significa que los 450 hogares con niveles de ingresos
mensuales entre $165 y $249 perciben en conjunto un monto total de $93.150.De igual modo los 486 hogares con ingresos entre $249 y $414 perciben todos juntos un monto
total de ingresos de $161.109 (486 x 331,5). Es decir que utilizando los puntos medios de clase
(ingreso medio de ese grupo de hogares) y las frecuencias absolutas (cantidad de hogares de la clase)

47

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

es posible obtener el ingreso total de las familias que componen esa clase, tal como se muestra en la
columna (4) de la tabla siguiente.
Ingresos familiares mensuales - Posadas 1994
Ingresos
familiares (1)

Nmero de
hogares(fi) (2)

Ingreso medio
de clase (xi) (3)

Monto total de
ingresos en $ (4)

165-249

450

207,0

93150

249-414

486

331,5

161109

414-829

1224

621,5

760716

829-1243

576

1036,0

596736

1243-1658

324

1450,5

469962

1658-2487

162

2072,5

335745

2487-3316

54

2901,5

156681

3316-4146

54

3731,0

201447

TOTAL

3330

2775546

Sumando los ingresos correspondientes a cada clase, obtenemos el monto total de los ingresos
percibido por el conjunto de los 3.330 hogares observados ($2.775.546). Podemos ver adems que,
los 450 hogares de menores ingresos (entre $165 y $249) acumulan un total de $93.150; a su vez son
$161.109 los percibidos por hogares con ingresos mensuales entre $249 y $414, y as sucesivamente.
El nmero de hogares y el monto total de los ingresos que les corresponden, pueden ser
acumulados tal como se presenta en las columnas (5), (6), (7) y (8), de la Tabla siguiente.
Ingresos familiares mensuales Posadas, 1994
Ing. Acum.
Ingresos
Nmero de
Monto total de
Hogares
Ing. Acum. Hogares
(7)
(6)
(%) (8)
familiares (1) hogares (fi) (2) ingresos en $ (4) Acum. (Fa) (5)
Acum.(%)
($)
165-249

450

93150

450

93150

14

249-414

486

161109

936

254259

28

414-829

1224

760716

2160

1014975

65

37

829-1243

576

596736

2736

1611711

82

58

1243-1658

324

469962

3060

2081673

92

75

1658-2487

162

335745

3222

2417418

97

87

2487-3316

54

156681

3276

2574099

98

93

3316-4146

54

201447

3330

2775546

100

100

3330

2775546

TOTAL

Las columnas (5) y (6) expresan en valores absolutos, el nmero de hogares y monto total de
ingresos acumulados. Las columnas (7) y (8) presentan esos mismos valores expresados en
porcentajes.
As entonces, a manera de ejemplo, podemos observar en la fila sombreada que, los 2.736 hogares
con ingresos menores que $1.243, acumulan $1.611.711; esto significa que el 82% del total de
hogares que menos ganan, participan con slo el 58% del monto total de ingresos
percibido por el conjunto de familias observadas.
Con igual criterio se interpretan los valores acumulados (absolutos y relativos) para todas las
clases de la distribucin. Las cifras relativas presentadas en (7) y (8) permiten construir la curva de
Lorenz. El porcentaje acumulado de los hogares (7), estar representado en el eje de abscisas y el
porcentaje acumulado de los ingresos (8) en el eje de ordenadas.
De esta manera, la curva queda determinada por los puntos que tienen por abscisa el porcentaje
acumulado de hogares y por ordenadas el porcentaje de ingresos acumulados correspondientes. As
por ejemplo, el primer punto que representamos estar definido por las coordenadas (14;3), el

48

Unidad 2: Organizacin y Descripcin Inicial de los Datos

segundo punto perteneciente a la curva tendr coordenadas (28;9 ) y as sucesivamente con los
diferentes pares de porcentajes que tenemos en la tabla, hasta el punto (100;100).
Curva de Lorenz. Distribucin de los ingresos de 3.330 hogares de la ciudad de Posadas- 1994

Esta grfica tiene la ventaja de permitirnos


apreciar de manera sencilla el nivel de
concentracin de la variable en estudio. En
nuestro ejemplo, vemos que la curva define
un rea que est ms cercana a la situacin
de equidistribucin que a la de mxima
concentracin, y podramos entonces
calificarla como moderada.

100
90

al 65% de los hogares le

80

corresponde el 37% de los


Ingresos (%)

70

ingresos

60
50
40
30

al 28% de los hogares le

20

corresponde el 9% de los

10

ingresos

0
0

10

20

30

40

50

60

70

80

90 100

Hogares (%)

Como ocurre con la mayora de los


grficos, tiene como limitacin el que no
nos ofrece ningn nivel de precisin y
la valoracin es subjetiva. A su vez, en el
caso de tener que realizar una comparacin
entre dos conjuntos de datos, a no ser que
se trate de situaciones extremas o muy
diferentes, puede resultar aventurado
concluir a partir de la apreciacin visual de
la grfica. Para estos casos se hace
necesario definir un recurso numrico
asociado a esta grfica que exprese el

nivel de concentracin de la variable.


El ndice de Gini
Como hemos visto, la curva define un rea de concentracin (que denominaremos
), delimitada por la recta de equidistribucin y la curva obtenida; cuanto mayor sea el
nivel de concentracin de la variable en estudio, mayor ser el rea de concentracin .
Tambin vimos que el rea que se corresponde con la situacin de mxima concentracin coincide
con el tringulo inferior determinado por la recta de equidistribucin (rea total At).

Ingresos (%)

Grfica de Lorenz: rea de concentracin, rea residual y rea total

En las situaciones intermedias,


vamos a poder identificar un rea de
concentracin , y un rea residual
(diferencia entre el rea total y el rea
de concentracin), cumplindose en
cualquier caso, que: At = + .

At= +

Hogares (%)

49

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

El ndice de Gini
Se lo define como el cociente entre el rea de concentracin y el rea total At. En smbolos:

siendo: 0 IG 1
IG =
At

IG =0 cuando se trata de una situacin de equidistribucin ( =0)

IG =1 cuando se trata de una situacin de mxima concentracin ( =At)

Como el clculo del rea resulta ms sencillo que el de , al ndice se lo plantea en trminos
de , reemplazando por (At - ); de lo que resulta:

IG =1-

(11)

At

El rea total A t se determina como la mitad del rea del cuadrado de lado 100; esto es 5.000. El
(X i-1 +X
i (Fi -Fi-1a) determinar el rea , que puede ser pensada como la sumatoria de las reas
problema
se i )reduce
2
de cada uno de los trapecios que componen el rea total . Se puede ver en el grfico que
tendremos tantos trapecios como intervalos de clase se hayan definido.

Grfica de Lorenz: elementos para la determinacin del rea residual

Ingresos (%)

Recordemos que el rea de un trapecio


se obtiene como:
(b1 +b2 ). h
2

Donde:

b:1 base menor

b2 : base mayor
h: altura

b1
Xi

b2

Xi-

Fi-1

Fi

Hogares (%)

En la curva de Lorenz, y para el trapecio genrico planteado en la grfica, tendremos:

b1= X i-1

b2= X i

h= Fi -Fi-1

donde: X i es la variable acumulada en porcentaje hasta el intervalo genrico i

(X i-1 +X i )i (Fi -Fi-1 )


2

X i-1 es la variable acumulada en porcentaje hasta el intervalo anterior a i.


Fi es la frecuencia acumulada porcentual hasta el intervalo i.
Fi-1 es la frecuencia acumulada porcentual hasta el intervalo anterior a i.

11

IG =

At

At
At

=1

At

50

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Entonces, el rea. esta r dada por:

(X i-1 +X i ). (F -i Fi-1 )
2

i =1

Siendo el ndice de Gini:


Y el rea es: =
k

i =1

Luego:

IG = 1
= 1 i =1
At
k

donde k es el nmero de intervalos de clase.

IG =1-

At

(X i-1 +X i ) .(Fi -Fi-1 )


2

(X i-1 +X i ) . (Fi -Fi-1 )


k
1
2
= 1
(X i-1 +Xi ).(Fi -Fi-1 )
10000 i =1
5000

En sntesis, se utiliza como frmula de trabajo, la siguiente expresin:

IG =1

k
1
(Xi-1 +X i ).(Fi -Fi-1 )
10000 i =1

(12)

Para los datos de los 3.330 hogares de Posadas, el Coeficiente de Gini, se obtendra
como:

Ingresos familiares mensuales Posadas, 1994.


Ingresos
familiares (1)

Hog. Acum.
(%) (7)

Ing. Acum.
(%) (8)

Xi-1+Xi

(9)

Fi-Fi-1 (10)

(Xi-1+Xi).( Fi-Fi-1) (11)

165-249

14

14

42

249-414

28

12

14

168

414-829

65

37

46

37

1702

829-1243

82

58

95

17

1615

1243-1658

92

75

133

10

1330

1658-2487

97

87

162

810

2487-3316

98

93

180

180

3316-4146

100

100

193

386

TOTAL

6233

Reemplazando en la frmula:
k
1
1
IG =1
6233 = 1 0, 6233 = 0, 377
(Xi-1 +X i ).(Fi -Fi-1 ) =1
10000
10000 i =1

"

12

Se puede ver que el rea de concentracin representa un 37,7% del rea total, valor que
expresa una concentracin moderada de los ingresos.

Actividad N 9
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 9 de la
Gua de Actividades correspondiente a esta unidad.

Si los valores se expresaran en trminos relativos no porcentuales, la expresin del ndice es: I G =1

51

(X +X ).(F -F )
k

i =1

i-1

i-1

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

4.4. Otras consideraciones sobre los recursos grficos


Hasta aqu hemos presentado la construccin y utilidad analtica de los recursos numricos o
tabulares, as como las alternativas grficas con las que se corresponden y complementan. El
recurso grfico ofrece una amplia gama de posibilidades que no pretendemos agotar en esta
presentacin, sino sealar sus principales alcances y limitaciones, a partir de las cuales el
investigador, basndose en su creatividad, podr generar nuevas alternativas. Dado que existen
programas informticos -como Excel, que permiten construir fcilmente una gran variedad de
grficos- esta presentacin se dirige principalmente a precisar los criterios que se deben tomar en
Brasil un grfico.
cuenta a la hora de seleccionar e interpretar

IMPORTANTE
Hemos presentado hasta aqu recursos grficos asociados a las distribuciones de
frecuencias absolutas (de sectores, de barras, de bastones, histogramas y
polgonos); es necesario destacar que esos mismos grficos pueden ser
construidos para las distribuciones de frecuencias relativas. Estos
grficos conservan la forma de la distribucin y segn sea el inters del
investigador se decidir por una u otra alternativa de representacin.

Sobre este recurso queremos destacar algunos aspectos, que entendemos fundamentales:
Los grficos no tienen un papel secundario en el anlisis y la presentacin de datos. No
son un adorno en los informes.
Su capacidad de expresar de manera sencilla una gran cantidad de informacin los convierte
en un recurso poderoso no solo para la presentacin de resultados, sino para la
exploracin y anlisis de los datos.
Esta capacidad de transmitir mucha informacin en forma inmediata exige que se deban
observar cuidadosamente algunos principios. Ellos tienen que ver con:
o Evitar el exceso de informacin en un mismo grfico.
o Evitar la inclusin de grficos que no aporten informacin relevante (son inexpresivos y
se sobrecarga intilmente el informe).
o Seleccionar grficos que tomen en cuenta el destinatario (cientficos, de divulgacin,
etc.). Hay grficos que normalmente slo podrn ser decodificados por especialistas.
o Respetar las reglas tcnicas, fundamentalmente relativas a la construccin de las
escalas, la consideracin del tipo de variables, etc.; para evitar el riesgo de generar una
impresin equivocada sobre los datos.
o De los grficos posibles para la presentacin o anlisis de un determinado tipo de datos,
seleccionar aquellos que mejor destacan las caractersticas que interesa mostrar
(estructura, evolucin, participacin, etc.).
Algunos grficos que ilustran los aspectos sealados precedentemente:
Visitantes Extranjeros a Cataratas
segn Origen

Brasil

Paraguay

Uruguay

USA

Otros Amrica

Italia

e
ab l

nd
Espaa
e
om
c
e
r
Gran Bretaa
No

Alemania
Francia

Otros Europa

Israel

Japn

Sudfrica

Oceana

Sin Datos

a) Queremos mostrar en un
grfico la distribucin de los
visitantes
extranjeros
a
Cataratas del Iguaz segn su
origen. Dado que se trata de
la distribucin de una variable
categrica un grfico de
sectores o de torta aparece
como una alternativa vlida de
presentacin para mostrar el
diferente peso relativo que
tienen los distintos emisores
identificados.
La gran cantidad de
categoras identificadas para

Fuente: Estur 93/94, Fac . Hum. y Cs. Soc.-UnaM , 1995.

52

Unidad 2: Organizacin y Descripcin Inicial de los Datos

la variable origen, hace que este Grfico de sectores -tcnicamente correcto- resulte inapropiado
dado el gran nmero de comparaciones que obliga a realizar para su lectura. Esto es incongruente
con el propsito de la construccin de un grfico: simplicidad e inmediatez para captar la
informacin resumida.
Para presentar esta misma informacin una alternativa es
utilizar un grfico de barras horizontales 13 como el siguiente.

Pases

Visitantes Extranjeros a Cataratas segn origen


Sin Datos
Oceana
Sudfrica
Japn
Israel
Otros Europa
Francia
Gran Bretaa
Alemania
Espaa
Italia
Otros Amrica
USA
Uruguay
Paraguay
Brasil

En el Grfico se destaca inmediatamente la importante participacin de visitantes de la


Unin Europea, estadounidenses
y otros pases de Europa, como
as tambin brasileos y uruguayos.
0

12

15

18

21

24

27

Visitantes (%)
Fuente: Estur 93/94, Fac. Hum. y Cs. Soc.-UnaM, 1995.

b) Modificando las escalas se pueden producir, para un mismo conjunto de datos, distorsiones en los
grficos que generan en un observador desprevenido impresiones totalmente diferentes respecto al
comportamiento de los mismos. Esto obliga a ser muy cuidadoso tanto en la construccin (en el caso
de quien los produce) como en la lectura de los mismos (por parte de quien los quiere interpretar).
Presentamos a continuacin dos conjuntos de datos longitudinales que ejemplifican diferentes
situaciones relativas a la modificacin de las escalas.
b.1) Son dos grficos sobre la produccin de yerba canchada en la provincia de Misiones durante
el perodo 1976-1981.
Aqu se presentan los datos con la
produccin por encima de las
15.000 toneladas. En trminos
grficos significa que el eje
horizontal no corta al vertical en el
origen (cero), sino a la altura de
los 15.000.

Produccin de Yerba Canchada - 1976-1981

Toneladas

45000
35000
25000
15000
1976

1977

1978

1979

1980

1981

Aos

Toneladas

Produccin de Yerba Canchada - 1976-1 9 8 1

60000
40000
20000
0
1976

1977

1978

1979

1980

Aos

13

1981

En este segundo Grfico se


muestra la escala vertical desde
cero y, en consecuencia, la altura
de las barras es proporcional a la
produccin en toneladas.
La comparacin de estos Grficos
pone de manifiesto que, con la
primera alternativa de representacin, exageramos las variaciones
que se producen a lo largo del

Para evitar la superposicin de los nombres de las categoras (adems extensos en este caso) que ocurre cuando se usa un
grfico de barras verticales.

53

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

perodo analizado. Ejemplo: en el primer Grfico, la produccin del ao 78 pareciera representar menos de la tercera parte de la registrada en el 77. Esta impresin se corrige cuando observamos el
segundo Grfico.

b.2) Son tres Grficos en los que se representa la evolucin de la produccin de maz en Misiones
entre 1976 y 1981, tomando 1976 como base (=100).
En cada uno de ellos se
Evolucin de la Produccin de Maz . Misiones, 1976-1981
modifican las escalas de los ejes
x e y provocando en el
180
160
comportamiento de la serie
140
impresiones
visuales
muy
120
diferentes.
100
80
60
40
20
0

1976

1977

1978

1979

1980

Con relacin al primer Grfico:

9 en el segundo, las variaciones


aparecen
exageradas
por
haber modificado la escala del
eje y,

1981

9 en tanto que en el tercero, la


Grfica suaviza la serie (los
saltos de un ao a otro
parecen ms pequeos) al
haber modificado la escala del
eje x.

A os
200

150
100
50

1976

1977

1978

1979

1980

1981

0
Aos
200

150
100
50

1976

1977

1978

1979

1980

1981

La recomendacin que intentamos ejemplificar en este caso, es


que se debe mantener la misma escala cuando se desean
comparar distintas series.

0
Aos

Con estos ejemplos no pretendemos agotar los casos de distorsiones que se pueden producir a
la hora de utilizar el recurso grfico, sino ms bien alentar una actitud crtica cuando se construyen
grficos, y tambin cuando se interpretan grficos ya construidos.

54

Unidad 2: Organizacin y Descripcin Inicial de los Datos

4.5.Tipos
Esquema
de grficos
univariados
de grficos
univariados

Numricas

Fam i l i as s e g n n de h i jos

Bastones
2

n de hijos

O p in i n s o b re e l S e rv ic io
80
60

Barras

40
20
0

M uy
B ueno

B ueno

R egular

M ala

Categricas

Con Ejes Cartesianos

Va ria ble

Opinin
G a n a d o f a e n a d o (1 9 8 0 -2 0 0 0 )

Numricas

50
40
30

Lneas

20
10
0
1 980

1 985

1 990

1 995

2000

aos

22%

40%

M ala
22%

M uy
B uena
40%
R egular
1 6%

B uena
22%

B uena
22%

Anillo

Mapas

R egular
16%

YYYY
1999 YYY
referencia:Y 100000 unidades

Otros

P ro d u c c i n d e c a m io n e s

2000

Pictograma

Categricas

O p in i n so b re e l re c u rso

M ala

M uy B uena

Numricas y
Categricas

Sectores

O p in i n so b re e l re c u rso

Circular

D istribucin delIngreso fam iliar


1 00
80
60

F am ilias seg n Ing reso ($)

40
600
20

500
400

20

40

60

80

100

H ogares (% )

300
200
1 00
0

Histograma
In g r e s o ($ )

55

Numricas

Especiales

Lorenz (*)

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

5. Qu Hemos Visto? (*)


En esta unidad hemos iniciado el camino del tratamiento y anlisis de los datos.
Superada la primer instancia de organizar las observaciones en una matriz de datos que
facilita su tratamiento estadstico, comenzamos el proceso de anlisis guiados por las preguntas
iniciales de investigacin. Estas preguntas pueden determinar la necesidad de trabajar con una,
dos o ms variables simultneamente; sin embargo, la exploracin de cada una de las variables
(anlisis univariado) es un proceso necesario en varios sentidos: porque nos permitir empezar
a comprender el fenmeno en estudio, reformular algunas clasificaciones, evaluar la posibilidad de
aplicar otras herramientas de anlisis, dar respuestas a las preguntas ms simples y formularnos
nuevas preguntas.
En el anlisis univariado, el primer resumen de los datos son las distribuciones de
frecuencias, para cuya construccin debemos considerar inicialmente el tipo de variable a trabajar
(numrica o categrica).
Hecha esa distincin se pueden adoptar distintas estrategias en el abordaje de los datos; as,
aparecen los recursos numricos y grficos como dos herramientas poderosas y
complementarias en esta tarea de comprender el comportamiento de los datos y comunicar la
informacin producida. Priorizar una u otra herramienta en el trabajo de exploracin es una
decisin del investigador.
Adems, hemos presentado transformaciones de las frecuencias absolutas (frecuencias
relativas y acumuladas) que facilitan y enriquecen las posibilidades de anlisis e interpretacin
de las distribuciones de frecuencias. Asociado a las transformaciones de las frecuencias se
presentaron un recurso grfico (curva de Lorenz) y un recurso numrico (ndice de Gini) que
resultan de suma utilidad en el anlisis de la distribucin/concentracin de algunas variables
econmicas (renta, tierra, ingreso, etc.).
En todos los casos, hemos intentado presentar para cada herramienta el tipo de preguntas a las
que pueden responder, el cundo utilizarlas y cmo hacerlo, destacando a su vez sus alcances y
limitaciones como recurso analtico y de comunicacin.

(*) ver esquema en la pgina siguiente.

56

139

Total

Varn

Sexo

Mujer

Mujer

Varn

Distrib. de estudiantes segn sexo. 2001

Grfico de Sectores

120
100
80
60
40
20
0

Distribucin de estudiantes segn sexo. 2001

Grfico de Barras

30
109

Varn
Mujer

SEXO

n de
estudiantes

Frecuencias
Relativas y
Acumuladas

Distribucin de frecuencias

Categricas

X
..
..
..
..

Y
..
..
..
..

..
..
..
..
..

Z
..
..
..
..

U n iva ria d o

???

139

Total

20

40

60

Hs. de TV

Distribucin de los estudiantes segn el tiempo que miran


TV-Ao 2001

Grficos deBastones

25
26
49
18
13
5
2
1

n de estudiantes

0
1
2
3
4
5
6
8

Hs. de TV

Arreglos de frecuencias

Pocos Valores di ferentes

Unidades
3y4

Unidad 5

Otras formas de Resumen

Bivariado
Multiva ria d o

Frecuencias
Relativas y
Acumuladas

Numricas

65
25
17
14
7
5
2
1
136

Total

Fr ec u en ci a
(5 7)
(5 8)
(1 7)
( 4)
An ch o Ta l lo :
Ca da h oj a :

1
2
3
4

Ta ll o & Ho ja
| 7 77 77 78 8 88 88 88 88 8 88 88 88 8 88 88 99 99 9 99 99 99 99 9 99 99 99 9 99 99 99 99
| 0 00 00 00 0 11 11 11 11 1 12 22 22 2 22 22 33 44 4 55 55 66 66 6 67 77 77 8 89 99 99 99 9
| 0 01 11 23 3 34 45 57 78 8
| 0 14 7
10
1 c as o o in di vi d uo

Diagrama de Tallo-Hoja

Histograma y Polgono defrecuencias

n de
estudiantes

Edad
17-20
21-24
25-28
29-32
33-36
37-40
41-44
45-48

Distrib.en Intervalos declase

Muchos Valores diferentes

Distribuciones de Frecuencias - El primer resumen de los datos

1
2
..
n

n de estudiantes

57

n de estudiantes

Matriz de
datos

Unidad 2: Organizacin y Descripcin Inicial de los Datos

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Bibliografa
MOORE, D. (1995): Estadstica Aplicada Bsica. Antoni Bosch Editor, Barcelona. Pginas: 6 a 21.
ALAMINOS, A. (1993): Grficos. Coleccin Cuadernos Metodolgicos n 7. Centro de
Investigaciones Sociolgicas, Madrid. Pginas: 7 a 14 y 23 a 27.
BLALOCK, H. M (1986): Estadstica Social, Mxico, FCE. Pginas: 43 a 64.
Conceptos Centrales

Matriz de datos.

Arreglos y distribucin en intervalos de clase: tablas y grficos

Distribuciones de frecuencias.
Frecuencias relativas y frecuencias acumuladas (absolutas y relativas).

Habilidades

Organizar un conjunto de datos en distribuciones de frecuencias.


Construir grficos de distribuciones de frecuencias.
Describir la forma de una distribucin.
Reconocer y obtener las transformaciones necesarias de las frecuencias absolutas para
responder preguntas especficas.
Interpretar la informacin resumida en una distribucin de frecuencias
Comunicar los resultados del anlisis.

58

UNIDAD 3: LOS VALORES QUE CARACTERIZAN AL CONJUNTO


DE DATOS
1. Por qu son Necesarios?
En el Captulo anterior hemos analizado herramientas estadsticas elementales que permiten
resumir grandes masas (conjuntos) de datos primarios (categricos o numricos), convirtindolos en
expresiones comprensibles y operables como lo son las tablas y los grficos de las distribuciones de
frecuencias. Adems, hemos introducido algunas medidas simples que ayudan a la interpretacin de
tales resmenes: frecuencias relativas y acumuladas.
La correcta utilizacin de esas herramientas descriptivas nos permitir elaborar ciertas conclusiones
sobre los individuos observados. Por ejemplo, analizando las tablas y grficos del captulo anterior,
en las que se resumen diferentes grupos de datos relativos a los estudiantes del Curso de Estadstica,
podramos afirmar entre otras cosas que1:

el 13% de los alumnos dedica 3 horas diarias a mirar TV,

109 alumnos del curso son mujeres,


90 estudiantes tienen 24 aos o menos.
A menudo, el anlisis y descripcin que deseamos realizar requiere de medidas capaces
de resumir an ms al conjunto de datos, expresndolo en un solo valor (nmero
o categora de la variable en estudio) que lo represente. Expresiones de sntesis como
las siguientes facilitarn la comprensin global del fenmeno que expresan los datos
que se analizan y, adems, haran ms sencilla la comparacin entre distintas series de

datos:

Los grupos tursticos registran una estada promedio de 3 noches en Puerto Iguaz.
Es llamativo que el 50 por ciento de los usuarios de la red tiene ms de 50 aos.
El fresno es el rbol que ms abunda en la ciudad de Buenos Aires, con ms del 40%
del total de ejemplares.
En los tres ejemplos, cada uno de los conjuntos de datos analizados (pernoctes en Puerto Iguaz,
edad de los usuarios de Internet y variedad de los rboles de la CBA), queda resumido y expresado
por un nico valor de la variable en estudio: 3 noches, 50 aos y fresno. Estas son las medidas
estadsticas denominadas de tendencia central.

L
1

IMPORTANTE
Es oportuno reiterar que las medidas presentadas en el Captulo anterior
(frecuencias absolutas, relativas, etc.) y las que veremos en esta unidad,
se emplean de igual modo y con idnticos fines de resumen y
descripcin, ya sea cuando se trata de datos muestrales como de
datos poblacionales (censales). Es decir que, tanto los conceptos
como la forma de calcularlas y la interpretacin de los resultados, son
los mismos en ambas situaciones de trabajo.
En Captulos posteriores distinguiremos el significado que adquieren estas
medidas (estadstico muestral/estimador o parmetro) segn provengan de
datos muestrales o poblacionales.

Sugerimos que el lector identifique las medidas estadsticas utilizadas en cada una de estas afirmaciones y que, aplicndolas a
los datos de los ejemplos citados, verifique que todas ellas sean correctas.

59

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

2. Cules Son?
Las medidas de tendencia central de un conjunto de datos son valores que tienden a
ubicarse en el centro de la distribucin (de ah su nombre), cuando esta rene
ciertas condiciones: es unimodal 2 y la mayor concentracin de los datos (mayores
frecuencias) ocurre alrededor de los valores centrales de la variable observada.
Son varias las medidas de resumen llamadas de tendencia central: las que se construyen mediante
alguna forma (aritmtica, geomtrica, cuadrtica o armnica) de promediar todos los datos del
conjunto y las que se basan en un solo dato de la serie (mediana y modo). En este curso
analizaremos solo las tres de uso ms comn:

el promedio aritmtico o media aritmtica,

la moda o modo, y

la mediana.

IMPORTANTE
A lo largo del texto iremos introduciendo la notacin matemtica (frmulas) de
las herramientas estadsticas que analizaremos y, en ciertos casos, de algunas
demostraciones relacionadas con ellas.
Como regla general, estas expresiones estarn a continuacin del concepto
estadstico que representan. Por ello, recomendamos firmemente centrar la
atencin y asegurarse de comprender primero el concepto, luego su
formalizacin matemtica, y por ltimo el procedimiento de clculo.

3. Media Aritmtica
Concepto
La media aritmtica x de un conjunto de datos de una variable
numrica X, es el resultado de sumar todos los valores del conjunto y
dividir esa suma por el total n de observaciones que componen el
conjunto 3.
Simbologa: La notacin usual para representar a la media aritmtica es: x, y, z, etc., dependiendo
de la letra (X, Y Z) adoptada para simbolizar a la variable en estudio. La distincin entre letras
maysculas ( X ) y minsculas ( x ) generalmente se reserva para diferenciar una media poblacional
(mayscula) de una muestral (minscula). En este curso utilizaremos nica e indistintamente la
notacin x , debiendo el lector tener presente la advertencia anterior.
De igual modo, las letras n y N son usualmente reconocidas para distinguir en forma simblica al
total de observaciones de una muestra (n) y al total de datos de una poblacin (N). Utilizaremos el
smbolo n indistintamente.

As entonces, si tomramos los n = 136 datos 4 de la variable Y (columna) edad,


registrados en la matriz Estudio de los Alumnos de Estadstica I del Captulo anterior, el
promedio o media aritmtica o simplemente media de ese conjunto de
observaciones, ser:
y=

19 + 27 + 26 + 28 +.........+ 30
136

3180
136

valor promedio o
media aritmtica
23, 4 aos del conjunto

total de
datos
2

El concepto de distribucin unimodal quedar debidamente aclarado en puntos posteriores de esta unidad.

Ntese que por tratarse de una medida calculada con los datos, solo es aplicable a datos de variables numricas.

No declaran su edad 3 estudiantes.

60

Unidad 3: Los valores que caracterizan al conjunto de datos

"

Vemos en el ejemplo cmo la media aritmtica resume en un solo nmero toda la


informacin del conjunto de individuos observados: se trata de un grupo de 136
estudiantes cuya edad promedio es de, aproximadamente, 23 aos.

Actividad N 1
Antes de continuar con la lectura, deber realizar aqu la Actividad No 1 de la Gua
de Actividades correspondiente a esta unidad.

En Frmula

Sea x1, x2 , x3 , x4 , x5 , ... .. xi , ........ xn ; un conjunto de n observaciones de la variable


numrica X. Segn la definicin anterior, el valor x , promedio o media aritmtica del conjunto,
ser:
n
x

x + x + x +...+ x +...+ xn
i
i
2
3
x= 1
= i=1
n
n
Notaciones Equivalentes
Otras formas matemticas equivalentes para expresar al promedio, son las siguientes:
xi
1
x=
x = xi
n
n
3.1. Principales Propiedades de x
La media aritmtica rene ciertas propiedades que es importante conocer para utilizarla
correctamente como resumen de un conjunto de datos, o bien para resolver algunos
problemas que pueden surgir en su aplicacin prctica.
Primera Propiedad

xi
n

Si dos de los trminos de la expresin x =

i=1

son conocidos, se puede determinar el tercero

de ellos mediante un simple pasaje de trminos. Cuando se conocen x y n, la suma x se


i=1 i
n

podr determinar haciendo el producto de x por n. En smbolos:


xi = x . n
n

i=1

Esta propiedad matemtica nos permitira saber, por ejemplo, que las n = 32 crceles federales 5
de todo el pas alojan un total de 60.416 internos, ya que cada una de ellas tiene una media de
1.888 presos. Esto es as porque:
x i = 32 . 1888 = 60416

32

Segunda Propiedad

El promedio es una medida calculada a partir de todos y cada uno de los datos de una serie,
en consecuencia resume apropiadamente la informacin del conjunto. Sin embargo, por esta
propiedad, en ciertas situaciones de trabajo puede perder eficacia como medida representativa
del conjunto de datos.

Revisar el ejemplo del Prrafo N 2 de la Actividad N 1.

61

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Cuando en la serie de observaciones existen valores extremos o atpicos, estos influirn en el


valor de x , pudiendo llegar a distorsionarlo de tal modo que no represente al comn de los
datos del conjunto (es una medida no resistente). Veamos el siguiente ejemplo:

x = 11, 6 es el promedio de los siguientes datos: 12, 10, 9, 16, 11. En cambio, si el conjunto
fuera 12, 10, 9, 160, 11; el promedio resultara: x = 40, 4 . El valor atpico (160) afecta a
x alejndola de la tendencia central del conjunto, resultando esta en un valor muy
diferente al de los datos normales de la serie (12, 10, 9 y 11).

Entonces, el promedio de 40,4 representa apropiadamente al comn de los datos del


conjunto? No, porque no resiste el efecto del valor extremo 6 y se desplaza de la tendencia
central hacia el lado del valor atpico.
Polgonos de frecuencias segn diferentes formas de distribucin
Valores
atpicos
a
derecha

Valores
atpicos
a
izquierda

Resumiendo: en un conjunto de datos en el cual los valores atpicos tienen un peso significativo
(difieren mucho de los valores regulares), el promedio aritmtico, por ser una medida no
resistente, debe ser analizado con cuidado. Esto es as porque -como en el ejemplo anteriorpuede resultar fuertemente desplazado de la tendencia central e inducir a interpretaciones
errneas acerca del conjunto de datos que resume.

IMPORTANTE
La presencia de valores extremos en una distribucin se manifiesta por
formas (histogramas y polgonos de frecuencias) marcadamente
asimtricas. De ah la importancia de realizar una cuidadosa exploracin
previa (grfica y numrica) de los datos.

Tercera Propiedad
Se denomina residuo o desvo individual de un dato cualquiera de la serie, con respecto a la
media aritmtica de todo el conjunto, a la diferencia entre el valor de ese dato y el valor
de x .

Retomando el ejemplo de las edades de los alumnos del curso de Estadstica, el residuo o desvo
con respecto a la edad promedio de 23 aos, de cada uno de los datos del conjunto ser:
Dato
(xi)

Desvo
(di=xi -23 )

19
27
26
28
....

-4
4
-3
5
...
xi-23
...
7

xi
...
30

di=0

Los valores extremos pueden serlo por defecto o por exceso como en este ejemplo.

62

Unidad 3: Los valores que caracterizan al conjunto de datos

Cada desvo con respecto al valor de la media de todo el conjunto podr ser negativo, nulo o
positivo, segn el valor del dato sea menor, igual o mayor al del promedio. As, el desvo del
primer dato x1=19 aos es: d1=19-23=-4 aos. El desvo del segundo dato x2=27 aos es:
d2=27-23=+4 aos y as sucesivamente hasta el ltimo dato x139=30 aos, cuyo desvo es:
d139=30-23=+7 aos.
En forma simblica, el desvo de un dato genrico xi se expresa: di=xi - x y para un conjunto
x1, x2 , x3 , x4 , x5 , ... .. xi , ........ xn de observaciones, habr n residuos individuales d1, d2 ,
d3 , d4 , d5 , ... .. di , ........ dn.
Es de notar que los desvos (desprovistos del signo positivo o negativo) miden la distancia
que separa a cada individuo observado del promedio general del grupo. Por ejemplo: el
segundo individuo de la serie se diferencia en 4 aos del promedio general de 23 aos, mientras
que la distancia al promedio del individuo 139, es de 7 aos.

d
xj

xi

Los residuos de un conjunto de datos, con respecto a x , tienen la propiedad de que la suma de
todos ellos (cada uno con su signo negativo, nulo o positivo) es siempre igual a cero:

n
n
xi x = di = 0
i =1
i =1
Es decir que, por esta propiedad, la suma (-4+4-3+5.............+7) de los 139 residuos
individuales de las edades de los estudiantes de Estadstica, ser igual a cero 7.

Cuarta Propiedad

En ciertas ocasiones de trabajo disponemos de dos o ms promedios aritmticos, que resumen a


diferentes conjuntos de datos de una misma variable.
Por ejemplo: por datos recogidos se sabe que el salario mensual promedio de n1= 107 agentes
pblicos provinciales varones es y = $1133, 25 , mientras que el salario medio de n2=73
empleadas mujeres es z = $862, 07 .
En estas condiciones podra resultar til conocer el promedio que resume a los salarios de todos
los agentes pblicos, considerados como un solo conjunto de observaciones (n = 180 en total).
La media de medias es el promedio que resuelve cuestiones como la planteada. Esta media

de medias a la que simbolizaremos con la notacin x ( z y ), se define del siguiente modo:


Sea y la media aritmtica de n1 observaciones de cierta variable en estudio, y z la media de
otro conjunto de n2 datos de la misma variable; el promedio aritmtico x de ambas medias
(media de medias) ser 8:
n . y +n . z
2
x= 1
n +n
1
2

Esta propiedad puede ser verificada en forma completa, utilizando el conjunto de 5 datos 12, 10, 9, 16, 11 del ejemplo
anterior.
Es muy importante tener presente que los datos zi e yi deben ser conceptualmente promediables entre s, de tal modo que

x represente un concepto vlido y comprensible.

63

"

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

En consecuencia, el salario promedio general de todos los agentes pblicos


del ejemplo ser de $1023, 27 porque:
x=

107 . 1133, 25 + 73 . 862, 07


180

= $1023, 27

3.2. Clculo de la Media


El procedimiento a seguir para el clculo de x depender del estado en el que se
encuentran los datos a trabajar. Esto es:
se trata de datos en el estado bruto de la matriz de datos (sin ninguna forma
de resumen)?,
se trata de datos resumidos en un arreglo de frecuencias?,
se trata de datos resumidos en una distribucin de frecuencias con intervalos?

IMPORTANTE
Recomendamos especialmente a los estudiantes del curso, familiarizarse con
el manejo de algn software que les permita resolver los clculos estadsticos
mediante el uso de computadoras.
Seguidamente presentamos los procedimientos para el clculo manual de x
(con la ayuda de una calculadora comn) con dos propsitos:
que puedan revisar los conocimientos tericos desde el clculo aplicado a
ejercicios concretos,
que puedan resolver problemas de trabajo aun cuando no disponen del
auxilio informtico.

3.2.1. Datos sin resumir


El procedimiento de clculo consiste en aplicar estrictamente y paso a paso, el concepto de la
media aritmtica. O sea: sumar todos los datos del conjunto y luego, dividir esa suma por el total n
de observaciones de la serie.

3.2.2. Datos agrupados en arreglo de frecuencias


El resumen en arreglo de frecuencias permite identificar a cada dato por su valor
individual y, por ello, el clculo se realiza de igual modo que en la situacin anterior:
sumando todas las observaciones individuales y dividiendo la suma por n.

Retomemos el arreglo de frecuencias que resume la distribucin de los alumnos del


curso de Estadstica, segn las horas diarias que dedican a ver televisin.
Alumnos de Estadstica segn el tiempo diario que miran TV
Horas TV
(xi)

Estudiantes
(fi)

25

26

49

18

13

Total

139

64

Unidad 3: Los valores que caracterizan al conjunto de datos

El promedio de este grupo de datos ser:

25 veces
x=

26 veces

49 veces

18 veces

0 + 0 +....+ 0 +1 +1 +....+1 + 2 + 2 +....+ 2 + 3 + 3 +....+ 3 +.............+ 6 + 6 + 8

x=

o sea:

0 . 25 + 1 . 26 + 2 . 49 + ... + 6 . 2 + 8 .1 275
=
= 2 horas diarias
139
139
139

Es decir que, estando los datos resumidos en un arreglo de frecuencias, el procedimiento de


clculo de la media consiste en: multiplicar cada dato de la serie por su correspondiente frecuencia

absoluta, sumar entre s todos los productos y, finalmente, dividir la suma resultante por el total n de
datos.
A esta forma de promediar los datos se la llama media ponderada por las frecuencias y
simblicamente se expresa como:
x=

L
/

x f

i. i

IMPORTANTE
Ntese que la media ponderada calculada a partir de un arreglo de
frecuencias, reproduce estrictamente al concepto original del promedio,
en tanto se trata de: la suma de todas las observaciones dividida por el total
de datos.

3.2.3. Datos agrupados en una distribucin con intervalos


Cuando los datos se encuentran agrupados en una distribucin con intervalos, es
necesario basar el clculo de x en un procedimiento que no considere a los valores
individuales, ya que estos no son conocidos en esta situacin de trabajo.

En el ejemplo siguiente se presenta la distribucin de n = 72 grupos tursticos 9


observados en Puerto Iguaz, resumidos en intervalos del gasto total 10 del grupo en un da
completo de estada en el lugar.
Turistas Segn Gasto de un Da -Pto. Iguaz. Febrero94Gasto
($)

Grupos
(fi)

Pto. Medio
(xi)

00 - 55

19

27,5

55 - 110

20

82,5

110 - 165

18

137,5

165 - 220

192,5

220 - 275

247,5

275 - 330

302,5

330 - 385

357,5

Total

72

Fuente: ESTUR 93/94. CFI-FHyCS (UNaM)

La tabla permite saber, por ejemplo, que 20 grupos gastaron en un da entre $55 y $110, pero
no es posible conocer el gasto exacto de cada uno de ellos individualmente.

Conjunto de personas (familiares o no) que comparten el mismo presupuesto de viaje.

10

Comprende el gasto por todo concepto (alojamiento, alimentacin, transporte, esparcimiento, servicios varios, compras, etc.)
por grupo turstico, en 24 horas corridas de permanencia en Pto. Iguaz.

65

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

El clculo de la media en esta situacin de trabajo, se basa en asumir a cada dato individual
(desconocido) como equivalente al valor del punto medio o marca de la clase en que se
ubica. Por ejemplo, se asumir que el gasto individual de cada uno de los 18 grupos comprendidos
entre $110 y $165, fue equivalente a $137,5. De igual modo, asumiremos que el gasto individual de
cada grupo comprendido entre $275 y $330 fue equivalente a $302,5 y as sucesivamente para
todos los datos de la distribucin.
Al reemplazar los datos individuales por el valor del punto medio de clase que los representa, el
promedio resultar de un clculo similar al anterior. Es decir:

x=
O sea:

27,5 . 19 + 82,5 . 20 + 137,5 . 18 + 192,5 . 7 + 247,5 . 4 + 302,05 . 3 + 357, 5 . 1


72
x=

8085

= $112, 30 de gasto promedio diario por grupo


72
Nuevamente, la media se obtiene por un procedimiento ponderado por las frecuencias del
xi . fi , en el cual los valores xi ahora son las marcas de cada clase y los valores fi
tipo x =
n
son las correspondientes frecuencias absolutas de clase.

L
1

IMPORTANTE
Ntese que el valor de la media que resulta por esta forma de clculo no es
exacto, en tanto se basa en los puntos medios de clase y no en los datos
originales. Se obtiene entonces, un valor aproximado al verdadero valor del
promedio.

Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad .

4. La Mediana
A diferencia de los promedios (la media aritmtica en nuestro caso) que resultan de una
operacin basada en todos los datos de la serie, la mediana marca la tendencia central del
conjunto tomando en consideracin a uno solo de ellos.
Concepto
La mediana (Ma) de una distribucin es el dato que ocupa la posicin
central del conjunto de observaciones, debiendo estar los datos
previamente ordenados en forma ascendente (o descendente) de
magnitud.
Smbologa: son diversos los smbolos aceptados para representar a esta medida: Mdn, M, Med, Md,
Me, X5, Xme; entre otros. Nuevamente, las letras maysculas y minsculas se reservan para
distinguir lo poblacional de lo muestral. En este curso emplearemos indistintamente la notacin
Ma.
Consideremos como ejemplo la siguiente serie de datos numricos, referidos al tiempo en
minutos que le requiri realizar un examen de Estadstica a un grupo de n = 13 alumnos:
Minutos: 120, 65, 110, 117, 65, 115, 88, 90, 103, 112, 90, 65, 115

66

Unidad 3: Los valores que caracterizan al conjunto de datos

El conjunto ordenado en forma ascendente 11 resulta:


6 datos menores

65, 65, 65, 88, 90, 90 103

6 datos mayores

110, 112, 115, 115, 117, 120

Valor ubicado en la posicin central

En la
posicin 5
encontramos
el valor B
(Ma)

Ma= 103 minutos


Es decir que la mediana es el valor que se ubica en el centro del conjunto de datos
ordenados y, como tal, divide a la serie en dos grupos con igual cantidad de observaciones
(aproximadamente la mitad): uno de ellos contiene a todos los casos que son inferiores o
iguales al valor mediana, y el otro a todos los casos iguales o superiores a l.
Por ello, la Ma representa al individuo medio de la muestra o poblacin en estudio: (en esta
caracterstica observada) el alumno que utiliz 103 minutos para resolver el examen, es el
alumno medio del grupo, ya que por debajo de l se ubican la mitad de sus compaeros y por
encima la otra mitad.
4.1. Principales Propiedades de Ma

Primera Propiedad

Es una medida basada en un concepto fcilmente comprensible, que requiere de operaciones


simples para aplicarla (ordenar y ubicar la posicin central).

Segunda Propiedad

Siendo Ma el dato que ocupa el lugar central de la distribucin ordenada, el concepto tiene
significado y, en consecuencia, es aplicable a datos categricos ordinales. Veamos el
ejemplo siguiente en el que se analizan las respuestas sobre la calificacin a la Fiesta Provincial
de La Flor 12 (Montecarlo, Misiones, ao 2001), obtenidas en un relevamiento efectuado a n = 9
personas mayores de 16 aos que asistieron al evento.
Calificaciones: R, MB, MB, B, M, MB, R, MB, B

El conjunto ordenado resultar:

M, R, R, B B

MB, MB, MB, MB

Dato central de la serie ordenada

En la
posicin 5
encontramos
el valor B
(Ma)

Ma = bueno

"

A ambos lados de la categora mediana se ubica la misma cantidad de observaciones, unas de


categora igual o inferior a Ma y las otras, de categora igual o superior a ella.
Es decir, aproximadamente el 50% de los visitantes del ejemplo, asign a la Fiesta
una calificacin buena o inferior y la otra mitad la calific como buena o
superior.

Tercera Propiedad
La mediana de datos numricos tiene la propiedad de ser resistente a la presencia de
valores extremos en el conjunto de observaciones. Retomando el ejemplo de los minutos que les

11

Idntico resultado se obtendra si el orden en los datos fuera descendente.

12

Las categoras posibles de respuesta fueron: muy bueno (MB), bueno (B), regular (R), malo (M) y muy malo (MM).

67

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

llev a los 13 alumnos de Estadstica realizar el examen, si reemplazramos el dato del primer
alumno (65) por el valor 5 minutos; la mediana del conjunto permanecera inalterada en:

Ma = 103 minutos
Lo mismo ocurrira si se reemplazara el dato ms alto de la serie (120) por cualquier valor
atpico para ese conjunto de observaciones (por ejemplo 720 7200).
Ntese que en estos ejemplos, la cantidad de n = 13 observaciones de la serie se mantiene
inalterada, ya que suponemos la sustitucin de un valor original por otro atpico. Es decir, la Ma
es resistente a valores extremos si no se modifica el tamao n del conjunto de datos.

Cuarta Propiedad

En cambio, si al conjunto original se agregaran 2 nuevos alumnos (ahora n = 15) con 109 y 118
minutos respectivamente, la serie ordenada resultara:
65, 65, 65, 88, 90, 90, 103, 109 ,110, 112, 115, 115, 117, 118, 120

Ma= 109 minutos


Es decir que la Ma es una medida que puede alterarse si se modifica la cantidad de datos de
la serie.

Quinta Propiedad

Por ser una medida que representa a todo el conjunto de datos mediante uno solo de sus
valores, cuando se trabaja con datos numricos la Ma no aporta elementos sobre la
conformacin general del grupo de observaciones (e individuos en consecuencia): hay datos
atpicos en la distribucin?, cun diferentes son los valores extremos en relacin con los datos

comunes?
Retomando el ejemplo de Actividad N 2, si dijramos que: la mitad de los 97 funcionarios
(incluidos los 7 cargos gerenciales) de la empresa perciben haberes netos mensuales superiores a
$753 13; sin conocer los datos originales, no sabramos que en el conjunto en estudio se
incluyen valores tan extremos como $4927,....., $5124,...$6701 y $6890.

4.2. Determinacin de la Ma
El procedimiento a seguir para determinar 14 el valor mediana de una distribucin en
estudio, depender del tipo de datos que se trate (numricos u ordinales) y del estado de
elaboracin en que se encuentran (datos brutos, arreglos de frecuencias, distribucin con
intervalos).

4.2.1. Datos numricos sin resumir

- Si el nmero de observaciones es impar


Cuando los datos en anlisis son numricos y el nmero n de observaciones que
forman el conjunto es impar, habr un nico valor que ocupar la posicin central
del conjunto ordenado (ejemplos anteriores de n = 13 n = 15 estudiantes en el examen
de Estadstica). En esta situacin el procedimiento consistir en ordenar
rigurosamente los datos por su magnitud (sentido ascendente o descendente) y luego, identificar
el valor que se ubica en el lugar central del conjunto ordenado (que deja igual cantidad de
datos a ambos lados). Ese valor es la mediana del conjunto.

- Si el nmero de observaciones es par


Cuando el nmero n de observaciones de la serie es par, sern dos los valores
centrales del conjunto ordenado, que separarn la misma cantidad de datos hacia

13
14

Recomendamos realizar el ejercicio de verificar la exactitud de esta afirmacin.


Ntese que hablamos de determinar y no de calcular Ma, porque se trata de una medida no calculada. Si bien
analizaremos procedimientos basados en frmulas y clculos numricos con los datos, en todos los casos se trata de
razonamientos para identificar el valor central de la serie ordenada, tal como se define esta medida.

68

Unidad 3: Los valores que caracterizan al conjunto de datos

ambos lados. Por ejemplo, supongamos que fueron n = 16 los alumnos que rindieron el examen de
Estadstica:
7 datos menores

7 datos mayores

65, 65, 65, 85, 88, 90, 90, 103, 109 110, 112, 115, 115, 117, 118, 120
2 valores centrales
En este caso la Ma se determina por convencin, promediando ambos datos centrales. Es
decir:
103 +109
Ma =
=106 minutos 15
2
4.2.2. Datos numricos en arreglo de frecuencias
En esta situacin de trabajo el razonamiento debe seguir los mismos pasos anteriores,
considerando que en el arreglo de frecuencias los datos ya se encuentran ordenados por
magnitud. El problema entonces consiste en:

a- ubicar el lugar central del conjunto ordenado (posicin del valor Ma),

b- identificar el valor (o los valores si n es par) que ocupa esa posicin (o esas posiciones).
Retomemos como ejemplo la distribucin de los alumnos del curso de Estadstica,
segn las horas diarias que dedican a la TV:
Alumnos de Estadstica segn el tiempo diario que miran TV
Horas TV
(xi)

Ma

Estudiantes
(fi)

Fa

25

25

26

51

49

100

18

118

13

131

136

138

139

Total

139

a- Ubicacin del lugar central de la distribucin ordenada


- Si el nmero de observaciones es impar (ej.: n = 139), el conjunto ordenado de menor a
139 +1
= 70 , de tal modo que
mayor ocupar 139 posiciones 16 y una sola de ellas ser la central:
2
a su izquierda quedarn 69 datos menores o iguales y a su derecha otros 69 datos mayores o
iguales.
Tenemos as que, tratndose de un nmero impar de observaciones, la posicin o lugar
central de la distribucin se determina mediante:

15

Notar que en este caso, Ma no es exactamente un dato de la serie. La medida toma el valor terico que resulta de
promediar los dos datos centrales y, en consecuencia, ocupa un lugar tambin terico, ubicado entre ambos valores.

16

Imagine a los 139 valores individuales ordenados uno al lado del otro sobre una recta horizontal. El primero ser 0 (se
repite por 25 veces) y el ltimo ser 8 (una sola vez).

69

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Posicin Ma =

n +1

2
- Si el nmero de observaciones es par (ej.: n = 160 alumnos), sern dos las posiciones
160
160
y Posicin 81 =
+1 ) las que dejan igual cantidad de observaciones
centrales ( Posicin 80 =
2
2
hacia ambos lados (79 en este caso).
Tratndose de un nmero par de datos, las dos posiciones centrales se determinan
mediante:
n
n
Posicin =
Posicin = +1
y
1 2
2 2
b- Determinacin del valor Ma
Habiendo identificado la posicin central (o las dos posiciones cuando n es par) del conjunto
ordenado, el problema ahora es identificar el dato (o los datos) que se ubica(n) en ese lugar. Para
ello nos valemos de las frecuencias acumuladas (en el sentido menor que), razonando en el
ejemplo anterior del siguiente modo:
Hasta el valor 1 de la distribucin se acumulan 51 datos ordenados y, en consecuencia,
ninguno de ellos (valores 0 y 1 del arreglo) alcanzan la posicin 70.
Al pasar al valor 2 ya son 100 las observaciones acumuladas, lo que significa que uno de los
49 datos iguales a 2 es el que ocupa la posicin central 70.
Es decir: la Ma= 2 horas diarias.
Este valor de la mediana nos indica que aproximadamente la mitad de los alumnos
entrevistados dedica 2 horas diarias o menos a ver TV (obviamente la otra mitad, dedica 2 horas
o ms por da).
El razonamiento es idntico cuando el nmero n de casos del conjunto es par, teniendo en
cuenta que ahora el problema consiste en identificar los valores que ocupan las dos posiciones
centrales y luego, determinar Ma como el promedio entre ambos datos.
4.2.3. Datos numricos en una distribucin con intervalos
En esta situacin de trabajo la mediana no puede ser determinada exactamente porque, al ser
desconocidos los datos individuales que forman el conjunto en estudio, no hay manera de
reconocer el valor que ocupa la posicin central de la serie ordenada 17. Por ello, el procedimiento
consiste en estimar la Ma mediante el siguiente razonamiento:
a.

determinar el punto medio terico (o centro geomtrico) de la serie haciendo:


n
Posicin Ma =
2
b. analizando las frecuencias acumuladas (menor que), identificar la clase o intervalo
(clase mediana) de la distribucin en la que se ubica dicha posicin;
c.

estimar el valor mediana aplicando la siguiente frmula de interpolacin:

Ma = Li + 2

siendo:
Ma : valor estimado de la mediana,
Li : lmite inferior de la clase mediana,

Fa

( i 1)

fi

.a

n
: punto medio de la serie de datos,
2
Fa ( i - 1 ) : frecuencia acumulada anterior a la clase mediana,
fi : frecuencia absoluta de la clase mediana,
a:
amplitud de la clase mediana.

Retomemos el ejemplo del gasto diario de los turistas en Pto. Iguaz

17

Es de notar que los datos se encuentran ordenados por la magnitud de sus intervalos.

70

Unidad 3: Los valores que caracterizan al conjunto de datos

Turistas segn Gasto de un Da -Pto. Iguaz. Febrero94Gasto


($)

clase
Ma

Grupos
(fi)

00 - 55

19

19

55 - 110

20

39

110 - 165

18

57

165 - 220

64

220 - 275

68

275 - 330

71

330 - 385

72

Total

72

Fuente: ESTUR 93/94. CFI-FHyCS (UNaM)

Punto medio de la distribucin:


n

Fa

72

= 36
2
2
Analizando las frecuencias acumuladas se observa que la primera clase rene a los
primeros 19 datos ordenados de la distribucin y, en consecuencia, ninguno de ellos
alcanza al punto medio 36.
Al pasar a la segunda clase ya son 39 los datos acumulados en sentido ascendente de
magnitud, razn por la cual entre los 20 datos de esta clase se encuentran los dos valores
centrales de la distribucin. Es decir, sta es la clase mediana 18.

"

Localizada la clase donde se ubica Ma, su valor estimado resultar de hacer:


36 - 19
Ma = 55 +
.55 = $101, 75
20
lo que permite decir: la mitad de los grupos tursticos tienen un gasto diario de
aproximadamente $101,75 o menos.

4.2.4. Datos categricos ordinales


Cuando los datos en anlisis son ordinales y se encuentran resumidos en una tabla de
frecuencias, el procedimiento sigue un razonamiento similar al de la situacin datos numricos en
arreglo de frecuencias. O sea:
a- ubicar el lugar central (o los lugares si n es par) del conjunto ordenado (posicin de la
categora Ma),
b- identificar el valor (o los valores si n es par) que ocupa esa posicin (o esas posiciones).

Consideremos el ejemplo sobre los usuarios de la empresa misionera de servicios elctricos:


Opinin de los Usuarios sobre el Servicio Elctrico de Mnes. (EMSA)
Opinin

Usuarios

Muy Malo

Malo

Ma

20

Fa
3
23

Regular

151

174

Bueno

469

511

M. Bueno

42

TOTAL

685

685

Fuente: Departamento TISE-FHyCS. 1994

18

La clase de la mediana siempre es aquella cuya frecuencia acumulada menor que, resulta igual o inmediatamente

mayor a:

n
2

n +1

, segn corresponda.

71

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Posicin central (en este caso n es impar):

n +1

686

= 343
2
2
Localizada la posicin central del conjunto ordenado, nos valemos de las frecuencias
acumuladas para identificar al dato que se ubica en ese lugar. La categora muy
malo acumula 3 observaciones, la categora malo, 23 observaciones y 174 son las
opiniones regular o menos. Al pasar a la categora siguiente ya son 511 los datos
acumulados, razn por la que uno de los 469 datos bueno es el que ocupa el lugar central
343. En consecuencia Ma = bueno.

"

As: aproximadamente la mitad de los usuarios entrevistados, tienen una opinin


buena o superior sobre el servicio elctrico que reciben.

Si el nmero n de datos de la serie fuera par (por ejemplo n = 734 usuarios), existiran dos
n
n
y Posicin = + 1 (lugares 367 y 368 en nuestro
posiciones centrales: Posicin =
1 2
2 2
ejemplo). Con la ayuda de las frecuencias acumuladas, se podr localizar la Ma identificando
los datos (categora) que se ubican en estos lugares.

Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.

5. El Modo
Concepto
El modo (Mo) de un conjunto de observaciones (numricas o categricas
nominales u ordinales) es el valor individual que ms veces se repite en
la serie. Mo ser el valor ms tpico, ms recurrente o bien, el que rene la
mayor frecuencia absoluta entre todos los valores (categoras) individuales
observados en el conjunto de datos que se analiza.
Smbologa: algunos smbolos utilizados para representar a esta medida son: Mdo, Xmo; entre otros.
Nuevamente, las letras maysculas y minsculas se reservan para distinguir lo poblacional de lo
muestral. En este curso emplearemos indistintamente la notacin Mo.
En este caso tenemos tambin una medida que toma en consideracin a una sola de las
observaciones, aunque no siempre se ubica en los valores centrales de la serie de datos.
Tomando como ejemplo la serie de datos referidos al tiempo en minutos que le requiri
realizar un examen a los alumnos de Estadstica y a las calificaciones a la Fiesta Provincial de La
Flor, realizadas por 9 visitantes al evento, tendremos:
dato ms frecuente
Minutos: 65, 65, 65, 88, 90, 90, 103, 110, 112, 115, 115, 117, 120
Mo= 65 minutos
dato ms frecuente

Calificaciones: M, R, R, B, B, MB, MB, MB, MB

Mo = muy bueno

72

Unidad 3: Los valores que caracterizan al conjunto de datos

5.1. Principales Propiedades del Mo


Primera Propiedad

Es una medida conceptualmente simple, fcil de interpretar y de comunicar, que requiere


nicamente del conteo para ser determinada.

Segunda Propiedad

Por no requerir de ninguna forma de orden en los datos, tiene significado y es aplicable a
datos categricos nominales (es la nica de las tres medidas de tendencia central que hemos
tratado, posible de ser utilizada con este tipo de datos).

Tercera Propiedad

Cuando la diferencia entre la frecuencia mxima observada (frecuencia modal) con alguna de las
restantes no es muy grande, el Mo como medida caracterstica de la distribucin pierde
relevancia.

IMPORTANTE
Puede ocurrir que en un conjunto de datos se encuentren dos o ms valores que
renen la misma frecuencia absoluta mxima 19 (en nuestros ejemplos si
tuviramos dos alumnos ms con 90 y 115 minutos respectivamente o bien,
dos visitantes ms que califiquen la Fiesta de la Flor como Regular). En tales
casos las distribuciones resultaran bimodal (dos valores con la misma frecuencia
mxima) o multimodal (tres o ms valores con esta propiedad) y no es posible
determinar un nico valor/categora Mo para toda la serie.

5.2. Determinacin del Mo


5.2.1. Para arreglos de frecuencias y datos categricos
Si los datos individuales se encuentran sin agrupar, lo recomendable es resumirlos previamente en
un arreglo de frecuencias (o en una tabla de frecuencias para datos categricos). Encontrndose los
datos presentados de esta manera, la determinacin del Mo simplemente se remite a ubicar en la
distribucin, el valor o categora al que corresponde la mayor frecuencia absoluta.

Consideremos el siguiente ejemplo:


Estudiantes del Curso de Estadstica. FHyCS-Ao 2001
segn Sexo
Sexo

segn el Tiempo Diario que Miran TV

Varn

Mo

Horas TV (xi)

Estudiantes
30

25

Mujer

109

26

Total

139

49

18

13

Mo

Fuente: elaboracin propia.

Total

19

Estudiantes (fi)

Esta situacin es muy raro que ocurra si el nmero (n) de observaciones es suficientemente grande.

73

139

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Usuarios del Servicio Elctrico de Misiones (EMSA),


Segn Opiniones sobre la Calidad del Servicio
Opinin

Usuarios

M. Bueno

Mo

42

Bueno

469

Regular

151

Malo

"

20

Muy Malo

TOTAL

685

Fuente: Departamento TISE-FHyCS. 1994

As entonces:
las mujeres predominan en el grupo de estudiantes de Estadstica y lo ms comn o
frecuente son los alumnos que dedican 2 horas diarias a ver TV, y
la opinin de que el servicio elctrico es bueno, es la ms tpica entre los usuarios de la
Empresa de Electricidad de Misiones.

5.2.2. Para una distribucin con intervalos


En la situacin de trabajo en la que los datos son numricos y se encuentran resumidos en una
distribucin con intervalos (como el ejemplo de los gastos tursticos que se presentan a
continuacin), el Mo debe determinarse mediante el siguiente procedimiento de estimacin,
aceptado por convencin:
Turistas segn Gasto de un Da -Pto. Iguaz. Febrero94Gasto ($)

clase
modal

Grupos (fi)

00 - 55

19

55 - 110

20

110 - 165

18

165 - 220

220 - 275

275 - 330

330 - 385

Total

72

Fuente: ESTUR 93/94. CFI-FHyCS (UNaM)

Asumiendo que la clase que presenta la mayor frecuencia absoluta de la distribucin


(clase modal) es la que contiene entre sus datos al valor modal, una vez identificada el valor
del Mo se puede estimar mediante el siguiente procedimiento de interpolacin:
Mo = Li +

d1
d1 + d2

/
"

.a

siendo:
Li : lmite inferior de la clase modal,
d1 : la diferencia entre la frecuencia absoluta de la clase modal y la
frecuencia absoluta de la clase inmediata anterior a la modal,
d2 : la diferencia entre la frecuencia absoluta de la clase modal y la
frecuencia absoluta de la clase inmediatamente posterior a la modal,
a: amplitud de la clase modal.

En nuestro ejemplo resultar:


Li = 55 d1 = 20-19 = 1
Mo = 55 +

d2 = 20-18 = 2
1
. 55 = $73, 3
1+2

a = 55

diarios

O sea: estimamos que el gasto ms frecuente entre los 72 casos observados, es


de $73,3 diarios.

74

Unidad 3: Los valores que caracterizan al conjunto de datos

IMPORTANTE
Este procedimiento para estimar el modo de datos numricos agrupados en
clases es altamente sensible a la forma en que se define la distribucin. Esto
es: al nmero de intervalos y a la amplitud de cada uno de ellos.

El siguiente ejemplo ilustra sobre este problema. El mismo grupo de n = 9 datos se organiza de 3
maneras distintas:

Situacin A
Mo

Situacin B

Datos

fi

65

2
Clase Mo

Situacin C

Datos

fi

65 - 69

70 74

Clase Mo

Datos

fi

65 - 69

70 79

70

72

75 79

80 - 89

73

80 84

Total

81

85 - 89

82

Total

86

87

Total

El modo verdadero de la serie es Mo = 65 ya que se trata del valor del conjunto con mayor
frecuencia (Situacin A).
En la Situacin B la clase modal es la segunda de la distribucin (7074) y aplicando el
procedimiento de estimacin por interpolacin resulta: Mo = 70,75.
En la Situacin C el Mo se ubicar en la tercera clase (8089), resultando su estimacin:
Mo = 81,5 20.

Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.

6. Cuartiles, Deciles, Centiles


Utilizando medidas de tendencia central podemos describir a los grupos tursticos observados en
Puerto Iguaz sealando, por ejemplo, que:
se trata de grupos que observan un promedio de $112,30 diarios de gasto por todo concepto;
siendo $73,30 la suma que diariamente gastan con mayor frecuencia y la mitad de los grupos
analizados destina $101,75 o ms por da a satisfacer sus necesidades.
Esta descripcin permite una buena comprensin global de los datos elaborados y,
por ende, de los individuos analizados; pero muy poco o nada nos informa sobre
aspectos ms especficos del fenmeno en estudio. Por ejemplo:
por encima de qu valor se ubican los turistas que ms gastan? o en trminos ms
concretos, qu nivel del gasto corresponde al 10% de los turistas que ms gastan?,
por debajo de qu monto se ubican los grupos que menos gastan diariamente?,
entre qu valores estn los niveles de gastos centrales?,
etc.

V
20

Sugerimos verificar los resultados de las situaciones A y B.

75

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Es decir, en la descripcin de un conjunto de datos, las medidas de tendencia central no dan


cuenta de la diversidad de situaciones (variabilidad o dispersin) que se presentan. Es
preciso entonces, agregar a esta informacin otros elementos que permitan una descripcin ms
completa, haciendo referencia a otras caractersticas de la distribucin 21.
En todo conjunto de datos (numricos u ordinales) se pueden determinar ciertos
valores caractersticos que amplan la informacin proporcionada por las
medidas sintticas de tendencia central sobre los individuos que se analizan. Estos
datos, ubicados en posiciones estratgicas del conjunto, permiten conocer aspectos de
su composicin y estructura, que aportan nuevos elementos para el anlisis. Es decir, las preguntas
sealadas precedentemente, pueden responderse a partir de ciertos datos ubicados
estratgicamente en una distribucin ordenada.
Las medidas de posicin: cuartiles, deciles y centiles, son las que permiten individualizar a los
datos que renen las condiciones sealadas.
6.1. Los Cuartiles
En toda distribucin de datos numricos o categricos ordinales es posible hallar tres
observaciones individuales que dividen al conjunto, previamente ordenado en forma
ascendente, en cuatro partes iguales, cada una de ellas con el 25% de los datos.

Cuartil 1 Primer Cuartil (Q1): es aquel valor del conjunto de observaciones que se ubica en
una posicin tal que a uno de sus lados deja una cuarta parte (25%) de los datos que son
menores o iguales a l, y hacia el otro lado las tres cuartas partes (75%) de los datos que son
mayores o iguales que l (es el valor que se ubica en la posicin del conjunto ordenado).

Cuartil 2 Segundo Cuartil (Q2): coincide con la mediana ya que divide al conjunto en dos
partes, cada una con la mitad de los datos: Q2 = Ma.
Cuartil 3 Tercer Cuartil (Q3): es el dato situado en la posicin que deja de las
observaciones menores o iguales que l hacia un lado y de las observaciones mayores o
iguales que l hacia el otro lado (el dato que se ubica en la posicin de la serie ordenada).

Grficamente

25%

75%

50%

Q1

50%

Q2

25%

Q3

25%

25%

25%

25%

Q1

21

75%

Q2 Q3

Una vez ms: no se trata de reducir la descripcin de un conjunto de datos en un nico valor, por ms expresivo que el
mismo pueda resultar, sino de comunicar la forma de la distribucin en la que se expresa la disparidad y repeticin de los
valores de la variable.

76

Unidad 3: Los valores que caracterizan al conjunto de datos

Ejemplo:

"

Para la distribucin de los grupos tursticos segn el nivel de gasto diario en Iguaz, los
cuartiles resultan:
Q1 = $52,11

Q2 = Ma = $101,75

Q3 = $155,83

Es decir que:
Una cuarta parte de los grupos (los 18 grupos que menos gastan) registra un nivel

de gasto diario igual o inferior a $52,11, mientras que el 25% de los que ms gastan
se ubican en $155 ,83 ms por da. Es decir que el 50% (36) de los grupos centrales
registra un nivel de gasto comprendido entre $52,11 y $155,83 diarios.
Considerando que el gasto mediana es de $101,75, una cuarta parte de los turistas registra
gastos diarios entre $52,11 y $101,75, y otra cuarta parte gasta entre $101,75 y $155,83.

Determinacin de los Cuartiles


El procedimiento para determinar Q1 y Q3 de una distribucin sigue un razonamiento
anlogo al de la mediana, pero considerando que ahora se trata de identificar a los
datos localizados en las posiciones y del conjunto ordenado. Para ello procedemos
de la siguiente manera:

Localizamos las posiciones de los cuartiles; la manera ms sencilla de obtenerlas es:


Posicin Q =
1

Posicin Q = 3 .
3

n
4

En nuestro ejemplo de los gastos tursticos, la posicin del cuartil 1 ser:


Posicin Q =
1

72

= 18

Posteriormente, inspeccionando las frecuencias acumuladas, individualizamos los datos


que ocupan las posiciones cuartlicas deseadas.

Cuando los datos son numricos y se encuentran resumidos en una distribucin con
intervalos, primero debemos ubicar la clase del cuartil, y luego estimar su valor mediante
el siguiente clculo:
n
Q1 = Li +

- Fa

3.n
(i-1)

.a

Q1 = Li +

fi

- Fa

(i-1)

.a
fi

Donde los datos a considerar en cada una de estas expresiones (Li, Fa(i-1), fi, a) toman como
referencia a las clases de Q1 y Q3 respectivamente, con significado idntico al explicado para
determinar la Ma en esta situacin de trabajo.

En el ejemplo de los gastos tursticos:


La clase del cuartil 1 es la primera (0-55), por consiguiente podemos estimar el Q1 de la
siguiente manera:
n
Q1 = Li +

- Fa

(i-1)

.a = 0+
fi

18-0
19

.55 = 52,11

Siguiendo el procedimiento indicado, verifique el valor correspondiente al tercer cuartil.


6.2. Los Deciles
Son los nueve valores de la distribucin ordenada en forma ascendente que la dividen en diez
partes iguales, cada una de ellas con el 10% de los datos.
Decil 1 Primer Decil (D1): es aquel valor del conjunto de observaciones que se ubica en una
posicin tal que, a uno de sus lados deja al 10% de los datos que son menores o iguales a l y,

77

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

hacia el otro lado, el 90% de los datos restantes que son mayores o iguales que l (es el valor que
separa el primer dcimo del conjunto ordenado en forma ascendente).

Deciles 2, 3, 4, 5, 6, 7, 8 y 9 (D2, D3, D4, D5, D6, D7, D8, D9): se definen trasladando el
concepto de D1 al segundo dcimo, tercer dcimo......., noveno dcimo de la serie ordenada en
forma ascendente (D5 = Ma).
En este caso, la forma sencilla de ubicar la posicin de un decil genrico i (para i = 1, 2, 3,
4, 5, 6, 7, 8 9) ser mediante el cociente:

i.n
10

Luego, la determinacin seguir los pasos ya explicados y la estimacin por interpolacin se


basar en:
i.n
Di = Li + 10

- Fa(i-1)
fi

.a

6.3. Los Centiles (C1, C2, ................., C98, C99)


Son noventa y nueve valores de la distribucin ordenada en forma ascendente, que la dividen en
cien partes iguales, cada una de ellas con el 1% de los datos.
La posicin del i-simo centil (siendo i = 1, 2, 3,........, 98 99) se determina por:
i.n
100
La estimacin por interpolacin resulta de aplicar la siguiente operacin a la clase del centil
genrico i:
i.n
- Fa(i-1)
Ci = Li + 100
.a
fi

Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.

6.4. La curva de Lorenz asociada a medidas de posicin


Como vimos en la unidad anterior, es posible asociar a cierto tipo de variables
(ingreso, propiedad de la tierra, etc.) la grfica de Lorenz, que nos permitir analizar el
grado de concentracin/distribucin de estos recursos en la poblacin en estudio. En
aquel momento, se present la construccin de esta grfica a partir de una tabla de
frecuencias construida en base a intervalos de igual amplitud; sin embargo, es
posible hacerlo construyendo intervalos de distinta amplitud, cada uno de los cuales incluya la misma
cantidad de individuos, de tal forma que la frecuencia relativa porcentual en cada uno de ellos sea del
25%, o del 10%, etc. Esto significa construir intervalos cuyo lmite superior coincide con los cuartiles
(tendramos cuatro intervalos), o con los deciles (diez intervalos), etc.

Consideremos por ejemplo la distribucin de los hogares segn el ingreso familiar en la


ciudad de Formosa. Se puede ver en el Cuadro siguiente que los hogares aparecen
distribuidos en intervalos de clase de diferente amplitud, de manera que cada uno de los
mismos agrupa aproximadamente un 10% del total de los hogares (4329 hogares). De
esta manera estamos presentando los datos en una distribucin segn deciles de

ingreso.

78

Unidad 3: Los valores que caracterizan al conjunto de datos

Distribucin de los Hogares segn ingreso familiar Formosa, octubre 1997


Decil

Escala Ingresos

Hogares
(%)

Porcentaje
Ingreso total
Por Decil (miles) de Ingreso

Ingreso medio
por decil

20-200

10

549

1,9

127

200-250

10

976

3,3

225

250-330

10

1281

4,3

296

330-400

10

1603

5,4

371

400-500

10

1901

6,4

439

500-600

10

2316

7,8

533

600-710

10

2796

9,4

652

720-980

10

3584

12,1

830

980-1330

10

4935

16,7

1134

10

1330-10449

10

9668

32,7

2219

29609

100,0

684

Total

100
(43288)

"

Fuente: INDEC EPH. 1998

En la tabla se aprecia que, entre los hogares de la ciudad de Formosa, existe una
concentracin de los ingresos: el 10% de los hogares que ms ganan concentran el
32,7% del total de los ingresos, mientras que el 10% de los hogares ms pobres
acumulan slo el 1,9%. Esta situacin produce una brecha entre ricos y pobres, en la
que el ingreso promedio del ltimo decil ($2219) es 17,5 veces mayor que el
ingreso promedio del primer decil. Esta comparacin se podra extender a otros grupos, por
ejemplo comparar el primer 20% de los hogares (primer quintil) que acumula slo el 5,2% frente al
ltimo 20% que acumula el 49,4% del total de los ingresos; y as sucesivamente.
La curva de Lorenz tiene la ventaja de expresar las situaciones de equidad/inequidad de manera
ms general, permitiendo apreciar el comportamiento de la variable en forma inmediata.
Segn hemos visto en la unidad anterior, para construir la curva de Lorenz tenemos que realizar
las siguientes transformaciones: acumular los porcentajes de hogares y acumular los porcentajes de
ingresos totales por decil.
Distribucin de los Hogares segn deciles de ingreso - Formosa, octubre 1997
Decil

Escala
Ingresos

Hogares
Acum.
(%)

Ingresos
Acum.
(%)

100
90
80

20-200

10

1,9

200-250

20

5,2

250-330

30

9,5

330-400

40

14,9

400-500

50

21,3

500-600

60

29,1

20

600-710

70

38,5

10

720-980

80

50,6

980-1330

90

67,3

10

1330-10449

100

100,0

Ingreso Total (%)

70
60
50
40
30

0
0

10

20

30

40

50

60

70

80

90 100

Hogares (%)

La curva as construida expresa de manera elocuente la concentracin del ingreso que existe
en los hogares de Formosa, y el hecho de haber utilizado los deciles facilita la lectura comparativa de
los datos.

79

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Actividad N 6
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 6 de la
Gua de Actividades correspondiente a esta unidad.

7. Cmo Integrar estas Medidas de Resumen?


Hemos presentado hasta aqu una serie de valores caractersticos de una distribucin que
nos permite sealar diferentes aspectos del conjunto de datos que se analiza. Cada una
de estas medidas dirige nuestra mirada hacia algn rasgo de inters de ese conjunto, las
que sern ms ilustrativas en tanto sean integradas en una descripcin que totalice todos
los aspectos destacables, generando as una buena imagen de esa distribucin.
7.1. El resumen de los cinco nmeros
Una forma aceptada y eficaz de integrar diferentes medidas descriptivas es la que se conoce como
el resumen de los cinco nmeros, en la que se consideran:
Xmn: el mnimo
Q1: el cuartil 1
Ma: la mediana
Q3: el cuartil 3
Xmx: el mximo
Con estos valores, estamos describiendo la distribucin identificando un valor de tendencia
central (la mediana), dos valores entre los cuales se concentran el 50% de los datos centrales (Q1 y

/
"

Q3) y otros dos valores entre los cuales se dispersa el conjunto total de los datos (Xmn y Xmx).
Si consideramos los gastos diarios de los grupos tursticos, podemos describir
mediante este criterio al conjunto de las observaciones utilizando los siguientes
valores:
Xmn= $ 0

Q1= $52,11

Ma= $101,75

Q3 = $155,83

Xmx= $385

La mitad de los grupos tursticos no superan los $101,75 de gasto diario, aunque los
gastos observados varan $0 y $385. Por otro lado, el 50% de los gastos centrales
se ubican entre $52,11 y $155,83.

As como el resumen de los cinco nmeros resulta un recurso apropiado para hacer una
descripcin de la distribucin, tambin se pueden incorporar otros valores caractersticos que
expresen nuevas especificidades del conjunto de datos. En este sentido, es posible agregar al anlisis,
otras medidas que nos permitan dar una mejor idea de la forma de la distribucin. Por ejemplo,
utilizando adems de los cinco nmeros vistos, los deciles 1 y 9 en un resumen que podramos llamar
de los siete nmeros.

"

Xmn= $ 0

D1= $20,8

Q1= $52,11

Ma= $101,75

Q3 = $155,83

D9= $231

Xmx= $385

Al comentario anterior basado en los cinco nmeros, se podra agregar que:

El 10% de los que menos gastan no superan los $20,8 diarios, mientras que un 10%
de los grupos tursticos, gastan diariamente $231 o ms.
IMPORTANTE
La decisin del nmero de valores caractersticos a utilizar para la descripcin, e
incluso qu deciles incorporar, depende de las particularidades de la distribucin:
nmero de casos, forma, nmero de valores diferentes que tome la variable y
propsitos del anlisis.

80

Unidad 3: Los valores que caracterizan al conjunto de datos

7.2. El diagrama de Caja (Box-plot)


El recurso grfico asociado al resumen de los cinco nmeros es lo que se conoce
como Diagrama de Caja 22. En este diagrama se utiliza un rectngulo (caja) que limitado
por los cuartiles uno y tres, incluye en su interior el 50% de los datos centrales; dentro
de la caja se seala la mediana con un segmento. A partir de esos lmites del rectngulo,
se grafican lneas -llamadas bigotes- con una longitud igual a 1,5 veces la distancia entre el cuartil 1
y el 3 23. Posteriormente fuera de los bigotes- el grfico identifica aquellos valores atpicos
(outliers), que estn a ms de 1,5 veces la distancia Intercuartil (1,5 . R Q) de los extremos de la caja.

A continuacin presentamos el diagrama de Caja construido a partir de los datos


individuales de los gastos realizados diariamente por los 72 grupos tursticos.
Diagrama de Caja: Distribucin de los gastos diarios.
Pto Iguaz, Feb. 94
400
350
Valores atpicos

Gasto Diario ($)

300
250
Ma

200

Q3
150
100

50%
central de
los datos

Q1

50
0
Turistas

En este grfico podemos ver que los gastos diarios de los turistas tienen un comportamiento
bastante simtrico en el 50% de los datos centrales (la mediana se ubica en el centro de la caja, a
igual distancia de los cuartiles uno y tres). El conjunto total de los datos muestra una asimetra a la
derecha, (el bigote superior es ms largo que el inferior e incluso se aprecia la presencia de cuatro
grupos tursticos con gastos atpicos). Por otro lado el bigote inferior est indicando una mayor
concentracin de los gastos menores, no hay valores atpicos pequeos e incluso no se identifica
ningn grupo que no haya realizado gastos (el bigote no alcanza al valor $0).
Este tipo de recurso grfico resulta muy ilustrativo y en consecuencia recomendable cuando
queremos comparar dos o ms distribuciones 24.
Vemos entonces que el diagrama de caja permite visualizar una serie de aspectos
interesantes de la forma del conjunto de los datos:
- Presencia de valores atpicos

22
23

24

Tambin denominado Diagrama de Caja con bigotes o en ingls Box-Plot.


En la unidad siguiente, se podr ver que esta distancia entre el cuartil 1 y el 3 es una medida de variabilidad que se conoce
como Rango intercuartil (RQ).
El uso del box-plot para la comparacin de conjuntos de datos, ser tratado posteriormente en la Unidad 5.

81

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

- Simetra del conjunto central de los datos (equidistancia o no de la

mediana a los cuartiles).


- Simetra del conjunto total de datos (forma de la caja y longitud de los
bigotes).
- Dispersin en cada una de las zonas en las que queda dividida la
distribucin (la longitud de cada parte, expresa la mayor o menor proximidad
de los datos entre s).
- El rango de la distribucin (distancia entre el valor mximo y mnimo).
Estas caractersticas del diagrama hacen que el mismo resulte til (junto con el de tallo-hoja) en la
etapa inicial exploratoria de los datos, previo a la construccin de una distribucin de frecuencias
y clculo de las medidas resumen, ya que -como hemos visto- la forma de la distribucin
condiciona el posterior tratamiento y resumen de los datos.

Actividad N 7
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 7 de la
Gua de Actividades correspondiente a esta unidad.

8. Qu Hemos Visto?
En esta unidad hemos avanzado un paso ms en el camino del tratamiento y anlisis estadstico
elemental de los datos.
Efectuados los primeros resmenes numricos y grficos, para una primera lectura del fenmeno
que representan los datos (unidad 2), el anlisis a menudo requiere de instrumentos que permitan
un mayor resumen de la informacin.
Las medidas de tendencia central tienen este propsito, y su aplicacin en un problema
particular depender bsicamente de las necesidades de informacin que motivan el
anlisis, del tipo de datos con los que se trabaja y de las propiedades del conjunto como un
todo.
El buen dominio del concepto, propiedades y limitaciones de cada una de ellas es el requisito para
utilizarlas correctamente.
Adems, hemos presentado las diferentes medidas de posicin que permiten complementar
la comprensin de un conjunto de datos, informando -con distintos niveles de detalle- sobre su
estructura.
En todos los casos, el nfasis est puesto en facilitar la comprensin conceptual de cada
herramienta, para luego pasar al plano de la formalizacin matemtica elemental y del clculo
aplicado a ejemplos de fcil comprensin.
En relacin con esto ltimo, reiteramos la recomendacin a quienes puedan hacerlo, de utilizar la
informtica como auxiliar del trabajo estadstico.

82

Unidad 3: Los valores que caracterizan al conjunto de datos

Valores que Caterizan un Conjunto de


Datos
Ordinales

Nominales

Mo

Mo

Mo

Ma

Ma

u n va l o r

Resumen de
los cinco nmeros

Variables Categricas

Deciles
.... . ......

Cuartiles

Centiles

Deciles
.... . ......
Centiles

83

va r i o s va l o r e s

Cuartiles
percentiles

percentiles

Diagrama de Caja
(Box-Plot )

Integracin de las medidas de resumen

Variables Numricas

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Bibliografa
BARBANCHO, A. (1978): Estadstica Elemental Moderna. Ed. Ariel, Barcelona, Espaa. pg. 117123, 127-132, 134-138.
BLALOCK, H. M.(1978): Estadstica Social, FCE, Mxico. pg. 67-72, 81-83.
UNIVERSIDAD NACIONAL DE CRDOBA (1993): Estadstica aplicada a la Investigacin. Curso a
distancia. Fac. de Cs. Econmicas, Crdoba, Mdulo III pg. 1-42.
Conceptos Centrales

Media aritmtica: concepto y propiedades.

Modo: concepto y propiedades.

Mediana: concepto y propiedades.


Cuartiles, deciles, centiles: concepto y aplicacin.

Habilidades

Reconocer la utilidad, alcances y limitaciones de cada una de las medidas resumen


presentadas.
Identificar para una situacin de trabajo, las medidas de Tendencia Central y Posicin que
podran utilizarse para una buena descripcin de los datos.
Conocer los fundamentos que guan los procedimientos para la obtencin de estas medidas.
Interpretar en trminos de un problema, las medidas y grficos asociados a una distribucin
(Box-plot y Curva de Lorenz).
Saber comunicar en un informe las caractersticas de un conjunto de datos, integrando los distintos
recursos estadsticos aprendidos hasta el momento.

84

Unidad 4: Anlisis de la Variacin y Asimetra

UNIDAD 4: ANLISIS DE LA VARIACIN Y ASIMETRA

1. Por qu Evaluar la Variabilidad y la Asimetra?


No se investiga lo obvio, aquello que encuentra una respuesta simple y evidente. Las
preguntas que nos formulamos generalmente aluden a situaciones complejas,
comprenden fenmenos en los que las caractersticas de inters presentan valores
diversos, no son uniformes.

Dicho en trminos estadsticos, los datos que obtenemos en relacin con alguna pregunta de
investigacin, varan a travs del conjunto de unidades observadas, y controlar esa
variabilidad es el fin ltimo en la tarea de describir los datos y producir informacin.
Hasta aqu todas las medidas o herramientas presentadas intentaban, de diferentes maneras,
resumir los datos para lograr una mejor descripcin de esa diversidad. As, las distribuciones de
frecuencias (en su forma numrica o grfica) nos permiten presentar y describir los diferentes
valores observados. En tanto que las medidas resumen desarrolladas en la unidad anterior, nos
facilitan la descripcin de los individuos a travs de un conjunto de valores caractersticos
que intentan dar cuenta de la variabilidad.
Asimismo, debemos destacar que la representatividad de las medidas de tendencia central
se vincula estrechamente con la dispersin de los datos y (concretamente en el caso de la
1
media) con la simetra de la distribucin . Consideremos los siguientes grficos donde se
representan tres distribuciones de frecuencias (polgonos A, B y C) que registran un mismo valor para
la media.

Frecuencia (fi)

Distribuciones con igual media aritmtica y diferente variabilidad y/o simetra

Frecuencia (fi)

xA
Variable X

Evaluando los grficos, es posible


concluir que la media aritmtica resulta
mucho ms representativa del conjunto
de datos en la distribucin A (simtrica
y con menor variabilidad) que en las
situaciones B (simtrica pero con
valores ms dispersos en torno a la
media) y C (tambin ms dispersa y
asimtrica).

Frecuencia (fi)

Variable X

Variable X

Esto pone de manifiesto que tanto la variabilidad como la asimetra de la distribucin son aspectos a considerar a la hora de
evaluar estas medidas. Recordar que: cuando se observa la presencia de valores atpicos, el promedio aritmtico debe ser
analizado con cuidado, porque puede resultar fuertemente desplazado de la tendencia central e inducir a interpretaciones
errneas acerca del conjunto de datos que resume (Ver Unidad 3).

85

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

A estas caractersticas que hacen a la forma (variabilidad y simetra 2) de la distribucin, le


podemos asociar medidas que resuman en nmeros la cantidad de variacin y el grado de
asimetra, valores que nos permitirn comparar distintos conjuntos de individuos.
En esta unidad abordaremos -en primera instancia- cmo medir la variabilidad, para
posteriormente presentar aquellas medidas del grado de asimetra de una distribucin.

2. Cmo Medir la Variabilidad?


Qu significa medir la variabilidad? Obtener un nico nmero que exprese qu tan
dispersos o diferentes son entre s el conjunto de valores observados o -lo que es lo
mismo- que indique cun homogneos son los individuos en trminos de la caracterstica
en cuestin.
Si bien el concepto de variabilidad es nico, las medidas son distintas segn se trate de variables
numricas o categricas. Adems, para las variables numricas podemos identificar medidas absolutas
y relativas.

Anlisis de la Variabilidad

Tipo de
Variable?

N u m r i c a s

M e di d a s
A b s o l uta s

C a t e g r i c a s

M e di d a s
R e la tiv a s

M e di d a s
R e la tiv a s

2.1. Para variables numricas


Por tratarse de variables medidas en una escala de intervalo, la dispersin de los valores
observados se puede expresar directamente por la diferencia aritmtica entre esos valores. En
consecuencia, cuanto mayor sea la diferencia entre dos valores, podemos aseverar que mayor ser la
variacin que existe entre esos dos datos.

Veamos en un sencillo ejemplo, las ideas anteriores: tenemos seis individuos para los
cuales se han registrado sus notas en Historia y Matemtica.
Simboliza al segundo individuo
i1

i2

i3

i4

i5

i6

Nota Historia

Nota Matemtica

10

Individuo

Media

Es la nota de Matemtica del cuarto individuo

Se puede observar que los promedios de las notas en estas materias son coincidentes. Sin
embargo, la variabilidad en las notas de Historia es claramente menor que en las de Matemtica; as
la mayor variacin que se registra entre las notas de Historia es de 2 puntos (entre i2 y i4, que son los
individuos ms diferentes entre s), mientras que en Matemtica, la mayor diferencia es de 6 puntos
(entre i5 y i1). Estamos en condiciones de afirmar para este pequeo conjunto de observaciones que,
a pesar de que la medida resumen es la misma, los conjuntos son diferentes: las notas de Matemtica

Aunque no lo desarrollaremos en este curso, otro aspecto a considerar en el anlisis de la forma es lo que se conoce como
curtosis.

86

Unidad 4: Anlisis de la Variacin y Asimetra

son ms heterogneas (estn ms dispersas) que las de Historia. El promedio en Historia


representa mucho mejor al rendimiento de los estudiantes en esa asignatura, que la nota
promedio de Matemtica al correspondiente conjunto de datos.

IMPORTANTE
Las medidas de tendencia central ocultan la variabilidad del conjunto de
datos. Por ello, cuantificar la variabilidad constituye un complemento
imprescindible en la descripcin de una distribucin.
Conocer (medir) la variacin de los datos permite:
describir esta caracterstica inherente a todo conjunto de observaciones,
evaluar la calidad de las medidas de tendencia central, y
comparar mejor diferentes grupos de datos mediante sus promedios.

En general, las situaciones no sern tan evidentes, ni el nmero de datos tan pequeos como en el
ejemplo anterior; lo que obliga a construir medidas que nos permitan resumir y evaluar esa
variabilidad.
2.1.1. Las medidas absolutas
Para la construccin de medidas absolutas de variacin se pueden adoptar dos
perspectivas:
Considerar el campo de variacin de las variables: las medidas obtenidas
expresan la extensin o amplitud de variacin de los datos que se estn considerando.
Se identifican en este grupo: el Rango y el Rango Intercuartil.
Considerar las variaciones de los datos individuales: estas medidas resumen en
un valor la totalidad de las variaciones de los datos individuales. Entre estas medidas se
destacan: la Desviacin Media, la Desviacin Mediana, la Variancia y el Desvo Estndar.
Considerando el campo de variacin de las variables, tenemos:
A) El Rango, Amplitud o Recorrido: indica la extensin en la que varan la totalidad de los datos;
es la mayor diferencia que se puede registrar entre dos valores de la variable.
Esta medida se calcula como la diferencia entre el mximo valor y el mnimo valor observado de la
variable.
R = x mx - x mn
En el ejemplo de las notas el rango para la variable nota de Matemtica es de 6 (R = 10 - 4), lo
que indica que la totalidad de las notas observadas se registran en un campo o extensin de variacin
de 6 puntos. En el caso de las notas de Historia esta amplitud de variacin es de 2 puntos.
Cuando los datos estn agrupados en intervalos de clase, dado que no conocemos exactamente el
mximo y el mnimo, el rango se obtiene 3 haciendo la diferencia entre el lmite superior de la ltima
clase y el lmite inferior de la primera:
R = L sk - L 1 (donde k es el nmero de clases)

Comentarios:
Es una medida de muy fcil clculo, que permite una aproximacin rpida a la variabilidad
de los datos.
Al tomar slo los valores mximo y mnimo, si se observan valores muy atpicos, puede
brindar una idea distorsionada sobre la variabilidad como caracterstica del conjunto.
Dos distribuciones con el mismo rango pueden tener dispersin interna de los datos
muy diferentes (el conjunto de los valores pueden estar ms o menos concentrados).

Estrictamente se trata de una estimacin ya que desconocemos los verdaderos valores mximos y mnimos.

87

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

B) Rango intercuartil: indica la extensin en la que varan el 50% de los datos centrales de la
distribucin.
Se calcula como la diferencia entre el tercer y el primer cuartil.
RQ = Q3 - Q1

Comentarios:
Muchas veces es preferible medir la variabilidad del 50% de los datos centrales, descartando
el 25% de los valores ms bajos y el 25% de los ms altos, para evitar as la distorsin que
puede provocar la presencia de valores atpicos.
Simultneamente, estamos prescindiendo en este caso de la mitad de las observaciones.

Para describir la distribucin de las edades de los alumnos del curso de Estadstica
podemos utilizar algunas de las medidas de resumen presentadas en la unidad
anterior.

Mediana

21 aos

Mnimo

17 aos

Mximo

47 aos

Cuartil 1

19 aos

A estas medidas las podemos complementar con medidas de variacin. As


tenemos:

"

Rango:

R = 4 7 - 1 7 = 3 0 aos

Rango intercuartil:

RQ= 2 7 - 1 9 = 8 aos

A partir de este conjunto de medidas se puede decir que: la

mitad de los alumnos de Estadstica tienen 21 aos o menos, y


los
ms jvenes tienen 17 aos. Las edades de los estudiantes
Cuartil 3
27 aos
varan en una amplitud de 30 aos, lo que implica una diferencia
de 30 aos entre el/(los) alumno/s ms jven/es y el/(los) de ms edad. El 50% de los estudiantes
con las edades centrales difieren a lo sumo en 8 aos.
Recordar que el Diagrama de Caja (Box-Plot) es un recurso grfico apropiado para el anlisis de la
distribucin en general y de la variabilidad y asimetra en particular. (Ver unidad 3).

Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.

Considerando las variaciones de los datos individuales tenemos:


Una alternativa que facilita construir estas medidas es tomar los desvos de cada uno
de los valores individuales con respecto a un punto elegido como referencia.
Generalmente este valor de referencia es una medida de tendencia central.
C) Desviacin media: esta medida se construye tomando todos los desvos individuales con
respecto a la media aritmtica.

Como hemos definido, un desvo individual es la diferencia entre un valor de la variable y la


media aritmtica: di = ( x i - x ) . Es decir que tendremos tantos desvos individuales como individuos
hayamos observado.
En el ejemplo de las notas de Matemtica tendramos los seis desvos siguientes:
i1

i2

i3

i4

i5

i6

Nota Matemtica

10

Desvos individuales a la x

-3

-2

-1

Individuo

Media
7

Se puede ver que, mientras el individuo 1 est 3 puntos por debajo de la media, el individuo 5 est
en esa misma cantidad por encima de la media.

88

Unidad 4: Anlisis de la Variacin y Asimetra

Para resumir en un nico nmero la variabilidad de las seis observaciones, podemos recurrir al
promedio pero, como ya hemos sealado en la unidad anterior, la suma de los desvos a la media es
cero 4. Para resolver este problema vamos a sumar los desvos absolutos, es decir el valor de los
desvos prescindiendo de su signo.

"

En trminos del problema tenemos que la Desviacin Media se obtiene como:


DM =

3 +1 + 2 + 2 + 3 +1 12
=
= 2 puntos
6
6

Se interpreta que, en promedio, las notas de matemtica se desvan de la media en 2


puntos.

Desviacin Media (DM):


Es el promedio de los desvos individuales (en valor absoluto) con respecto a la media
aritmtica.
Las barras
simbolizan valor
x i - x di
DM =
=
absoluto
n
n
Comentario:
Cuando estamos en presencia de distribuciones en las que se observan valores atpicos
(marcadamente asimtricas) la media como medida resumen no es recomendable, y en
consecuencia tampoco lo es la desviacin media como medida de variabilidad.
Para el caso de las edades de los alumnos del curso de Estadstica, la Desviacin Media calculada a
partir de los valores individuales, es: DM = 5,14 aos (Ud. podra controlar este resultado, calculando
la DM a partir de los datos que figuran en la Unidad 2).

Para datos organizados en una distribucin de frecuencias:


Si se trata de un arreglo de frecuencias y se va a obtener la desviacin media en
forma manual, la expresin de clculo es:

x i - x .fi

di .fi

donde fi es la frecuencia del valor xi


n
n
Cuando los datos estn agrupados en intervalos de clase, y no se dispone de los
valores individuales, se podr estimar la Desviacin Media, considerando que el xi de la
frmula se corresponde con el punto medio de la clase.
DM =

Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001


Punto Medio de clase
Desvos individuales
En el caso de la
edad de los estun de estud. (fi)
PM
di = (PM 23,6) |di|. fi
Edad
diantes, si desco17-20
65
18,5
-5,1
331,5
nociramos los va21-24
25
22,5
-1,1
27,5
lores individuales de esta
25-28
17
26,5
2,9
49,3
variable y contramos nicamente con los datos organi29-32
14
30,5
6,9
96,6
zados en una distribucin de
33-36
7
34,5
10,9
76,3
frecuencias en intervalos de
37-40
5
38,5
14,9
74,5
clase, podramos estimar la
41-44
2
42,5
18,9
37,8
Desviacin Media realizando las
45-48
1
46,5
22,9
22,9
operaciones que se indican en
136
716,4
Total
la Tabla.
Fuente: elab. propia en base a datos del Estudio de los Alumnos de Estadstica

(x - x ) = 0
n

Recordar que por una propiedad de la media la suma de los desvos individuales a la media siempre es cero.

i=1

89

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

"

Dividiendo la suma de los desvos en valores absolutos (716,4) por el nmero de casos (136), tenemos una
De svia cin Me dia e stim a da e n 5,27 a os.

La s e da de s de los a lumnos de e sta dstica ,se dispe rsa n e n prome dio-con re spe cto a la me dia
en 5,27 aos.

D) De svia cin me dia na : si e va lua mos que la me dia no e s una bue na me dida re sume n de los da tos y
opta m os por la m e dia na com o m e dida de te nde ncia ce ntra l, se ra a propia do utiliza r una m e dida de
dispersin relacionada a la m ediana.Asentonces,dem anera anlogaa la desviacin m edia,tenem osque:

Desviacin Mediana (DMa):


Es el promedio de los desvos individuales (en valor absoluto) con respecto a la
mediana.
x i - Ma
DMa =
n

Comentarios:

Para datos organizados en distribuciones de frecuencias, valen los mismos comentarios


que para el clculo de la Desviacin Media.

DMa=

x i -Ma .fi

donde:
fi es la frecuencia del valor xi
xi son los valores observados de la variable en el caso de un arreglo de
frecuencias, o el punto medio de la clase en el caso de una distribucin en
intervalos de clase.

Calculamos la
Desviacin Mediana
para las Notas de
Matemtica:

x i - Ma

Individuo

i1

i2

i3

i4

i5

i6

Ma

N ota M atem tica

10

-3

-2

-1

D esvos a la M a

Promedio de los valores centrales 6 y 8

3 +1 + 2 + 2 + 3 +1
= 2 puntos
n
6
En consecuencia, las notas de Matemtica se desvan, en un promedio de 2 puntos, de la mediana.

DMa =

Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001


La edad de los estudiantes es
una
distribucin
marcadamente asimtrica a la
derecha
y
la
mediana
(Ma = 21,5) ser la mejor
medida resumen de los datos.
As, lo ms apropiado es
utilizar la desviacin mediana,
que se obtiene mediante las
operaciones que se presentan
en la Tabla:

Edad

nde estud.(fi)

17-20
21-24
25-28

65
25
17

18,5
22,5
26,5

29-32

14

33-36
37-40
41-44
45-48

7
5
2
1

Total

PM

di= (PM 21,5)

|di|.fi

-3
1
5

195
25
85

30,5

126

34,5
38,5
42,5
46,5

13
17
21
25

91
85
42
25

136

674

Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica

Desvos individuales a la mediana

Suma del producto de los


desvos absolutos
individuales a la mediana por
la frecuencia

90

Unidad 4: Anlisis de la Variacin y Asimetra

"

Luego: DMa=

674,0
=4,96 aos
136

Esta medida indica que en promedio las edades de los estudiantes se desvan de la
mediana en 4,96 aos.

E) Variancia y Desviacin estndar: en el clculo de la desviacin media se tomaron los valores absolutos de
los desvos evitando as que la suma nos d cero. Otro criterio para solucionar este mismo problema sera elevar
esos desvos al cuadrado, obteniendo de esta manera una nueva medida de variabilidad que se conoce como
Variancia.
Esta medida se simboliza utilizando la letra griega sigma elevada al cuadrado ( 2 ).

El clculo de la variancia para las notas de Matemtica es:


Individuo

i1

i2

i3

i4

i5

i6

Media

Nota Matemtica

10

-3

-2

-1

( xi - x )

Desvos individuales a la

...?

(-3)2 + (1)2 + (-2)2 + (2)2 + (3)2 + (-1)2 28


=
=
= 4, 7 (puntos) 2
6
6

Variancia (

2 ):
( x i -x )

Es el promedio de los cuadrados de los desvos a la media aritmtica.

Comentarios:
La variancia y el desvo estndar son, fundamentalmente por razones de orden terico,
las medidas ms utilizadas para cuantificar la variabilidad de un conjunto de datos.
Dado que los desvos a la media estn elevados al cuadrado, la variancia se expresa
en una unidad de medida que es el cuadrado de la unidad de medida de la
variable original. Esto dificulta la interpretacin del resultado en trminos del
problema.
La unidad de medida en la que queda expresada la variancia no es interpretable en trminos de la
variable que se analiza. Hasta aqu slo la podemos considerar como una cuantificacin de la
variabilidad existente en los datos.
Para resolver este problema, se calcula la raz cuadrada de la variancia, que resulta en una nueva medida
llamada Desvo Estndar ( ) , la que queda expresada en la unidad original.

"
/

= 2

En el ejemplo de las notas de Matemtica el desvo estndar ser:


= 4, 7 = 2, 2 puntos
Las notas de matemtica de los alumnos se dispersan en promedio en torno a la media en 2,2
puntos.

Si no contramos con los datos originales, el clculo de la variancia y el desvo estndar para
las edades de los estudiantes de estadstica, a partir de la tabla, sera:

91

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Estudiantes del curso de Estadstica segn edad- FHyCS-Ao 2001


Desvos al cuadrado

Desvos individuales a la
media
Edad

n de estud. (fi)

17-20

65

18,5

-5,1

26,0

1690,0

21-24

25

22,5

-1,1

1,2

30,0

25-28

17

26,5

2,9

8,4

142,8

29-32

14

30,5

6,9

47,6

666,4

33-36

34,5

10,9

118,8

831,6

37-40

38,5

14,9

222,0

1110,0

41-44

42,5

18,9

357,2

714,4

45-48

46,5

22,9

524,4

524,4

Total

PM

d i = (PM 24,1)

d i2

136

d i2

. fi

5709,6

Fuente: elaboracin propia basada en datos del Estudio de los Alumnos de Estadstica

"

2 = di .fi = 5709,6 =42,0


2

La variancia es:

El desvo estndar es:

136

42=6,48 aos.

Entonces, los estudiantes del curso tienen una media de 24,1 aos y sus edades -en
promedio- se dispersan con respecto a ese valor 6,48 aos.

Para datos agrupados en distribuciones de frecuencias:


La expresin de clculo es:

donde:

(x
=

x ) . fi
2

fi es la frecuencia del valor xi


xi son los valores observados de la variable en el caso de un arreglo de
frecuencias, o el punto medio de la clase en el caso de una distribucin en
intervalos de clase.

Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.

2.1.2. Las medidas relativas


Con frecuencia nos vemos en situaciones de tener que comparar la variabilidad de
diferentes conjuntos de datos. As por ejemplo, comparar los ingresos de grupos
pertenecientes a distintos estratos sociales, las edades de grupos en diferentes etapas de
la vida, las temperaturas en distintas regiones del planeta, etc.

Existen diferentes situaciones que se pueden presentar al comparar distribuciones. En el


esquema siguiente se presentan, en trminos generales, esas situaciones de comparacin.
El primer Grfico est expresando una situacin en la cual debemos comparar la variabilidad de
dos grupos que -medidos en la misma variable- tienen medias iguales y dispersiones diferentes.
Es fcil de concluir que en la distribucin B los individuos son ms homogneos que en la otra.

92

Unidad 4: Anlisis de la Variacin y Asimetra

Distintas Situaciones de Comparacin de la Variabilidad

Ej e Y

1. Igual media y diferente desvo estndar

Cuando las variables estn


medidas en la misma escala
(situacin 2), no es difcil de
ver que:

A >B

A
B

x A = xB

una variacin de 2 aos


entre escolares, no implica la
misma heterogeneidad de
los individuos (en cuanto a:
intereses, preferencias y
habilidades) que esa misma
variacin entre universitarios,
o

Eje x

Eje Y

2. Distinta media e igual desvo estndar

A =B

x A xB

300

900

Eje X

Ej e Y

3. Distinta media y diferente desvo estndar

A B

La dificultad de comparar no
se presenta tan clara en las
otras dos situaciones (2 y 3).

una dispersin de $50 pesos


en el ingreso mensual de
gerentes de empresa, no los
diferencia (en cuanto al nivel
de vida o consumo), de la
misma manera que esa
misma variacin lo hace
entre sus obreros, etc.

Es an ms evidente la dificul-

x A xB

Eje x

tad de comparar la hogeneineidad de los individuos


cuando las

distribuciones tienen valores distintos de promedio y dispersin absoluta (situacin 3). Por ejemplo
esto ocurrira si queremos comparar:

la variacin en el consumo de energa elctrica de los hogares y de las industrias. Si


conociramos que el desvo estndar en el consumo de los hogares es de 100 Kw y entre las
industrias es de 1500 Kw; no tenemos informacin suficiente para concluir sobre la mayor o
menor homogeneidad en alguno de las poblaciones, dado que -como podemos suponer- sus
promedios son sustancialmente diferentes.

En consecuencia, para valorar la dispersin de un grupo y poder compararlo con otro, se


hace necesario evaluar la dispersin en trminos relativos a las magnitudes de esas
variables en cada uno de los grupos. Esto significa que, comparar la cantidad de dispersin de
dos grupos, exige construir medidas relativas de variabilidad.
Esta necesidad de relativizar la variabilidad, se evidencia tambin cuando se busca comparar la
homogeneidad de dos conjuntos de observaciones en trminos de dos variables expresadas en
unidades de medida distintas. Por ejemplo, queremos ver si nuestros estudiantes se parecen ms
entre s (son ms homogneos) en cuanto al tiempo que miran televisin (en horas), que en relacin
a su edad (en aos); los turistas que visitan Puerto Iguaz se parecen ms entre s en trminos de
sus aos de estudio que de sus gastos, etc. As, los interrogantes nos conduciran a comparar la
dispersin de la edad de los alumnos con la dispersin en el tiempo que miran TV; y la variabilidad de
gastos de los turistas, con la variabilidad en los aos de estudio. Ambas situaciones son incomparables
en trminos de variabilidad absoluta.
F) Coeficiente de variacin
Es la medida relativa de dispersin ms utilizada dado que se construye a partir de la desviacin
estndar que, como hemos dicho, es la medida de dispersin ms difundida.

93

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Coeficiente de Variacin (CV):


Definido como:

.100
x
indica la cantidad de variacin expresada como un porcentaje de la media aritmtica.
CV =

Comentarios:
Si las medias aritmticas de dos conjuntos son iguales (o aproximadamente) las medidas
absolutas sern suficientes para la comparacin.

Edad

Hs. TV

136

139

23,4 aos

2,0 hs.

6,4 aos

1,5 hs.

CV

27,3 %

75,8 %

En el ejemplo de los estudiantes, podemos ver que


las edades se dispersan en promedio un 27,3% del
valor de la media aritmtica, mientras que el tiempo

que miran TV tiene una dispersin del 75,8% del


promedio general. En conclusin, el grupo es
mucho ms homogneo en trminos de sus edades
que en relacin con sus hbitos como televidentes.

Existen otras medidas relativas de variacin que se construyen de manera


anloga al coeficiente de variacin, segn sea la medida absoluta de dispersin
que se considere. As tenemos:
G) Coeficiente de Desviacin Media
CDM=

DM
.100
x

H) Coeficiente de Desviacin Mediana


CDMa=

DMa
.100
Ma

donde: DM es la desviacin media y DMa es la desviacin mediana.

L
1

IMPORTANTE
En la prctica no se construyen sucesivamente todas las medidas que
hemos presentado sino que, a partir de la medida de resumen
seleccionada como ms representativa de la tendencia central, se
seleccionar una medida de dispersin que la complemente, y
consecuentemente se construir la medida relativa correspondiente a esa
medida absoluta.
Una vez ms: la utilizacin de determinadas medidas es el resultado
de una decisin del investigador y surge de considerar las
caractersticas de ese particular conjunto de datos que se est analizando.

Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad .

2.2. Dispersin para variables categricas


Como es de suponer, la construccin de una medida de dispersin para variables
categricas (nominales u ordinales) no se basa en el desvo de los datos individuales a
una medida de tendencia central; su lgica es totalmente diferente. En estos casos,

cmo entenderamos y valoraramos diferentes situaciones de dispersin?

94

Unidad 4: Anlisis de la Variacin y Asimetra

Supongamos que se observan seis individuos en una variable con dos categoras:
Cat1 y Cat2 de una escala nominal u ordinal. Tendramos as situaciones de:
Dispersin Nula (mxima concentracin): cuando todas las observaciones corresponden a
una sola de las categoras posibles. Es decir alguna de las siguientes dos situaciones.
Situacin A
Variable

n individuos

Cat1

Cat2

Total

Situacin B

Todos los
individuos
presentan
la
caracterstica Cat1

Variable n individuos
Cat1

Cat2

Total

Todos los
individuos
presentan la
caracterstica Cat2

Mxima Dispersin (Mnima Concentracin) las observaciones se distribuyen entre las


diferentes categoras de manera tal que, en todas, haya la misma cantidad de casos.
Variable

n individuos

Cat1

Cat2

Total

Dispersin intermedia: Cuando las observaciones se distribuyen entre las categoras de


modo desigual pero sin llegar al extremo de concentrarse todas en una sola de ellas. Por
ejemplo; situaciones como las siguientes:
Variable

n individuos

Cat1

Cat2

Total

Variable

n individuos

Cat1

Cat2

Total

Algunas de
las
categoras
tiene ms
casos que
las otras

A partir del concepto de dispersin para datos categricos, podemos ver la lgica que sirve de
base para la construccin del ndice de Dispersin.
El ndice de dispersin para una variable de dos categoras se obtiene a partir del nmero de pares
de individuos 5 que se pueden construir combinando los elementos de una categora con todos los de
otra. Hay que tener en cuenta que, en este caso, cada par es una combinacin de individuos
diferentes en trminos de la variable que se est analizando. Por ejemplo, si se tratara de la variable
sexo, cada par estara integrado por un hombre y una mujer. As, para una variable cuya distribucin
presenta cuatro individuos en una categora y dos en la otra, los pares que se pueden formar seran:

Si la variable tiene tres categoras sern ternas, si tiene cuatro sern grupos de cuatro individuos y as siguiendo.

95

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Pares posibles
Categora 1

Categora 2

i1

El individuo 3
presenta la
caracterstica
1 de la variable

i5

i2

(i1,
(i2,
(i3,
(i4,

i5)
i5)
i5)
i5)

(i1,
(i2,
(i3,
(i4,

i6)
i6)
i6)
i6)

i3
i4

i6

Cada par est


formado por
individuos con
caractersticas
diferentes

En la tabla siguiente resumimos, para el ejemplo de seis observaciones en una variable de dos
categoras, el nmero de pares posibles de elementos con atributos diferentes que se
pueden construir para cada nivel de dispersin.
Nivel Dispersin

n individuos
en Cat1

n individuos
en Cat2

Nula

Intermedia 1

Intermedia 2

Mxima

N pares
posibles

En la tabla anterior se puede ver que, a medida que crece el nivel de dispersin de la

variable, aumenta el nmero de pares posibles a construir.


Se observa que la situacin de mxima dispersin se corresponde con el mayor nmero de pares
posibles y que la dispersin nula no permite construir ningn par. En consecuencia, el nmero de
pares de diferentes elementos podra constituir una medida absoluta de la heterogeneidad de los
individuos en trminos de la variable en estudio.
Es posible entonces usar esta relacin para construir una medida relativa de dispersin, de tal
manera que sea til para comparar distintas distribuciones.

Indice de Dispersin (ID)


Se define como el cociente entre el nmero de pares que corresponde a la
distribucin observada, sobre el nmero de pares posibles que corresponde a
la situacin de mxima dispersin (igual distribucin de casos entre las
categoras). Por lo tanto; el ndice vara entre 0 y 1.
0 ID 1

Donde:

ID = 1 en la situacin de mxima dispersin (o mnima concentracin),


ID = 0 en la situacin de dispersin nula (o total concentracin).
Si consideramos como distribucin observada una de las que en el ejemplo hemos llamado
situacin intermedia (intermedia 2), el ndice resulta:
ID=

n pares observados
8
= = 0, 89 u 89%
n pares posibles en situacin de Mx. Dispersin 9

96

Unidad 4: Anlisis de la Variacin y Asimetra

Cuando el nmero de categoras y/u observaciones es relativamente grande, la determinacin del


nmero de pares posibles y de pares observados se vuelve dificultoso. En estos casos el ID se
determina mediante la siguiente frmula :
ID=

k(n2 - fi2 )
n2 (k-1)

donde:
k : nmero de categoras de la variable
n : total de casos
fi : cantidad de observaciones o frec. Abs. en la categora i-sima.

Veamos la utilidad de este ndice para comparar la heterogeneidad del motivo de la


bsqueda de trabajo entre los hombres y las mujeres.
Motivo de la bsqueda de trabajo por sexo - Posadas-1986.
Motivo de Bsqueda

Varones

Completar Ingreso Familiar Bsico


Ampliar Ingreso Familiar Bsico
Otros Motivos
Total

Mujeres

1140
452
578
2.170

262
490
702
1.454

Fuente: EPH, mayo 1986.

Para la desviacin de los varones el ndice resulta:


2

ID=

3[(2170) -(452 +1140 +578 )


2170 2 (3-1)

=0,91

En el caso de las mujeres ser:

"
1

ID=

3[(1454) -(262 +490 +702 )


2

1454 (3-1)

=0,93

Ambos grupos presentan una alta dispersin (ID cercano a 1). Dado que el ID de las
mujeres es mayor, las mujeres son ligeramente ms heterogneas que los hombres en

cuanto al motivo por el que buscan trabajo.


Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.

3. Cmo Medir la Asimetra?


Como sealramos oportunamente la silueta de la forma de la distribucin (polgono de
frecuencias) nos da una idea acerca de la simetra del conjunto de datos. As tenamos
que, en la situacin de simetra, cada mitad de la curva es una imagen espejada de la
otra mitad y la recta que hace de espejo (eje de simetra) es la que pasa por las
medidas de tendencia central (media, mediana y modo, que coinciden en el mismo valor).

Eje de
simetra

Simtrica

x=Ma=Mo

97

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

A medida que la distribucin se hace ms asimtrica hacia uno u otro lado (derecha e izquierda),
las medidas de tendencia central tienden a alejarse unas de otras, siendo la media -por estar afectada
por los valores extremos- la que ms se desplaza hacia la cola de la distribucin (ver grficos
siguientes).
Asimetra
a Izquierda

Asimetra
a Derecha

x < Ma < Mo

Mo < Ma < x

Vemos en los Grficos que, en el caso de una asimetra a la izquierda, la media es menor que la
mediana y esta a su vez, menor que el modo. Inversamente, en la asimetra a derecha ser el modo
asume el menor valor y la media la mayor de las tres medidas. Se puede ver adems que la mediana,
siempre toma un valor intermedio entre las otras dos medidas, ubicndose ms prxima a la media 6.
A medida que la asimetra crece en una u otra direccin, tambin las distancias entre la
media y el modo, y la media y la mediana, crecen. En consecuencia, podemos utilizar estas
diferencias ( x- Mo , o x- Ma ) como medidas absolutas de la asimetra de una distribucin.
Adems se puede ver que si la asimetra es a la izquierda, x- Mo dar un valor negativo, en tanto que
si la asimetra es a la derecha esta diferencia ser positiva.
En sntesis:

x-Mo = 0 Simetra

x-Mo < 0 Asimetra negativa

x-Mo > 0 Asimetra positiva

Adems, cuanto mayor sea el valor absoluto de la diferencia, mayor ser el grado de asimetra de
la distribucin
A mayor | x-Mo |

mayor asimetra
Para poder comparar la asimetra de distribuciones de variables medidas en distintas escalas o
presentadas para valores con distinta magnitud, la solucin es construir medidas relativas de
asimetra.
3.1. Coeficiente de asimetra de Pearson
Una de las medidas de asimetra ms difundidas, es el Coeficiente de Asimetra de Pearson
que calcula esa diferencia en cantidad de desvos estndar.

Coeficiente de Asimetra de Pearson (CAP)


Se define como:
x- Mo
CAP=

En casos de asimetra moderada, la mediana se ubica -prxima a la media- a un tercio de la distancia entre la media y el
modo.

98

Unidad 4: Anlisis de la Variacin y Asimetra

Comentarios

La magnitud absoluta del coeficiente indica la cantidad de desvos estndar a los que se
encuentra la media del modo.
Se lo puede expresar en porcentaje, multiplicando por 100 el resultado de la expresin anterior.
Si el coeficiente es igual a cero, estamos en una situacin de simetra perfecta.

En situaciones de asimetra, el coeficiente puede tomar valores positivos o negativos:


- Los valores positivos estn indicando una asimetra a la derecha.
- Los valores negativos indican una asimetra a la izquierda.

En trminos tericos, este coeficiente puede tomar valores que varan entre 3 y +3.
3.2. Coeficiente intercuartlico de Bowley
Una medida alternativa del grado de asimetra se puede plantear a partir de las distancias que se
observan entre los cuartiles. En una situacin de simetra los cuartiles 1 y 3 estarn equidistantes de
la mediana. Es decir: Q3-Q2 = Q2-Q1
Ahora bien, si la distribucin es asimtrica, estas distancias no sern iguales y variarn
con el grado de asimetra; en consecuencia, las diferencias entre estas distancias pueden usarse como
base para medir la asimetra de una distribucin.
Asimetra
a Izquierda

Asimetra
a Derecha

(Q2 - Q1) > (Q3-Q2)

(Q2 - Q1) = (Q3-Q2)

(Q2 - Q1) < (Q3-Q2)

Tomando en cuenta esta caracterstica de las distancias intercuartlicas, Bowley propone una
medida relativa que expresa estas diferencias en trminos del recorrido intercuartlico.
Coeficiente intercuartlico de Bowley (CAB)
Se define como:
CAB=

(Q3 -Q2 )-(Q2 -Q1 )


Q3 -Q1

De esta expresin, se deduce otra ms sencilla para el clculo manual.


CAB=

Q3 +Q1 -2.Q2
Q3 -Q1

Comentarios:
En situaciones de asimetra, el coeficiente puede tomar valores positivos o negativos:
- Los valores positivos estn indicando una asimetra a la derecha.
- Los valores negativos indican una asimetra a la izquierda.
En trminos tericos este coeficiente puede tomar valores que varan entre 1 y +1.
Segn Bowley:
- un valor de 0,1 (o 0,1) puede considerarse una asimetra moderada;
- un valor de 0,3 (o 0,3) puede considerarse como una marcada asimetra.
El coeficiente es igual a cero, en una situacin de simetra perfecta.
El coeficiente ser 1 (o 1) cuando el Q1 (o Q3) coincida con la mediana.

99

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Como parte de un estudio de medicin de audiencia radial, se llev a cabo una encuesta
a 150 hogares de la ciudad para medir el tiempo de escucha de dos radios locales, entre
las 16 y las 19 horas. Los resultados de esta observacin se presentan en las tablas
siguientes:
FM Guaran

Tiempo de escucha
(minutos)

FM Acuario
Tiempo de escucha
(minutos)

Hogares
(n)

Hogares
(n)

0 15

14

0 15

15 30

18

15 30

45

30- 45

20

30- 45

25

45 60

25

45 60

20

60 75

45

60 75

18

75 90

18

75 90

18

90- 105

90- 105

14

105 120

105 120

TOTAL

150
MEDIDA

TOTAL
FM Guaran

x
Ma
Mo
Q1
Q3

"

7
150

FM Acuario

54,1 min

52,5 min

59,1
66,3
34,1
71,8
25,8

46,9
28,4
26,5
76,3
28,9

min
min
min
min
min

min
min
min
min
min

El promedio de escucha en ambas radios es similar, aunque es de destacar que la mitad


de los oyentes de radio Guaran escuchan aproximadamente una hora o menos en esa
franja horaria, mientras que la mitad de la audiencia de FM Acuario no excede los 47
minutos. Se destaca la diferencia en los tiempos ms frecuentes de escucha (66 min. en
Guaran, y 28 min. en Acuario).
La heterogeneidad de los tiempos de audiencia es levemente mayor en FM Acuario (CVg = 0,48 y
CVa = 0,55). A su vez, la distribucin de los tiempos de escucha en FM Guaran tienden a
concentrarse en los valores ms altos, mientras que los de FM Acuario en los valores ms bajos; esto
se manifiesta en los coeficientes de asimetra (negativo para el primer caso y positivo en el segundo).
Adems, es mayor el grado de asimetra en FM Acuario (0,83 veces el desvo estndar).
54,1 - 66,3
52,5 - 28,4
CAPg=
CAPa=
=0,83
=-0,47
25,8
28,9
Si analizamos la asimetra en el 50% central de los tiempos de escucha de ambas radios, se
aprecia que en el caso de FM Guaran es marcada la asimetra a izquierda en el grupo central, en
tanto que en FM Acuario es moderada y a derecha.
CABg=

(71,8 - 59,1) - (59,1 - 34,1)


=-0,33
71,8 - 34,1

CABa=

(76,3 - 46,9) - (46,9 - 26,5)


=0,18
76,3 - 26,5

IMPORTANTE
Las diferencias entre el coeficiente de Pearson y el de Bowley estn
expresando con claridad que, aun cuando ambos miden asimetra, lo
hacen sobre la base de criterios diferentes: el primero mide la asimetra de
toda la distribucin, mientras el segundo se refiere nicamente a los datos
centrales. En consecuencia aportan informacin complementaria
sobre esta caracterstica de la distribucin.

100

Unidad 4: Anlisis de la Variacin y Asimetra

Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.

4. Qu Hemos Visto? (*)


En esta unidad hemos avanzado en la descripcin de la forma de una distribucin, presentando
herramientas que nos permiten medir dos caractersticas centrales: variabilidad y asimetra.
Estas medidas complementan las medidas resumen presentadas en el Captulo anterior.
As entonces, hemos presentado medidas de dispersin para variables numricas que se
construyen sobre la base de diferentes criterios: rango o campo de variacin de los datos, y
distancia de las observaciones a una medida de tendencia central que se toma como
referencia. Surgen entonces una serie de medidas que expresan la cantidad de variabilidad
en trminos absolutos.
Para resolver cuestiones de comparabilidad de diferentes distribuciones, presentamos
adems medidas relativas de dispersin, transformando las principales medidas absolutas.
Tambin, para medir la dispersin de variables categricas, propusimos un ndice de
dispersin.
Finalmente, presentamos medidas que valoran y permiten comparar el grado de asimetra de
distintas distribuciones.
En todos los casos, se analiz la variabilidad o la asimetra, en ejemplos que ayuden a la
interpretacin y comunicacin de estas herramientas de anlisis, destacando su
complementariedad con otras herramientas de anlisis.
(*) Ver esquema en la pgina siguiente

101

102

RQ

Rango
Interc ua rtil

CA P

C oef. de
Pearso n

C oef. de
Bow le y
CAB

Rango
R

Campo de Variacin

Medidas de Asimetra

ID

Ind ice de
Dispe rs i n

Var.Categricas

CD M

C oef.de Desviac i n
M edia

DM

Desviac i n
M edia

A bsolutas

CV

C oef. de
Var iac i n

R elativas

Desviac i n
Es t ndar

M e dia

DM a

C oef. de Des viac in


M edia na

DM a

Desviac i n
M edia na

M e dia na

Con Respecto a una


M edida de Tendencia Central

Var.Num ricas

Medidas de Variacin o Dispersin

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Unidad 4: Anlisis de la Variacin y Asimetra

Bibliografa
BARBANCHO, A. (1978): Estadstica Elemental Moderna. Ed. Ariel, Barcelona, Espaa. Pginas:
145-146.
BLALOCK, H. M. (1986): Estadstica Social, Mxico, FCE. Pginas: 90 a 102.
SHAO, S. (1967): Estadstica Para Economistas y Administradores de Empresas. Herrero Hermanos
S.A., Mxico. Pginas: 218 a 237.
UNIVERSIDAD NACIONAL DE CRDOBA (1993): Estadstica aplicada a la Investigacin. Curso a
distancia. Fac. de Cs. Econmicas, Crdoba, 1993. Mdulo IV. Pginas: 3-16.
Conceptos Centrales

Variabilidad / Dispersin.

Criterios para construir medidas absolutas de dispersin para variables numricas

El concepto de dispersin para variables categricas y la medicin asociada.

Necesidad de medir la variabilidad.

Necesidad de utilizar medidas relativas de dispersin o variabilidad.


Concepto de Asimetra y criterios para su medicin.

Habilidades

Seleccionar y obtener las medidas de variabilidad ms apropiadas a una situacin de trabajo.

Comparar la variabilidad de diferentes distribuciones.

Interpretar las diferentes medidas de asimetra.

Interpretar las diferentes medidas en trminos del problema.


Seleccionar y obtener medidas de asimetra.
Describir la forma de una distribucin integrando las diferentes medidas de resumen
conocidas.
Comunicar los resultados del anlisis.

103

Unidad 5: El Estudio de la Relacin entre Variables

UNIDAD 5: EL ESTUDIO DE LA RELACIN ENTRE VARIABLES

1. Por qu Estudiar la Relacin entre Variables?

Como habamos sealado oportunamente 1 cuando se inicia una investigacin se


formulan interrogantes que nos remiten al anlisis de una, dos o ms variables. En las
unidades anteriores hemos desarrollado las herramientas necesarias para el estudio
univariado, que resulta una etapa insoslayable en el anlisis de los datos, y que nos
permiti una primera aproximacin a la comprensin del fenmeno en estudio, respondiendo as
algunas preguntas iniciales.
En el anlisis de los estudiantes de Estadstica, a partir de esa primera exploracin es posible
responder: es heterogneo el grupo en cuanto a la edad?; hay predominio de mujeres?; sus

padres han alcanzado el nivel universitario?; se trata de estudiantes provenientes de hogares de


bajos ingresos?, etc.
Estamos ahora en situacin de poder avanzar en nuestro anlisis y abordar cuestiones que ofrecen
un mayor inters de investigacin, en tanto permiten encontrar alguna explicacin al menos parcialde ciertos hechos, poder predecir el comportamiento de algunas caractersticas a partir del
conocimiento de otras, contrastar algunas hiptesis de investigacin que vinculan dos variables, etc.
En definitiva, lo que nos proponemos en esta etapa de la investigacin es analizar para un mismo
conjunto de individuos la relacin que existe entre las variables.
En trminos concretos y en relacin con los estudiantes de Estadstica, resulta de inters en esta
Difiere el nivel de ingresos segn sea el lugar de residencia de los padres?
A mayor ingreso del hogar de los estudiantes mayor nivel de estudios del padre.
Entre los hombres, es ms frecuente encontrar estudiantes con estudios superiores
previos a la carrera que cursan actualmente?
Las mujeres, dedican ms tiempo a mirar televisin?
A mayor edad es menor la cantidad de horas dedicadas a mirar TV.
A medida que decrece la edad, decrece tambin el tiempo que se dedica al estudio.
etc.
Todas estas preguntas encontrarn respuesta a partir de un anlisis bivariado.
Segn una encuesta de Gallup realizada en julio de 2000, el 41% de los
argentinos manifestaba temor al desempleo. Este temor aumenta a medida que

disminuyen el poder adquisitivo (clase baja, 51%, contra 17% de las clases alta y
media alta) y el nivel de educacin de los encuestados (46% entre aquellos con
educacin primaria y 33% en aquellos con estudios secundarios), entre los ms
jvenes (48% entre los menores de 35 aos) y los residentes en el interior y el
conurbano (43%, en promedio, contra 29% de la Capital Federal). (Diario La
Nacin, 06/08/2000).
A partir de una encuesta dirigida por la Sociedad de Estudios Laborales (SEL), se
pudo saber que el promedio de los egresados universitarios y terciarios gana 1.158

pesos. Y aqu un dato llamativo: al discriminar las cifras por sexo, los hombres
perciben una media de 1.648 pesos, mientras que las mujeres apenas alcanzan a
878 pesos. (Diario La Nacin, 8/8/2000).

Ver en la Unidad 2 el apartado: 3. El Anlisis de la Matriz de Datos.


105

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Conclusiones como las presentadas precedentemente son el resultado de haber realizado un


anlisis bivariado. Intentando responder en el primer caso preguntas como: vara el temor al
desempleo segn sea el nivel de educacin de los encuestados?; y entre los diferentes grupos de
edad? y segn sea el lugar de residencia? En el segundo caso, adems de querer conocer el nivel de
ingresos de los universitarios en general, la pregunta a responder era: hombres y mujeres, perciben
ingresos diferentes?
Al analizar la relacin entre variables hay tres aspectos a considerar:
la existencia de relacin (hay relacin?)
la forma en que se produce esa relacin (cmo se da?)
la fuerza de la relacin (cun intensa es?)
Lo que se puede observar en los ejemplos anteriores, es que existe una relacin entre las
variables:
En el primero, se observa que existe relacin porque al variar el nivel econmico de los
individuos tambin vara la incidencia del temor a la desocupacin; la forma queda expresada al decir
que, el temor aumenta cuando disminuye el nivel econmico. En el texto no aparece una valoracin
de la intensidad.
En el segundo estudio, se aprecia que hay una relacin entre el sexo y el nivel de ingresos, dado
que segn sea el sexo vara el nivel de ingreso; para caracterizar la forma de esa relacin se puede
decir que en promedio, los ingresos resultan menores para las mujeres. Tampoco aqu se valora
explcitamente la intensidad de esa relacin.

Relacin entre variables


En trminos generales podemos hablar de una relacin entre variables, cuando en un
mismo conjunto de individuos se observa un comportamiento sincrnico o coordinado en
el comportamiento de las mismas (al cambiar los valores de una variable cambian al
mismo tiempo y de manera determinada, los valores de la otra).
En el estudio de la relacin entre dos variables, podemos explorar la existencia o no de una
relacin, o bien si tuviera sentido, determinar si una de las variables explica o causa los cambios
registrados en la otra. En el ltimo caso existira una variable explicada o respuesta y una variable
explicativa. (Moore, 1998).
A las variables explicativas se las reconoce tambin como independientes, en tanto que a las
variables respuesta como dependientes.
Var. respuesta o dependiente: mide el resultado de un estudio.
Var. explicativa o independiente: intenta explicar los resultados observados.
En el estudio de Gallup citado anteriormente, la edad, el nivel de educacin y el nivel econmico
seran variables que explican los niveles registrados de la variable en estudio: el temor al desempleo
(variable respuesta o dependiente). Los conceptos de variables explicativas o explicadas suponen el
control de algunas variables a travs de experimentos.

IMPORTANTE
En las Ciencias Sociales, no se realizan experimentos como en otras
ciencias en las cuales se puede efectuar un control estricto de las variables
explicativas. Los valores de las distintas variables simplemente son
observados y -en estos casos- puede existir o no una relacin de causaefecto entre las variables cuya relacin se estudia.

106

Unidad 5: El Estudio de la Relacin entre Variables

Para iniciar un anlisis bivariado, es necesario considerar dos aspectos centrales que hacen a
cuestiones de diferente orden:
la naturaleza de la relacin entre las variables;
el tipo de variables que se estn analizando.

En cuanto a su naturaleza, segn Barbancho 2 se pueden identificar los siguientes tipos de


relaciones entre variables:
a) Dependencia causal unilateral: en este caso, una variable influye a la otra pero no al
contrario. Ej: la cantidad de lluvia influye en el rendimiento del trigo; el nivel de
educacin en la preferencia del tipo de lectura; el nivel de ingresos en la seleccin del
lugar de alojamiento; etc.
b) Interdependencia: la influencia es recproca, y se produce por lo tanto en las dos
direcciones; hay dependencia causal bilateral. Ej.: el precio de un producto en el mercado
y la cantidad demandada de ese producto; la posicin frente al aborto y la afiliacin
poltica; la eleccin de un lugar de vacaciones y el medio de transporte utilizado; etc.
c) Dependencia indirecta: dos variables pueden estar relacionadas por la intervencin de
una tercer variable que influye en ambas. Ej.: la tasa de natalidad y el consumo de
protenas de origen animal (la tercera variable sera el nivel de vida); el nmero de
accidentes de trnsito y la cantidad de semforos (esta relacin se explica por la
concentracin urbana); etc.
d) Covariacin casual: es el caso de dos variables que presentan un comportamiento
sincronizado aun cuando esta relacin puede ser totalmente casual o accidental. A esta
conclusin se llega naturalmente cuando se sabe que entre ambas no existe ningn
vnculo directo o indirecto que justifique tal relacin observada.

IMPORTANTE
La decisin sobre la naturaleza de la relacin entre las variables es
ajena a la Estadstica. Solo es posible determinarla a partir del
conocimiento del tema que se est estudiando. Sin embargo, esta
definicin es fundamental para la interpretacin de los resultados.

A su vez, el tipo de variables 3 que se estn analizando determinar las herramientas


estadsticas disponibles. As tenemos que:
Si se trata de...
Dos variables categricas
Una variable numrica y una categrica
Dos variables numricas

Recurrimos a ....
Tablas de contingencia
Comparacin de medias entre grupos
Anlisis de Correlacin

En todos estos casos podremos recurrir a alternativas grficas o numricas como herramientas de
anlisis.

Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.

BARBANCHO, Alfonso: Estadstica elemental moderna. Ed. Ariel Barcelona, Espaa, 1978.

Antes de iniciar el desarrollo de cada una de estas herramientas de anlisis, creemos conveniente sealar una cuestin de
terminologa que puede conducir a confusin a un lector desprevenido. Mientras algunos autores utilizan el trmino
asociacin como sinnimo de relacin, otros reservan el trmino asociacin cuando se trata de la relacin entre variables
categricas y hablan de correlacin para referirse a la relacin entre variables numricas. En la presentacin de esta unidad
adoptaremos este ltimo criterio.
107

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

2. La Relacin entre Variables Categricas


Cualquier anlisis estadstico supone la organizacin y/o resumen de los datos. En el
anlisis univariado organizbamos los datos en tablas de frecuencias simples, indicando la
cantidad (o porcentaje) de individuos que presentaban un determinado valor de la
variable.

Ahora bien, si pretendemos responder preguntas del tipo:


Cuntas personas de nivel socioeconmico alto opinan que el servicio elctrico es bueno?
Cuntos hombres leen frecuentemente el peridico? Y, cuntas mujeres?
Entre los que nunca leen revistas, cuntos son hombres?
Entre nuestros estudiantes del curso de Estadstica, de los que vienen de colegios privados
cuntos son varones y cuntas mujeres?
etc.
Tendremos que describir a los individuos mediante el tratamiento simultneo de dos
variables categricas. Ante esta necesidad, nos debemos preguntar:

Cmo presentar los datos para describir a los individuos


a partir de dos variables categricas simultneamente?

2.1. El recurso numrico


Si intentramos responder a la pregunta sobre cantidad de hombres y mujeres que
vienen de colegios privados y pblicos, podramos contar en la matriz de datos cuntos
individuos cumplen simultneamente la doble condicin de:
-

ser
ser
ser
ser

mujer y haber asistido a un colegio pblico,


mujer y haber asistido a un colegio privado,
varn y haber asistido a un colegio pblico, y
varn y haber asistido a un colegio privado.

Si realizado el conteo en la matriz de datos, observamos que fueron 86 las mujeres que asistieron
a un colegio pblico, y 24 los varones; y a un colegio privado asistieron 21 de las mujeres y 5 de los
varones, podramos organizar estos datos en una tabla como la siguiente:
Son 24 los varones
de colegios
pblicos
Sexo

Marginal:
Dist. segn Tipo de
colegio
Varn

Mujer

Total

Tipo de colegio
Pblico

24

86

110

Privado

21

26

29

107

136

Total
Marginal:
Distribucin segn sexo

Hay 29
varones en
total

Son 21
mujeres de
colegios
privados

Son 110
estudiantes
de colegios
pblicos

En total son
136
estudiantes

Esta forma de organizar los datos se conoce como tabla de contingencia. En el cuerpo de la
tabla (zona resaltada) se presenta la distribucin conjunta que da cuenta del nmero de
individuos que presentan cada una de las combinaciones posibles de las categoras de las variables. Se
distribuyen as los 136 estudiantes segn la doble clasificacin: tipo de colegio y sexo.

108

Unidad 5: El Estudio de la Relacin entre Variables

En toda tabla de contingencia podemos distinguir:


Los Marginales: corresponden a la ltima fila y la ltima columna de
la tabla que, encabezados por la palabra total, presentan la
distribucin univariada segn sexo (ltima fila) y segn tipo de
colegio (ltima columna). Se puede leer entonces que de nuestros 136
entrevistados, 29 son hombres y 107 mujeres; a la vez que 110
estudiantes asistieron a establecimientos pblicos y 26 lo hicieron a privados.
Las Filas: presentan la distribucin de los individuos que vienen de establecimientos pblicos
o privados segn el sexo. En la primera fila, tenemos la distribucin segn el sexo de los 110
individuos que asistieron a establecimientos pblicos.
Las Columnas: presentan la distribucin de varones y mujeres por tipo de colegio. En la
primera columna, tenemos la distribucin de los 29 varones segn el tipo de colegio al que
asistieron.
Las Celdas: consignan las frecuencias correspondientes a la combinacin de pares de
categoras de las variables. As, en la segunda celda de la primera fila se puede leer que hay
86 estudiantes que asistieron a establecimientos pblicos y son mujeres.

Tabla de contingencia:
Es una tabla que presenta la distribucin de los individuos clasificados segn dos
variables categricas simultneamente.
Hasta aqu slo hemos presentado la tabla de contingencia como una forma de
organizacin de los datos cuando se consideran simultneamente dos variables. A partir de
esta tabla, podemos responder a la pregunta que nos formulramos inicialmente: cuntos varones y
cuntas mujeres vienen de colegios privados?
A los efectos de avanzar en el estudio de las relaciones entre variables nos podemos plantear una
situacin que permita ilustrar ese proceso de anlisis.

En un estudio sobre hbitos alimenticios, una de las cuestiones de inters era conocer
sobre el consumo de productos dietticos. En particular, la investigacin se planteaba
como hiptesis que exista una mayor preferencia por este tipo de productos entre las
mujeres. Se observaron 850 individuos de los cuales reproducimos en forma parcial la
matriz de datos con las variables Sexo y Consumo de Productos Dietticos.
Matriz (parcial) sobre el consumo de productos dietticos
Individuos
1
2
3
4
5
6
7
8
9
10
11
12
...
850

Consumo de Productos
Dietticos

Sexo
Hombre
Hombre
Mujer
Mujer
Hombre
Mujer
Hombre
Mujer
Hombre
Mujer
Mujer
Hombre
...
Mujer

Consume
No consume
Consume
Consume
No consume
Consume
Consume
No consume
No consume
No Consume
Consume
No consume
...
Consume

A partir del conteo de los datos de la matriz, construimos la siguiente tabla de contingencia.
109

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Distribucin de los Individuos segn Sexo y Consumo de Productos Dietticos


Consumo de Productos Dietticos

"

Total

Consumen

No Consumen

Hombres

150

300

450

Mujeres

350

50

400

Total

500

350

850

Sexo

En los marginales de la tabla se observa que los 850 entrevistados se distribuyen en

500 que declaran consumir productos dietticos y 350 que no lo hacen. A su vez,
considerando el sexo, esos mismos 850 individuos se clasifican en 450 hombres y 400
mujeres.
En el cuerpo de la tabla (que contiene la distribucin conjunta) podemos ver que, del total de
individuos observados son: 150 los hombres que consumen productos dietticos y 300 los que no
consumen, 350 mujeres que declaran consumir estos productos y 50 que no lo hacen.
Ahora bien:
cmo valorar si es importante la cantidad de hombres no consumidores o de
mujeres consumidoras, etc.?
Una alternativa es apreciar esta informacin en relacin con el total de individuos
observados, lo que conduce a una tabla como la siguiente.
Distribucin de los Individuos segn Consumo de Productos Dietticos y Sexo (%)
Consumo de Productos Dietticos
Consumen

No Consumen

Total

Hombres

18

35

53

Mujeres

41

47

Sexo

"

Total

59

41

100 (850)

Cada uno de los nmeros de la tabla corresponde a un porcentaje calculado sobre


el total de casos observados (850). As por ejemplo:
El 53% de los entrevistados son hombres.
El 59% de los individuos consumen productos dietticos.
El 18% de los casos, son hombres que consumen productos dietticos.
El 6% de los individuos son mujeres que no consumen
etc.

As entonces, esta tabla sirve para describir el porcentaje de individuos que registra cada par de
caractersticas. En este tipo de tablas es importante consignar:
que los valores corresponden a porcentajes (se lo puede hacer en el ttulo).
el total de casos sobre el cual estn calculados los porcentajes; generalmente se lo incluye
entre parntesis al lado del 100%.

Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.

110

Unidad 5: El Estudio de la Relacin entre Variables

Ahora bien, resuelta la organizacin de los datos y realizada una primera lectura de los
mismos, estamos en condiciones de estudiar la relacin entre estas dos variables.
Estudiar la existencia de relacin entre las variables nos remite a preguntas como:
Es diferente el comportamiento de hombres y mujeres en cuanto al consumo de
productos dietticos?
Vara la composicin por sexo de los consumidores y no consumidores?

Responder a estas preguntas nos conduce a dos lecturas diferentes de la tabla. As


compararamos:
la distribucin del consumo entre los hombres vs. el consumo entre las
mujeres para responder la primera pregunta, y
la distribucin segn sexo entre los consumidores vs. la distribucin segn
sexo entre los no consumidores para la segunda.
Si observramos que la distribucin del consumo es igual en hombres y mujeres,
concluiramos que no existe relacin entre las variables (o las variables son independientes).
Tambin ocurrira lo mismo si la distribucin por sexo es igual entre consumidores y no
consumidores.
La necesidad de comparar nos lleva al clculo de porcentajes (principalmente cuando las
subpoblaciones presentan un nmero de individuos muy diferentes).
Ahora bien:
Cmo calcular los porcentajes?, sobre qu total los calculamos?
Para comparar el consumo de hombres y mujeres, tomamos los porcentajes dentro de cada
fila. As, tendremos tres totales de referencia ( 100%) para cada una de las filas: el total de hombres
(450), el total de mujeres (400) y el total de individuos observados (850).

Distribucin del Consumo de Productos Dietticos segn Sexo (%)


300.100
Consumo de Productos Dietticos
450= 67% de los hombres no consumen
Consumen

No Consumen

Total

Sexo
Hombres

33

67

100 (450)

Mujeres

87

13

100 (400)

Total

58

41

100 (850)

"

41% del total de


casos son no
consumidores

Los hombres
son en total
450

50.100
400= 13% de las mujeres no consumen

Comparando en la Tabla la distribucin de los hombres y las mujeres segn el consumo, se

hace evidente que el comportamiento vara con el sexo. Puede decirse entonces que
existe una relacin entre ambas variables o que el sexo y el consumo de
productos dietticos no son independientes.
En cuanto a la forma en que se da la relacin, deberamos poder responder cmo es esa
relacin:
son las mujeres ms consumidoras que los hombres?, o son los hombres los que tienden a
un mayor consumo de los mismos?
En la tabla, se puede ver que:
Mientras el 33% de los hombres consume productos dietticos, en el caso de las
mujeres ese porcentaje alcanza el 87%.

"

111

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Otra manera de expresar la misma informacin que en el prrafo anterior, sera decir:

Entre los hombres hay un 67% de no consumidores, mientras entre las mujeres este
porcentaje es del 13%.
Las expresiones anteriores estn indicando de manera implcita que son las mujeres las que
presentan una mayor inclinacin hacia el consumo de los productos dietticos (la forma en que se
produce la relacin).

Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.

Para comparar la composicin por sexo de consumidores y no consumidores, tomamos


los porcentajes dentro de cada columna. As tenemos tres totales de referencia ( 100%): el total
de consumidores (500), el total de no consumidores (350) y el total de individuos observados (850).
Distribucin de los Individuos por Sexo Segn Consumo (%)
Consumo de Productos Dietticos
Consumen

No Consumen

Total

Sexo
Hombres

30

86

52

Mujeres

70

14

48

Total

150

"

500

100 (500)

100 (350)

100 (850)

El 52% de
los
individuos
son
hombres

300
.100 = 30% de los

350

.100 = 86% de los no

consumidores son hombres

consumidores son hombres

Dado que:
Mientras entre los consumidores, las mujeres representan el 70%, entre los no
consumidores de productos dietticos estas constituyen solo el 14% 4.

Nuevamente aqu podemos concluir que existe relacin entre ambas variables (la composicin
por sexo de los consumidores es diferente a la composicin de los no consumidores), y la forma en
que se produce esa relacin es que los consumidores son mayoritariamente mujeres.

Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.

Pero...
cul es la mejor manera de calcular los porcentajes?
Cualquiera de las dos ltimas tablas permiten apreciar si existe relacin entre las variables. As,
conociendo el sexo de un individuo podemos predecir con buenas posibilidades de acertar si ser
consumidor de productos dietticos (ej. si se trata de un hombre puedo predecir que ser un no

El resultado de la comparacin tambin puede expresarse como El 30% de los consumidores son hombres, mientras entre los

no consumidores los hombres constituyen el 86%.

112

Unidad 5: El Estudio de la Relacin entre Variables

consumidor y acertar con esta prediccin en 67 de cada 100 casos); a su vez, conociendo que no es
consumidor podemos arriesgar, con bastante chance de acertar, cul ser el sexo del individuo.
Si consideramos la necesidad de explicar el comportamiento de una de las variables, tiene sentido
pensar que el sexo explica el consumo de estos productos, y no que el consumo explica el sexo;
entonces resulta ms apropiada para este caso la tabla en la que se compara el consumo segn el
sexo (tabla con porcentajes calculados en el sentido de las filas).
En este punto del anlisis podramos plantearnos encontrar una medida o un nico valor que
resuma la fuerza o intensidad de la relacin entre las variables en estudio, y es indudable que una
medida de estas caractersticas tiene -entre otras ventajas- la posibilidad de comparar la fuerza de la
relacin que se observa en distintas tablas.
Una aproximacin intuitiva a la evaluacin de la fuerza de la relacin entre las variables en una
tabla de contingencia, puede lograrse calculando lo que se conoce como una diferencia de
proporciones o porcentajes. Para ello, y tomando el ejemplo del consumo de productos dietticos,
se procedera de la siguiente manera: considerando al sexo como variable explicativa debemos
comparar el comportamiento de hombres y mujeres, en cuanto al consumo de productos dietticos.
En otras palabras, queremos responder a la pregunta: quines presentan mayor tendencia a
consumir productos dietticos: los hombres o las mujeres? Para encontrar respuesta a esta pregunta,
habamos visto que debamos calcular los porcentajes de consumo sobre el total de hombres y sobre
el total de mujeres (en la tabla construida corresponde a porcentaje en el sentido de las filas).
As, nos encontrbamos con que mientras el 33% de los hombres consume productos dietticos,
en el caso de las mujeres ese porcentaje alcanza el 87%. En consecuencia, entre los hombres se
registra un 54% (33%-87%) menos de consumidores que entre las mujeres. Este ltimo clculo, que
expresa numricamente la diferencia del consumo entre los hombres y las mujeres, se conoce como
diferencia de proporciones.
Distribucin del Consumo de Productos Dietticos
segn Sexo y Diferencia de proporciones (d)
Consumo de Productos Dietticos
Consumen

No Consumen

Sexo
Hombres

33

67

Mujeres

87

13

-54

54

La diferencia de proporciones nos indica la fuerza de la relacin entre las variables y en


trminos tericos puede tomar valores entre 0 y 1 (0 y 100 si se trata de porcentajes).
Se puede comprender que, si todas las mujeres son consumidoras y todos los hombres
no consumidores (o viceversa), la variable sexo explica totalmente el consumo y la
relacin es perfecta; en este caso la diferencia de proporciones alcanzara el valor 1 (100%). Si el
comportamiento de hombres y mujeres fuera idntico (igual proporcin de mujeres que de hombres
que consumen) estaramos en una situacin de no-relacin y la diferencia de proporciones sera
igual a 0. En sntesis, cuanto mayor es la diferencia de proporciones ms fuerte es la relacin entre las
variables.
0 d 1

Si d=0 se trata de una situacin de independencia o no relacin entre las


variables.
Si d=1 se trata de una situacin de perfecta relacin entre las variables.

De alguna manera, con la diferencia de proporciones estamos formalizando un proceso que


realizamos naturalmente al analizar una tabla de contingencia cuando comparamos los porcentajes.

113

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

IMPORTANTE
Debe observarse que, segn sea la forma en que se calculan los
porcentajes (consumo segn sexo o sexo segn consumo) las
diferencias obtenidas pueden ser distintas ya que los marginales no
sern necesariamente iguales: no son simtricos. Es decir, no hay un
nico valor que resuma la relacin presente en la Tabla. (Determine
Ud. la diferencia de proporciones del sexo segn consumo).
Cuando se trate de tablas de una o ambas variables con ms de dos
categoras, hay ms de una diferencia de proporciones y, en
consecuencia, no se obtiene un nico nmero que sintetice la fuerza de la
relacin.

La Estadstica ofrece diversos coeficientes construidos segn criterios tambin diferentes que
responden a esta intencin, los que no sern tratados en esta presentacin dado que escapan a los
alcances propuestos para este curso 5.

Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.

2.2. El recurso grfico


Dado que se trata de variables categricas, se utilizan grficos de barras, en el que solo
uno de los ejes es numrico. Bsicamente pueden distinguirse dos tipos de grficos:
los grficos compuestos, y
los de partes componentes.
En estos grficos las barras pueden ser horizontales o verticales, y las frecuencias pueden ser
absolutas o relativas.
2.2.1. Grficos compuestos
En este tipo de grficos, para cada categora de una de las variables se presenta la distribucin de
frecuencias segn la segunda variable. Cada barra tiene una altura que se corresponde con la
frecuencia (absoluta o relativa).

Distribucin del Consumo de Productos Dietticos


segn Sexo

100
90
80
70
60
50
40
30
20
10
0

Consumen

No Consumen

Este grfico corresponde a la tabla en


la que para cada sexo se presenta la
distribucin
(relativa)
segn
el
consumo. En consecuencia, el grfico
nos permite comparar la presencia de
consumidores y no consumidores en
cada sexo.

"

Se aprecia claramente que la

presencia de consumidores
de productos dietticos es
predominante
entre
las
Hombres
Mujeres
Sexo
mujeres, mientras entre los hombres
son minora.
An sin contar con la tabla de contingencia, este tipo de grficos facilita las comparaciones. As por
ejemplo, en el grfico siguiente se presenta la distribucin entre empresarios y sindicalistas, del nivel
de conocimiento que tenan sobre el proyecto de reforma laboral; rpidamente se puede ver que
entre los sindicalistas el nivel de conocimientos era mayor (en detalle y en trminos generales son

Al lector interesado le sugerimos remitirse a textos que le dedican especial atencin a este tema, tal el caso de BARANGER, D.:
Construccin y Anlisis de datos, Editorial Universitaria de la Univ. Nac. de Misiones, Posadas, 2000.

114

Unidad 5: El Estudio de la Relacin entre Variables

las categoras predominantes), mientras que entre los empresarios alcanza relevancia la categora
muy poco e incluso algunos nada saban sobre el proyecto.
Empresarios y sindicalistas segn conocimiento sobre el
proyecto de reforma laboral

Casos (%)

80

En detalle

60
40

En trminos
generales

20

Muy poco

Nada
Empresarios

Sindicalistas

Fuente: elab. propia basndose en datos publicados en el diario Perfil 31/5/98

2.2.2. Grficos de partes componentes


Es similar al anterior, en el sentido de presentar la distribucin de una de las variables dentro de
cada categora de la segunda. Se los puede representar en trminos absolutos o relativos y la altura
de cada barra se corresponde con la frecuencia absoluta o el 100%.
Cada barra es subdividida en tantas categoras como tiene la otra variable. La altura de cada
subdivisin se corresponde con la frecuencia absoluta (o relativa) de la categora correspondiente.
Distribucin del Consumo de Productos Dietticos segn
Sexo
No Consumen
Consumen

120
100
%

80
60
40

"

Una vez ms, el grfico


muestra claramente la

importancia que tiene


entre los hombres la
categora no consumidores de
productos dietticos, mientras que
entre las mujeres esa categora es de
poca importancia.

20
0
Hombres

Mujeres
Sexo

Este tipo de grficos pierde su


capacidad de favorecer las
comparaciones cuando crece
el nmero de categoras de
una o ambas variables.

de
el
el
se

Empresarios y sindicalistas segn conocimiento sobre el


proyecto de reforma laboral

100%
Casos (%)

Para el ejemplo del conocimiento


empresarios y sindicalistas sobre
Proyecto de Reforma Laboral,
grfico compuesto sera el que
presenta.

80%

Nada

60%

Muy poco

40%
En trminos
generales

20%
0%

En detalle

Empresarios

Sindicalistas

Fuente: elab. propia basada en datos publicados en el diario Perfil 31/5/98


115

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Actividad N 6
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 6 de la
Gua de Actividades correspondiente a esta unidad.

3. La Relacin entre Variables Categricas y Numricas

Es muy frecuente que nos formulemos preguntas del tipo:


Los salarios que perciben las mujeres difieren del que perciben los hombres?
El rendimiento escolar de los estudiantes en el examen de Lengua vara
segn se trate de escuelas rurales o urbanas?
El gasto en regalos y souvenir difiere segn la forma de organizacin del
viaje de los turistas (cuenta propia o tours)?
El nmero de hijos por familia es distinto segn sea el nivel socioeconmico?
Buscar respuestas a estos interrogantes nos conduce al anlisis de la relacin entre una variable
cualitativa y una cuantitativa. Ahora bien,
Cmo se manifestara la existencia de una relacin entre una
variable categrica y una variable numrica?
Por ejemplo, podemos decir que, si encontramos que un gasto alto en souvenir y regalos se
corresponde con una cierta forma de organizacin del viaje, y viceversa, para una cierta forma de
organizacin del viaje es probable observar un gasto elevado en regalos y souvenir, entonces diramos
que las variables gasto en regalos y souvenir y forma de organizacin del viaje estn relacionadas.
En fin, se busca en este caso, identificar si la forma de organizacin del viaje de los turistas, explica
en alguna medida- el gasto en regalos y souvenir que los turistas hacen.
En trminos generales, en este tipo de anlisis intentaramos ver si los
valores de la variable numrica al ser reagrupados segn las categoras
de la segunda variable, constituyen clases diferentes entre s.
Por ejemplo, un mayor nmero de hijos en las familias de Nivel Socioeconmico Bajo que en las de
nivel Medio y Alto; un rendimiento escolar ms alto en las escuelas urbanas que en las rurales; un
ingreso ms alto entre los hombres, etc.
Desde esta perspectiva, el problema nos remite a resumir la informacin de manera de poner
en evidencia la existencia o no de este comportamiento en las variables en estudio.
3.1. El recurso numrico
La idea entonces es comparar la distribucin de la variable numrica entre tantas clases
o grupos como categoras tenga la variable cualitativa. En este sentido valen todas las
herramientas presentadas para el anlisis univariado.
Anlisis de la relacin
Para analizar la relacin entre una variable cuantitativa y una cualitativa, se
comparan las distribuciones de la variable numrica entre las clases definidas
por las categoras de la variable cualitativa. Para ello se utilizarn las medidas de
tendencia central ms representativas.
En general, en la literatura estadstica clsica se propone a la media aritmtica como
medida de comparacin.

116

Unidad 5: El Estudio de la Relacin entre Variables

A los efectos de ejemplificar el razonamiento propio de este anlisis, nos proponemos


estudiar la relacin entre el Nivel de Estudios del Padre 6 de nuestros estudiantes de
Estadstica, y el Ingreso Familiar. A continuacin presentamos la distribucin del
ingreso familiar para cada una de las subpoblaciones que quedan determinadas por las
categoras de la variable estudios del padre.
n

Nivel de Estudios Padre

Mn.

Mx.

Media Mediana

Desv.
Estndar

CV

Asimetra

No terminaron Primario

23

145

1300

475,4

400,0

286,5

60,3

0,79

Completaron Primario y no
Secundario

57

80

2000

621,6

500,0

428,1

68,9

0,85

Completaron Secundario o ms

22

200

2000

956,8

800,0

647,2

67,6

0,73

Tallo hoja: Ingreso familiar segn Nivel de Estudios del Padre


No terminaron Prim. ( 1)
Frec.

Tallo -

1
1 .
4
2 .
4
3 .
6
4 .
3
5 .
0
6 .
0
7 .
3
8 .
2 Extremos

Hoja

4
0005
0004
000005
005

000
(>=1000)

Ancho del Tallo: 100


Cada Hoja: 1 caso(s)

Complet. Prim y no Secund. (2)


Frec.

Tallo -

5
0 .
14
0 .
17
0 .
6
0 .
4
0 .
5
1 .
1
1 .
2
1 .
3 Extremos

Complet. Secund. o ms (3)

Hoja

01111
22333333333333
44445555555555555
667777
8889
00001
3
55
(>=1600)

Ancho del Tallo:


1000
Cada Hoja:
1 caso(s)

Frec.
9
3
4
2
4

Tallo 0
0
1
1
2

.
.
.
.
.

Hoja

233344444
888
0000
68
0000

Ancho del Tallo:


1000
Cada Hoja:
1 caso(s)

( 1) Incluye a quienes nunca asistieron o tienen Primario incompleto


(2) Incluye a quienes completaron el primario o tienen secundario incompleto
(3) Incluye a quienes completaron el secundario, o iniciaron o completaron un nivel de superior de educacin.

De la comparacin de las medidas de tendencia central presentadas en la tabla anterior, podramos


concluir que existe una relacin entre el nivel de estudios del padre y el ingreso de la familia ya que
es importante la diferencia tanto entre las medias como entre las medianas de los tres grupos.
Adems, esa relacin se da de la forma: a un mayor nivel de estudios le corresponde, en promedio,
un mayor nivel de ingresos 7.
De la observacin del diagrama tallo-hoja surge que las tres clases o grupos presentan
concentraciones de los ingresos en los primeros tramos y, tambin en todos los casos, algunos pocos
valores atpicos de ingresos altos. En consecuencia, las tres distribuciones tienen algn grado de
asimetra a la derecha. En todas ellas la media aritmtica aparece alejada de la tendencia central en
un mismo sentido (hacia la derecha).
Esta apreciacin se expresa numricamente en el cuadro anterior, donde el coeficiente de
Asimetra de Pearson indica una asimetra bastante similar entre ellas, con el mayor valor para el
grupo con estudios intermedios. Tambin a este grupo le corresponde la mayor dispersin en
trminos relativos.
Existen medidas que permiten cuantificar la fuerza de la relacin entre las variables,
entre las que merece destacarse la denominada razn de correlacin. La lgica que
subyace a la construccin de esta medida se basa en la idea de que cuanto mayor sea

A los efectos de facilitar el anlisis, la variable original fue recodificada en tres categoras.

Esta manera de expresar la forma de la relacin es posible en este caso, porque la variable categrica es ordinal. Si
tuviramos por ejemplo Nacionalidad, la descripcin sera del tipo a los de la nacionalidad A les corresponde mayores
ingresos que a los de la nacionalidad B, etc..
117

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

la relacin entre ambas variables ms homogneo ser el comportamiento de la variable


numrica en cada uno de los grupos definidos por la variable cualitativa. Esto se traduce en
que la variable cualitativa define clases de individuos con valores en la variable numrica muy
similares entre s y diferentes a los valores de los individuos de las otras clases.
En otras palabras, si la relacin es fuerte, estaremos en condiciones de predecir con bastante
certeza el valor que toma la variable numrica conociendo la categora a la que pertenece el individuo
observado; en nuestro ejemplo: si existe una relacin fuerte, conociendo el nivel de estudio del padre
podramos predecir, con poco margen de error, el ingreso de la familia.
En consecuencia, en este anlisis de la relacin no solo debemos centrar nuestra atencin en la
comparacin de medidas de tendencia central, sino que debemos prestar especial atencin a la
variabilidad que se observa en cada grupo.
Para la construccin de la razn de correlacin, se hace necesario introducir un concepto asociado
a la variabilidad que expresa lo siguiente:
Descomposicin de la variabilidad total
La variabilidad total de la variable numrica se puede descomponer en la suma de la
variabilidad dentro de los grupos o clases definidos por la variable categrica, ms la
variabilidad entre los distintos grupos (Teorema de Huygens).
Es decir:
Suma de Cuadrados total = Suma de Cuadrados intra-clase + Suma de cuadrados entre-clase
En smbolos:

SCT = SCintra + SCentre

(8)

Donde:
SCT = suma de los cuadrados de los desvos individuales con respecto a la media
general.
SCintra = suma de los cuadrados de los desvos de cada individuo con respecto a la
media del grupo al que pertenece.
SCentre = suma de los cuadrados de los desvos de las medias de cada grupo con
respecto a la media general.
De acuerdo con la lgica planteada para construir la razn de correlacin, esperamos que
cuanto ms fuerte sea la relacin entre las variables menor ser el SCintra y mayor el SCentre; o sea,
si la relacin es perfecta la variabilidad total se debe a la variabilidad entre los grupos, en tanto que
ser igual a cero la variacin dentro grupos (todos los valores del grupo son iguales entre s).
Podemos expresar la razn de correlacin (simbolizada con la letra griega eta al cuadrado: 2 )
como:

/
8

2 =

donde: 0 2 1

SCentre
SCT

Si calculamos las sumas de cuadrados correspondientes al ejemplo de los ingresos


familiares y el nivel de estudios del padre, tenemos9:

(y
n

Formalmente el teorema se expresa:

i=1

- y) =

(y
h

nj

j=1 i=1

- y j ) + n j .(y j - y) ; donde h es la cantidad de categoras de


2

j=1

la variable cualitativa, nj el nmero de individuos de cada categora, y j es la media aritmtica de cada una de las
subpoblaciones; y es la media general de la variable numrica Y.
9

Los resultados de la suma de cuadrados, as como el valor de

2 , se obtienen fcilmente a travs de cualquier programa

estadstico. De ah el nfasis puesto en transmitir la lgica de la construccin y funcionamiento de este ndice y no en los
clculos que el mismo demanda.

118

Unidad 5: El Estudio de la Relacin entre Variables

Suma de Cuadrados

Entre grupos

n j .(y j y )2

3061288

Intra grupos

(y i y j ) 2

20863881

Total

j =1
h

nj

j =1 i =1

(y i y ) 2
n

2 =

"

23925169

i =1

SCentre
3061288
=
=0,128
SCT
23925169

Podemos advertir que si bien, la diferencia entre las medidas de tendencia central eran
importantes, la razn de correlacin est indicando una relacin dbil entre las
variables. Esto se debe a que el reagrupamiento generado a partir del nivel de estudio
del padre, no produce grupos suficientemente homogneos dentro de ellos y muy
diferentes entre s. As, en los diagramas de tallo-hoja construidos inicialmente, se puede ver que sobre todo en las dos primeras clases- existe un solapamiento de los ingresos, producto de la
dispersin de esta variable dentro de cada grupo; incluso se puede destacar que el menor ingreso
observado de todo el conjunto de datos se da en el nivel intermedio de educacin y no en el ms
bajo. En consecuencia, podemos sealar que el nivel de educacin del padre no discrimina bien el
ingreso familiar.
3.2. El recurso grfico
Dado que se trata de la comparacin de distribuciones univariadas de una variable
numrica, valen para este caso los recursos grficos que se presentaron oportunamente
y, para un anlisis completo, es interesante incluir en los grficos la ubicacin de la
media y la mediana.
Por ejemplo, construir tantos histogramas o polgonos como clases o grupos queden
determinados por la variable categrica. El diagrama de tallo-hoja presentado en el ejemplo
constituye simultneamente -como ya hemos dicho- un recurso grfico y numrico pertinente para
este tipo de anlisis. Otro recurso muy til y expresivo para la comparacin es el diagrama de Caja
(Box-Plot), tal como se presenta en el siguiente ejemplo.

"

Distribucin de grupos tursticos segn gasto diario


y medio de Arribo. Puerto Iguaz, Febrero 94
400

Gasto Diario ($)

La comparacin de los tres


diagramas nos indica que aquellos
que
viajan
por
automotor
300
presentan en general gastos de
menor nivel y ms concentrados (menos
dispersos) que los que arribaron a Iguaz en
200
otro medio de transporte. A su vez, entre los
que viajan en mnibus se observa una mayor
variabilidad de los gastos (tanto en el 50%
100
central como en el total de datos), con una
asimetra hacia la derecha, expresada por
una mayor dispersin en la mitad de los que
0
ms gastan (tanto la parte superior de la caja
Areo
Omnibus
Automotor part.
como el bigote superior son ms extensos
que
sus
correspondientes
inferiores).
Transporte
Adems, los que viajan en transporte areo
tienen una mediana de gastos, superior a los otros dos grupos, con una ligera simetra a la izquierda
en los valores centrales, una asimetra general a la derecha y un grupo con un gasto atpico.
119

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Actividad N 7
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 7 de la
Gua de Actividades correspondiente a esta unidad.

4. La Relacin entre Variables Numricas


Muchas veces nos encontramos en situacin de querer responder preguntas que refieren
a la relacin de dos variables numricas. As por ejemplo, podemos plantearnos
preguntas expresadas de la forma...

al aumentar el nmero de aos de estudio, aumenta el ingreso?,

al aumentar el nmero de automviles por habitantes, aumenta el nmero de accidentes


de trnsito?,
al disminuir el gasto en publicidad, disminuye la demanda de un producto?,
cunto ms tiempo se invierta en el estudio es mayor la calificacin?,
cuanto mayor es el nmero de mdicos por habitantes en un pas, cmo vara la tasa de
mortalidad infantil?,
al aumentar la antigedad de un automvil, aumenta el costo de mantenimiento?,
etc.
En todas estas cuestiones el objetivo es indagar si, al cambiar el valor de una de las variables,
vara en forma coordinada el valor de la otra variable. En definitiva, nos estamos preguntando por la
variacin conjunta o covariacin de dos variables numricas.
Dos variables X e Y (ambas numricas) estn correlacionadas, si al aumentar o
disminuir los valores en una de ellas (los de X por ejemplo) se observa una
modificacin definida (aumento o disminucin) en los valores observados en la otra
variable (Y).
En esta intencin de analizar la correlacin, el recurso grfico aparece como un instrumento
inmediato, simple y de fcil interpretacin para poner en evidencia la existencia o no de la relacin
entre las dos variables numricas.
4.1. El recurso grfico

Grupos Tursticos segn Nmero de Componentes y Gasto Total de un Da


GRUPO

COMPONENTES

GASTO ($)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

1
5
1
6
2
6
2
6
2
3
5
3
4
4
5
3

92
235
70
505
149
460
149
343
220
155
275
180
146
280
240
160

Cuando se trata de dos variables que se


miden en una escala numrica, es posible
utilizar un sistema de coordenadas
cartesianas
ortogonales
para
la
representacin grfica.
Analicemos a manera de ejemplo, la covariacin entre
el nmero de componentes de los 16 grupos
tursticos que visitaron el Parque Nacional Iguaz en
febrero de 1994 y el gasto diario que estos mismos
grupos realizaron. Segn la definicin de correlacin, la
existencia de una relacin entre estas dos variables
significara que al aumentar el nmero de componentes
el gasto diario debera variar de una manera definida.

Observando la matriz de datos, al comparar los valores


registrados por los grupos tursticos en ambas variables
se puede apreciar -an con dificultad- que en general a
los ms numerosos les corresponden mayores
niveles de gastos, lo que nos permite suponer la
existencia de una relacin entre las dos variables. En este caso, adems, podemos suponer que la

120

Unidad 5: El Estudio de la Relacin entre Variables

naturaleza de la relacin es causal, siendo el nmero de componentes la variable que explica el


gasto de los grupos.
Esa comparacin de los grupos tursticos (que en este caso son las unidades de anlisis) se facilita
considerablemente si se representa grficamente cada grupo segn los valores registrados
en ambas variables.
Distribucin de los grupos tursticos segn el nmero de componentes y gasto diario
600

grupo 9:
2 componentes y $220
de gasto

500

Gasto ($)

400
300
275
200

grupo 11:
5 componentes
y $275 de gasto

100
0
0

Componentes
As, en este tipo de grficos se ubica en el eje de las X aquella variable que acta como
independiente, mientras que, en el eje de las Y, la variable considerada
dependiente 10. En el plano de representacin aparecern tantos puntos como
unidades de anlisis o individuos se hayan observado, correspondindole como
coordenadas a cada uno de ellos los valores registrados en cada variable. A cada punto se lo ubica
por un par ordenado (x; y).
As, en nuestro ejemplo, el grupo identificado con el nmero 11, aparece ubicado en el plano con
una coordenada en el eje X igual a 5 y una coordenada en el eje Y de 275.
El grupo 11

es el punto con coordenadas (5, 275)

Representados todos los individuos de esta manera, se obtiene lo que se conoce como Diagrama
de Dispersin.

Actividad N 8
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 8 de la
Gua de Actividades correspondiente a esta unidad.

En el diagrama de dispersin anterior se aprecia inmediatamente que los grupos tursticos con
un mayor nmero de componentes presentan -en trminos generales- un gasto ms alto.
Se comprueba en este caso- un comportamiento sincrnico de las variables donde, al crecer los
valores de X, tambin crecen los valores de Y.

10

Cuando se trata de una relacin causal, la X corresponde a la variable explicativa, en tanto que la Y a la variable explicada.
Adems recordemos que la designacin de una variable como dependiente o independiente no es una cuestin estadstica,
sino una decisin que corresponde al conocimiento del investigador sobre el fenmeno que est estudiando.
121

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

A travs de los diagramas de dispersin podemos estudiar:


si existe relacin entre las variables,
caracterizar la forma de la relacin, y
apreciar la intensidad de esa relacin.

Cmo se manifestara grficamente


la relacin entre dos variables numricas?
(a) No hay relacin

(b) Relacin Curvilnea / No lineal

Y 14

Y 300

12

250

10
200

8
150

6
4

100

50

0
0

10 11

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

(c) Relacin lineal positiva

(d) Relacin lineal Negativa

Y 14

35

12

30

10

25

20

15

10
5

0
0

10 11 12

8 10 12 14 16 18 20 22 24

Como hemos dicho, para que exista relacin entre las variables, a las variaciones en los
valores de una de ellas le correspondern variaciones definidas en la otra. Este
comportamiento no se observa en el grfico (a), mientras que s ocurre en los tres
restantes.
En el grfico (a):
Vemos que a las variaciones en X, le corresponden variaciones imprevisibles en Y. A
valores crecientes de X, se suceden tanto valores decrecientes como crecientes de Y; no
se aprecia una forma definida en el diagrama de dispersin. En consecuencia no hay
relacin entre ambas variables.
En el grfico (b):
Se puede ver que los cambios en X se corresponden con variaciones definidas en Y. En
consecuencia, existe relacin entre ambas variables.

122

Unidad 5: El Estudio de la Relacin entre Variables

Esos cambios son tales que, para valores crecientes de X, los valores de Y decrecen hasta
un cierto punto para posteriormente comenzar a aumentar, describiendo los puntos una
figura que se asemeja a una parbola. As entonces puede decirse que su forma es
curvilnea.
Adems, dado que los puntos se ajustan casi perfectamente a esa parbola, podemos
decir que la relacin es fuerte (para un valor dado de X es posible predecir con
bastante precisin el valor esperado de Y).
En el grfico (c):
Se puede ver que los cambios en X se corresponden con variaciones definidas en Y. En
consecuencia, existe relacin entre ambas variables.
Esos cambios son tales que, a valores crecientes de X, le corresponden valores crecientes
de Y, describiendo los puntos una figura que se asemeja a una recta. As entonces puede
decirse que su forma es lineal y creciente (tambin llamada lineal positiva).
Respecto a esa recta imaginaria, los puntos presentan un nivel de dispersin tal que nos
permite calificar como moderada la intensidad de esa relacin (para un valor de X
podemos predecir un valor de Y, pero con cierto margen de error).
En el grfico (d):
Se puede ver que los cambios en X se corresponden con variaciones definidas en Y. En
consecuencia, existe relacin entre ambas variables.
Esos cambios son tales que, a valores crecientes de X, le corresponden valores
decrecientes de Y, describiendo los puntos una figura que se asemeja a una recta. As
entonces puede decirse que su forma es lineal y decreciente (tambin llamada

"

lineal negativa).
Respecto a esa recta imaginaria, los puntos presentan un bajo nivel de dispersin, de
manera que nos permite calificar como fuerte la intensidad de esa relacin (para un
valor de X podemos predecir con poco margen de error el valor correspondiente de Y).

En este curso, nos abocaremos exclusivamente al estudio de las relaciones lineales.

En nuestro ejemplo sobre el estudio de la relacin entre el nmero de componentes de


los grupos tursticos y el gasto diario que realizan, observando el diagrama de dispersin
podemos concluir que: existe una relacin entre las variables, que esa relacin es
de forma lineal y positiva (al aumentar el nmero de componentes se registra un
aumento en promedio del gasto diario) y que la intensidad se podra calificar
provisionalmente como moderada.
Sobre este ltimo aspecto avanzaremos en el apartado siguiente, presentando una forma de
cuantificar la fuerza de la relacin de dos variables cuantitativas.

L
1

IMPORTANTE
Debemos destacar que el anlisis de la correlacin comienza
siempre por un estudio del diagrama de dispersin, a partir del cual
evaluamos si tiene sentido o no pensar en la existencia de una
relacin entre las variables consideradas y, en el caso que sea lineal,
pasar a calcular una medida que exprese la intensidad de la
relacin.

Actividad N 9
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 9 de la
Gua de Actividades correspondiente a esta unidad.

123

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

4.2. El recurso numrico


Para el caso de relaciones lineales entre las variables, desarrollaremos:
a. el anlisis de regresin: un mtodo que nos permite obtener la mejor recta que
describe la relacin observada, y
b. el coeficiente de correlacin: una medida para cuantificar la fuerza de la relacin.
4.2.1. El anlisis de regresin lineal simple
El objetivo es describir la relacin observada en el diagrama de dispersin, con un
modelo matemtico (una ecuacin) que nos permita predecir los valores de Y
correspondientes a valores dados de X. Dado que se trata de una relacin lineal, ese
modelo matemtico a obtener corresponde a la ecuacin de una recta.

Eje Y

Ecuacin de la recta :
y = a + b.x

y = a + bx

Donde:

a : es la ordenada al origen (valor de y


cuando x = 0; punto en que la recta corta al
eje Y).

b : es la pendiente de la recta (es lo que vara


y por cada unidad de variacin en x) 11.
Tomar valores positivos si al aumentar X
aumenta Y (relacin lineal positiva), y
negativo si al aumentar X disminuye Y
(relacin lineal negativa).

a
x

x+1

Eje X

Gasto ($)

Debemos buscar una recta que exprese o ajuste, de la mejor manera posible, los datos
observados. Intuitivamente podramos pensar que ser aquella recta que pase lo ms cerca posible
de todos los puntos que representan a los datos.
A mano alzada se pueden trazar
600
varias
rectas
que
en
apariencia responden a ese
propsito general, tal como las
500
que se presentan en el grfico.
Ejemplo: puedo trazar rectas
400
que pasen por pares de puntos
que resulten usuales (no
300
atpicos) dentro del conjunto,
identificando as tantas rectas
como pares de puntos no
200
atpicos se encuentren.
Pero...

100

cul es la recta que mejor


ajusta a la nube de puntos?

0
0

Antes de definir un mtodo


para encontrar esta recta, es
necesario precisar que el
modelo matemtico encontrado nos permitir determinar para cada valor xi de X, un valor estimado i

Componentes

11

La pendiente se define como la tangente del ngulo que forma la recta con el semieje positivo de las X.

124

Unidad 5: El Estudio de la Relacin entre Variables

de Y. Ese par de valores (xi;i) define un punto que cae sobre la recta. En nuestro ejemplo,
utilizando el modelo, tendremos para cada nmero de componentes la estimacin de un gasto diario.
Las diferencias que se registran entre cada valor observado (yi) y el correspondiente valor
estimado por el modelo (i), constituye lo que se define como error de estimacin: ei = yi - i
Debe destacarse que el modelo va a estimar un valor promedio de Y para cada valor de X
(observe que, para cada valor de X: tamao de grupo, pueden existir distintos valores de Y: gasto
diario 12). En consecuencia, la estimacin no es exacta en trminos de lo que puede efectivamente
observarse para cada grupo, de ah la presencia de los errores individuales.
Encontrar la recta que mejor ajusta a la nube de puntos significa minimizar estos
errores. A partir de esta condicin se define el siguiente criterio para estimar la recta que mejor
ajusta las observaciones:
Criterio de mnimos cuadrados
Es aquel mediante el cual obtenemos la recta que hace mnima la suma de los
errores al cuadrado. En smbolos quedara expresado como:

(y

-
y

(y

- a - b.x

= mnimo

Donde: a y b son las incgnitas a determinar


Determinacin de la recta y errores 4 4 de estimacin en el ajuste de mnimos cuadrados
600

y4

Gasto ($)

450

e 4 = y4 -

300

e 13
150
i13: (4;146)

0
0

Componentes

El criterio de mnimos cuadrados presentado, permitir estimar los parmetros a y b del modelo
(ecuacin de la recta) que mejor ajusta nuestra nube de puntos 13. Soslayando los procedimientos
matemticos requeridos para su determinacin, encontramos que estos parmetros o coeficientes de
regresin se pueden calcular mediante las siguientes expresiones.

12

Es fcil de comprender que -en nuestro ejemplo- grupos de igual nmero de componentes pueden realizar distintos niveles
de gasto diario. Ej: grupos 13 y 14, o los grupos 2, 11 y 15, etc.

13

Los valores de los coeficientes a y b se obtienen fcilmente a travs de cualquier programa estadstico. Nuevamente aqu
resulta importante comprender la lgica para determinar la recta que mejor ajusta la nube de puntos y la utilidad de contar
con este modelo, ms que los clculos que requieren la determinacin de estos coeficientes.
125

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Pendiente:

b=

Coeficientes de regresin

n xy x y
2
n x 2 ( x )

a = y bx

Ordenada al origen:

A modo de ejemplo, estimamos la ecuacin de la recta que describe la relacin entre


gasto diario y el nmero de componentes de los grupos tursticos que visitan Puerto
Iguaz. Para el clculo de los coeficientes de regresin a y b operamos de la siguiente
manera.
Clculos para determinar los valores de a y b
GRUPO

COMPONENTES

GASTO

x.y

x2

92

92

235

1175

25

70

70

505

3030

36

149

298

460

2760

36

149

298

343

2058

36

220

440

10

155

465

11

275

1375

25

12

180

540

13

146

584

16

14

280

1120

16

15

240

1200

25

16

160

480

Suma

58

3659

15985

256

Clculo de la Pendiente: b =
b=

n xy - x y
n x 2 - ( x )

16.15985 - 58.3659 255760 - 212222


=
= 59,5
4096 - 3364
16.256 - (58)2
b=59,5

A partir del valor de b podemos concluir que el aumento de un integrante en el grupo turstico
incrementar el gasto diario, en promedio, en $59,5.
Clculo de la Ordenada al origen: a = y - bx
x=
Entonces,

58
=3,6
16
a=228,7-59,5.3,6=14,5

y=

3659
=228,7
16

a=14,5

Reemplazando estos coeficientes en la ecuacin de la recta y = a + bx , tenemos:


y=14,5+59,5.x

La ventaja de contar con un modelo matemtico que expresa la relacin entre estas variables es
que nos permite hacer pronsticos. As, si quisiramos estimar el gasto diario de un grupo de 8

126

Unidad 5: El Estudio de la Relacin entre Variables

"

personas, le damos a x el valor 8 y obtenemos una estimacin del gasto promedio para un grupo
turstico de 8 integrantes.

y = 14, 5 + 59, 5.8 = 490, 5

Entonces, si un grupo turstico tiene 8 componentes esperaramos que realice un gasto


diario de $490,5.

IMPORTANTE
Cuando realizamos un anlisis de regresin estamos suponiendo que existe
una relacin causal que va de X a Y (X es la variable explicativa e Y la
variable explicada). Como consecuencia, antes de realizar este anlisis
estadstico, ser preciso que el investigador decida -basndose en su
conocimiento del tema- cul es el sentido de la causalidad.
Cuando el pronstico se realiza para valores de la variable independiente que
estn fuera del recorrido observado (en nuestro caso grupos de 7 o ms
integrantes), se habla de una extrapolacin. Cuando el pronstico se refiere a
un valor que est dentro del recorrido observado (1 a 7 integrantes en el
ejemplo) hacemos una intrapolacin y en estos casos es cuando podemos
calcular el error cometido con nuestra estimacin media en relacin con el valor
de y efectivamente observado (el gasto diario medio de los grupos con ese
nmero de componentes).
La extrapolacin -en trminos generales- ir perdiendo precisin a medida que
nos alejamos del campo de variacin observado. Ahora bien, cul es el lmite
para hacer una extrapolacin? Esto depender del fenmeno en estudio y,
en consecuencia, solo puede ser respondido a partir del conocimiento sobre el
tema.
La intrapolacin ser tanto ms eficiente cuanto menor sea la dispersin
de los puntos en torno a la recta 14.
En trminos generales, la prediccin ser tanto ms eficiente cuanto mayor sea
la fuerza de la correlacin entre las variables.

Actividad N 10
Antes de continuar con la lectura, es necesario realizar aqu la Actividad N o 10 de la
Gua de Actividades correspondiente a esta unidad.

4.2.2. El coeficiente de correlacin lineal de Pearson (r)


Este coeficiente que se propone como medida de la fuerza y sentido de la relacin entre
dos variables numricas, cuantifica la dispersin de las observaciones (puntos del
diagrama) en torno a la recta de regresin estimada. Por esta razn a este coeficiente se
lo denomina tambin Coeficiente de correlacin lineal.

As, si tenemos dos variables X e Y con medias x e y ; y desviacin estndar x y y , el


coeficiente de correlacin se define como 15: r=

1 ( x i -x ) . ( y i -y )
n
x . y

14

Sobre este aspecto del anlisis de regresin y particularmente el uso del modelo de regresin lineal para efectuar
predicciones, ver Bibliografa propuesta para esta unidad.

15

En algunos textos en el coeficiente r se utiliza (n-1) en lugar de n. Esta distincin, que ser tratada en la Estadstica
Inferencial, se justifica en aquellos casos en los que se trabaja con una muestra y no con la poblacin total.
127

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Esta expresin, que tiene en su numerador la variacin conjunta o covariancia de X e Y, y en el


denominador los desvos estndar de cada una de las variables, rara vez es utilizada en la prctica.
Esto es as en primer lugar porque los paquetes de anlisis estadsticos (incluido Excel) lo calculan a
partir de la matriz de datos original, y en el caso de tener que obtenerlo manualmente es ms
operativo recurrir a la frmula de trabajo que se presenta a continuacin:
r=

n x.y- x. y

n. x - ( x )2 . n. y 2 - ( y )2

Valores posibles de r

-1 r 1

El coeficiente r puede tomar todos los valores comprendidos entre 1 y 1.


Un valor de r positivo indica una relacin lineal directa o positiva, mientras que si
r es negativo la correlacin entre las variables es indirecta o negativa.
A su vez, los valores de r cercanos a 1 o 1 estn sealando un
correlacin fuerte entre las variables, mientras que los cercanos a 0
indican una relacin dbil o inexistente.
r = 0 No existe relacin lineal entre x e y, pero puede existir una relacin
no lineal 16.
r=1
Relacin lineal perfecta positiva (directa)
r = -1 Relacin lineal perfecta negativa (inversa)

IMPORTANTE

L
/

El anlisis de la correlacin se debe iniciar con un estudio del diagrama


de dispersin, a partir del cual decidiremos si es pertinente pensar en la
existencia de una relacin lineal.
En el anlisis de correlacin, no se supone una relacin de causalidad
entre X e Y (a diferencia de la regresin); en consecuencia es indistinta la
designacin de qu variable funciona como X y cul como Y.
Cuando es posible suponer una relacin causal entre las variables es
informativo calcular el coeficiente de determinacin (R2) que se obtiene
elevando el coeficiente de correlacin (r) al cuadrado. As R2 = r 2 .
El coeficiente de determinacin se interpreta como: la proporcin de
la variabilidad de Y que est explicada por la variabilidad de X. Es
usual expresar este coeficiente en porcentaje.

En el ejemplo de la relacin entre nmero de componentes de los grupos tursticos y


gastos diarios que estos realizan, pudimos observar en el diagrama de dispersin que
exista una relacin lineal positiva, y adems de la observacin del grfico dedujimos
una relacin de intensidad moderada. Estamos ahora en condiciones de poder
cuantificar la fuerza de la relacin. As, realizados los clculos con la frmula de trabajo y utilizando los
datos de la matriz presentada en pginas anteriores, surge que el coeficiente de correlacin es 17:

"

r = 0,85
El valor de r obtenido corrige nuestra impresin visual indicando que la relacin entre
las variables es fuerte y positiva (o directa). Como podemos suponer una relacin
causal entre X e Y, tiene sentido en este caso obtener el coeficiente de determinacin
R2 .

16

Si existe otro tipo de relacin, se manifestar en el diagrama de dispersin.

17

Invitamos al lector a que controle el clculo realizado.

128

"

Unidad 5: El Estudio de la Relacin entre Variables

R2 = 72,3%
Lo que indica que un 72% de la variacin en los gastos diarios est explicada por las
variaciones en el nmero de componentes del grupo.

Actividad N 11
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 11 de la
Gua de Actividades correspondiente a esta unidad.

5. Qu Hemos Visto?
En esta presentacin, una vez precisado el tipo de cuestiones que estamos tratando de
responder con el anlisis bivariado de los datos, comenzamos por sealar la necesidad de
preguntarnos sobre el tipo de variables que estn involucradas en el estudio, como as tambin por
la naturaleza de la relacin que se puede establecer entre ellas, dado que estos dos aspectos
condicionan tanto las posibilidades de anlisis (las herramientas a las que podemos recurrir) como el
alcance de los resultados de nuestro estudio (la posibilidad de hacer pronsticos, explicar o
simplemente describir la relacin).
Para el anlisis de las relaciones, distinguimos estrategias diferentes segn el tipo de variable: 1)
Anlisis de Tablas de Contingencia, para dos variables cualitativas, 2) la comparacin de
medias, en el caso de una variable cualitativa y una cuantitativa, y 3) el anlisis de regresin y
correlacin lineal cuando se trata de dos variables cuantitativas.
Hemos destacado, adems, que en este tipo de anlisis existen tres aspectos que deben ser
considerados cualquiera sea el tipo de variables: a) la determinacin de la existencia de la relacin
entre las variables, b) la forma en que se da esa relacin, y c) la fuerza de esa relacin.
En todos los casos hemos presentado herramientas que nos permitan establecer la existencia o
no de la relacin, describir la forma en que se produca esta relacin, como as tambin una
medida (diferencia de proporciones, razn de correlacin y coeficiente de correlacin) para
valorar la intensidad de la relacin entre esas variables. Cuando se trata del anlisis de dos variables
numricas, presentamos adems la determinacin de un modelo matemtico que permite
hacer predicciones cuando la relacin existente es lineal y de naturaleza causal (anlisis de
regresin lineal).

129

Forma y E xistencia

Fuerza

Cons. deProd. Dietticos

59

Total

53
47

Total

100(850)

Sexo

Mujeres

Empresarios

0d1

Diferencia deProporciones

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Sindicalistas

Empresarios y sindicalistas segn conocimiento sobre el proyecto de reforma laboral

Compuestos

Partes Componentes

20

40

60

80

Hombres

Distrib. del Cons. de Prod. Diet.


segn Sexo

100

41

35
6

Grficos debarras

18
41

Consumen NoConsum.

Hombres
Mujeres

Sexo

Tablasdecontingencia

D os V a r. Categricas

Casos (%)

130
Tallo &

22

57
956,8

621,6

475,4

Media

800,0

500,0

400,0

Mediana

67,6

68,9

60,3

CV

Hoja

Transporte

Omnibus

Automotor part.

donde

0 1

Ancho del Tallo:


1000
Cada Hoja:
1 caso(s)

01111
22333333333333
44445555555555555
667777
8889
00001
3
55
(>=1600)

Tallo &

5
0 .
14
0 .
17
0 .
6
0 .
4
0 .
5
1 .
1
1 .
2
1 .
3 Extremos

Frec.

Razn deCorrelacin

100

200

300

400

Areo

000
(>=1000)

4
0005
0004
000005
005

Hoja

Ancho del Tallo:


100
Cada Hoja:
1 caso(s)

1
1 .
4
2 .
4
3 .
6
4 .
3
5 .
0
6 .
0
7 .
3
8 .
2 Extremos

Frec.

SCentr
=
SCT
2

n
23

Tallo - hoja / Box-plot / otros

Secundario o ms

Secundario Incomp.

Sin Primario

Nivel Est. Padre

Comparacin de medias/medianas

U n a V a r. C a teg rica
y u n a N u m rica

Tipo deVariables?

Gasto Diario ($)

Recurso Nu mrico

Recurso Grfico

R2

Coef.de Determinacin

Ecuacin dela Recta

10

12

Y 14

1 r 1

r dePearson

10 11 12

Diagrama deDispersin

y = a + bx

Regresin lineal simple

D os V a r. Num ricas

Estudio dela Relacin entre Variables

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Unidad 5: El Estudio de la Relacin entre Variables

Bibliografa
BARBANCHO, Alfonso: Estadstica elemental moderna. Ed. Ariel Barcelona, Espaa, 1978, pg.
211 a 221 y 237 a 245.
COLL, Sebastin; GUIJARRO, Marta: Estadstica aplicada a la historia y a las Ciencias Sociales.
Edic. Pirmide, Madrid, 1998, pg. 235 a 241 y 259 a 263.
DANIEL, Wayne: Estadstica con aplicacin a las ciencias sociales y a la educacin. McGraw-Hill,
Mxico, 1985, pg. 315- 331.
MOORE, David: Estadstica aplicada bsica, Antonio Bosch ed., Barcelona, 1998 (1ra. Ed. 1995).
Pg. 90 a 157.
Conceptos Centrales de esta Unidad

Distribuciones bivariadas.

Naturaleza de la relacin entre las variables.

Tablas de contingencia y estudio de relacin entre variables cualitativas.

Relacin entre variables cuantitativas: Diagrama de dispersin.

Relacin entre variables.

Los tres aspectos del estudio de relacin entre variables: existencia, forma y fuerza.

Estudio de la relacin entre una variable cualitativa y cuantitativa.

Anlisis de regresin: modelo matemtico y prediccin.


Anlisis de correlacin: coeficiente de Pearson.

Habilidades

Identificar las herramientas numricas y grficas apropiadas para el estudio de la relacin


entre dos variables, cualquiera sea su tipo.
Construir el resumen grfico o numrico apropiado para analizar la relacin entre las variables
en estudio.
Interpretar esos resmenes grficos o numricos.
Evaluar la existencia, la forma y la fuerza de la relacin entre variables, cualquiera sea su tipo.
Realizar pronsticos basndose en modelos de regresin lineal simple.
Comunicar los resultados del anlisis.

131

UNIDAD 6: LOS NMEROS NDICES

1. Qu son y cul es su utilidad?


Cuando analizamos las condiciones socioeconmicas de una regin, de una provincia, de
un pas, reiteradamente nos encontramos ante la situacin de tener que valorar la
evolucin en el tiempo o en el espacio de variables numricas, referidas a aspectos
diversos de la realidad. Es habitual que debamos encontrar respuestas a preguntas del
tipo:
en cunto se increment el costo de vida durante el ltimo ao?
cul fue el aumento del precio de la harina en el ltimo mes?
es mayor o menor la produccin de t en Misiones en relacin con la de
Corrientes?
ascendi el nmero de visitantes al Parque Nacional Iguaz respecto al ao
anterior?
crecieron las ventas de la empresa durante el ltimo trimestre?
etc.

As, las variaciones de los precios de diversos artculos, del costo de una canasta de bienes, de la
cantidad de visitantes a un centro turstico, del volumen producido mensualmente por una fbrica,
etc., pueden ser datos estratgicos a la hora de planificar una actividad o tomar decisiones.
La comparacin relativa de los cambios de los valores de una variable, ya sea a travs del
tiempo o del espacio, generalmente brinda al analista una idea ms precisa de la magnitud de tales
cambios que la simple comparacin en trminos absolutos. En efecto, la comprensin del cambio
experimentado es ms clara si la explicamos diciendo que la superficie cultivada con yerba mate
aument un 9,4% entre 1991 y 1998 , que si sealramos la superficie cultivada creci en 15 mil
ha en ese perodo de tiempo.
En otros problemas es necesario cuantificar mediante un nico valor la magnitud de los
cambios relativos de un conjunto de variables heterogneas, como, por ejemplo, las variaciones
conjuntas de los precios de venta de distintos artculos, de la cantidad consumida de diferentes
productos, etc.
Los nmeros ndices son las tcnicas estadsticas que nos permitirn resolver este tipo de
problemas.

Los nmeros ndices


Son medidas estadsticas que sirven para comparar magnitudes de una o
ms variables en un perodo (o lugar) dado, con la magnitud de esa misma o mismas
variables en otro perodo (o lugar) de referencia llamado base.
Segn el nmero de variables con las que se trabaja en la construccin de un nmero ndice, se los
puede agrupar en dos grandes captulos:
Nmeros ndices Simples: se construyen para medir los cambios o variaciones (a travs del
tiempo o del espacio) de una sola variable.
Nmeros ndices Compuestos: miden los cambios conjuntos de dos o ms variables.
Tomando en cuenta la metodologa utilizada para su construccin y clculo, los ndices compuestos
se diferencian en ndices de agregados y del promedio de relativos, pudiendo a su vez
clasificarse cada uno de ellos en no ponderados y ponderados.

133

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

El esquema siguiente resume la clasificacin de los nmeros ndices segn sea el nmero de
variables que intervienen en su construccin y el mtodo de clculo especfico de cada uno de ellos.
En este curso presentaremos solo las frmulas de los ndices cuyo uso es ms generalizado en la
prctica: ndices relativos simples, ndice compuesto de agregado no ponderado, ndice del promedio
de relativos no ponderado, ndices de Laspeyres e ndices de Paasche. En la bibliografa recomendada
para este Captulo el lector podr ampliar estos conocimientos bsicos con otros mtodos.
Diferentes Tipos de Nmeros ndices
SEGN EL NMERO DE
VARIABLES

SEGN LA METODOLOGA
DE CLCULO

Simples
(Una variable)
ndices

No ponderados
Agregados
Ponderados

Compuestos
(2 ms variables)

No ponderados
Promedio de Relativos
Ponderados

2. Los Nmeros ndices Simples


Como ya sealramos, estos ndices tienen la finalidad de medir los cambios o variaciones de los
datos x1, x2, x3, ... xi,... xt de una nica variable X. Estos valores pueden resultar de observaciones
realizadas a una nica unidad de anlisis a travs de diferentes momentos de tiempo (datos
longitudinales), como por ejemplo son los precios mensuales de la yerba mate durante los ltimos
doce meses en la ciudad de Posadas; u observaciones realizadas transversalmente como por ejemplo
los precios de la yerba mate en el ltimo mes en las capitales provinciales de la Argentina.
Considerando que el tratamiento metodolgico es similar para una u otra situacin, los ejemplos
que presentaremos a lo largo de la unidad harn nicamente referencia a datos recogidos en forma
cronolgica (series de tiempo). Por lo tanto los valores de una variable genrica X, observados en t
perodos consecutivos de tiempo (quinquenios, aos, meses, semanas, das, etc.), se simbolizarn del
siguiente modo:
i-simo perodo
Perodos

...i...

Valores de X

x1

x2

x3

. . . xi . . .

xt

Valor de X correspondiente al i-simo perodo

Si la variable en estudio fuera el precio de un producto o servicio registrado en diferentes perodos,


el smbolo genrico a utilizar ser pi (en lugar de xi) que denota: el precio del artculo en cuestin,
registrado en el i-simo perodo de la serie.
Segn el tipo de interrogante que nos planteemos sobre el comportamiento de la variable que
estamos analizando, se pueden realizar diversas operaciones que dan lugar a diferentes nmeros
ndices.
2.1. ndice Relativo Simple de Base Fija (Rs)
Este ndice se construye para mostrar las variaciones relativas (porcentuales) en los valores de
una sola variable, referidos todos estos cambios a un nico valor de la serie llamado valor del
perodo base.

134

Unidad 6: Lo s N m e r o s n d ic e s

El ndice relativo simple de base fija mide la variacin de la variable en estudio entre
un perodo i dado de la serie y otro perodo fijo llamado base (al que
simbolizamos con o). Se lo obtiene haciendo:
Donde:

R s i/o =

xo

i100

xi : es el valor de X en el perodo i de inters (o perodo dado).


xo: es el valor de X en el perodo elegido como base.

A manera de ejemplo, consideremos la serie de precios de la yerba mate canchada


durante el perodo comprendido entre los aos 1992 y 2000. En este caso deseamos
medir la variacin relativa de los precios de cada perodo de la serie, con respecto al valor
del ao 1992 (ao base elegido arbitrariamente en este ejemplo) 1.

Precios Corrientes de la Yerba Mate Canchada y Variaciones de los Precios


Perodo: 1992-2000.
Aos
Ao base

Precios ($/Kg)

IPRs (1992=100)

1992

0,67

100,0

1993

0,65

97,0

1994

0,66

98,5

1995

0,67

100,0

1996
1997
1998
1999
2000

0,54

80,6

0,43

64,2

0,38

56,7

0,35

52,2

0,34

50,7

0,43

R 97/92 =
s

i100 =64, 2%
0,67

El precio decreci
un 49,3% (100-50,7)

Fuente: Dir. de Economa Agraria. Min. de Asuntos Agrarios.


Posadas, Misiones. 2002.

El ndice relativo simple de base fija del ao 93 con base en el ao 92, resulta de:
R s 93

92

0,65
100 = 97,0%
0,67

"

Es decir que en 1993 el precio de la yerba mate canchada decreci un 3% (100-97) con
respecto al valor registrado en el ao base.

Analizando los ndices relativos simples para la serie completa, notamos que el precio de
la yerba mate canchada muestra un comportamiento decreciente a lo largo del perodo
considerado ya que, a partir de 1995, ao en el que se produce una ligera recuperacin y
alcanza un precio igual al registrado en el ao base, decrece sostenidamente hasta
alcanzar el menor valor en el ao 2000, en el cual registra una cada del 49,3% con relacin al precio
de 1992.
2.2. El Relativo Simple de Eslabn (Re)
Este ndice mide los cambios relativos de una sola variable entre dos perodos sucesivos (aos,
meses, semanas, das, etc.) de una misma serie. Es decir, permite expresar en porcentajes la
variacin ocurrida en los datos entre un perodo i cualquiera y el perodo inmediato anterior (i-1).
Cuando nos informan que segn los datos que difundi ayer el INDEC, el valor de la canasta bsica
para una familia tipo subi en setiembre un 2,05%... (Clarn del martes 8/10/02), la operacin
realizada para obtener esta informacin es un ndice de estas caractersticas.

A los fines de este ndice cualquier perodo de la serie puede ser adoptado como base. En cada problema particular de
trabajo el investigador deber decidir el perodo base ms conveniente, segn las recomendaciones que se explican ms adelante.

135

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

El ndice relativo simple de eslabn mide las variaciones relativas de una variable
en estudio entre perodos consecutivos, por lo que se conocen tambin como
relativos simples con base mvil. Se lo obtiene haciendo:

R e i/(i - 1) =

x i-1

i1 00

Donde:
xi : es el valor de la variable en un perodo cualquiera de la
serie.
xi-1: es el valor correspondiente al perodo anterior.

Consideremos nuevamente el ejemplo anterior de la serie de precios corrientes de la


yerba mate canchada, pero en este caso queremos conocer la evolucin de los precios
entre cada perodo (ao en nuestro caso) y el inmediato anterior.
El ndice de precios relativo simple en eslabn del ao 95 (con respecto al ao 1994)
se obtiene de:

0,67
100 = 101,5%
0,66
Es decir que el precio de la yerba mate canchada del ao 1995 aument el 1,5% con respecto
al precio anterior. La evolucin de los ndices en eslabn para la serie completa se presenta en la
tabla siguiente 2:
R s 95/94 =

Precios Corrientes de la Yerba Mate Canchada y Variaciones Anuales.


Perodo: 1992-2000.
Aos

"

Precios ($/Kg)

Re (%)

1992

0,67

1993

0,65

97,0

1994

0,66

101,5

1995

0,67

101,5

1996

0,54

80,6

1997

0,43

79,6

1998

0,38

88.4

1999

0,35

92,1

2000

0,34

97,1

0,43
R 97/96
e

i100 =79, 6%

0,54

Fuente: Dir. de Economa Agraria. Min. de


Asuntos Agrarios. Pdas., Mnes. 2002.

Con excepcin de los aos 1994 y 1995 en los que el ndice registra una ligera
recuperacin del 1,5% con respecto al ao anterior, a lo largo del perodo analizado los
precios corrientes de la yerba mate canchada muestran un comportamiento
progresivamente decreciente, ya que los valores disminuyen sostenidamente de un ao a
otro desde 1995 en adelante, observando la mayor cada en 1997 con un descenso del 20,4% en
relacin con el precio de 1996.
2.3. El Relativo Simple en Cadena (Rc)
Es frecuente que a partir de los ndices en eslabn se necesite obtener los cambios relativos de
una variable con referencia a un nico perodo base. En este caso precisamos determinar, por
ejemplo, cunto se increment el costo de la canasta bsica de una familia tipo a lo largo
del ao, conociendo los aumentos proporcionados por el INDEC que se produjeron mensualmente.
En este tipo de situaciones recurrimos a los ndices relativos en cadena.

Se debe tener en cuenta que el 100% para cada valor de la serie corresponde al perodo inmediato anterior.

136

Unidad 6: Lo s N m e r o s n d ic e s

Los relativos simples en cadena se obtienen como el producto del relativo en eslabn
correspondiente al perodo en estudio ("i") por los sucesivos relativos en eslabn
entre ese perodo y la base, sin incluir al de esta. Es decir:
R c i/o = R e i/(i - 1) R e (i - 1)/(i - 2) ... R e 1/o 100
Por lo tanto si, conociendo los ndices relativos en eslabn, quisiramos saber cul fue
la variacin que registraron los precios corrientes de la yerba mate canchada del ao
2000, con referencia al perodo base 1995 3, la operacin que debemos realizar es:

R c 2000

1995

= 0,971 i 0,921 i 0,884 i 0,796 i 0,806 i 100 = 50,7%

Actividad N 1
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 1 de la
Gua de Actividades correspondiente a esta unidad.

3. Los Nmeros ndices Compuestos

Se construyen para mostrar los cambios colectivos de un conjunto de variables (ya


no ms de una sola variable), las que generalmente se refieren a conceptos econmicos
tales como precios, cantidades (producidas, vendidas, compradas, etc.) o valores 4 de
grupos de artculos que interesan por alguna razn especial. As, por ejemplo,
recurrimos a estos ndices cuando estamos interesados en conocer:
la evolucin de los precios de los cultivos agrcolas de Misiones,
el aumento en el volumen de las exportaciones de cereales de la Argentina durante cierto
perodo,
cunto aument la canasta de productos alimenticios durante el ltimo mes,
etc.
Es decir que con los ndices compuestos estaremos interesados en medir las fluctuaciones relativas
conjuntas de n variables distintas, para cada una de las cuales se registran datos a lo largo de t
perodos de tiempo (aos, meses, semanas, das, etc). As, las magnitudes correspondientes a las n
variables en los t perodos, se simbolizan como:
Tiempo
Variable

...

...

x11

x12

...

X1j

...

x1t

x21

x22

...

X2j

...

x2t

...

...

...

...

...

...

...

xi1

xi2

...

xij

...

xit

...

...

...

...

...

...

...

xn1

xn2

...

xnj

...

xnt

Dato de la i-sima variable (Xi)


registrado en el "j-simo" perodo de
Siendo: la serie

x21: valor observado (dato) de la segunda variable (X2) registrado en el primer perodo de la serie.
xi2: dato de la i-sima variable (Xi) registrado en el segundo perodo de la serie.
xnj: dato de la n-sima variable (Xn) registrado en el j-simo perodo de la serie.
xnt: dato de la n-sima variable (Xn) registrado en el t-simo (ltimo) perodo de la serie.

Contando con los precios corrientes, es evidente que resulta ms sencillo obtener la misma informacin calculando un ndice
relativo simple.
El valor (v) de un artculo se define como el producto del precio por la cantidad; es decir: v = pij qij.

137

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Si las variables en anlisis fueran los precios de n artculos diferentes, el smbolo genrico que se
adopta (en lugar de xij) es Pij que denota: precio del i-simo artculo considerado, registrado en el jsimo perodo de la serie.
Como ya fuera sealado, de acuerdo con la forma de obtener este tipo de ndices se pueden
distinguir los ndices de agregados de los ndices promedios de relativos, los que a su vez
pueden ser no ponderados o ponderados.
3.1. ndice de Agregado no Ponderado
Con este ndice se miden las variaciones producidas en magnitudes que surgen de agregar
cantidades simples (ej.: precios de los cereales, cantidades exportadas de productos agrcolas, etc.).
Al ndice de agregado no ponderado se lo define como la suma de las magnitudes de
todas las variables consideradas, para un mismo perodo dado j de la serie; dividida
por la suma de todas las magnitudes correspondientes a esas mismas variables en el
perodo elegido como base. El valor del ndice expresado en porcentaje se obtiene
haciendo:
Donde:
n
xij: es la magnitud correspondiente a la i-sima
x ij
variable/artculo en el perodo j.
I j/o = i=1
i1 0 0
n
xio: es la magnitud de esa misma variable/artculo en
el perodo base.
x io

i=1

Si las variables en estudio fueran los precios de una canasta de n artculos diferentes, el ndice de
agregado no ponderado (para cierto perodo j con base en otro perodo o de la misma serie)
resultar:

p ij

i=1
n

I P j/o =

p io

i=1
n

i1 0 0

En el clculo de este ndice se considera una unidad de cada bien, y


expresa el precio total (de ventas, compras, etc.) de los n
artculos en cada perodo, como un porcentaje del precio de
esos mismos artculos en el perodo base.

Consideremos la serie de precios anuales de la yerba mate canchada y del brote de t


verde, registrados en el perodo comprendido entre los aos 1992 y 2000 (Note que
analizamos n=2 artculos-variables diferentes, cada una de ellas observada a lo largo de
9 aos -perodos- consecutivos). Ahora el problema es medir la evolucin conjunta de los
precios de ambos productos, tomando como base los precios observados en el ao 1992.
Precios Corrientes de la Yerba Mate Canchada y el Brote de T.
Variaciones de los Precios. Perodo: 1992-2000.
Aos

Yerba Mate
($/Kg)

T
($/kg)

pij

i=1
2

IP (1992=100)

1992

0,67

0,060

0,730

1993

0,65

0,058

0,708

100,0
97,0

1994

0,66

0,070

0,730

100,0

1995

0,67

0,057

0,727

99.6

1996

0,54

0,055

0,595

81,5

1997

0,43

0,055

0,485

66.4

1998

0,38

0,075

0.455

62,3

1999

0,35

0,050

0.400

54,8

2000

0,34

0,050

0.390

53,4

Fuente: Dir. de Economa Agraria. Min. de Asuntos Agrarios. Posadas, Misiones. 2002.

138

Es el resultado
de sumar el
precio de 1 kg
de yerba y 1
kg. de t en
1992

IP 97/92 =

0,485
i100=66,4%
0,730

Unidad 6: Lo s N m e r o s n d ic e s

As entonces, el ndice de precios de agregado no ponderado para el ao 93, tomando como


perodo de comparacin al ao 92, resulta:
IP 93

92

0,65 + 0,058
0,708
i100 =
i 100 = 97,0%
0,67 + 0,060
0,730

En consecuencia, los precios de la yerba mate canchada y del brote de t verde en 1993
decrecieron, en conjunto, un 3% (100-97) con relacin a los precios que registraron ambos
productos en el ao base 1992.

"

Por lo tanto, a lo largo del perodo analizado los precios de estos cultivos muestran, en
conjunto, un comportamiento en general decreciente con respecto a los precios de 1992.
Solamente en el ao 1994 los precios logran una ligera recuperacin alcanzando el mismo
nivel del ao base y luego decrecen sostenidamente hasta alcanzar su menor valor en el
ao 2000, cuando el ndice mide una cada del 46,6% respecto de los precios de 1992.

IMPORTANTE
Al ser no ponderado, este ndice le asigna igual importancia al
cambio absoluto de cada variable. As, aquellas variables con
magnitudes altas impactarn ms en el resultado final del ndice.
En el caso de los precios, la unidad de medida de cada artculo
introduce una ponderacin no deseada. Es de esperar que artculos
fraccionados en unidades mayores tengan precios relativamente
mayores.
No se puede calcular el agregado simple de cantidad cuando las
variables que intervienen en su construccin estn expresadas en
unidades diferentes.

3.2. ndice de Promedio de Relativos no Ponderado


Como su nombre lo indica, consiste en promediar magnitudes relativas referidas a las variaciones
individuales de series de precios, cantidades o valores.
Se lo define como el promedio no ponderado de los relativos simples (cada uno de
ellos calculado para un mismo perodo j dado y un mismo perodo base
predeterminado), para las n variables consideradas en el anlisis. El valor del ndice
es expresado en porcentaje y se lo obtiene haciendo:

i=1
n

I j/o =

x ij
x io
i1 0 0
n

Donde:
xij: es la magnitud correspondiente al i-simo artculo
en el perodo j.
xio: es la magnitud correspondiente al i-simo artculo en
el perodo base.

Para calcular el ndice del promedio de relativos se deben realizar los siguientes pasos:
a. obtener las variaciones relativas (relativos simples) de cada variable para el mismo
perodo j y con la misma base,
b. obtener la suma de los relativos para el perodo j considerado,
c. dividir la suma obtenida por el nmero total n de variables incluidas en el ndice.
Si se tratara de un ndice de precios, se lo obtiene mediante la siguiente expresin:

i=1
n

IP

j/ o

139

p ij
p io

i1 0 0

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Consideremos nuevamente la serie de precios de la yerba mate canchada y el brote de t


para el perodo 1992 - 2000.
Precios Corrientes y Variaciones de los Precios de la Yerba Mate
Canchada y Brote de T. Perodo: 1992-2000.
Yerba Mate
Aos

Rs
($/Kg)
(92=100)

T
($/kg)

i=1 p
2

Rs
(92=100)

pij

i100

io

IP
(1992=100)

1992

0,67

100,0

0,060

100,0

200,0

1993

0,65

97,0

0,058

96,7

193,7

100,0
96,9

1994

0,66

98,5

0,070

116,7

215,2

107,6

1995

0,67

100,0

0,057

95,0

195,0

97,5

1996

0,54

80,6

0,055

91,7

172,3

86,2

1997

0,43

64,2

0,055

91,7

155,9

78,0

1998

0,38

56,7

0,075

125,0

181,7

90,9

1999

0,35

52,2

0,050

83,3

135,5

67,8

2000

0,34

50,7

0,050

83,3

134,0

67,0

Fuente: Direccin de Economa Agraria. Ministerio de Asuntos Agrarios. Posadas, Misiones. 2002.

El ndice de precios del promedio de relativos no ponderado del ao 95, tomando como referencia
el ao 92, resulta de:
0,67 0,057
+
195,0
0,67 0,069
i100 =
IP 95 =
= 97,5%
92
2
2
En 1995 el precio de la yerba mate canchada y el brote de t decrecieron -en promedio- un
2,5% (100-97,5) con relacin a los precios registrados en el ao base.

"

Nuevamente, notamos que este ndice tambin nos muestra la persistente cada de los
precios de los dos artculos en conjunto ya que, considerados aisladamente, el
comportamiento de los precios del t (relativos simples) muestra variaciones muy
diferentes a las de la yerba mate (relativos simples). En conjunto, los precios de ambos
cultivos son, ao a ao, inferiores a los de 1992. La excepcin es el ao 1994 en el cual
los precios, en promedio, superan a los de la base en un 7,6%. Los menores precios de la serie
analizada se registran en el ao 2000 para el cual el ndice muestra una cada conjunta de ambos
productos del orden del 33,0% con respecto a 1992.

IMPORTANTE

Por ser los relativos nmeros abstractos, desprovistos de toda unidad de


medida, este ndice supera las principales limitaciones asignadas al ndice
de agregados no ponderados.

El que se utilice para su cmputo un promedio aritmtico simple, puede


ser metodolgicamente inapropiado en el caso de magnitudes relativas.

Este ndice le asigna igual representatividad en el promedio a cada


relativo; esto hace que variaciones absolutas pequeas pero relativamente
grandes impacten ms en el valor final del ndice que variaciones grandes en
trminos absolutos pero pequeas en trminos relativos.

140

Unidad 6: Lo s N m e r o s n d ic e s

Actividad N 2
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 2 de la
Gua de Actividades correspondiente a esta unidad.

En general, los ndices compuestos presentados hasta aqu adolecen del mismo defecto: la falta
de ponderacin de las variables que lo constituyen. Estos ndices compuestos sern ms eficientes
en la medida en que cada una de las variables est convenientemente ponderada por un factor que
exprese su importancia relativa en el conjunto.
Se puede apreciar que los nmeros ndices se aplican principalmente a dos tipos de variables
econmicas: precios y cantidades. Tratndose de precios, las ponderaciones utilizadas ms
frecuentemente son las respectivas cantidades (de venta, de compra, de produccin, etc) y, si se trata
de cantidades, lo usual es ponderar por los precios respectivos.
3.3. Los ndices de Agregados Ponderados
Al construir un ndice de precios (o de cantidades) podemos tomar la decisin de ponderar por las
cantidades (o precios) del ao base, del ao que se est analizando o por un valor que promedia
ambas magnitudes. Segn sea la ponderacin que adjudiquemos a cada variable al construir el ndice,
vamos a estar en presencia de un tipo particular de ndice de agregados ponderados.
3.3.1. El ndice de Laspeyres
Para la construccin de este ndice se utilizan como ponderaciones magnitudes
(cantidades o precios) del ao base. Si se trata de un ndice de precios (IPL), este se
obtendr haciendo:
Donde:
n
pij: es el precio correspondiente al i-simo artculo
p iq
L
i=1 ij io
en
el perodo j.
IP j/o = n
i1 0 0
pio: es el precio correspondiente al i-simo
p i q io
artculo en el perodo base.
i=1 io
qio: es la cantidad correspondiente al i-simo
artculo en el perodo base.
La aplicacin de la frmula de Laspeyres para un perodo j dado (tomando como base otro
perodo o predeterminado), supone realizar los siguientes pasos:
a. multiplicar el precio de cada artculo en el perodo j dado por la cantidad de ese mismo
artculo registrada en el perodo base,
b. realizar la suma de los productos as calculados, a travs de los n artculos que intervienen en el
ndice,
c. multiplicar el precio de cada artculo en el ao base por la correspondiente cantidad en el mismo
perodo base y sumar estos productos a lo largo de todos los artculos,
d. dividir la suma realizada en b por la suma realizada en c y, luego, al resultado multiplicar por
cien.
Es obvio que para el clculo de este ndice se necesita ms informacin (datos) que para el clculo
de los ndices no ponderados que hemos visto. En efecto, el ndice de precios de Laspeyres requiere
de datos de cantidades (compradas, vendidas, producidas, etc.) de cada uno de los artculos que lo
integran para, al menos, el perodo seleccionado como base.

Vamos a analizar la evolucin de los precios de la yerba mate canchada y el brote de la


hoja verde de t mediante un ndice de Laspeyres.

141

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Produccin, Precios Corrientes y Variaciones de los Precios de la Yerba Mate


Canchada y Brote de T. Perodo: 1992-2000.
Yerba Mate
Aos

Produccin
(kg.)

$/kg.

p ij qio
2

Produccin
(kg.)

$/kg

i=1

IPL
(92 = 100)

1992

198.000.000

0,67

191.800.000

0,060

144.168.000

100,0

1993

230.000.000

0,65

226.300.000

0,058

139.824.400

97,0

1994

280.000.000

0,66

209.954.000

0,070

144.106.000

100,0

1995

270.000.000

0,67

211.000.000

0,057

143.592.600

99,6

1996

270.000.000

0,54

203.400.000

0,055

117.469.000

81,5

1997

280.000.000

0,43

220.000.000

0,055

95.689.000

66,4

1998

245.000.000

0,38

265.000.000

0,075

89.625.000

62,2

1999

231.000.000

0,35

266.300.000

0,050

78.890.000

54,7

2000

280.000.000

0,34

228.000.000

0,050

76.910.000

53,3

Valor de la
produccin
del ao 92
a los precios corrientes de
cada ao

Fuente: Direccin de Economa Agraria. Ministerio de Asuntos Agrarios. Posadas, Misiones. 2002.

El ndice de precios del ao 96 tomando como referencia el ao 92, se obtiene haciendo:


IPL 96

"

92

0,54 i 198.000.000 + 0,055 i 191.800.000


i100 = 81,5%
0,67 i 198.000.000 + 0,060 i 191.800.000

En 1996 el precio de la yerba mate canchada y el brote de t decrecieron -en promedio- el


18,5% con relacin a los precios registrados en el ao base.

El precio de estos cultivos expone en promedio un comportamiento decreciente. A


partir de 1994 los valores decrecen sostenidamente a lo largo del perodo analizado
registrando el menor valor de la serie en el ao 2000, en el que se produce una cada
conjunta del 46,7% respecto a los precios de 1992.
El ndice de cantidad de Laspeyres (IQL) es la contrapartida del ndice de precios
anlogo, donde las ponderaciones a ser usadas sern los precios del ao base.
As, el mismo se obtiene mediante la aplicacin de la siguiente frmula:

q ip io
i= 1 i j
n

IQ

j/o =

i= 1

ip io
io

i1 0 0

Este ndice de cantidades agregadas ponderadas responde a la siguiente pregunta:


cunto se gastar (o recibir) en el perodo dado con relacin al perodo base si
compramos (o vendemos), a los precios del ao base, cantidades variables de los
mismos artculos?

"

El ndice de Laspeyres de cantidad para el ao 96 tomando como referencia el ao 92,


se obtiene haciendo:
IQL 96

92

270.000.000 i 0,67 + 203.400.000 i 0,060


i100 = 133,9%
198.000.000 i 0,67 + 191.800.000 i 0,060

En 1996 la produccin de yerba mate canchada y brote de t crecieron -en promedio- el


33,9% con relacin a la produccin obtenida en 1992.

142

Unidad 6: Lo s N m e r o s n d ic e s

3.3.2. El ndice de Paasche


Es un ndice en el cual se utilizan como ponderaciones, magnitudes (cantidades o
precios) del ao en estudio. Si se trata de un ndice de precios (IPP), este se
obtendr de la siguiente manera:
Donde:
pij: es el precio correspondiente al i-simo artculo
n
p ij i q ij
en el perodo j (perodo en estudio).
1
0
0
IP P j/o = i=1
i
pio: es el precio correspondiente al i-simo artculo
n
en el perodo base.
p
q
i

ij
i=1 io
qij: es la cantidad correspondiente al i-simo
artculo en el perodo dado o en estudio.
El valor de este ndice debe interpretarse como: las cantidades producidas en el perodo en
estudio tienen un % ms (o menos) de valor de lo que esa misma lista hubiera tenido en
el ao base.
Si se tratara de un ndice de precios al consumidor, estaramos comparando el costo efectivo
en el perodo dado con el costo terico en el ao base, para mantener el estndar de vida del perodo
dado.

"

El ndice de Paasche de los precios corrientes de la yerba mate canchada y el brote de


t del ao 96, tomando como referencia el ao 92, se obtiene haciendo en este caso:
IPP 96

92

0,54 i 270.000.000 + 0,055 i 203.400.000


i100 = 81,3%
0,67 i 270.000.000 + 0,060 i 203.400.000

En 1996, el precio de la yerba mate canchada y el brote de t decrecieron -en promedioel 18,7% con relacin a los precios que obtuvieron en 1992.

El ndice de cantidad de Paasche (IQP) es la contrapartida del ndice de precios,


donde las ponderaciones sern los precios del perodo dado. As, este ndice se
obtiene mediante la aplicacin de la siguiente frmula:

q i ij
i= 1 i j
n

IQ

j/o =

q ip ij
i= 1 i o
n

i1 0 0

El ndice de cantidad de Paasche responde a la siguiente pregunta:


cunto se gastar (o recibir) en el perodo dado con relacin al perodo base si compramos
(o vendemos), a los precios del ao en estudio, cantidades variables de los mismos
artculos?

"

El ndice de Paasche de cantidad para el ao 96 tomando como referencia el ao 92, se


obtiene haciendo:
IQP 96

92

270.000.000 i 0,54 + 203.400.000 i 0,055


i100 = 133,6%
198.000.000 i 0,54 + 191.800.000 i 0,055

En 1996 la produccin de yerba mate canchada y brote de t crecieron -en promedio- el


33,6% con relacin a la produccin registrada en el perodo base.

143

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

IMPORTANTE
En general -y an cuando miden lo mismo- los ndices de Laspeyres y Paasche
darn resultados diferentes por utilizar diferentes ponderaciones, lo que no indica
que uno sea mejor que el otro.

El ndice de Laspeyres tiene a favor la sencillez de su clculo pues


requiere de menos informacin que el de Paasche. Conocidos los precios y
cantidades del perodo base, solo requiere actualizar los precios o cantidades
del perodo en cuestin.

La frmula de Laspeyres, al utilizar como ponderacin los precios o cantidades


del perodo base, es rgida y no permite eliminar aquellos artculos del
conjunto que en el transcurso del tiempo han ido perdiendo importancia en
relacin con los restantes, ya sea porque han dejado de producirse, adquirirse o
venderse, o porque otros bienes sustitutos los han desplazado. Por ello, cada
determinado nmero de aos exige una actualizacin de las ponderaciones.

La frmula de Paasche es ms flexible, pues al utilizar ponderaciones


mviles permite la eliminacin, incorporacin o sustitucin de artculos sin
afectar al ndice y sin necesidad de modificar la base.

Actividad N 3
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 3 de la
Gua de Actividades correspondiente a esta unidad.

3.4. ndice de Promedio Ponderado de Relativos


En estos ndices, las ponderaciones utilizadas son los valores de los tems utilizados en la
construccin del ndice, donde como se researa oportunamente el valor del artculo se define
como el producto del precio por la cantidad ( v it = pit i qit ). Al igual que todos los promedios
ponderados vistos hasta aqu, estos promedios ponderados de relativos se calculan multiplicando cada
relativo por su ponderacin y dividiendo la suma de los productos por la suma de las ponderaciones.
Para el clculo de estos ndices se pueden utilizar los valores del ao base ( pio i qio ), del ao
dado ( pij i qij ) o ponderaciones tericas ( pij i qio pio i qij ). Segn sea la ponderacin adoptada, se
obtendrn ndices equivalentes a los de Laspeyres y Paasche presentados anteriormente.
3.4.1. El ndice Promedio Ponderado de Relativos de Laspeyres
En este ndice se utilizan como ponderaciones los valores correspondientes al
ao base. Si se trata de un ndice de precios, este se obtendr de la siguiente
manera:
Donde:
n p ij
p
ij: es el precio correspondiente al i-simo
p iq

io io
artculo en el perodo j.
i=1 p io
L
IP j/o =
i1 0 0 pio: es el precio correspondiente al i-simo
n
p io i q io
artculo en el perodo base.
i=1
qio: es la cantidad correspondiente al i-simo
artculo en el perodo base.
El ndice de cantidad se va a obtener utilizando las mismas ponderaciones, pero en
este caso considerando como variables los relativos de cantidad de cada uno de los
n artculos contemplados. As, este ndice se obtiene mediante la aplicacin de la
siguiente expresin:

144

Unidad 6: Lo s N m e r o s n d ic e s

IQ j/o =

ij

i=1 q io
n

io
p

i=1

io

iq

iq

io

io

i1 0 0

3.4.2. ndice Promedio Ponderado de Relativos de Paasche


En este ndice se utilizan valores tericos como ponderaciones. Si se trata de un
ndice de precios, se obtendr de la siguiente manera:

IP j/o =

p ij

i=1 p io
n

io

iq

p i q ij
i=1 io

ij

i1 0 0

Donde:
pij: es el precio correspondiente al i-simo
artculo en el perodo j.
pio: es el precio correspondiente al i-simo
artculo en el perodo base.
qit: es la cantidad correspondiente al i-simo
artculo en el perodo en estudio.

Mientras en el ndice de precios se utilizan como ponderaciones los valores de la produccin en el


perodo en estudio a los precios del ao base, en el ndice de cantidad se van a utilizar los valores
de la produccin del ao base a los precios del perodo en estudio. As, este ndice se obtiene
utilizando la siguiente frmula:

IQ P j/o =

ij
p iq
ij io
q
i=1 io

p ij i q io
n

i1 0 0

i=1

IMPORTANTE

Algunas de las ventajas que presentan los ndices promedios de relativos son:

Los precios o las cantidades relativas para cada tem en los agregados
constituyen un ndice simple, que a menudo da informacin valiosa para el
anlisis.
Cuando se introduce un nuevo bien para reemplazar a otro usado anteriormente,
los relativos para un nuevo tem pueden empalmarse a los relativos
para el antiguo, utilizando las ponderaciones de valores anteriores.

Cuando un ndice se calcula seleccionando un tem de cada uno de los numerosos


grupos de artculos, se pueden utilizar los valores de cada grupo como
ponderaciones.
Cuando se construyen diferentes ndices promedios de relativos, todos ellos
de la misma base, se pueden combinar para formar un nuevo ndice.

Actividad N 4
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 4 de la
Gua de Actividades correspondiente a esta unidad.

145

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

4. Algunas Consideraciones Especiales


4.1. El ndice de Valor
Como ya fuera sealado, el valor de un bien se define como el producto de su precio por su
cantidad (v = p . q). A su vez, el valor de un agregado de bienes es la suma de los valores
individuales de los bienes que integran ese agregado ( v = p i q ).
ij

ij

ij

El cambio en el valor de un agregado de valores se mide mediante un ndice


de valor (IV), que se define como:

p ij i q ij
n

IV j/o =

i=1
n

io
p

i=1

iq

i1 0 0

io

Donde:
pij: es el precio correspondiente al i-simo
artculo en el perodo j (perodo dado o en
estudio).
pio: es el precio correspondiente al i-simo
artculo en el perodo base.
qij: es la cantidad correspondiente al i-simo
artculo en el perodo j.
qio: es la cantidad correspondiente al i-simo
artculo en el perodo base.

En este caso no es necesario introducir ponderacin alguna, porque esta es inherente a los
valores mismos.
Se puede apreciar que los precios y cantidades del numerador del ndice de valor son
variables respecto al denominador y -en consecuencia- su resultado no puede responder a las
preguntas que responden los ndices de precio y cantidad. Tenemos entonces que, cuando con el
paso del tiempo los precios crecen (ej.: un perodo inflacionario), resulta difcil poder apreciar si las
modificaciones que se produjeron en el ndice se deben a variaciones en las cantidades, a
variaciones en los precios o variaciones que se produjeron en ambas variables al mismo
tiempo 5.

Vamos a presentar la evolucin del valor de la yerba mate canchada y el brote de la hoja
verde de t.

Produccin, Precios Corrientes y Evolucin del Valor de la Produccin de la


Yerba Mate Canchada y Brote de T. Misiones, 1992-2000.
Yerba Mate
Aos

kg.

$/kg.

p ij qij
2

kg.

$/kg

i=1

IV
(92 = 100)

1992

198.000.000

0,67

191.800.000

0,060

144.168.000

100,0

1993

230.000.000

0,65

226.300.000

0,058

162.625.400

112,8

1994

280.000.000

0,66

209.954.000

0,070

199.496.780

138,4

1995

270.000.000

0,67

211.000.000

0,057

192.927.000

133,8

1996

270.000.000

0,54

203.400.000

0,055

156.987.000

108,9

1997

280.000.000

0,43

220.000.000

0,055

132.500.000

91,9

1998

245.000.000

0,38

265.000.000

0,075

112.975.000

78,4

1999

231.000.000

0,35

266.300.000

0,050

94.165.000

65,3

2000

280.000.000

0,34

228.000.000

0,050

106.600.000

73,9

Valor de
la produccin

Fuente: Direccin de Economa Agraria. Ministerio de Asuntos Agrarios. Posadas, Misiones. 2002.

Se debe tener en cuenta que, en el caso de que ambas variables experimenten cambios, estos se pueden producir en forma
tal que: los precios y cantidades crecen o decrecen simultneamente (provocando un cambio conjunto en el mismo
sentido), o una de estas variables crece mientras la otra decrece, dependiendo la variacin del ndice de valor, de cmo se compensan las magnitudes de variacin producida en los precios y las cantidades.

146

"

Unidad 6: Lo s N m e r o s n d ic e s

El valor de la yerba mate canchada y el brote de t creci hasta 1994 (con un 38,4%
presenta el mayor incremento de la serie), para luego comenzar a disminuir
sostenidamente hasta 1999, en el que se registra una cada en el valor de estos productos
que lo ubican un 34,7% por debajo del que se registrara en 1992. En el ao 2000 se
observa una ligera recuperacin respecto al valor que se registrara en el ao anterior.

El anlisis de esta serie no nos permite discriminar cunto de la variacin observada se


debe a modificaciones en los precios y cunto a cambios en las cantidades producidas, a
menos que elaboremos los ndices de precios y cantidades correspondientes 6.
El ndice de valor puede considerarse como el producto del ndice de precios por el ndice
de cantidad, pero esta divisin del agregado de valores en sus factores de precio y
cantidad se cumple siempre que el ndice utilizado para el cmputo de los dos factores
sea consistente. Es decir, un nmero ndice es consistente si el producto del
ndice de precios por el ndice de cantidad coincide con el ndice de valor.
IV = IP . IQ
Se puede comprobar que ni el ndice de Laspeyres ni el de Paasche cumplen con esta propiedad,
pero el producto de un ndice de precios de Laspeyres por uno de cantidad de Paasche (y viceversa)
dan el ndice de valor 7, lo que permite recomendar obviando otras consideraciones que se deben
tener en cuenta al construir un ndice que si al construir un ndice de precios ponderamos por las

cantidades del ao base, al elaborar el correspondiente ndice de cantidades resulta conveniente


ponderar por los precios del ao dado (y viceversa), para que los niveles de precio y cantidad sean
consistentes.
4.2. El Cambio de Base de un Nmero ndice
Si se desea cambiar la base de un ndice para hacerla ms reciente o para comparar dos ndices
con bases diferentes, el procedimiento es muy sencillo: se debe dividir cada nmero ndice de la
serie por el valor del ndice correspondiente al perodo que se quiere adoptar como base.

Consideremos el siguiente ejemplo, en el que tenemos al ndice Mayorista Nivel


Industrial y deseamos transformarlo para cambiar la base al ao 1992.
Evolucin del ndice Mayorista Nivel Industrial. 1992 - 2000
Aos

ndice Mayorista Nivel Industrial

1992

96,0

1993

97,5

1994

98,2

1995

105,6

1996

109,6

1997

109,7

1998

106,2

1999

108,3

(*)

2000

111,4

(*)

(*)

Valores estimados
Fuente: Misiones, Instituto Provincial de Estadstica y Censos (IPEC)

Para transformar esta serie de ndices Mayoristas en nueva serie con base en el ao 1992,
debemos dividir todos los valores de la serie por el valor del ndice correspondiente a ese ao
(96,0%). As, al ao 1999 le va a corresponder el valor que se obtiene al hacer:
6

Por los clculos realizados anteriormente, podemos saber que, por ejemplo, el crecimiento del 8,9% que tuvo el valor de estos
productos en 1996 se debi al efecto conjunto de una cada de los precios del 17,5% (ndice de precios de Laspeyres), y un
aumento de la produccin del 33,6% (ndice de cantidad de Paasche).

Por ejemplo: IPL IQP =

p q i p q
p q p q
ij

io

ij

ij

io io

ij

io

p q
p q
ij

ij

= IV

io io

147

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

108,3
i100 =112,8%
96,0
La serie reconvertida con este criterio resultara en:
IMA '92=100 (1999) =

Evolucin del ndice Mayorista Nivel Industrial. 1992 - 2000


Aos

ndice Mayorista Nivel


Industrial (1992=100)

1992

100,0

1993

101,6

1994

102,3

1995

110,0

1996

114,2

1997

114,3

96,0
i100
96,0

98,2
i100
96,0

1998

110,6

1999

112,8

(*)

2000

116,0

(*)

(*)

Valores estimados
Fuente: Elab. propia basndose en datos del IPEC.

4.3. El Empalme de Dos Nmeros ndices Solapados


Las ponderaciones de un ndice pueden estar desactualizadas (algo muy comn cuando utilizamos
un ndice de Laspeyres) y debemos entonces construir un nuevo ndice, renovando los factores de
ponderacin. As, tendremos una nueva serie que deber dar continuidad histrica a la serie anterior y
consecuentemente exige lo que se conoce como empalmar ambas series.
En el ejemplo siguiente tenemos dos series que fueron empalmadas en 1996:
Ao
1993
1994
1995
1996
1997
(1)

1er ndice (1)


100,0
95,0
101,0
115,0
126,5

2do ndice (1)


87,0
82,6
87,8
100,0
110,0

95,0
i100
115,0

Los valores grisados se obtuvieron mediante los dos diferentes mtodos de empalme que se
pueden utilizar.

El empalme de las series se puede realizar de dos maneras:

Hacindolos continuos con el ndice antiguo

En este caso se empalma en el perodo que es base del nuevo ndice; la relacin del antiguo al
nuevo ndice que se produce en este perodo prevalece para los perodos que siguen. As, en el
ejemplo, para todo perodo posterior, por regla de tres simple se establece que:
115,0 / 100,0 = x / 110,0 x = (115,0 / 100,0) 110,0 = 126,5
.

Es decir, para cambiar la base del nuevo ndice con el antiguo, se deben multiplicar los
valores del nuevo ndice por un factor constante equivalente a la razn entre el nuevo y el viejo
ndice en el perodo de empalme (en el ejemplo este valor es 1,15).

Hacindolos continuos con el nuevo ndice

Para hacer continuo el antiguo ndice con el nuevo, hay que realizar un cambio de base dividiendo
tal como fuera desarrollado precedentemente todos los valores anteriores a la nueva base por el
valor correspondiente a este perodo.

148

Unidad 6: Lo s N m e r o s n d ic e s

4.4. Procedimiento de Nmeros ndices en Cadena


Nuevos artculos son introducidos casi continuamente a los mercados, lo que obliga a revisar
peridicamente la lista de artculos y los factores de ponderacin correspondientes.
Con este fin se utiliza el procedimiento de eslabones, en el cual se construye un ndice tomando
como base el perodo inmediato anterior; estos ndices como hemos visto pueden ser encadenados
de nuevo a un perodo base comn por un proceso de multiplicacin.

IMPORTANTE
El procedimiento de nmeros ndices en cadena es til porque permite
efectuar cambios en la composicin del ndice de un perodo a otro, pero
se debe tener en cuenta que la comparabilidad estricta se reduce a los
nmeros ndices que siguen inmediatamente a la base fijada.
Cuando los artculos son continuamente sustituidos por nuevos, el significado del
ndice de encadenamiento se vuelve cada vez ms dudoso en el tiempo y, tal vez,
pasado cierto tiempo no se pueda describir qu mide el ndice.

4.5. La Deflacin de una Serie


Las series de datos sobre el valor de alguna magnitud econmica (consumo, produccin, ventas,
inventario, etc.) habitualmente se expresan valuadas segn los precios corrientes (el precio
efectivo) de cada perodo. En otras palabras, en los perodos en que las variaciones de precio son
importantes los cambios en el valor de los bienes no son indicativos de cambios de cantidad, a menos
que podamos eliminar de la serie el efecto de las variaciones en los precios. Al procedimiento de
quitar en las series el efecto de los aumentos de precios, se lo denomina deflactar la serie
o expresarla a precios constantes de un perodo base. El ndice de precios utilizado en esta
funcin recibe el nombre de deflactor o deflactador de la serie.
Para deflactar una serie de valores expresados a precios corrientes, se debe dividir a
cada uno de ellos por un ndice de precios adecuado correspondiente al mismo perodo
8
considerado y luego multiplicar el resultado por cien . Debe observarse que ambas series (de valor y
de precios) tengan la misma base. La nueva serie de valor que as resulta (deflactada o a precios
constantes) refleja las variaciones debidas, nicamente, a la fluctuacin de las cantidades (volumen
de ventas, de produccin, etc.), quedando anulado el efecto de los precios en los cambios del valor.
Evolucin del Valor de la Yerba Mate Canchada y el Brote de T a Precios Corriente y
Precios Constantes. Misiones, 1992-2000.
Aos

IV

IPL

IV

(92 = 100)

(92 = 100)

(precios de 1992)

1992

100,0

100,0

100,0

1993

112,8

97,0

116,3

1994

138,4

100,0

138,4

1995

133,8

99,6

134,3

1996

108,9

81,5

133,0

1997

91,9

66,4

138,4

1998

78,4

62,2

126,0

1999

65,3

54,7

119,4

2000

73,9

53,3

138,6

Fuente: Dir. de Economa Agraria. Min. de Asuntos


Agrarios. Posadas, Misiones. 2002.

La funcin de deflactar es una de las aplicaciones ms frecuentes de los ndices de precios.

149

Coincide con
un ndice de
Cantidad

91,9
i100
66, 4

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Evolucin del Valor de la Yerba y T a Precios de


1992
160
Indice de Valor

140
120
100
80
60
40
20
0
1992 1993 1994 1995 1996 1997 1998 1999 2000
Ao

En el Cuadro y Grfico anterior se presenta la evolucin de la serie deflactada a los precios de


1992 del valor conjunto de la yerba mate canchada y del brote de t. En este caso, se utiliz como
deflactador el ndice de Precios de Laspeyres correspondiente a estos productos; es de
esperar entonces que la serie a precios constantes as obtenida coincida con el ndice de
Cantidades de Paasche 9, atendiendo lo que se planteara precedentemente al tratar la propiedad
de consistencia de los ndices.

Actividad N 5
Antes de continuar con la lectura, es necesario realizar aqu la Actividad No 5 de la
Gua de Actividades correspondiente a esta unidad.

5. Problemas en la Construccin de los Nmeros ndices


5.1. La Seleccin de la Muestra
Lo ms importante que se debe sealar en este aspecto es que el muestreo aleatorio es
raramente utilizado en la construccin de nmeros ndices. Los ndices se construyen a partir de
muestras seleccionadas deliberadamente, dependiendo la representatividad del ndice del hecho de
que todos o la mayora de los precios de los bienes que se juzgan importantes en la poblacin sean
incluidos en su construccin. Hacemos referencia tanto a los bienes que sern incluidos en la
construccin del ndice como a las unidades de observacin en la que se van a observar precios y
cantidades.
Es evidente que el juicio de quien construye el ndice y el conocimiento de los datos que se
investigan tiene importancia primordial. En el caso de un ndice de precios, el que construye el
ndice es quien debe decidir cules son los bienes a ser incluidos, cmo se deben definir los
precios, dnde y cundo se deben reunir las cotizaciones de los precios, etc.
Cuando pretendemos observar la evolucin de los precios en la economa del pas, la decisin
sobre los productos que se van consideran para su construccin, y los referentes para obtener los
precios (y cantidades) se toma en funcin del objetivo planteado para el ndice. Por ejemplo, si el
propsito es describir el comportamiento de las actividades econmicas en general, se buscar
construir un ndice ampliamente representativo, tanto en el tipo de productos que se incluyan como
en las entidades que realizan transacciones con esos productos; indudablemente se trata en este caso
de un ndice que se modificar lentamente porque refleja la evolucin media de una gran variedad de
productos (ej.: el ndice de precios mayoristas). En cambio, si el propsito es resaltar algunos
9

Si IPL . IQP = IV IQP = IV/IPL.

150

Unidad 6: Lo s N m e r o s n d ic e s

aspectos sintomticos de la economa, se seleccionan algunas series que reflejan el comportamiento


de sectores particulares (ej.: el ndice de produccin industrial). Este tipo de ndices, al promediar
productos ms homogneos en trminos de su comportamiento, reflejan de manera inmediata los
efectos de la economa sobre el sector de actividad al que se refieren.
5.2. La Eleccin del Perodo Base
La base debe ser seleccionada en forma cuidadosa de modo que no surjan resultados e
interpretaciones errneas. Existen dos reglas bsicas a seguir en la seleccin de la base:
1. Que el valor de la base sea tpico o normal en relacin con el conjunto de valores de la serie.
Es decir, ni demasiado alto ni demasiado bajo en relacin con los valores de los dems perodos
ya que si esto ocurriera el ndice aparecer crnicamente depreciado o sobreestimado segn el
caso. El valor de la base puede considerarse tpico si coincide con la tendencia general de la
serie.
2. El valor de la base debe ser relativamente reciente. Un perodo base muy alejado en el
pasado hace a los nmeros ndices recientes menos representativos porque los valores
individuales contenidos en el ndice tienden a dispersarse con el tiempo. Adems, las
ponderaciones deben ser actualizadas ya que interesa comparar las fluctuaciones con algn
cuadro de referencia similar al actual.
5.3. La Ponderacin Adecuada
Puede observarse que solo se requiere una exactitud aproximada en las ponderaciones
para que un ndice sea til en la prctica. Cada procedimiento de ponderacin tiene sus mritos
tericos y prcticos, como as tambin sus inconvenientes, siendo importante observar que:

- al cambiar la ponderacin tambin cambia el significado del ndice; por lo tanto la ponderacin
depende del tipo de pregunta que deseamos responder;

- cuando dos tipos de ponderaciones pueden rendir informacin similar, se podr recurrir a la
que requiere menos esfuerzo de clculo o permite una interpretacin ms precisa o
proporcione una mayor consistencia terica.
5.4. La Seleccin del Promedio
Desde un punto de vista estrictamente matemtico al promediar relativos, la media geomtrica o
armnica resultaran ms eficientes que la media aritmtica. Sin embargo esta ltima es la ms
utilizada por su facilidad de clculo y, fundamentalmente, porque su significado es ms fcil
de interpretar.
La representatividad de los promedios obtenidos depende de la forma de distribucin de los
relativos; si los valores estn ampliamente dispersos el ndice puede perder significado. Al respecto se
ha demostrado que los relativos calculados a partir de una base reciente tienen una
pronunciada tendencia central y la proporcin de relativos bajo la clase modal es grande.
Cuando ms remota es la base, la distribucin se hace ms dispersa y negativamente asimtrica, con
una proporcin menor de relativos en la clase modal. Esto sugiere que el ndice es ms representativo
cuando la base es ms reciente.
Tambin se observa una tendencia central ms marcada en grupos de tems que son ms
homogneos (Ej.: productos agrcolas, bienes durables a los consumidores, etc.). Por lo tanto, en
forma ideal, un ndice -como cualquier otro promedio- debera ir acompaado de una medida de
dispersin.
5.5. Los Cambios de Producto
En una economa dinmica, los bienes son reemplazados permanentemente por productos nuevos.
Puesto que la significacin de un ndice depende de la constancia de significado del surtido de bienes
que lo conforman, la comparacin de los niveles de precios o cantidades a partir de puntos distantes
en el tiempo puede ser de difcil interpretacin o carente de sentido. Para atender este tipo de
problemas se utilizan los ndices en cadena, con todas las dificultades que ello acarrea segn se viera
precedentemente.

151

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Por otra parte, mediante estos procedimientos no es posible presentar evidencia cuantitativa
que permita observar los cambios en la calidad de los productos.

6. Qu Hemos Visto?
Hemos desarrollado en esta unidad distintas maneras de obtener nmeros ndices; estos
ndices, que en rigor constituyen maneras particulares de promediar magnitudes, son una
forma clsica y difundida de analizar y presentar la evolucin de diferentes series,
particularmente aquellas que se refieren a precios, cantidades y valores. En la presentacin qued
expresado que este recurso es vlido para analizar series de tiempo como as tambin para realizar
el anlisis de otro tipo de series numricas.
As, tomando como ejemplos series de tiempo, fueron presentados terica y prcticamente
diferentes tipos de nmeros ndices simples (para una sola variable) y compuestos (dos o
ms variables) ponderados y no ponderados, realizando en cada caso la interpretacin de los
valores obtenidos y expresando los alcances y limitaciones de las frmulas utilizadas.
Se consideraron adems algunas cuestiones vinculadas a la utilizacin de los nmeros
ndices y otras que se refieren a problemas que se deben atender en la construccin de los
mismos.

152

Unidad 5: Lo s N m e r o s n d ic e s

Bibliografa
ANDERSON, D. R, SWEENEY, D. J., WILLIAMS, T. A.: Estadstica para Administracin y Economa. 7a
Edicin. Cap. 17. Internacional Thomson Editores. Mxico, 1999.
FERRUCCI, Ricardo J.: Instrumental para el Estudio de la Economa Argentina. Cap. 3. EUDEBA,
Buenos Aires. 1990.
FREDIANI, Ramn O.: Medicin del Desarrollo Econmico y Social de las Provincias Argentinas,
CIPESP. 1979.
YA-LUN CHOU: Anlisis Estadstico. Edit. Interamericana. Mxico. 1972.
YAMANE, Taro: Estadstica, Edit. Harla S.A. Mxico. 1974.

Conceptos Centrales de esta Unidad

Nmeros ndices: concepto y utilidad.


Nmeros ndices simples: diferentes tipos, concepto y propiedades.
Nmeros ndices compuestos ponderados y no ponderados: diferentes tipos, concepto y
propiedades.
Valor y deflactacin de una serie (precios constantes).

Habilidades

Saber construir los diferentes tipos de nmeros ndices.


Conocer los alcances y limitaciones de las frmulas utilizadas.
Poder analizar, interpretar e informar sobre los datos obtenidos.

153

Anexo:
Guas de Actividades

Unidad 1: Gua de Actividades

UNIDAD 1: LA INVESTIGACIN ESTADSTICA


Actividad N 1
Hasta la dcada del 80, el uso de Internet estuvo reservado a especialistas con conocimientos
especficos de computacin, que utilizaban la red tambin para fines especficos. La masificacin de
Internet se da en la dcada de los 90, con la creacin de un entorno amigable que facilitaba la
comunicacin mquina-usuario. Desde entonces, su uso en el mundo ha variado tanto en nmero de
usuarios, como en las caractersticas de las personas usuarias. La variacin en el tipo de usuarios
puede deberse tanto a la disponibilidad de computadoras como al bajo costo del servicio de acceso y
la diversidad de usos que ofrece la red de redes, ampliando entonces la gama de personas que se
interesan en este nuevo recurso. Pero, qu es lo que ocurre en la Argentina?
A continuacin encontrar la trascripcin del artculo Ya hay dos millones de personas
conectadas a Internet, publicado por el diario Clarn el 24/06/2001 mediante el cual se dan a
conocer los resultados de una investigacin realizada por el estudio DAlessio/Irol/Harris. El texto
constituye un buen ejemplo de una investigacin basada en mtodos estadsticos y contiene una serie
de elementos que nos permitirn abordar y ejemplificar conceptos centrales de esta parte del curso.

Ud. deber leer atentamente todo el artculo, registrando los aspectos


centrales del informe: para qu y cmo se realiz el estudio, as
como cules son las principales conclusiones a las que arribaron
los investigadores.
Es importante que realice cuidadosamente esta actividad porque la iremos
utilizando en la presentacin terica de los temas siguientes.

Ya hay dos millones de personas conectadas a Internet


Diario Clarn, 24/06/01
La seduccin del ciberespacio se vuelve cada da ms irresistible en todo el
mundo. Y los argentinos no son la excepcin. En el pas ya hay 2.000.000
de personas conectadas a Internet. Si bien el nmero es bajo respecto de
las previsiones de algunos especialistas -aseguraban que en 2001 seran
3.000.000 los usuarios de la Red-, la cifra es ms que significativa si se
compara con 2000. Es que hace slo un ao haba 1.000.000 de personas
conectadas a Internet. Y en 1997 no llegaban a 70.000. Los datos surgen
de una encuesta realizada por el estudio D'Alessio/Irol /Harris, en base a
una investigacin sobre 1.400 casos. En www.clarin.com se publica una
extensa nota con todos los datos de la encuesta, que est acompaada
por numerosos grficos interactivos.
Ms de 35 aos
Del trabajo se desprenden conclusiones ms que interesantes. Por
ejemplo, que ms del 50 por ciento de los usuarios de la Red tienen ms
de 35 aos. Esto echa por tierra la teora que sostiene que los "grandes"
tienen muchas dificultades para manejar las nuevas tecnologas. Las conclusiones dicen que 4 de cada 10 usuarios son
mujeres y que solo el 3 por ciento de los navegantes est desocupado.
Que haya 2.000.000 de argentinos conectados a Internet significa que el 6 por ciento del pas tiene acceso a la Red.
La cifra es alta comparada con el resto de Amrica latina, donde el promedio ronda el 3 por ciento. Pero es baja en
relacin a Europa, donde el ndice es del 20%. Y no tiene punto de comparacin con la realidad de Estados Unidos y
Canad, pases en los que el 60 por ciento de la poblacin est conectada a Internet.
Los datos dicen que en la Argentina hay 1.265.000 hogares en los que algn miembro de la familia tiene acceso a la
Red. Esto es, en el 14 por ciento de los 9.000.500 hogares del pas vive alguien que se conecta habitualmente a
Internet, independientemente del lugar. Y esto es as porque, segn la encuesta, el 9 por ciento tiene conexin desde
157

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

su vivienda y el restante 5 por ciento lo hace desde el trabajo, un cibercaf o un locutorio.


La distribucin de los 1.265.000 hogares dentro del pas tampoco es demasiado equitativa. Mientras que el 27 por
ciento de las viviendas (907.000) de la Ciudad de Buenos Aires y sus alrededores estn conectada, en el resto del pas
solo tiene acceso a Internet el 6 por ciento de las familias, es decir, 357.000. Esta es una constante en pases como
Brasil o Mxico, donde las grandes ciudades (Ro de Janeiro, San Pablo o el Distrito Federal) concentran la mayor
cantidad de usuarios.
Focalizando el estudio en la regin metropolitana de Buenos Aires, se deduce que el uso exclusivo en el hogar est
estrechamente relacionado con el nivel socioeconmico. En los sectores ms altos (ABC1 y C2) prevalece la conexin
desde la vivienda propia, mientras que en los segmentos medios y bajos sucede a la inversa: la mayora se conecta
desde el trabajo o un cibercaf. Y esto es as ya que no todos tienen una computadora en el hogar. Tambin se da, por
supuesto, el hecho de que hay muchos usuarios que se conectan en ms de un lugar. Durante el da, por ejemplo, lo
hacen desde el trabajo y por la noche desde su casa. Segn la encuesta, la frecuencia de conexin de los usuarios
argentinos es mayor del promedio mundial. El 68% de los entrevistados asegur ingresar a Internet todos los das,
mientras que el uno % lo hace menos de una vez por semana.
Quienes ms horas navegan por la Red son los usuarios que cuentan con ms antigedad en el ciberespacio: el 85
por ciento de los que se conectan todos los das lleva ms de 5 aos navegando. En cuanto a la cantidad de horas de
conexin a la red, el estudio habla de tres tipos de usuarios: el "heavy" (ms de 4 horas todos los das), el "medium"
(de 2 a 3 horas y entre 4 y 6 das) y el "light" (menos de una hora y media entre 1 y 3 das). Los usuarios del primero y
segundo tipo suman el 88 por ciento del total.
Usuarios 2001
La investigacin da por tierra con el mito de que la Web es para adolescentes. Los nmeros muestran que la franja
que va de 25 a 34 aos concentra la mayora de conectados. Son cerca de 640.000, es decir, el 32 por ciento. Tambin
es llamativo que el 50 por ciento de los usuarios tiene ms de 35 aos. Estos datos relativizan los prejuicios tecnolgicos
que hay con respecto a Internet, como que los mayores se sienten "trabados" para ingresar a la Red. Si bien en los
comienzos del ciberespacio la gran mayora de los navegantes eran hombres, hoy en da el 40 por ciento de los usuarios
argentinos son mujeres. En cuanto al perfil del navegante, el 97 por ciento de los usuarios trabaja y el 59 por ciento es
el principal sostn econmico del hogar. El 53 por ciento est en pareja y muchos de ellos tambin son padres.
Lentamente, y a pesar de las trabas econmicas, la clase media tambin est ingresando al ciberespacio. Se estima
que cuenta con 3.000.000 de usuarios, un 16 por ciento del total. Pero de la integracin de las franjas media y media baja depende la expansin de Internet en la Argentina.
INFORME: HORACIO BILBAO
De la Redaccin de clarin.com

Actividad N 2
Cuando se planifica o se intenta comprender una investigacin desarrollada con mtodos
estadsticos es necesario, por un lado, identificar claramente la situacin problemtica abordada por el
estudio, y que puede precisarse en alguna o varias preguntas de investigacin. Simultneamente, es
necesario definir con precisin (o reconocer) algunas caractersticas del trabajo (poblacin, unidad de
anlisis, etc.) para determinar el alcance que podemos dar a la interpretacin de los resultados.

El objetivo de esta actividad es que analice el artculo siguiente e


identifique tanto los aspectos relativos al problema de investigacin
como aquellos conceptos estadsticos necesarios para evaluar o
comprender los resultados.

En promedio, hay entre ocho y nueve rboles por cuadra en Buenos Aires
Diario Clarn, 08/07/01
Sin contar los que estn en plazas y parques, suman ms de 400.000 ejemplares. Hay unas 500 especies distintas.
El ms abundante es el fresno, con el 40% del total. El 13% del arbolado urbano sufre alguna enfermedad.
Mayora de fresnos, cientos de plantas exticas. Abundante presencia de palmeras y muchos rboles afectados
por cables y zanjas que dificultan su crecimiento. Estos son, a grandes rasgos, los primeros resultados del censo de
rboles que hace un ao puso en marcha la Secretara de Medio Ambiente del Gobierno porteo junto con las
Facultades de Agronoma y Ciencias Exactas de la UBA y la empresa Sistemas Catastrales S.A. Esta es la primera vez,
desde que se comenz con el arbolado urbano a fines del siglo XIX, que se realiza un censo global sobre la cantidad
158

Unidad 1: Gua de Actividades

de rboles de la ciudad y el estado en que se encuentran.


El trabajo es minucioso y se realiz recorriendo las 12 mil manzanas de la ciudad para contabilizar, uno por uno,
cada rbol plantado en la veredas, verificar a qu especie pertenece y conocer su estado sanitario. Todos estos datos
permitieron obtener un diagnstico exacto de la situacin del arbolado urbano.
Con un promedio de 8 a 9 rboles por cuadra, Buenos Aires cuenta con ms de 400 mil ejemplares fuera de los
rboles que se encuentran en los espacios verdes. La mayora son rboles pero tambin hay gran cantidad de
arbustos y un nmero considerable de palmeras.
En 1885 la ciudad contaba con menos de 100 mil ejemplares. Y la dcada del 40 fue la de mayor plantacin y
reposicin de ejemplares. Despus, distintos factores hicieron disminuir el nmero de rboles. El censo permitir
mantener datos actualizados para organizar futuras plantaciones.
El crecimiento desmesurado de la ciudad en la ltimas dcadas impidi un mayor desarrollo de los rboles en las
veredas. Entradas de garajes y paradas de colectivos fueron algunos de los obstculos para ubicar mayor cantidad de
rboles en los frentes. Si bien Buenos Aires tiene un dficit de espacios verdes, la cantidad de rboles que hay en las
veredas es razonable, dijo Norberto Laporta secretario de Medio Ambiente de la Ciudad. Sin embargo, las autoridades
consideran que hara falta plantar, por lo menos, 25 mil rboles ms. Estos resultados nos van a permitir actuar con
mayor certeza sobre los rboles existentes y sobre qu polticas aplicar en el futuro, destac.
Segn los resultados arrojados por el censo, el 13 por ciento del arbolado urbano padece alguna plaga o
enfermedad, que se manifiesta principalmente por distintos tipos de cavidades en sus troncos. Sin embargo, el
porcentaje de rboles secos es muy bajo: menos del 3 % se encuentra en esa condicin.
Uno de los datos ms interesantes que surgen del censo es la cantidad de especies que se encuentran en las
calles de Buenos Aires: ms de 500 distintas, muchas de las cuales exticas.
El fresno es el rbol que ms abunda en la ciudad con ms del 40% del total de ejemplares. Despus le siguen el
pltano (9%), el paraso (8,5%), el ligustro (4%), el tilo (4%) y el ficus benjamina (3%). Pero las especies autctonas
tienen escasa presencia en la ciudad: apenas un 2,2% de tipas y un 2% de jacarandaes.
El predominio del fresno, originario de Amrica del Norte, tiene que ver con su resistencia a las plagas y
enfermedades y con su crecimiento rpido. Por eso, a partir e la dcada del 80, se decidi plantarlo en reemplazo de
sauces, lamos y gomeros, que haban provocado problemas con las caeras subterrneas y en las veredas por sus
races invasivas.
El censo mostr algunos datos, por lo menos, llamativos. Uno es la importante presencia de palmeras en la
ciudad: ms de 1000 ejemplares, la mayora del tipo pind, una especie autctona del norte del pas. Las palmeras se
encontraron principalmente en zonas como Villa Devoto y alrededor de varios centros comerciales.
El otro dato llamativo es la gran cantidad de plantas y rboles exticos que hay en las veredas porteas. El
censo descubri especies tropicales como el mango y la guayaba, algunos ginko bilobas, originarios de la China, aloe
vera y otras ms raras, sobre todo para desarrollarse en el reducido espacio de un cantero, como las secuoias y las
araucarias.
Este fenmeno est relacionado con la intervencin directa de los vecinos que muchas veces plantan
ejemplares sin conocer cules son los ms adecuados para cada lugar. Los rboles se adaptan, pero terminan
sacrificados por las condiciones en que deben crecer, explic Gabriela Campari, coordinadora general del censo.
Adems, algunos factores como el cambio climtico que sufri la ciudad en los ltimos aos permiti el
desarrollo de ciertas especies como las tropicales- que, dcadas atrs, no hubieran crecido.
De acuerdo con el censo, el 42% de los rboles porteos tiene entre 20 y 30 aos. Y un 12% son aejos, de
ms de 60 aos.
Por otra parte, un 18 % de los rboles que viven en la ciudad padece algn tipo de interferencia que afecta su
normal crecimiento. Cables areos, zanjas subterrneas, veredas rotas por las empresas de servicios, entre otras
causas, interfieren en el desarrollo de los rboles. Y otro 13% sufre algn tipo de maltrato por los carteles o cestos
de residuos clavados en sus troncos, pintadas con aerosol, hilos de pasacalles y troncos destrozados o quemados. La
mayora de los ejemplares suele adaptarse pero termina teniendo una vida til mucho ms corta.
Los barrios de casa ms bajas mostraron una mayor presencia de rboles, mientras que el micro y macro centro
todava son reas donde el gris predomina sobre el verde.
Los ficus rompen las veredas y obstruyen los desages
Este censo permitir aplicar polticas ms pedaggicas entre los vecinos que suelen realizar podas clandestinas o
plantar especies poco recomendables, dijo Fabio Mrquez, coordinador del rea de nuevos paisajes verdes de la
Direccin de Espacios verdes portea.
En este sentido, los mayores problemas los causa el ficus, de la familia del gomero. El ficus puede crecer hasta el
tamao de un omb y sus races suelen romper las veredas. Adems, sus hojas, que contiene ltex, se pudren mucho
ms tarde que las de otras especies y permanecen obstruyendo los desages por ms tiempo.
Por otra parte, los rboles constituyen el patrimonio natural de la ciudad y, en muchos casos, tardaron varias
159

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

dcadas en alcanzar su plenitud. Sin embargo, hay gente que no lo entiende. Es el caso de algunos comerciantes que
sacan rboles de su frente porque les tapan las marquesinas cont Mrquez -. Por eso, a partir de ahora, se va a
tener en cuenta un criterio ms paisajstico, con cada plantacin. No es lo mismo una calle con edificios torre que una
con casas bajas; una avenida que una callecita ms angosta.
Por ejemplo, a partir de la remodelacin prevista para la avenida Corrientes, donde hoy no hay casi rboles, se
van a plantar decenas de ejemplares de ibirapit, un rbol autctono que crece relativamente rpido y resiste
bastante la contaminacin.
Hoy, dos de las especies ms frecuentes en la ciudad, el paraso y el pltano, o bien son muy poco resistentes a la
polucin (los parasos) o, aunque resisten ms que otros la contaminacin (los pltanos), provocan alergias en las
personas.
Resultados de una encuesta entre 1.500 vecinos
Mientras se realizaba el primer censo de rboles de la ciudad, la Secretara de Medio Ambiente portea organiz una
encuesta entre vecinos (realizada por los Centros de Gestin y Participacin y los auxiliares vecinales en las calles). El
objetivo era conocer la opinin de los ciudadanos sobre los rboles que tiene en los frentes de su casas. Sobre mas de
1.500 encuestados, stos fueron los resultados.

La mayora cree que el mayor beneficio que le aportan los rboles es la sombra. Tambin la oxigenacin, la
belleza y la amortiguacin de los ruidos.
El 90% de los consultados prefiere las especies que dan sombra y las que tienen flores llamativas.
Entre los principales problemas enumerados por los encuestados, en primer lugar est la alergia (casi siempre
coincide con la presencia de pltanos), y en segundo lugar, la obstruccin de los desages por las hojas.
Otros encuestados se quejan de las ramas que tapan las luces y algunos temen la cada de los ejemplares. No
faltan tampoco los que se quejan porque las hojas le ensucian el auto.
Muchos admiten que ellos mismos plantaron el ejemplar frente a su casa. Y la mayora eligi el ficus.
Algunos chicos admiten que les gustan los rboles porque pueden treparse. Y otros confiesan que les asustan
las sombras de sus copas.
Diario Clarn, 08/07/01

Leyendo atentamente el artculo...

1.
2.
3.

4.
5.
6.
7.
8.

Cules fueron los motivos que condujeron a realizar este estudio? En otras
palabras, cul es la importancia de los resultados de este trabajo?
El artculo podra titularse con la pregunta general que orient la
investigacin. Qu pregunta elegira Ud. como ttulo para esta nota?
Para poner un subttulo podra desagregarse esa pregunta general en varias
preguntas que ilustren sobre aspectos ms especficos de este trabajo de
investigacin. Proponga algunas sub- preguntas.
Defina con la mayor precisin posible, a qu o quines (objetos o
sujetos) se est describiendo en este estudio? (Unidad de anlisis).
Defina el conjunto total de esos elementos a los que se refiere la
investigacin (Poblacin bajo estudio).
Cules son las caractersticas o variables de esos elementos que se
consideraron relevantes para responder los objetivos propuestos?
A qu tipo de variable (numrica o categrica) corresponde cada una de las
identificadas en el punto anterior?
Basndose en la lectura de los resultados del estudio, identifique algunas
de las preguntas estadsticas, en que se tradujeron las preguntas de
investigacin.

Actividad N 3
Para continuar el anlisis del artculo de la actividad anterior: En promedio, hay entre ocho y
nueve rboles por cuadra en Buenos Aires, deber responder a las siguientes preguntas:

160

Unidad 1: Gua de Actividades

Leyendo atentamente el artculo...


1. Cmo fueron obtenidos los
longitudinal; censo o muestra).

datos?

(observacin

transversal

2. A modo de sntesis del anlisis anterior complete el siguiente cuadro (que

en lo sucesivo denominaremos "Ficha tcnica"). Esta ficha indica algunas


caractersticas de la investigacin, que es fundamental tomar en cuenta
para evaluar el alcance de las conclusiones de cualquier investigacin
estadstica. Realice esta tarea con la informacin disponible en el texto.
Es posible que no tenga toda la informacin necesaria, cuando esto sea
as, djelo indicado.

Fuente (Organizacin/es que realiz el estudio):


Resea de los objetivos:
Poblacin:
Unidad de anlisis:
Fuentes de datos utilizadas (primarias o secundarias):
Tipo de observacin realizada (transversal o longitudinal):
Tipo de estudio (enumeracin completa o muestra):
Tamao de la poblacin:
Tamao de la muestra *:
Fecha de realizacin:
*si corresponde

Actividad N 4
En esta actividad encontrar distintos ejemplos que le permitirn revisar sus conocimientos sobre
los principales temas tratados en la Unidad N 1.
A. Una aerolnea distribuye entre los pasajeros que embarcan a uno de sus vuelos (Vuelo BA 178), el
siguiente cuestionario:
OPININ DE LOS PASAJEROS DEL VUELO BA 178
Formulario n: .......
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos complete
este formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ........
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB

MM

a. Cordialidad del personal en el Check-in


b. Informacin recibida en el Check-in
c. Anuncios para el embarque
d. Cordialidad del personal de embarque

Muchas gracias

161

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I




1. Cul es la unidad de anlisis a la que se referirn los datos recogidos


mediante el cuestionario?
2. Cuntas variables fueron observadas?
3. A qu tipo de variables (cuantitativa o cualitativa) corresponde cada una?
4. Cules son los valores posibles de cada una de las variables en
observacin?

B. Cada una de las expresiones siguientes corresponden a resultados de alguna investigacin basada
en herramientas estadsticas.
Identifique en cada caso: la unidad de anlisis a la que se refieren, la
variable en estudio, y el tipo de variable (numrica o categrica).

Un 50% de los jubilados cobra menos de $500 mensuales.


El 74% de los egresados universitarios ve poco probable la prdida de su empleo.
El 27,8% del total de los hogares del pas tiene como jefe de hogar a una mujer.
En la Argentina, hay ms mujeres que hombres.
En la pcia. de Mnes. hay 14 municipios de primera categora (ms de 10.000 habitantes).
En el Gran Bs. As. el 40% de los mayores de 60 aos vive en hogares de tres o ms personas.
En el 85% de los municipios de la provincia de Misiones los varones son mayora.
En el ao 1996, siete universidades del pas registraron ms de 10.000 nuevos inscriptos.
En general, las mujeres trabajan menos horas que los hombres.
La mayora de los turistas que visitaron Bs. As. en Semana Santa, llegaron en auto o micro y una
cuarta parte de esos turistas eran extranjeros.
C. Si realizramos una encuesta a todos los estudiantes que estn cursando en el presente ao,
Estadstica I en la Fac. de Hum. y Cs. Soc. de la UNaM, con el propsito de conocer sus
caractersticas personales y ocupacionales. Le preguntamos entre otras cuestiones:

Qu edad tiene usted? (en aos cumplidos).


Trabaja?
Cuntas horas semanales trabaja? (si no trabaja escriba 0).
En qu ciudad reside habitualmente?
Dispone de conexin a Internet en su casa?

a. Cules son las variables que estudiaramos en este ejemplo?


b. Para cada una de esas variables indique su tipo (numrica: continua discreta o categrica: nominal-ordinal).
c. Describa o indique los valores posibles de cada las variables anteriores.
d. Cul es la poblacin en estudio? Cul la unidad de anlisis?
e. Proponga otras variables que considere relevantes al propsito del
trabajo: una nominal, una ordinal, una numrica; indicando para cada
una de ellas sus valores posibles.
f. Cmo calificara a esta forma de observacin: transversal o
longitudinal?
g. Tal como est propuesto el trabajo, se trata de una observacin por
muestra o enumeracin completa?
h. En las condiciones mencionadas en el punto anterior, ser necesario
realizar inferencias estadsticas? Justifique.

162

Unidad 1: Gua de Actividades

D. El gerente de una importante agencia de viajes se propone disear una estrategia de ventas para
la prxima temporada alta de invierno. Para ello, y con el propsito de conocer mejor las
caractersticas y preferencias de sus clientes, realizar un estudio a partir de los datos que registra
la agencia en la Base de Clientes. Ha decidido trabajar solamente con aquellos que registran
alguna operacin (compra de pasajes, de excursiones, reservas hoteleras, etc.), realizada en la
temporada Diciembre-Febrero de 2002.
Nuestro gerente se ha planteado algunas preguntas generales que guiarn su trabajo, y las ha
concretado en otras preguntas estadsticas para orientar la bsqueda y el anlisis de los datos.
En el listado siguiente, aparecen mezcladas las preguntas de uno y otro tipo.

Qu tipo de productos compran?


Son mayoritariamente grupos familiares?
Cuntas personas viajan solas?
Quines son nuestros clientes?; Cul es el perfil sociodemogrfico de mis clientes?
Qu porcentaje de clientes compran nicamente billetes de avin?
Qu edad tienen nuestros clientes?, predominan los jvenes o los adultos?
Son los clientes jvenes los que eligen ms frecuentemente los viajes al exterior?
Qu forma de pago eligen?
Pagan mayoritariamente en efectivo o con tarjeta?
Prefieren pagar en cuotas?
Cul es el rango de gasto ms frecuente?
Qu proporcin de clientes gastan ms de $2.000?

a. Reconozca en cada una si se trata de una pregunta de


investigacin o una pregunta estadstica.
b. Para cada pregunta estadstica, defina la o las variables para las
que Ud. recogera datos de los registros de la empresa.
c. Proponga otras preguntas estadsticas para cada pregunta general
de investigacin.
d. De qu tipo es la fuente de datos que se utilizara en este
trabajo?
e. Cmo definira usted a la poblacin en estudio?

EVALUACIN PARCIAL -Unidad IDos son los propsitos de esta actividad. El primero es ofrecerle a Ud. un problema de trabajo que
le permitir revisar y ejercitar sus conocimientos sobre los temas de esta primera unidad. El
segundo propsito es permitirnos a los docentes evaluar sus avances en el aprendizaje.
El texto que se transcribe a continuacin fue extrado del informe final de la investigacin
Satisfaccin del Cliente, realizada por la Licenciada en Turismo CRISTINA TETZLAFF (diciembre de
1999), como Monografa de Grado para alcanzar el diploma de licenciatura.
El estudio tiene por tema general el anlisis y evaluacin de la calidad del servicio que presta a
sus pasajeros un importante hotel de la ciudad de Posadas1. En la presentacin del estudio, la autora
seala que el presente trabajo, por consiguiente, puede ser de gran utilidad para el hotel, por cuanto
se tratar de determinar el grado de satisfaccin de los clientes para la posterior elaboracin de un
Plan de Marketing, proponiendo estrategias tendientes a satisfacer las expectativas y necesidades del
cliente y consecuentemente cumplir con las metas de la empresa.
Los objetivos generales propuestos a tales fines son los siguientes:

Al que identificaremos como NHTL (nuestro hotel).


163

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

1. Detectar y analizar el grado de satisfaccin que generan en los huspedes del hotel NHTL, los

servicios prestados por el mismo.


2. Proporcionar informacin que permita elaborar y desarrollar estrategias para el mejoramiento de
la calidad y, consecuentemente, de marketing.
La investigacin se refiere a los huspedes del hotel, registrados durante los meses de marzo,
abril y julio de 1998. Ante las limitaciones de tiempo y recursos para realizar el trabajo, se observ
una muestra fortuita de 150 pasajeros en el perodo sealado.
Adems de los correspondientes a la encuesta, y con el propsito de analizar la evolucin de la
demanda del hotel en el perodo 1994-1998, se utilizaron los datos sobre ocupacin mensual de NHTL
que se presentan en la tabla siguiente.
Porcentaje mensual de ocupacin de NHTL
Enero de 1994/Octubre de 19982
Mes

1994

1995

1996

1997

1998

Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

34,52
37,11
35,55
45,57
39,06
44,23
55,45
49,29
45,40
43,62
41,15
39,48

27,58
24,25
33,52
23,05
20,74
22,34
33,33
26,59
27,50
37,06
32,00
26,74

22,77
22,26
26,68
25,80
27,13
31,43
38,97
39,42
34,03
35,68
31,43
29,69

22,55
21,00
26,71
37,83
37,13
32,87
48,87
36,74
40,17
29,84
34,83
32,39

26,80
32,80
43,53
40,99
29,59
23,05
47,58
44,09
51,71
37,57

TOTAL

42,57

27,90

30,44

33,41

En relacin con este aspecto el informe expresa: ... el ao de mayor ocupacin ha sido 1994, esto
es dos aos despus de haber iniciado sus actividades el hotel.
En el ao 1995 hubo una fuerte capacidad ociosa durante todo el perodo. Las causas de este
fenmeno pudieron haber sido varias, una de ellas el cierre del hotel durante una semana en el mes
de abril para la regularizacin de ciertos aspectos internos de la empresa. Otra pudo haber sido la
cada de la bolsa mexicana, cuya repercusin, conocida como efecto tequila afect la economa de
muchos pases del mundo entre ellos la de la Argentina. ... [en] los aos 1996, 1997 y parcialmente a
1998, se observa como fue recuperndose lentamente el hotel despus de su cada de 1995.
En cuanto al Perfil de los huspedes, y basado en el anlisis de los datos de las encuestas, en
el informe se sealan las siguientes conclusiones:
Tipo de Huspedes de NHTL
De acuerdo con el criterio tomado para segmentar a los
Pasajeros
%
Tipo
huspedes, el 35% de ellos son habituales. Esto est
Habitual
53
35,3
directamente relacionado con el motivo de visita, ya que
No Habitual
97
64,7
en su mayora son hombres de negocios, que vienen a la
ciudad de Posadas por razones de trabajo.
TOTAL
150
100,0
Debido a este motivo laboral de visita, la mayora de los
huspedes se hospeda solo en el hotel y un considerable porcentaje lo hace con colegas.

Los porcentajes de ocupacin estn basados en las habitaciones ocupadas, independientemente del nmero de camas con
que cuente cada una de ellas.
164

Unidad 1: Gua de Actividades

Si tenemos en cuenta el lugar de origen de los encuestados, vemos que el 91% reside en la
Argentina, de los cuales el 50% proviene de Bs. As. (Capital y Gran Bs. As.), el 11% de la provincia
de Corrientes, y el porcentaje restante de Santa Fe y Chaco.

Al margen del porcentaje de encuestados que reside habitualmente en nuestro pas, el 3%


proviene del Paraguay y los dems son oriundos de Brasil, Chile, EEUU y Espaa.
Finalmente, en cuanto al perfil de la demanda, podemos decir que la mayora de los huspedes del
hotel NHTL tiene entre 30 y 50 aos de edad, y que el 86% es de sexo masculino, lo cual est
relacionado con el motivo de visita, negocios.
En cuanto a la ocupacin o profesin de la demanda las encuestas dieron como resultado que el
52% son profesionales, el 25% son empleados y el porcentaje restante lo conforman comerciantes,
empresarios, gerentes y otros. Este alto porcentaje de profesionales y personas calificadas en
general, nos da la pauta de la importancia que tienen sus opiniones en cuanto a la calidad de los
servicios, por el hecho de que generalmente ya conocen otros hoteles, ya sea a nivel nacional o
Internacional, y por lo tanto son conocedores de los servicios que debe brindar un hotel de categora
cuatro estrellas.
Con respecto al Grado de satisfaccin de los huspedes del hotel NHTL, el informe seala:
El grado de satisfaccin de un cliente depende de la relacin entre las expectativas que tena
respecto a lo que pensaba que deba recibir y las percepciones sobre lo que recibi.
Logr Satisfacer sus expectativas?
Cuando se consult a los huspedes respecto a
%
Grado de Satisfaccin Pasajeros
si lograron satisfacer sus expectativas, el 87%
6
4,0
Super sus expectativas
respondi que s logr satisfacerlas, el 9% que
131
87,0
Logr satisfacer
no logr satisfaccin, y el 4% sostuvo que sus
expectativas hacia el hotel fueron superadas.
No logr satisfacer
13
9,0
Al solicitar que califiquen su experiencia en el
TOTAL
150
100,0
hotel, los huspedes sostuvieron que esta fue
buena o muy buena, en porcentajes similares (aproximadamente el 45% para cada categora de
respuesta). Y respecto a si volveran a alojarse en el hotel, el 99,3% sostuvo que s lo hara.

1. El informe anterior se basa en diversos conjuntos de datos, algunos de ellos


originados en la observacin transversal y otros en la longitudinal. Deber
identificar cules son los datos transversales y cules los datos
longitudinales utilizados.
2. En el caso de los datos longitudinales, deber identificar: unidad de anlisis
observada, variable en estudio y perodo de la serie de datos utilizada.
3. Elaborar una sntesis metodolgica de la encuesta realizada a los pasajeros de
NHTL, indicando:

unidad de anlisis observada,


poblacin en estudio,
alcance del relevamiento (enumeracin completa, por muestra), tipo y
tamao de la muestra (si corresponde).
4. Identificar en el texto y listar todas las variables utilizadas para describir el
Perfil de los huspedes y su Grado de satisfaccin.
5. Para cada una de las variables listadas en el punto anterior agregar con todo
el detalle posible:
definicin de la variable en cuestin y su tipo (numrica: discreta,
continua, categrica: nominal, ordinal),
identificacin de los valores que son mencionados en el texto.

165

Unidad 2: Gua de Actividades

UNIDAD 2: ORGANIZACIN Y DESCRIPCIN INICIAL DE LOS


DATOS
Actividad N 1
En la Gua de Actividades de la Unidad 1 hemos trabajado sobre una encuesta realizada a los
pasajeros de una aerolnea (Actividad 4.A). A continuacin presentamos los formularios completados
por algunos de los pasajeros:
OPININ DE LOS PASAJEROS DEL VUELO BA 178
Formulario n: ...1....

Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos
complete este formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..60......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB
a. Cordialidad del personal en el Check-in

MM

b. Informacin recibida en el Check-in

c. Anuncios para el embarque

X
X

d. Cordialidad del personal de embarque

Muchas gracias

OPININ DE LOS PASAJEROS DEL VUELO BA 178


Formulario n: ...2....

Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos
complete este formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..80......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB

MM

a. Cordialidad del personal en el Check-in

b. Informacin recibida en el Check-in

c. Anuncios para el embarque

d. Cordialidad del personal de embarque

Muchas gracias

167

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

OPININ DE LOS PASAJEROS DEL VUELO BA 178


Formulario n: ...3....
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos complete este
formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..45......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB

MM

a. Cordialidad del personal en el Check-in


b. Informacin recibida en el Check-in

c. Anuncios para el embarque

d. Cordialidad del personal de embarque

X
Muchas gracias

................
.................
OPININ DE LOS PASAJEROS DEL VUELO BA 178
Formulario n: ...136....
Sr. Pasajero: como nuestra intencin es seguir mejorando nuestros servicios, le rogamos complete este
formulario y lo entregue a nuestro personal.
1) Tiempo de espera para el Check-in (en minutos): ..120......
2) Califique como Muy Bueno, Bueno, Regular, Malo, Muy Malo a los siguientes aspectos del servicio:
MB

MM

a. Cordialidad del personal en el Check-in

b. Informacin recibida en el Check-in

c. Anuncios para el embarque

d. Cordialidad del personal de embarque

Muchas gracias

Basndose en los formularios, construya una matriz de datos para organizar esta
informacin y complete con los datos de los formularios anteriores

Actividad N 2
Durante el primer semestre de 2000, el movimiento internacional de pasajeros extranjeros que
llegaron a la ciudad de Buenos Aires por los Aeropuertos Jorge Newbery, y Ezeiza, y el Puerto de
Buenos Aires totaliz 1.934.854 personas. Estos extranjeros que ingresaron al pas estaban
conformados por 959.688 turistas procedentes de pases del Mercosur, 205.095 chilenos, 162.528
provenientes del resto de Amrica Latina, 274.749 de Estados Unidos y Canad, 286.358 de Europa,
y el resto de los pasajeros provienen de otros pases.
(Fuente: Sec. de Desarrollo Econmico del Gob. de la ciudad de Bs. As., basndose en datos del INDEC).
168

Unidad 2: Gua de Actividades

Basndose en la informacin del texto anterior, construir una tabla de


distribuciones de frecuencias que resuma esos datos y el grfico que considere
ms apropiado para presentar el aporte turstico de los diferentes pases o
regiones.

Actividad N 3
Durante el mes de mayo/94 se desarroll una encuesta por muestreo en el Parque Nacional de
Iguaz, con el objeto de recabar informacin sobre los hbitos de los turistas que visitaban este
recurso. Entre otras cuestiones, se les indagaba sobre la cantidad de noches (pernoctes) que
pensaban permanecer en la regin. Seguidamente se detallan los datos obtenidos sobre esta variable,
correspondientes a cada una de las 156 encuestas realizadas en esa oportunidad.

Sobre la base de los datos presentados a continuacin, construir la distribucin


de frecuencias en sus formas numrica y grfica, y describir el comportamiento
de los turistas de la muestra en relacin con esta caracterstica.

encuesta noches

encuesta noches

encuesta noches

encuesta noches

encuesta noches

33

65

97

129

34

66

98

130

35

67

99

131

36

68

100

132

37

69

101

133

38

70

102

134

39

71

103

135

40

72

104

136

41

73

105

137

10

42

74

106

138

11

43

75

107

139

12

44

76

108

140

13

45

77

109

141

14

46

78

110

142

15

47

79

111

143

16

48

80

112

144

17

49

81

113

145

18

50

82

114

146

19

51

83

115

147

20

52

84

116

148

21

53

85

117

149

22

54

86

118

150

23

55

87

119

151

24

56

88

120

152

25

57

89

121

153

26

58

90

122

154

27

59

91

123

155

28

60

92

124

156

29

61

93

125

30

62

94

126

31

63

95

127

32

64

96

128

169

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Actividad N 4
Tomando en consideracin la tabla siguiente:
Distribucin de la poblacin por edades Pcia. de Misiones. 1991
Edad
0-9
10-19
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90 y ms
TOTAL

Poblacin
219.474
175.189
118.516
101.689
70.091
49.739
32.611
15.704
5.001
901

Haga un comentario sobre las caractersticas


ms destacables de la distribucin de la
poblacin de Misiones segn edades.

788.915

Fuente: INDEC- Censo Nac. de Pob. y Vivienda 1991

Actividad N 5
Ingreso

Frecuencia (*)

En el estudio sobre los alumnos de Estadstica se pregunt


entre otras variables el ingreso mensual del hogar, con el
propsito de disponer de un indicador del nivel econmico
de los estudiantes del curso. Los datos obtenidos se
presentan en un arreglo de frecuencias y en un diagrama de
tallo-hoja.

80
1
130
1
145
1
150
2
180
1
200
6
250
1
300
14
Ingreso: Diagrama de Tallo-Hoja
340
1
Frecuencia Tallo - Hoja
350
6
400
11
1
0 . 8
450
3
5
1 . 34558
480
1
7
2 . 0000005
21
3 . 000000000000004555555
500
14
15
4 . 000000000005558
550
1
16
5 . 0000000000000056
560
1
2
6 . 05
600
1
4
7 . 0005
650
1
9
8 . 000000005
700
3
1
9 . 0
750
1
9
10 . 000000000
1
11 . 0
800
8
0
12 .
850
1
2
13 . 00
900
1
0
14 .
1000
9
2
15 . 00
1100
1
9 Extremos
(>=1600)
1300
2
1500
2
Ancho del tallo: 100
Cada hoja:
1 caso
1600
2
1800
2
2000
5
104
Total
(*) 35 estudiantes no declaran el ingreso del hogar.

170

Unidad 2: Gua de Actividades

A partir de ellos:

Presente los datos en una tabla que resuma mejor los ingresos del hogar de
los estudiantes, utilizando el o los criterios que considere ms apropiado(s)
para definir esos intervalos de clase. Comente las decisiones adoptadas para
obtener la tabla anterior.
Justifique la necesidad de utilizar intervalos de clases para esta distribucin.

Actividad N 6




Para la distribucin en intervalos de clase de la actividad anterior, construya el


histograma y polgono de frecuencias correspondiente.

Tomando en consideracin la tabla y grficos, comente el comportamiento de


la variable ingresos del hogar. Le sugerimos que para esta descripcin tome
en cuenta tanto la forma de la distribucin, como los detalles numricos que
pueda aportar desde la lectura de la tabla.

Actividad N 7
Para la tabla construida en la actividad 5, calcule las frecuencias relativas y
acumuladas (absolutas y relativas).

Con estas transformaciones de las frecuencias absolutas, Ud. dispone de otras


herramientas de anlisis que le permiten enriquecer su lectura anterior de los
datos. Escriba nuevamente su comentario sobre los ingresos.

Actividad N 8
En el trabajo sobre el curso de Estadstica se requiri tambin el Nivel de Estudios de la Madre del
estudiante. En la tabla siguiente se presenta la distribucin de frecuencias correspondientes.
Estudiantes del curso de Estadstica segn
Nivel de estudios de la Madre - FHyCS-Ao 2001
Nivel Estudios Madre Frecuencia
Ninguno

Primario Incompleto

33

Primario Completo

42

Secundario Incompleto

23

Secundario Completo

14

Terc./Univ. Incompleto
Terc./Univ. Completo
TOTAL

7
15
136

(*) Hay 3 estudiantes que no declaran el


nivel de estudios de su madre.

Elabore para esta tabla las transformaciones


que considere necesarias, y compare esta
distribucin con la del nivel de estudios de los
padres que se present en las notas de
ctedra.
Destaque a manera de conclusin aquellos
aspectos que considere ms relevantes para
describir las semejanzas y diferencias en la
educacin formal de los padres de los
estudiantes.
Proponga
grficos
que
expresen
semejanzas y diferencias observadas.

171

las

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

Actividad N 9
La distribucin que sigue corresponde a jefes de hogares de la ciudad de Posadas, distribuidos
segn escala de ingreso. Los datos fueron obtenidos por la Encuesta Permanente de Hogares en
1993.
Ingresos monetarios de jefes de hogares Posadas, 1993
Ingreso
($)

Jefes de
Hogares

235-280
280-325
325-385
385-465
465-545
545-630
630-725
725-835

184
342
2354
864
738
546
379
486

TOTAL

5892

Jef. de Hog.
Acum.

Ingreso Total
Acum. ($)

184
526
2880
3744
4482
5028
5406
5892

47380
150835
987505
1354705
1727395
2048170
2190865
2569945

Fuente: Encuesta Permanente de Hogares

Construir la Curva de Lorenz.


Obtener el coeficiente de Gini.
Interpretar los resultados obtenidos.

Actividad N 10
Prctico complementario
En esta actividad encontrar distintos ejemplos que le permitirn revisar sus conocimientos
sobre los principales temas tratados en la Unidad N 2.
1. Cul es el propsito de construir tablas de distribuciones de frecuencias?
2. En relacin con la matriz de datos cul es la informacin que se pierde al construir una tabla
de frecuencias? Evale la situacin para el caso de distribuciones de variables categricas,
arreglos y distribuciones en intervalos de clase.
3. Explique en qu situacin se planteara la necesidad de construir:
a. una distribucin con clases abiertas,
b. una distribucin con clases vacas o intervalos de distinta amplitud,
c.

un grfico en el cual se corte el eje de abscisas.

4. Si la representacin del polgono de frecuencias de los ingresos de los empleados de comercio


de la provincia de Misiones resulta en una grfica marcadamente asimtrica a la derecha y la
correspondiente a los gerentes de esas mismas empresas da fuertemente asimtrica a la
izquierda cul sera su conclusin sobre los ingresos de empleados y gerentes?
5. En el artculo del mercado de Internet, Ud. puede leer:
...ms del 50 por ciento de los usuarios de la Red tienen ms de 35 aos. A lo que ms adelante se
agrega: Los nmeros muestran que la franja que va de 25 a 34 aos concentra la mayora de
conectados. Son cerca de 640.000, es decir, el 32 por ciento. Tambin es llamativo que el 50 por
ciento de los usuarios tiene ms de 50 aos. Estos datos relativizan los prejuicios tecnolgicos que hay
con respecto a Internet, como que los mayores se sienten "trabados" para ingresar a la Red.

172

Unidad 2: Gua de Actividades

a. Qu variable se analiza en el prrafo?


b. Qu transformaciones de las frecuencias absolutas se necesitaron construir para
escribir esas conclusiones?
c.

Est de acuerdo con que?:


... la franja que va de 25 a 34 aos concentra la mayora de conectados.
... el 50 por ciento de los usuarios tiene ms de 50 aos.
Justifique.

Segn el artculo, hoy en da 4 de cada 10 usuarios son mujeres. Adems, En cuanto al perfil

del navegante, el 97 por ciento de los usuarios trabaja y el 59 por ciento es el principal sostn
econmico del hogar. El 53 por ciento est en pareja....
a. Qu variables se analizan en este prrafo?
b. Con esa informacin, reconstruya las tablas de frecuencias correspondientes a esas
variables.
6. En las tablas siguientes se presentan las distribuciones del plantel de empleados de una empresa
de servicios, discriminados por sexo segn sus salarios mensuales en mayo de 1996. El propsito
de este resumen es analizar si la empresa tiene una poltica salarial diferencial por sexo.
HOMBRES
Ingreso ($)

MUJERES
Empleados

Ingreso ($)

Empleados

300 450

300 450

55

450 600

39

450 600

116

600 750

126

600 750

32

750 900

26

750 900

11

900 1050

900 1050

1050 1200

20

1050 - 1200

TOTAL

221

TOTAL

216

a- Cul es la proporcin de hombres con ingresos inferiores a $600? Y la proporcin de mujeres?


b- Cuntos hombres y cuntas mujeres ganan por lo menos $900?
c- Entre qu ingresos se ubica la mayora de los hombres? Y entre cules la mayora de las
mujeres?
d- Describa la situacin salarial de ambos grupos y seale si a su criterio existe una poltica de la
empresa que establece diferencia salarial entre los sexos.

EVALUACIN PARCIAL -Unidad 2Dos son los propsitos de esta actividad. El primero es ofrecerle a Ud. un problema de trabajo que le
permitir revisar y ejercitar sus conocimientos sobre los temas de esta segunda unidad. El
segundo propsito es permitirnos a los docentes evaluar sus avances en el aprendizaje.
Esta propuesta est basada en el estudio ESTUR 93/94 realizado por la Fac. de Hum. y Cs. Soc. a
solicitud de la Secretara de Turismo de la Pcia. de Misiones y financiado por el Consejo Federal de
Inversiones (CFI). A los efectos de simplificar esta prctica del curso, hemos seleccionado slo
algunos aspectos de la encuesta realizada en los lugares de alojamiento a turistas que viajaron por
cuenta propia en el mes de febrero.
A continuacin se describen algunas definiciones metodolgicas del estudio.
OBJETIVO
Esta encuesta est dirigida a los turistas alojados en la ciudad de Puerto Iguaz, con el fin de
conocer sus hbitos y preferencias tursticas, su evaluacin sobre diferentes componentes
(infraestructura, equipamiento, etc) de la oferta y la estructura y nivel del gasto turstico.
173

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

UNIDAD DE ANLISIS
Grupos tursticos primarios que se encuentran hospedados en hoteles y establecimientos similares
(residenciales, cabaas, etc) y campings. El informante ser uno de sus miembros mayor de 16 aos y
preferentemente el que ejerce el liderazgo del grupo.
VARIABLES SELECCIONADAS:
1) Nivel de alojamiento
1. Nivel I: 4 y 5 estrellas
4. Nivel IV: Residenciales

2. Nivel II: 3 estrellas


3. Nivel III: 2 estrellas
5. Nivel V: Alojamiento en carpas, casa rodante / motor home, etc

2) Lugar de residencia: discriminando los residentes en Misiones, en otras provincias argentinas


(registradas individualmente) y en otros pases, tambin distinguidos individualmente.

Nota: Los nmeros que aparecen en la matriz de datos son los cdigos asignados a cada lugar de
residencia. (ejemplo: 54 corresponde a la pcia. de Misiones). Ud. no necesitar el detalle de estos
cdigos para la tarea que deber realizar.
3) Medio de transporte para el arribo a la Regin:
1. automotor privado
2. mnibus de lnea regular
3. mnibus servicio especial
4. areo en vuelo regular
5. areo especial (charter)
6. otros
7. Sin Datos
4) Total de componentes del grupo primario entrevistado, incluyendo al informante.
5) Opinin del informante sobre la arquitectura y urbanizacin de Pto. Iguaz:
discriminando por niveles de satisfaccin (1. Buena, 2. Regular, 3. Mala, 4. Sin Opinin).
6) Gasto total efectivamente realizado por el grupo primario, durante el da de permanencia en el
rea inmediato anterior a la entrevista
Para las variables seleccionadas presentamos a continuacin la matriz de datos y tablas y grficos
para algunas de ellas.
MATRIZ DE DATOS
ENCU NIVEL RESI COMPO TRANS ARQ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

2
2
2
3
3
3
3
4
5
1
1
1
1
2
2
3
4
4
1
2
2
3
3
5
5
5
1

6
6
6
82
6
18
6
6
6
42
2
2
2
6
102
26
6
6
6
6
6
6
6
6
18
6
2

2
2
3
1
4
2
1
3
2
4
2
4
1
2
3
4
2
3
5
6
1
7
2
4
3
2
5

4
1
1
2
1
2
2
1
1
1
4
1
4
2
1
4
2
2
1
4
2
1
2
1
1
2
1

4
2
1
1
2
2
1
1
1
1
1
2
2
2
3
1
1
2
2
1
3
1
1
1
1
1
2

GTOT
125
75
181
109
202
79
33
71
30
75
34
20
40
113
210
100
76
110
316
125
30
100
62
43
60
29
572

ENCU NIVEL RESI COMPO TRANS ARQ GTOT


28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54

174

4
5
5
1
3
4
5
1
1
2
2
2
5
5
2
2
2
2
5
5
1
1
1
1
1
4
2

6
6
6
107
6
82
22
54
6
34
6
2
6
6
6
6
14
26
6
6
6
6
2
6
6
6
6

2
5
4
2
3
2
4
3
6
5
2
3
1
6
2
5
4
4
3
4
3
4
5
5
5
2
4

2
1
1
4
1
1
1
1
1
1
2
2
2
1
1
1
1
4
1
1
1
1
1
1
1
2
1

1
1
2
1
2
3
1
1
1
1
1
1
1
1
1
2
1
1
1
4
1
3
3
2
1
1
1

140
18
45
205
135
75
00
190
270
140
319
151
24
300
79
150
119
104
59
72
110
20
75
70
75
66
632

Unidad 2: Gua de Actividades

(Continuacin)
ENCU NIVEL RESI COMPO TRANS ARQ
6
55
3
1
4
1
6
1
2
1
56
3
57
4
54
1
2
1
58
2
6
3
1
1
59
2
14
3
1
1
22
60
2
5
1
3
18
61
5
2
1
2
6
62
5
6
1
1
82
63
1
6
1
1
18
64
1
7
1
1
65
1
2
2
1
1
66
1
105
1
4
2
67
1
2
4
4
4
68
1
2
4
1
1
69
2
6
5
1
1
70
4
6
4
1
1
2
71
4
110
4
1
72
4
105
2
2
2
73
1
6
2
4
1
4
1
2
74
2
14
75
2
105
2
4
2
76
2
18
6
1
2
77
2
54
5
1
2
2
78
4
14
2
3
79
4
2
1
2
2
80
1
30
4
1
1
81
3
2
3
2
1
82
4
133
2
2
1
83
4
128
3
2
1
84
4
6
2
2
1
85
4
105
1
4
4
86
5
82
3
1
1

GTOT
129
22
44
131
99
113
41
102
95
95
378
160
18
158
217
100
50
51
143
273
165
165
379
76
37
130
149
72
57
77
42
56

ENCU
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118

NIVEL RESI COMPO


6
5
4
4
26
2
4 104
2
4 110
2
5
6
2
2
1
3
6
1
2
82
4
3
6
4
5
14
4
4
2
50
4
2
50
3
4
82
3
4
6
2
4
4
6
1
6
2
2
6
2
3
3
6
3
14
5
1
6
3
1
2
4
1
26
7
6
1
8
2
82
4
2
6
7
2
6
3
2
2
5
2
6
6
1
6
2
2
2
3
4
2
2
4
14
4

TRANS ARQ GTOT


67
1
2
1
1
06
2
2
62
4
1
79
1
1
55
2
1
260
1
1
380
1
1
68
1
2
275
1
1
148
1
1
287
1
1
163
1
1
197
2
1
36
1
1
95
1
2
222
1
1
340
2
1
158
1
1
180
1
1
194
512
1
2
1
1
120
1
1
680
240
1
2
1
1 1520
2
2
162
1
1
387
1
1
210
1
1
460
1
2
645
4
1
100
1
1
117

Algunas tablas y grficos:


Resid. Habitual Frec. Abs.
Cap. Fed.
Bs. As.
Crdoba
Corrientes
Chaco
Chubut
Entre Ros
Formosa
La Pampa
Mendoza
Misiones
Santa Fe
Italia
Inglaterra
Alemania
Espaa
Australia
Per
Canad
Total

16
58
7
5
2
4
1
1
1
2
3
7
1
1
4
1
2
1
1
118

Fr (%)
13,6
49,2
5,9
4,2
1,7
3,4
,8
,8
,8
1,7
2,5
5,9
,8
,8
3,4
,8
1,7
,8
,8
100,0

Medio de Arribo
Automotor Privado
mnibus Regular
Areo Regular
Total

Opinin sobre
Arq. y Urb.
Buena
Regular
Mala
Sin Opinin
Total

175

Frec. Abs.
74
28
16
118

Frec.
Abs.
78
29
7
4
118

Fr (%)
62,7
23,7
13,6
100,0

Fr (%)
66,1
24,6
5,9
3,4
100,0

Estadstica Aplicada en las Ciencias Sociales y Humanas. - Estadstica I

GTOT: Diagrama de Tallo - Hoja


Frecuencia
Tallo - Hoja
4
0
11
0
12
0
21
0
4
0
13
1
7
1
9
1
5
1
5
1
5
2
1
2
1
2
4
2
1
2
3
3
0
3
1
3
2
3
1
3
8 Extremos

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

0011
22222333333
444444555555
666666777777777777777
9999
0000000011111
2222333
444445555
66666
88999
00111
2
4
6777
8
011
4
77
8
(>=387)

Ancho del tallo: 100


Cada hoja:
1 caso
Utilizando toda la informacin disponible escriba un informe destinado a
comunicar los resultados de la encuesta a las autoridades tursticas de la
provincia, en el cual se describan las caractersticas de los turistas alojados en
Puerto Iguaz. Incluya en el mismo, las Tablas y Grficos que considere
pertinentes.

176

Unidad 3: Gua de Actividades

UNIDAD 3: Los Valores que Caracterizan al Conjunto de


Datos
Actividad N 1
A continuacin se presentan cuatro prrafos que aluden a diferentes temas de trabajo y
reproducen conclusiones basadas en medias aritmticas calculadas a partir de conjuntos de datos
tambin diferentes.
En cada prrafo encontrar la informacin necesaria para contextualizar esos resultados (unidad
de anlisis, poblacin, variable observada, datos transversales/longitudinales, relevamiento muestral o
censal, etc).

Prrafo 1:
Una encuesta realizada en el ao 2001 a 1.297 alumnos de escuelas primarias de la ciudad de
Buenos Aires, revel que los escolares (a esa fecha la poblacin era de 150.000 estudiantes en todas
las escuelas primarias porteas) dedican en promedio 13 horas semanales a ver televisin y (tambin
en promedio por alumno) 6 horas semanales a la lectura de libros, diarios y revistas.
Prrafo 2:
Segn los resultados de un censo realizado en el ao 2000, en las 32 prisiones del Servicio
Penitenciario Federal distribuidas en todo el pas, haba una cantidad media de 1.888 presos alojados
en cada una de ellas.
Prrafo 3:
De acuerdo con datos oficiales, en el perodo de 8 aos comprendido entre 1991/98, se
registraron exportaciones misioneras de yerba mate por un monto anual promedio de U$S
22.852.325.
Prrafo 4:
Un estudio realizado en Capital Federal y el Gran Buenos Aires en el mes de abril de 2001, en el
cual fueron encuestados 1.200 comercios del total de 4.200 establecimientos que forman el sector
autoservicios3, permiti conocer que estos negocios en promedio, facturan $3.000 por da y
funcionan en locales cuya superficie media es de 550 metros cuadrados.

Leyendo detenidamente los ejemplos, Ud. deber:


1. Proponer algunas preguntas estadsticas que encuentren su respuesta en los
promedios mencionados.
2. Describir detalladamente al conjunto de datos que resume cada una de las
medias aritmticas empleadas en el anlisis (Identificar la unidad de anlisis
y la variable observada en cada caso, cantidad de datos de la serie, datos
longitudinales o transversales, muestrales o por enumeracin completa).
3. Explicar paso a paso el procedimiento que seguira para obtener/calcular
estos promedios, si dispusiera de los datos originales utilizados en cada uno
de ellos (puede resultarle til, primero, reconstruir simblicamente cada una
de las series o conjunto de datos).

Pequeos supermercados de barrio que comercializan productos de almacn, de limpieza, verdulera, carnicera, bazar etc.
177

Estadstica Aplicada en las Ciencias Sociales. y Humanas - Estadstica I

Actividad N 2
Primera Parte
El trabajo que dio origen a los datos que analizaremos inmediatamente tena el propsito general
de aportar informacin sobre diferentes caractersticas de los obreros y empleados calificados de
una empresa industrial de Misiones. (Entre otras: estudios alcanzados, antigedad en la empresa,
sexo, edad, estado civil, rea de trabajo, cantidad de das y de horas trabajadas en el mes anterior,
etc.).
La poblacin bajo anlisis se compona de los n=90 obreros y empleados (excluidos los
funcionarios de nivel gerencial o superior) que conformaban la plantilla de personal permanente de la
empresa, al mes de marzo de 1998.
El relevamiento alcanz a todos los individuos de la poblacin y los datos se recopilaron de los
legajos personales y otras fuentes administrativas disponibles.
Una de las variables observadas fue:

Z : Haber mensual neto percibido por el empleado en el mes inmediatamente anterior.


A continuacin encontrar la serie de datos originales de esta variable (expresados en $), en el
estado en el que fueron registrados en la matriz de datos:
Empl/
obrero

Haber
($)

Empl/
obrero

Haber
($)

Empl/
obrero

Haber
($)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

571
545
846
632
558
880
567
623
753
511
633
719
641
824
887
588
740
846
729
523
476
613
883
899
852
932
845
904
743
723

31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

778
603
681
456
479
808
741
631
587
567
846
782
667
891
914
460
833
927
582
701
740
661
578
857
841
771
756
543
845
738

61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90

967
775
589
478
490
932
778
772
803
545
927
945
780
867
982
716
809
541
537
890
717
756
690
765
822
645
743
560
656
784

178

Unidad 3: Gua de Actividades

Luego de explorar detenidamente el conjunto de datos (por ejemplo, empleando


un diagrama de tallo-hoja), su tarea consistir en comprobar si son correctas las
tres frases siguientes, y si alguna de ellas no lo fuera, tendr que elaborar la
expresin que a su juicio es verdadera.

En todos los casos sus conclusiones deben ser acompaadas de


los fundamentos tericos y/o de clculos en los que se basan.

1. Los empleados y obreros de la empresa perciben un haber neto promedio de


mensuales; siendo el salario ms bajo de $456 y el ms alto de $982.

z = $684,63

2. Si a los datos de los 90 empleados y obreros se agregan los haberes que perciben los 5

subgerentes y 2 gerentes de la empresa, el salario medio de todos los funcionarios que


componen la planta permanente asciende a z = $1.057,70. Este promedio refleja el buen nivel
de los salarios que abona la firma a sus funcionarios.
Haberes netos de gerentes y subgerentes:
4.927, 4.523, 4.852, 5.124, 4.970, 6.701, 6.890

3. El empleado que figura en el orden 76 difiere en menos de $2 (d76=$-1,89) del haber promedio

general de los 90 asalariados observados, mientras que los empleados del orden 21 y 66 se
diferencian de dicho promedio en $-241,89 y $214,11, respectivamente. La suma de los residuos
de todos los empleados y obreros es nula.
4. A cunto asciende la suma de los haberes netos de los 90 empleados?
Segunda Parte
En la tabla siguiente se presenta la distribucin que resume los datos sobre camas disponibles
en 190 hosteras y residenciales relevados en una encuesta.
Hosteras y residenciales segn el nmero de camas disponibles
Cantidad
camas

Host/Resid.
(fi)

0-19
20-39
40-59
60-79
80-99
100-119
120-139

15
32
60
47
23
10
3

TOTAL

190

Cul es el nmero promedio de camas disponibles por establecimiento?

Actividad N 3
1. Las 3 frases siguientes expresan algunas de las conclusiones que se pueden obtener al describir
los datos sobre el haber mensual neto percibido por los obreros calificados del ejemplo
anterior.

179

Estadstica Aplicada en las Ciencias Sociales. y Humanas - Estadstica I

Su actividad consistir en comprobar la veracidad de cada una de estas


afirmaciones y, en caso de encontrar que alguna de ellas es errnea,
tendr que elaborar la conclusin correcta.
Nuevamente, las respuestas deben ser fundamentadas con
argumentos tericos y/o de clculos.

a. La mitad de los 90 obreros y empleados calificados de la empresa, percibe haberes netos

mensuales superiores o iguales a $740. La otra mitad de los salarios se ubica por debajo de
dicho valor.
b. Al incorporar en el anlisis a los gerentes y subgerentes de la firma, el haber neto mediana
de los funcionarios se eleva a $987,60 por lo que, la mitad de todo el personal percibe
haberes iguales o inferiores a esa suma.
c. Tal incremento en el valor medio de los haberes se debe a los haberes extremadamente
atpicos de los subgerentes y gerentes de la empresa.

2. Determinar
El nmero de camas disponibles, por debajo del cual se ubican los 95
establecimientos hoteleros (hosteras y residenciales) ms pequeos,
analizados en la actividad anterior.

Actividad N 4
Continuando con los datos de los dos ejemplos anteriores, su actividad consistir en:




1. Determinar el haber mensual tpico de los 90 obreros y empleados de


la firma y la cantidad ms frecuente de camas disponibles en las
hosteras y residenciales observados.
2. Explicar detalladamente (paso a paso) el procedimiento seguido para
obtener ambos resultados.
3. Analizar crticamente estos resultados y comentar sus conclusiones.
4. Comprobar que si se incorporan al anlisis los haberes de los 7
gerentes y subgerentes, el valor tpico de la distribucin no se
modifica.

Actividad N 5
Ampliar el anlisis de las series de datos anteriores (en el caso de los
haberes netos, trabajar con el conjunto original de 90 datos), utilizando las
medidas de posicin que considere pertinentes para completar la
descripcin de los individuos observados en cada ejemplo.

Actividad N 6
Basndose en las tablas que presentan -para dos departamentos de la pcia. de Misiones- los datos
sobre las explotaciones agropecuarias distribuidas segn deciles de superficie (tamao), realizar:

180

Unidad 3: Gua de Actividades

a. Compare la superficie total acumulada por el 30% de las


explotaciones ms pequeas de ambos departamentos.
b. Establezca la brecha entre el 10% de las explotaciones ms grandes
y ms pequeas en ambos departamentos.
c. Construya las grficas de Lorenz y determine los coeficientes de Gini.
d. Concluya sobre la situacin de la distribucin de la tierra en estos
departamentos.

Distribucin de las explotaciones agropecuarias segn por superficie.


Departamentos de San Pedro y Ober -Misiones- 1981
SAN PEDRO (1)
Decil

OBER (2)

Superf. Total Explot. Acum. Sup. Total Superf. Total Explot. Acum. Sup. Total
(has.)
(%)
Acum. (%)
(has.)
(%)
Acum. (%)

229

10,0

0,080

1181

10,0

0,75

744

20,0

0,338

8325

20,0

6,06

744

30,0

0,596

12479

30,0

14,00

744

40,0

0,855

12480

40,0

21,95

1354

50,0

1,325

12480

50,0

29,90

1659

60,0

1,901

12480

60,0

37,86

1659

70,0

2,477

12480

70,0

45,81

2628

80,0

3,399

12480

80,0

53,76

7879

90,0

6,126

18971

90,0

65,85

270314

100,0

100,000

53604

100,0

100,00

10
Total

287954

156960

(1) El total de explotaciones censadas en San Pedro fue 443.


(2) El total de explotaciones censadas en Ober fue 6.522.
Fuente: INDEC. Censo Nacional Agropecuario. 1981.

Actividad N 7

80

70

(%)

A partir de los datos correspondientes al


porcentaje de Poblacin sin Cobertura de
Salud en los 75 municipios de la pcia. de
Misiones, segn el Censo Nacional de Poblacin
y Vivienda 1991, se pudieron obtener los
siguientes valores y el Diagrama de Caja (BoxPlot) que permiten caracterizar esa distribucin.
Xmn: 34,20 %
Q1: 47,28 %
Ma: 50,79 %
Q3: 60,60 %
Xmx: 78,99 %

90

60

50

40

30

Poblacin Sin Cobertura de Salud

Basndose en el diagrama y los valores caractersticos obtenidos, describir


la situacin sanitaria en los municipios de Misiones, segn el Porcentaje
de Poblacin sin Cobertura de Salud.

181

Estadstica Aplicada en las Ciencias Sociales. y Humanas - Estadstica I

Actividad N 8
Prctico Complementario
1. En la Actividad N 3 de la Unidad anterior, Ud. resumi en forma numrica y grfica los datos de
una muestra de 156 turistas observados en el Parque Nacional Iguaz, referidos a la cantidad de
noches (pernoctes) que planeaban permanecer en la regin. Tambin comenz la descripcin de
los turistas desde esta caracterstica en estudio. Trabajando con los mismos datos, su actividad
consistir en:

a. Determinar la cantidad promedio de noches de estada, la estada ms


frecuente y la cantidad mediana de pernoctes, y dar su opinin crtica de
los resultados que obtuvo.
b. Explicar el procedimiento empleado para obtener cada una de estas
medidas.
c. Elaborar un pequeo informe descriptivo de los turistas analizados.

2. El prrafo siguiente resume algunas conclusiones sobre la distribucin por edades de los
habitantes de Misiones, censados en 1991 (Unidad 2 - Actividad N 4).

El primer cuarto de la poblacin ms joven de Misiones no superaba los 9


aos de edad; y
la cuarta parte de las personas de mayor edad, registraba 38 aos o ms.

Un 10% de los habitantes (aproximadamente 78.900 personas) se


encontraban con 55 aos cumplidos o ms edad a la fecha del Censo.

Su tarea consistir en confirmar la exactitud de estas afirmaciones,


justificando su respuesta.

3. Trabajando sobre el nivel de estudios alcanzado por las madres de los alumnos del curso de
Estadstica (Actividad N 8Unidad 2):

Completar la descripcin determinando las siguientes medidas: Ma, Mo,


D3 y D7.
Redactar sus conclusiones al comparar ambas distribuciones.

4. Trabajando sobre los salarios de hombres y mujeres analizados en ejercicio 6 Actividad N 10,
Unidad 2:
Complete sus conclusiones acerca de la poltica salarial que lleva a cabo la
empresa, utilizando las medidas que considere pertinente incluir en el anlisis.

182

Unidad 3: Gua de Actividades

EVALUACIN PARCIAL -Unidad 3Como actividad de evaluacin de la Unidad anterior, Ud. comenz a analizar y describir -en
trminos de seis variables relevantes- a una muestra de 118 turistas que viajaron por cuenta propia a
las Cataratas del Iguaz, en el mes de febrero de 1994.

Su trabajo consistir en integrar al anlisis ya iniciado, las medidas de tendencia


central y de posicin que considere pertinentes y apropiadas a los datos de cada
una de las variables en estudio.
Para cada una de las medidas que decida utilizar en el anlisis, deber:
a. justificar su aplicacin considerando cuestiones como: el propsito descriptivo que
persigue, el tipo de datos con el que trabaja, las propiedades de la medida
utilizada, las caractersticas ms destacables del conjunto de datos, etc.,
b. explicar detalladamente el procedimiento seguido para calcular/determinar cada
una de ellas.
La actividad se completar con la redaccin del informe mediante el cual comunicar
sus conclusiones (ahora ampliadas) a las autoridades tursticas de la provincia,
agregando las tablas y grficos que considere pertinentes.

183

Unidad 4: Gua de Actividades

UNIDAD 4: Anlisis de la Variacin y Asimetra


Actividad N 1
A partir de los datos sobre el Haber mensual neto percibido por el empleado en el mes
inmediatamente anterior del personal de una empresa industrial de Misiones (Unidad 3, Actividad 2),
observar:




Cul es la amplitud de variacin de los ingresos del personal?

Cul es el campo de variacin de los ingresos de los gerentes y


subgerentes?

En qu extensin varan los ingresos del 50% central de los obreros y


empleados calificados de la empresa?

Actividad N 2
1. Para los haberes de empleados y obreros de la empresa industrial de
la actividad anterior, elabore un breve informe que describa esa
distribucin, utilizando para ello las medidas de tendencia central, posicin
y variacin que considere pertinentes.
2. De acuerdo con lo analizado en el punto 2 de la Actividad 2-Unidad n 3,
sobre el salario promedio de todo el personal de la empresa, indique y
justifique cules seran las medidas de tendencia central y dispersin que
utilizara para describir la variabilidad de los datos y complementar el
anlisis ya realizado.

Actividad N 3
1. El intendente de la ciudad de Leones-Cba., analizando la cantidad de
metros mensuales de bacheo realizados (arreglo de pozos en el asfalto) y
comparndola con la produccin de la ciudad de Bs. As., observ con
satisfaccin que, si bien el promedio mensual era de 80 metros contra
1500 metros en Bs. As., la produccin de esta tarea en su municipio
mostraba una mayor regularidad ( Leones = 30 metros y BA = 200
metros); es realmente ms regular la tarea en el municipio de Leones?
Justifique su respuesta.
2. A partir de la encuesta permanente de hogares se pudo determinar que
en 1998 el ingreso de los hogares de las ciudades de Santiago del Estero
y Jujuy sorprendentemente presentan la misma desviacin mediana.
Bajo qu condiciones se podra asegurar que los ingresos de los hogares
en ambas ciudades son igualmente heterogneos?

185

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Actividad N 4
Describa brevemente el nivel de estudios de padres y madres de los
estudiantes de Estadstica, considerando en la descripcin la
heterogeneidad que presentan estos conjuntos de datos.

Estudiantes del curso de Estadstica segn Nivel de estudios del Padre y de la MadreFHyCS-Ao 2001
Nivel de Estudios
del Padre
Ninguno

n de estudiantes
(*)

Nivel de Estudios
de la Madre
Ninguno

n de estudiantes
(**)

Prim. Incompleto

27

Primario Incompleto

33

Prim. Completo

56

Primario Completo

42

Sec. Incompleto

17

Secundario Incompleto

23

Sec. Completo

17

Secundario Completo

14

Terc./Univ. Incomp.

Terc./Univ. Incomp.

Terc./ Univ. Comp.

Terc./Univ. comp.

Total

133

Total

7
15
136

(*) Hay 6 estudiantes que no declaran el nivel de estudios de su padre.


(**) Hay 3 estudiantes que no declaran el nivel de estudios de su madre.
Fuente: elaboracin propia basndose en datos del Estudio de los Alumnos de Estadstica.

Actividad N 5
Evale el nivel de asimetra de la distribucin que sigue (ya trabajada en la
Unidad 3), utilizando los coeficientes de asimetra que conoce.
Describa esta caracterstica de los datos y evale a partir de esta
informacin si el promedio obtenido en la unidad anterior es una medida
representativa del conjunto.

Hosteras y residenciales segn el nmero de camas disponibles


Cantidad
camas

Host/Resid
(fi)

0-19
20-39
40-59
60-79
80-99
100-119
120-139

15
32
60
47
23
10
3
190

TOTAL

Actividad N 6
Prctico Complementario
1. Se cuenta con informacin sobre el gasto per cpita diario efectuado el da inmediato anterior a
la entrevista y la cantidad de componentes de los 118 grupos tursticos entrevistados entre
186

Unidad 4: Gua de Actividades

quienes visitaron Parque Nacional Iguaz en febrero de 1994. Calculadas algunas medidas de
resumen sobre esta informacin, se obtuvo:
MEDIDA

Gasto per cpita

Mnimo
Mximo

$ 0,00
$ 230,00
$ 51,45

x
Ma
Mo
Q1
Q3

$
$
$
$
$

37,00
39,50
21,71
62,68
47,62

Componentes
1 pers.
8 pers.
3,32 pers.
3
2
2
4
1,60

pers.
pers.
pers.
pers.
pers.

Sobre la base de la informacin anterior, evaluar la veracidad de las


siguientes afirmaciones, haciendo un comentario en cada caso.
1. La distribucin del gasto per cpita es ms dispersa que la distribucin de
componentes del grupo.
2. La distribucin del nmero de componentes es ms simtrica.
3. En la distribucin del gasto per cpita la media es menos representativa
del conjunto.
4. El 50% central de la distribucin del gasto per cpita es ms asimtrica
que esa misma proporcin de datos centrales en el nmero de
componentes.

2. En una encuesta realizada por FIEL y la Fac. de Hum. y Cs. Soc. en el ao 1991 se consult a los
habitantes de la ciudad de Posadas sobre su opinin en relacin con medidas que se deban tomar y
calidad del servicio de las empresas del Estado Nacional y Provincial. En relacin con las empresas
provinciales, se pudo observar que las opiniones sobre las medidas a tomar se distribuan en los
distintos niveles socioeconmicos, de la siguiente manera.
Opinin sobre medidas a tomar con empresas provinciales en diferentes niveles
socioeconmicos Pdas. 1991
Opinin sobre
medidas a tomar
Vender totalmente
Vender parcialmente
Mejorarlas
No vender
Otra medida
Sin opinin
Total

NES BAJO
11
15
100
7
0
12
145

NES MEDIO
21
40
190
9
6
13
279

NES ALTO
15
30
43
4
5
3
100

Fuente: Encuesta FIEL-FHyCS Junio 1991

En qu estrato socioeconmico se observa un mayor consenso en relacin


con las medidas que deberan adoptarse para las empresas del estado
provincial?

187

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

EVALUACIN PARCIAL -Unidad 4En la Unidad 2, hemos trabajado las distribuciones del plantel de empleados de una empresa de
servicios, discriminados por sexo segn sus salarios mensuales en mayo de 1996. El propsito era
analizar si la empresa tiene una poltica salarial diferencial por sexo.
Distribucin de los salarios mensuales de empleados de una empresa de servicios,
discriminados por sexo. Mayo de 1996
HOMBRES
Ingreso ($)
300 450

MUJERES
Empleados
2

Ingreso ($)
300 450

450 600

39

600 750

126

600 750

32

750 900

26

750 900

11

900 1050

900 1050

20

1050 1200

1050 1200
TOTAL

450 600

Empleados
55

221

TOTAL

116

1
216

Basndose en la informacin resumida en las Tablas anteriores:


1. Tomando en cuenta las caractersticas de asimetra y variabilidad de
esas distribuciones, revise crticamente la pertinencia de las medidas
resumen calculadas para estas distribuciones en la unidad anterior
(Actividad 8-punto 4). Escriba sus conclusiones justificndolas.
2. Sobre la base de todos los elementos de anlisis con los que cuenta
en este momento, redacte un informe sobre la poltica salarial de la
empresa en relacin al sexo, incluyendo en el mismo los grficos y
medidas que considere apropiados.

188

Unidad 5: Gua de Actividades

UNIDAD 5: El Estudio de la Relacin entre Variables

Actividad N 1
Cada una de las preguntas siguientes plantea la necesidad de un anlisis bivariado.
Para cada una de ellas, identifique:
a) las variables que intervienen y su tipo;
b) la naturaleza de la relacin que puede suponerse entre esas variables.

Difiere el nivel de ingresos segn sea el lugar de residencia de los padres?


Los mujeres, dedican ms tiempo a mirar televisin?
Cuando decrece la edad, decrece tambin el tiempo que se dedica al estudio?
Segn sea el nivel socioeconmico vara la opinin sobre los servicios pblicos?
Los hombres leen ms frecuentemente el peridico?
Los salarios que perciben las mujeres difieren del que perciben los hombres?
El rendimiento escolar de los estudiantes en el examen de Lengua vara segn se trate de
escuelas rurales o urbanas?
El nmero de hijos por familia es distinto segn sea el nivel socioeconmico?
Al aumentar el nmero de automviles por habitantes, aumenta el nmero de accidentes de
trnsito?
Al disminuir el gasto en publicidad, disminuye la demanda de un producto?,
Cuanto mayor es el nmero de mdicos por habitantes en un pas, vara la tasa de
mortalidad infantil?
Al aumentar la antigedad de un automvil, aumenta el costo de mantenimiento?

Actividad N 2
Al finalizar un curso de especializacin para abogados, se pide a los participantes su opinin sobre
la calidad del mismo. El propsito es conocer si hay alguna relacin entre la opinin y la especialidad
del participante. Se presenta la matriz de datos y la especialidad de cada participante.

a) Construya una tabla que presente la clasificacin bivariada de los participantes


del curso segn su especialidad y opinin.
b) Cuntos abogados son especialistas en lo laboral?
c) Cuntos participantes calificaron el curso como bueno?
d) Cuntos abogados con especialidad en lo laboral han calificado el curso como
bueno?
e) Cuntos participantes con especialidad en lo civil y comercial lo calificaron
como Malo?
f) Qu porcentaje de abogados asistentes se especializan en Laboral?
g) Qu porcentaje de los asistentes califican el curso como Regular y son
especialistas en lo Civil y Comercial?
h) Qu porcentaje de los asistentes calific el curso como Bueno?

189

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Matriz sobre el Curso de especializacin


Individuos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

Opinin

Especialidad

Bueno
Malo
Bueno
Bueno
Malo
Bueno
Bueno
Bueno
Regular
Regular
Bueno
Regular
Bueno
Bueno
Regular
Regular
Bueno
Malo
Bueno
Bueno
Bueno
Malo
Regular
Malo
Malo
Bueno
Bueno

Laboral
Civil y Comercial
Civil y Comercial
Laboral
Civil y Comercial
Laboral
Civil y Comercial
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Laboral
Laboral
Laboral
Civil y Comercial
Laboral
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Laboral
Civil y Comercial
Civil y Comercial
Laboral
Civil y Comercial
Laboral
Civil y Comercial

Actividad N 3
En la tabla siguiente se presentan los datos de la poblacin urbana y rural de la Argentina en 1914,
por grandes regiones geogrficas.
Poblacin urbana y rural de la Argentina por regiones. Ao 1914 (en miles)
REGIONES

Urbana

Rural

3604

2200

5804

Cuyana

145

368

513

Nordeste

135

331

466

Noroeste

260

735

995

12

94

106

4156

3728

7884

Pampeana

Patagnica
Total

Total

Fuente: Recchini de Lattes, Zulma: Aspectos demogrficos de la urbanizacin en la


Argentina, 1869-1960. Centro de Inv. Soc.-Inst. Torcuato Di Tella. CELADE.

En 1914, variaba la composicin (urbana y rural) de la poblacin entre


las diferentes regiones?
Calcule los porcentajes en fila y compare las regiones.

190

Unidad 5: Gua de Actividades

Actividad N 4
Basndose en la Tabla anterior, calcule los porcentajes en columna y compare
la distribucin por Regiones de cada tipo de asentamiento (urbano y rural).
Describa esa comparacin.

Actividad N 5
A. La siguiente tabla muestra la clasificacin de todos los empleados de una empresa de transportes
segn edad y categora de empleo. Los datos fueron relevados por la empresa en 1998.
Distribucin de los empleados segn edad y categora de empleo - 1998
Categora de Empleo
Grupos de Edad

Pers. Ejecutivo

Administrativos

Obreros

Total

Menos de 40 aos

28

160

193

40 aos o ms

14

40

67

121

Total

42

45

227

314

Vara la edad segn sea la categora de empleo? Vara la categora de empleo


segn las edades?

Analice si existe o no relacin entre estas variables y, de observar una relacin,


describa su forma.

B. La siguiente Tabla muestra la distribucin de la poblacin segn zonas y condicin de pobreza,


Argentina 2001.
Condicin de Pobreza
Zonas

Pobre

No Pobre

Total

Cap. Fed. y Reg. Pampeana

9.058.454

14.906.587

23.965.041

Resto Pas

5.581.978

6.480.022

12.062.000

14.640.432

21.386.609

36.027.041

Total

Fuente: SIEMPRO elaboracin basndose en EPH-INDEC - Octubre 2001

La incidencia de la pobreza, es diferente segn las zonas del pas?


Calcule la medida que exprese la fuerza de la relacin.

Escriba su conclusin sobre la relacin entre las variables Zona y Condicin de


Pobreza de la poblacin.

Actividad N 6

A. Con relacin a la actividad anterior-punto A:

Construya un grfico que muestre la composicin por edades de cada categora


de empleo.

Construya un grfico que muestre la distribucin de las categoras de empleo en


cada grupo de edad.
191

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

B. Con relacin a la actividad anterior-punto B:


Construya un grfico que muestre la distribucin por zonas segn condicin de
pobreza.
Construya un grfico que muestre la incidencia de la pobreza en cada una de
las zonas.

Actividad N 7
A. Segn la Encuesta de Desarrollo Social realizada por la Secretara de Desarrollo de la Nacin, los
Ingresos medios y el nmero de personas promedio del hogar en 1997, registraban por regiones
los siguientes valores.

Ingreso medio del hogar

Total
Pas

Cuyo

1136,7

992,2

3,7

4,1

Promedio de pers./hogar

Gran
Bs. As.

NEA

NOA

Pampeana Patagnica

1377,1

815,6

915,6

949,9

1190,9

3,5

4,3

4,6

3,5

3,9

Sobre la base de los datos aportados escriba sus conclusiones en relacin con el
ingreso y las personas por hogar en las distintas regiones del pas.

B. El gerente de personal de una empresa del sector alimentacin debe exponer, ante el nuevo
directorio, la poltica salarial que la empresa ha llevado hasta el momento en materia de
remuneraciones. Para fundamentar su exposicin cuenta con los datos que se presentan a
continuacin.
Caracterizacin de la distribucin del salario mensual segn categoras de empleo2002
n

Categora de Empleo
Obreros y Pers. Seguridad

Mn.(*) Mx. (*)

Media(*)

Mediana (*)

Desv.
CV (%)
Estndar (*)

390

315

1600

561,1

540,0

147,3

26,3

Administrativos

73

688

2075

1232,2

1187,5

324,4

26,3

Directores y Gerentes

11

1163

2700

1593,9

1385,0

471,7

29,6

(*)

En ($)

Diagrama de Caja (Box-Plot)


Distribucin del Salario mensual segn categora de empleo.
3000

Suma de Cuadrados para el clculo de 2

471

460
432
454

Salario

2000

271
142

1000

29
116
197
123
163
156
117
173
190
140
316

0
N=

390

73

11

Obreros y Pers. Segu Administrativos Directores y Gerente

Categoras de Empleo

192

Entre grupos

36.929.198

Intra grupos

18.237.400

Total

55.166.598

Unidad 5: Gua de Actividades

A partir de la informacin que surge del anlisis de los datos, elabore un


informe que describa la situacin salarial de los empleados y fundamente la
exposicin del gerente de personal.

Actividad N 8
Segn datos del Censo Nac. de Poblacin y Vivienda 1991, en las provincias del pas se
registraban las siguientes tasas de analfabetismo y mortalidad infantil.
PROVINCIA

ANALFAB.

MORT. INF.

PROVINCIA

ANALFAB

MORT. INF.

Cdad. Bs. As.

0,69

12,20

Mendoza

4,56

16,70

Buenos Aires

2,35

18,80

Misiones

8,30

21,30

Catamarca

4,52

25,60

Neuqun

5,33

13,80

Crdoba

3,18

16,30

Ro Negro

5,60

15,50

Corrientes

9,34

22,80

Salta

6,72

20,50

Chaco

11,31

28,20

San Juan

4,25

21,50

Chubut

4,47

19,10

San Luis

4,31

19,90

Entre Ros

4,92

19,60

Santa Cruz

2,19

16,00

Formosa

8,18

29,80

Santa Fe

3,66

16,30

Jujuy

6,68

24,00

Stgo del Estero

8,64

16,60

La Pampa

4,03

12,10

Tierra del Fuego

1,10

11,20

4,01

19,30

Tucumn

4,96

19,60

La Rioja

Construya el diagrama de dispersin (aquellos que conozcan el Excel pueden


encontrar en el men de Grficos una opcin para este tipo de diagrama).

Actividad N 9
Analizando el diagrama de dispersin anterior describa el tipo de relacin
observada.

Actividad N 10
Debido a la sobreoferta de yerba mate, la Cmara de Molineros est interesada en expandir el
consumo de este producto en pases en que es poco conocido. A tal fin realiza un estudio para el ao
1998 sobre empresas que exportan yerba mate, observando las variables inversin en publicidad
(en miles de $) e ingresos por ventas (expresadas en millones de pesos), con el objetivo de
analizar la relacin entre las mismas. Los datos sobre las 25 empresas observadas son:

193

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Inv. en Pub.
(miles de $)
250
310
320
125
80
150
270
90
260
300
130
200
60
100
230
340
300
290
70
220
280
340
160
180
120

Ing. por Ventas


(millones de $)
13
17
23
5
3
10
12
7
20
27
9
16
3
5
14
22
19
21
8
6
19
32
8
6
2

Diagrama de Dispersin
Ingreso por Ventas (millones de $)

Empresa

35
30
25
20
15
10
5
0
0

100

200

300

400

Inversin en Publicidad (miles de $)

1. Explicar si en este caso es aceptable la aplicacin del anlisis de regresin.


2. Fundamentar la eleccin de la variable dependiente, y explicar la naturaleza de
la relacin entre las variables.
3. Utilizando los valores de a =-3,48 y b = 0,08 calculados a partir de los datos de
la tabla; indicar la ecuacin de la recta de regresin estimada y representarla
grficamente.
4. Calcular el ingreso promedio por ventas suponiendo una inversin en publicidad
de miles $190.

Actividad N 11
En el anlisis de los gastos en publicidad e ingresos por ventas, los clculos de los coeficientes de
correlacin y de determinacin, arrojaron los siguientes resultados:

R2= 0,774

r= 0,88
Interpretar los valores de r y R2

194

Unidad 5: Gua de Actividades

Actividad N 12
Prctico Complementario
1. Para cada una de las preguntas de la Actividad n 1, indique cul es la herramienta de anlisis
bivariado que utilizara (Anlisis de Tablas de Contingencia, Diferencia de medias, Anlisis de
correlacin).
2. Sobre una muestra de 180 agentes de la administracin pblica provincial, se analiz la distribucin
por sexo y niveles de ingreso, obtenindose los datos que se presentan a continuacin.
Distribucin de agentes pblicos segn sexo y nivel de ingreso (*)
Nivel de Ingreso
Sexo

Bajo

Medio

Alto

Total

Varn

26

60

21

107

Mujer

25

36

12

73

Total

51

96

33

180

(*)




Los salarios fueron categorizados segn el siguiente criterio:


Bajo: menor a una canasta bsica (canasta que cubre necesidades mnimas para la subsistencia).
Medio: hasta 2 veces la canasta bsica.
Alto: ms de 2 veces la canasta bsica.

1. El nivel de ingresos es diferente segn se trate de hombres o mujeres?


Describa
2. Quines son (en cuanto al sexo) los que tienen diferentes niveles de ingreso?
Describa.

3.

Indique si las siguientes afirmaciones son verdaderas, justificando su respuesta

a. Si el coeficiente de correlacin r de Pearson entre dos variables es r=0 se puede asegurar que no
existe relacin entre ellas.
b. El coeficiente r de Pearson permite determinar la existencia de relacin entre cualquier par de
variables.
c.

Cuando el coeficiente b de la ecuacin de regresin es positivo, el coeficiente r de correlacin


tambin es positivo.

d. Si el coeficiente de correlacin es negativo el coeficiente de determinacin tambin lo es.


4. Segn estudios realizados por la Secretara de Trabajo de la Nacin, sobre oferta de puestos de
trabajo y salarios, dio como resultado que en el sector de la construccin un aumento en la
demanda de trabajadores de 1000 puestos de trabajo, eleva el precio del jornal en $4,50.

a- Qu tipo de anlisis se realiz para llegar a esta conclusin?


b- Cul es el signo del coeficiente de correlacin entre estas variables?
Justifique.

5. En un estudio sobre presentismo escolar realizado en una escuela rural del interior de la provincia,
se recogieron los siguientes datos de una muestra de 15 alumnos:

195

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Alumno
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Distancia (1)
(Km)

Asistencia (2)
(%)

0,8
5,3
2,3
3,8
4,0
4,2
3,3
6,1
0,9
1,2
2,5
1,1
7,3
1,8
1,9

83,4
50,8
73,4
75,6
67,0
76,9
75,1
40,3
88,2
61,8
76,5
79,6
45,3
88,3
75,7

Diagrama de dispersin
90
80
70
60
50
40
30
20
10
0
0

D istancia (Km )

(1) Distancia (Km) que recorre diariamente desde su hogar a la escuela.


(2) Porcentaje anual de asistencia a clases.

a- Analizar el diagrama de dispersin y justificar la aplicacin del modelo de


regresin lineal.
b- Justificar el uso de la variable distancia como variable independiente del
modelo.
c- Utilizando los siguientes resultados, calculados a partir de los datos de la tabla
anterior:
a= 89,2

b= - 6,0

R = 66,3%

r= - 0,81

Estimar el porcentaje promedio de asistencia probable, de un alumno que debe


recorrer diariamente 10 km.
2

d- Interpretar los coeficientes r de correlacin y R de determinacin.

EVALUACIN PARCIAL -Unidad 51. En la matriz que se adjunta, se presentan los datos de una muestra de 28 empleados calificados,
con el fin de analizar la posible asociacin entre los aos de educacin formal aprobados y el
salario mensual que perciben. A partir de esos datos:

a) Construir el diagrama de dispersin y analizar si en este caso es aceptable la


aplicacin del anlisis de regresin lineal.
b) Utilizando los resultados que fueron calculados a partir de los datos de la tabla:
a= 119,4

b= 35,2

r= 0,88

R = 0,77

b.1. Indicar la ecuacin de la recta de regresin estimada y representarla


grficamente.
b.2. Calcular el salario inicial promedio de un trabajador con 9 aos de educacin
formal aprobados.
2

b.3. Interpretar los coeficientes r de correlacin y R de determinacin.

196

Unidad 5: Gua de Actividades

Matriz de datos
Empleado

Aos de Educacin
Formal

Sueldo Inicial
($)

408

408

420

440

488

10

517

10

480

11

520

11

450

10

11

510

11

12

508

12

12

480

13

12

540

14

12

580

15

13

450

16

13

580

17

13

564

18

13

570

19

14

510

20

14

570

21

14

600

22

15

720

23

15

680

24

16

630

25

17

810

26

17

770

27

18

680

28

18

850

2. En un estudio dirigido a los ingresantes de la UNaM, se pregunt a los estudiantes sobre el lugar
donde recibi charlas de orientacin vocacional y el tipo de colegio del cual egresaron. A
continuacin se presentan los resultados de clasificar a los alumnos en forma bivariada segn sus
respuestas en ambas preguntas. Los datos corresponden al ao 1995.
Distribucin de los Estudiantes segn Lugar donde recibi orientacin vocacional y
Tipo de colegio- UNaM - 1995
Lugar donde recibi orientacin vocacional
Tipo de Colegio

No recibi

Colegio

Familia

Otro lugar

Total

Pblica

907

2082

219

465

3673

Privada

158

927

30

74

1189

1065

3009

249

539

4862

Total

197

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

a. Conteste las siguientes preguntas realizando los clculos que considere


convenientes si es necesario.
i. Cuntos alumnos recibieron orientacin vocacional?
ii. Cuntos alumnos proceden de un colegio pblico? Qu porcentaje
representan en el total de ingresantes?
iii. Entre los ingresantes que recibieron orientacin en Otra forma, qu
porcentaje representan aquellos provenientes de escuelas pblicas?
iv. Qu porcentaje representan en el total de ingresantes los que provienen
de un colegio privado y recibieron orientacin en el colegio?
b. Construya el grfico que considere conveniente para comparar la orientacin
recibida segn sea el tipo de colegio del cual egresaron los estudiantes.

198

Unidad 6: Gua de Actividades

UNIDAD 6: Los Nmeros ndices


Actividad N 1
Para esta actividad Ud. tendr que trabajar con los datos de la tabla siguiente. Por lo tanto le
sugerimos realizar una lectura previa cuidadosa de todos sus elementos para lograr una comprensin
correcta del significado y del comportamiento de los datos.
Cantidades y Precios de Exportacin de Yerba Mate, T y Tung. Misiones, 1990/2000.
Ao

Exp. de Yerba Mate


Tn.

U$S/kg

Exportaciones de T
Tn.

U$S/kg

Exportaciones de Tung
Tn. de Aceite

U$S/kg

1990

4.266

0,835

42.584

0,77

8.550,00

0,743

1991

9.022

1,073

34.658

0,77

8.522,00

1,019

1992

13.491

1,025

34.809

0,78

5.883,00

1,719

1993

15.689

1,065

41.872

0,88

2.497,00

1,904

1994

15.667

0,943

41.188

0,87

2.415,00

1,013

1995

37.488

0,802

40.466

0,77

3.519,00

0,918

1996

39.499

0,714

39.069

0,75

2.427,00

1,073

1997

33.277

0,677

41.465

0,77

3.978,90

1,681

1998

34.916

0,663

57.738

0,93

2.204,00

1,340

1999

30.269

0,640

51.090

0,75

1.424,00

0,944

2000

36.528

0,561

49.240

0,76

1.840,99

0,800

Fuente: Direccin General de Economa Agraria. Ministerio de Asuntos Agrarios. Provincia de Misiones. 2002.

Primera Parte
a- Tomando como perodo base al ao 1994 (1994=100), calcular el ndice relativo
simple (Rs) de la cantidad y el precio de exportacin de la yerba mate, para todos
los perodos de la serie.
b- Interpretando los resultados que obtuvo en el punto anterior deber decidir si
cada una de las siguientes afirmaciones es verdadera o falsa. En cada caso
tendr que justificar tericamente su respuesta y, si la calific como falsa, tendr
que redactar la interpretacin correcta.
1. El ao 1990 registra la menor cantidad exportada de la serie en estudio
siendo el ndice relativo simple Rs90/94 = 27,2%, lo que significa una merma
para ese ao del 72,8% con respecto al volumen exportado en 1994.
2. A su vez, 1999 es el ao en el cual Misiones export la mayor cantidad de
yerba mate en todo el perodo bajo anlisis, siendo Rs99/94 = 252,1%, lo que
indica un aumento del 252,1% con respecto a la cantidad exportada en 1994.
3. A partir de 1995 el precio de exportacin de la yerba mate decrece

sistemticamente con respecto al precio de 1994, ya que el ndice relativo


Rs96/94 =
simple para cada uno de esos perodos resulta: Rs95/94 = 85,0%
75,7% Rs97/94 = 71,8% Rs98/94 = 70,3% Rs99/94 = 67,9% Rs00/94 = 59,5%
c- Realizar el clculo de los ndices Rs para la cantidad y el precio de exportacin de
la yerba mate, del t y del tung, tomando al ao 1990 como perodo base
(1990=100) para todos ellos. Interpretar los resultados obtenidos y redactar un
breve informe con sus conclusiones ms relevantes.

199

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Segunda Parte
a- Calcular el ndice relativo simple en eslabn (Re) de la cantidad y el precio de
exportacin de la yerba mate, para todos los perodos de la serie en estudio.
b- Confirmar que:
1. Entre 1992 y 1993 se registra la mayor cada en la cantidad exportada de
tung ya que Re93/92 = 42,4%, lo que significa una disminucin del 57,6% de
un ao a otro.
2. El mayor incremento interanual del precio de exportacin del tung se
registra en 1992, con un crecimiento relativo del 68,7% con respecto al
precio anterior, siendo:
Re92/91 = 42,4%
c- Utilizando los ndices en eslabn calculados al comienzo, calcular el ndice relativo
simple en cadena (Rc) para los aos 1999 y 2000, tomando como base a 1996.
Interpretar los resultados que obtenga.
d- Realizar el clculo de los ndices relativos en eslabn (Re) para los datos de
exportaciones de t (cantidad y precio) y elaborar un breve informe con sus
conclusiones.

Actividad N 2
Supongamos por un momento que nos hemos propuesto estudiar la evolucin de los precios en los
primeros seis meses del ao 2002 (enero-junio), de cinco artculos de consumo inevitable y
permanente en nuestro hogar (los simbolizaremos con A, B, C, D y E)4. A los fines del trabajo hemos
recurrido a nuestros registros contables hogareos, de los cuales pudimos extraer los siguientes datos
de las cantidades mensuales adquiridas y de los precios mensuales promedio pagados, para cada uno
de los bienes y servicios que nos ocupan y en cada uno de los meses del perodo en cuestin.
Cantidades Mensuales Compradas y Precios Mensuales Promedio Pagados por Cinco
Artculos de Consumo Familiar . Perodo Enero/junio de 2002.
A
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio

Precio
($/Kg.)
4,80
5,70
7,20
7,80
8,10
6,40

Cant.
(Kg.)
27
23
20
20
19
23

Precio
Cant.
($/unid.) (unidad)
0,50
118
0,55
118
0,72
156
0,72
155
0.81
156
0,81
154

C
Precio
($/Kg.)
0,85
1,50
1,80
2,80
2,20
2,00

Cant.
(Kg.)
13
12
14
13
14
14

D
Precio
($/litro.)
1,10
1,80
2,20
2,40
2,20
1,85

Cant.
(litros)
33
33
33
32
34
35

Precio
Cant.
($/unid.) (unidad)
63,00
2
79,20
2
91,60
2
108,45
2
108,45
2
97,10
2

Fuente: Datos elaborados basndose en registros propios.

Segunda Parte
a- Es correcta la siguiente expresin para calcular el ndice de precios de agregado
no ponderado (IP) para el mes de abril con base en el mes de enero?:

p
5

IPAb/En =

i4

100 =

7, 80 + 0, 72 + 2, 8 + 2, 40 +108, 45
4, 80 + 0,50 + 0, 85 +1,10 + 63, 00

100 =

122,17
70, 25

100 = 173, 9%

i0

En consecuencia, es correcto sealar que comprar en abril una unidad (Kg., Lt.,
4

Imagine bienes y servicios de consumo indispensable en los hogares, como ser: leche en envase de un litro, boleto del
transporte colectivo, Kwh de luz, kilogramos de determinado corte de carne, cantidad de unidades de cierto elemento que los
nios utilizan en la escuela, etc, etc.
200

Unidad 6: Gua de Actividades

unidad, etc.) de cada uno de los 5 artculos de la canasta costaba $122,17,


mientras que el valor de la misma compra en enero era de $70,25? Y que, por lo
tanto, los precios de abril registraron un aumento conjunto del 73,9% con
respecto a los precios de enero?
b- Completar el clculo del ndice de precios de agregado no ponderado para todos
los perodos de la serie y confirmar los siguientes resultados:
IPFeb/En = 126,3% IPMar/En = 147,4% IPMay/En = 173,3% IPJun/En = 153,9%
c- Dar su interpretacin y conclusiones acerca de las variaciones conjuntas de los
precios en los seis meses que nos ocupan.

Segunda Parte
a- Es correcta la siguiente expresin para calcular el ndice de precios del promedio
de relativos no ponderado (IP), para el mes de marzo con base en el mes de
enero (enero=100)?.

p
5

IPMar/En =
=

pi4

i0

7, 20
100 =

4, 80

0, 72
0,50

1, 80
0, 85

2, 20
1,10

91, 60
63, 00

1,5 +1, 44 + 2,12 + 2, 00 +1, 45


5

100 =

8,51
5

100 =

100 = 170, 2%

Cmo interpreta este valor del ndice?


b- Completar el clculo de los ndices de precios y de cantidad por el mtodo del
promedio de relativos no ponderado, para todos los perodos de la serie que
estamos analizando y dar su interpretacin y conclusiones de los resultados que
obtiene.

Actividad N 3
Imaginemos ahora a una gran empresa mayorista de viajes y turismo (EVYT) que comercializa
diferentes productos tursticos (paquetes) de diversos destinos del Pas y del exterior. El problema
consiste en analizar la evolucin de las ventas (cantidad comercializada y precios pagados por los
clientes) de los cuatro productos de mayor demanda en la temporada alta de verano (enero y
febrero), en el quinquenio 1999-2003. Para realizar este cometido contamos con los datos de la Tabla
siguiente:
Evolucin de las Ventas (cantidades comercializadas y precios promedio pagados) de Cuatro
Productos Tursticos Lderes de la Temporada Alta de Verano. Perodo 1999-2003.
A
Ao
1999
2000
2001
2002
2003

Precio
($/unid.)
450
433
460
583
505

Cant.
(unidad)
1.610
1.177
1.222
854
1.056

B
Precio
($/unid.)
681
748
725
1.328
1.362

Cant.
(unidad)
521
1.011
1.230
583
474

Fuente: Datos elaborados de registros contables de la AYVT.

201

Precio
($/unid.)
166,00
188,30
167,70
187,80
291,10

D
Cant.
(unidad)
1.168
1.073
1.158
725
1.443

Precio
($/unid.)
3.602
3.579
2.958
6.140
11.771

Cant.
(unidad)
350
386
460
233
271

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Primera Parte
a- Tomando al ao 2001 como base de comparacin (2001=100), son correctas las

siguientes expresiones de clculo para determinar el ndice de precios de


agregado de Laspeyres, para los aos 1999 y 2003?

pi1qi0
4

pi0qi0

L
IP99/01
=

1
4

100 =

4501.222+6811.230+1661.158+3.602460
100 =
4601.222+7251.230+167,701.158+2.958460

3.236.678
100 =1,0757100 =107,6%
3.008.746,6

pi5 qi0
4

L
IP03/01
=

pi0 qi0
1
4

100 =

5051.222 +1.3621.230 + 291,101.158+11.771460


100 =
4601.222 + 7251.230 +167,701.158+ 2.958460

8.044.128,80
100 = 2,673100 = 267,3%
=
3.008.746,60
b- A la luz de los resultados anteriores, es correcto afirmar que:
1. los precios de los cuatro artculos en el ao 1999 fueron, en conjunto o en
L
promedio, un 7,6% superiores a los del ao 2001 ya que IP99/01
=107,6% ?,
2. y que, por su parte, la variacin conjunta de los precios del 2003, comparada

con la misma base (2001=100), es del orden del 267,3% ya que


L
IP03/01
=267,3% ?
c- Le sugerimos completar el clculo de los ndices de precios de Laspeyres para los
aos de la serie que an no se han hecho; como as tambin calcular los relativos
simples (Rs) para cada uno de los cuatros productos tursticos que nos ocupan.
Tener el cuidado de realizar todos estos clculos con la misma base 2001=100.
Nota: le recomendamos ordenar los resultados de sus clculos anteriores en una
Tabla como la siguiente:
Rs
(2001=100)

IPL
(2001=100)

Ao

99

97,8

93,9

98,9

121,8

107,6

100,0

100,0

100,0

100,0

100,0

109,8

187,9

173,6

397,9

167,3

00
01
02
03

d- Analizar minuciosamente los resultados presentados en la Tabla, intentando


extraer conclusiones sobre cuestiones como las siguientes:
cmo fue la evolucin o comportamiento general de los precios en su conjunto
a lo largo del quinquenio que analizamos?,
cmo ha sido el comportamiento individual de los precios de cada artculo por
separado, tratando de identificar los precios que variaron de manera muy
diferente (aumentando o disminuyendo) a la variacin conjunta que expresa el
IPL?
Resumir sus conclusiones en un breve informe.

202

Unidad 6: Gua de Actividades

Segunda Parte
a- Recordar que el ndice de cantidad de Laspeyres IQL (de agregado), para el ao
2003 con base 2001=100, se obtiene de:

q p
4

i5

q p

i0

IQ03/01 =

100 =

i0

1.056460 + 474 725 +1.443167, 7 + 2712.958


1.222460 +1.230725 +1.158167, 7 + 4602.958

100 =

i0

1.872.939,1
3.008.746, 6

100 = 0, 622100 = 62, 2%

Que, en consecuencia, IQ L03/01 = 62,2% expresa que las cantidades de los cuatro
productos lderes de nuestra AVYT, comercializadas en el verano del 2003,
fueron (en conjunto o promedio) un 37,8% menores que en el 2001.
b- Completar el clculo de IQL de agregado para los restantes perodos de la serie y
analizar la evolucin conjunta del volumen de ventas en todo el quinquenio.
Le sugerimos que en su anlisis contraste las variaciones del IQL con las
variaciones del IPL calculado en el problema anterior.

Tercera Parte
a- Corroborar que el ndice de precios de agregado de Paasche -IPP-, para el ao 2000
con base 2001=100, se obtiene haciendo:

p q
4

i2

IP00/01 =

i2

p q
1

i0

100 =

4331.177 + 7481.011 +188, 31.073 + 3.579386


460 1.77 + 7251.011 +167, 7 1.073 + 2.958386

100 =

i2

2.849.408, 9
2.596.125,1

100 = 1, 098100 = 109, 8%

P
= 109,8% :
Es correcto afirmar que, siendo IP00/01

los precios del ao 2000 fueron (en conjunto o promedio) un 9,8% superiores
que los del 2001?,
esta variacin en los precios se explica porque las cantidades comercializadas
en el 2000 valorizadas a los precios vigentes en ese ao, suman un valor de
$2.849.408,9; mientras que esas mismas cantidades pero a los precios del
2001, alcanzan el valor total de $2.596.125.1?
b- Completar el clculo del IPP con base 2001=100 para todos los perodos de la serie.
c- Comparar los resultados obtenidos por este ndice con los valores del IPL calculados
en el problema anterior.
d- Considerando que ambos ndices son diferentes mtodos para medir el mismo
fenmeno: la variacin conjunta o promedio de los precios de los cuatro artculos
lderes de nuestra AVYT, con referencia a un mismo perodo base:
1. A qu razn atribuye Ud. el hecho de que los valores de IPL e IPP en general
son diferentes para perodos idnticos?
2. Qu argumentos tericos y prcticos considerara Ud. para decidirse a utilizar
uno u otro mtodo en un problema como el que nos ocupa?
203

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

Cuarta Parte
a- Los ndices de cantidad de Laspeyres y Paasche (de agregado) para el ao 2003
con base 2001=100, son los siguientes:

qi5pi0
4

qi0pi0

IQL03/01 =

1
4

100 =

1.056460 + 474725 +1.443167,7 + 2712.958


100 =
1.222460 +1.230725 +1.158167,7 + 4602.958

2.849.408,9
100 = 0,623100 = 62,3%
=
3.008746,6

qi5pi5
4

IQP03/01 =

qi0pi5
1
4

100 =

1.056505 + 474 1.362 +1.443291,1+ 27111.771


100 =
1.222505 +1.2301.362 +1.158291,1+ 46011.771

4.788.866,3
100 = 0,595100 = 59,5%
=
8.044.123,8
Completar el clculo de ambos ndices para toda la serie.
b- Con estos resultados analizar la evolucin de las cantidades comercializadas por
nuestra AVYT durante el quinquenio que nos ocupa; y relacionar el
comportamiento de estos ndices con los respectivos ndices de precios (IPL e IPP)
calculados en los dos problemas anteriores.

Actividad N 4
Con esta actividad retomaremos el anlisis de los datos sobre las exportaciones misioneras de yerba
mate, t y tung con los que hemos trabajado en la Actividad N 1. Ahora, con los ndices Rs de
precio y de cantidad que Ud. calcul con base 1990=100 (consigna c), ejercitaremos el clculo e
interpretacin de los ndices ponderados del promedio de relativos de Laspeyres y Paasche.

a- Corroborar que los ndices de precio y de cantidad del promedio de relativos de


Laspeyres, para el ao 1994 con base 1990=100, se determinan mediante el
siguiente clculo:

pi5

IP94/90 =

pi0 qi0

p q
i0

i0

100 =

i0

1,129(0, 8354.266) +1,130(0, 7742.584) +1, 363(0, 7438.550)

qi5

IQ 94/90 =

0, 8354.266 + 0, 7742.584 + 0, 7438.550


qi0 p i0

qi0pi0
i0

= 116,5%

100 =

3, 673(0, 8354.266) + 0, 967(0, 7742.584) + 0, 282(0, 7438.550)


0, 8354.266 + 0, 7742.584 + 0, 7438.550

204

= 109, 2%

Unidad 6: Gua de Actividades

b- Corroborar que los ndices de precio y de cantidad del promedio de relativos de


Paasche, para el ao 1994 con base 1990=100, se determinan mediante el
siguiente clculo:
3
p
pi5 pi0 qi5
1
P
100
IP94/90 = 3 i0

p q
i0

i5

1,129(0, 83515.667) +1,130(0, 7741.188) +1, 363(0, 7432.415)

qi5

IQ 94/90 =

0, 83515.667 + 0, 77 41.188 + 0, 7432.415

= 113, 9%

pi0 qi5

pi0 qi5
i0

100

3, 673(0, 9434.266) + 0, 967(0, 8742.584) + 0, 282(1, 0138.550)


0, 9434.266 + 0, 8742.584 +1, 0138.550

= 106, 7%

c- Completar el clculo de estos mismos ndices (IPL, IQL, IPP e IQP; todos con base
1990=100) para los aos 1992, 1997 y 2000. Dar su interpretacin de los
resultados.

Actividad N 5
ndice de Precios Internos al por Mayor (IPIM). Misiones, 1990/2000.
Ao

IPIM (Nivel Gral.)

1990

43,04

1991

90,59

1992

96,02

1993

100,00

1994

99,81

1995

106,27

1996

109,63

1997

109,75

1998

106,22

1999

102,19

2000

106,27

Fuente: Boletn Informativo Techint 305. Enero-Marzo 2001.

Utilizando la serie correspondiente al ndice de Precios Internos al por Mayor (IPIM)


nivel general, incluida en el Cuadro siguiente:
a- Actualizar los precios de los tres productos de exportacin al ao 2000, y
b- Deflactar los precios al ao 1992
c- Interpretar los valores obtenidos

205

Estadstica Aplicada en las Ciencias Sociales y Humanas - Estadstica I

EVALUACIN PARCIAL -Unidad 6Volmenes y Precios de Ctricos comercializados en el Mercado Central.


Ciudad de Bs. As., 1994/2000
Limn

Aos

Toneladas

Mandarina
$/Tn

Toneladas

Naranja

$/Tn

Toneladas

Pomelo
$/Tn

Toneladas

$/Tn

1994

28587,5

480,8

81677,5

468,3

119579,2

383,3

20570,7

470,0

1995

30360,1

375,8

88887,7

433,3

123022,5

396,7

23701,7

465,0

1996

31374,6

361,7

80093,3

352,5

110780,0

354,2

24824,9

441,7

1997

29057,8

356,7

85615,6

513,3

106777,6

362,5

23151,6

400,8

1998

34455,5

311,7

86752,5

373,3

119056,4

333,3

26286,2

411,7

1999

36513,0

283,3

82684,1

407,5

105257,8

372,5

24904,1

392,5

2000

34676,2

295,8

74643,3

334,2

102556,2

442,5

22758,8

444,2

Basndose en los datos del Cuadro anterior:


1. Describir el comportamiento de los volmenes comercializados de cada uno de los
productos, tomando como base el ao 1994.
2. Describir la evolucin de los precios de cada uno de los cuatro productos (base
1994).
3. Analizar, con base en 1994, la evolucin de precios y cantidades del conjunto de los
ctricos. Tomar en consideracin que los ndices de precios y cantidad utilizados en
este caso sean consistentes.
4. Redacte un breve informe sobre el comportamiento de volmenes y precios de
comercializacin de los ctricos en el MCBA durante el perodo considerado. En la
presentacin de este informe incluya aquellos grficos que considere pertinentes.

206

Bibliografa General
ALAMINOS, A. (1993): Grficos. Coleccin Cuadernos Metodolgicos, n 7. Centro de
Investigaciones Sociolgicas, Madrid.
ANDERSON, D.; SWEENEY, J. D.; WILLIAMS, T. (1999): Estadstica para Administracin y
Economa. International Thomson ed., Mxico.
BARBANCHO, A. (1978): Estadstica Elemental Moderna. Ed. Ariel, Barcelona, Espaa.
BLALOCK, H. M (1986): Estadstica Social, Mxico, FCE.
BLANCH, N.; JOEKES, S. (1993): Estadstica aplicada a la Investigacin. Curso a distancia. Fac. de
Cs. Econmicas, Universidad Nacional de Crdoba, Argentina.
CHOU, Ya-Lun (1977): Anlisis Estadstico. Ed. Interamericana, Mxico.
COLL, S.; GUIJARRO, M. (1998): Estadstica aplicada a la historia y a las Ciencias Sociales. Edic.
Pirmide, Madrid.
CRIVISQUI, E. (1993): Anlisis Factorial de Correspondencias: un instrumento de investigacin en
ciencias sociales. Laboratorio de Informtica Social, Universidad Catlica de Asuncin, Paraguay.
DANIEL, W. (1985): Estadstica con aplicacin a las ciencias sociales y a la educacin. McGraw-Hill,
Mxico.
GMEZ de AZEVEDO, A.; BORGES de CAMPOS, P. H. (1981): Estadstica Bsica: Cursos de Cincias
Humanas e de Educaao. Livros Tcnicos e Cientficos Editora S.A., Rio de Janeiro.
MOOD, A. M. (1965): Introduccin a la Teora de la Estadstica. Aguilar, Madrid (3ra. Edicin).
MOORE, D. (1998): Estadstica aplicada bsica. Antonio Bosch ed., Barcelona (1ra. Ed. 1995).
PILCHER, Donald M. (1990): Data Analysis for the Helping Professions: A Practical Guide, Sage
Publications, California, USA.
SHAO, S. (1967): Estadstica Para Economistas y Administradores de Empresas. Herrero Hermanos
S.A., Mxico.

You might also like