You are on page 1of 50

TEMA 2: PRESENTACIÓN DE DATOS

ORGANIZACIÓN DE DATOS
OBJETIVOS:
ƒ rganizar los datos en un cuadro de distribución de
O
frecuencias
ƒ resentar los datos en gráficos de distribución de
P
frecuencias.
ORGANIZACIÓN DE DATOS
CUADRO DE VARIABLE CUALITATIVA

Variable Frecuencia Porcentaje

C1 f1 (f1/n)x100

C2 f2 (f2/n)x100

… … …

Ck fk (fk/n)x100

Total n 100
ORGANIZACIÓN DE DATOS
VARIABLE CUALITATIVA
Para representar gráficamente la distribución de
frecuencias de una variable cualitativa se utilizan las
barras y los sectores circulares.

Nota
Si trabajamos con variables nominales las categorías pueden ser colocadas
en cualquier orden. En el caso de escala ordinal las categorías deberán ser
colocadas en orden(Grafico de barras)
Gráficos para v. cualitativas

Diagramas de barras
◦ Alturas proporcionales a las frecuencias (abs. o
rel.)
◦ Se pueden aplicar también a variables discretas

Diagramas de sectores (tartas, polares)


◦ No usarlo con variables ordinales.
◦ El área de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas
◦ Fáciles de entender.
◦ El área de cada modalidad debe ser proporcional
a la frecuencia.
5
EJEMPLO:
En la ciudad de Cajamarca se encuestaron a
54 amas de casa sobre la marca de
detergente que usan, Ariel (A), Ace (C),
Bolivar (B), y Sapolio (S); se registraron los
datos (cuadro 1). Se pide organizar los
datos.
Datos:

A A B S B B
A A A S A C
A S A C A S
C B B C B A
A B B A C B
S B S A A S
A S A A S B
A A A B C S
B S B C A A
CUADRO 1:
DETERGENTE USADO POR LAS AMAS DE CASA DE LA
CIUDAD DE CAJAMARCA

DETERGENTE N⁰ AMAS DE
CASA (fi) hi%
BOLIVAR 14 25.93
ARIEL 22 40.74
ACE 7 12.96
SAPOLIO 11 20.37
TOTAL 54 100
FUENTE: ENCUESTA APLICADA EL DIA 23-07-2014
ELABORACION: Departamento de Personal
Grafico de Barras:
Grafico N° 1
DETERGENTE USADO POR LAS AMAS DE CASA DE LA CIUDAD
DE CAJAMARCA - 2014
25
22

20

15 14

A
11
10
7

0
BOLIVAR ARIEL ACE SAPOLIO
DETERGENTE

FUENTE: ENCUESTA APLICADA EL DIA 23-07-2014


ELABORACION: Departamento de Personal
Grafico de Sectores Circulares:
Grafico N° 2
DETERGENTE USADO POR LAS AMAS DE CASA DE LA
CIUDAD DE CAJAMARCA - 2014

SAPOLIO
20% BOLIVAR
26%

ACE
13%

ARIEL
41%

FUENTE: Registros de accidentes en embotelladora


ELABORACION: Departamento de Personal
ORGANIZACIÓN DE DATOS
VARIABLE CUANTITATIVA DISCRETA

Xi fi hi Fi Hi

X1 f1 h1 F1 H1

X2 f2 h2 F2 H2

… … … … …

Xk fk hk Fk Hk

TOTAL n 1
Ejemplo
Construir la distribución de frecuencias del número de hijos de 20
trabajadores:

2 1 2 4 1

3 2 3 2 0

3 2 1 3 2

3 3 1 2 4
N⁰ de Hijos Trabajadores Porcentajes

0 1 0.05x100=5%

1 4 0.20x100=20%

2 7 0.35x100=35%

3 6 0.30x100=30%

4 2 0.10x100=10%

Total 20 100%
CUADRO N⁰ 2
NUMERO DE HIJOS DE TRABAJADORES
N⁰ de hijos Trajadores (fi) hi% Fi Hi%

0 1 5 1 5
1 4 20 5 25
2 7 35 12 60
3 6 30 18 90
4 2 10 20 100
Total 20 100
FUENTE: Encuesta de trabajadores
ELABORACION: Departamento de Personal
Grafico de Bastones:
GRAFICO N⁰ 3
NUMERO DE HIJOS DE TRABAJADORES
40
35
35
30
30

25
20
20

%
15
10
10
5
5

0
0 1 2 3 4
Hijos

FUENTE: Registro de control de asistencia de trabajadores


ELABORACION: Departamento de Personal
Grafico de Escalones:
GRAFICO N⁰ 4
NUMERO DE HIJOS DE TRABAJADORES
120

100
100
90

80

60
60

%
40
25
20
5
0
0 1 2 3 4
Ausencias

FUENTE: Registro de control de asistencia de trabajadores


ELABORACION: Departamento de Personal
Ejemplo
¿Cuántos individuos tienen menos Número de hijos
de 2 hijos?
◦ frec. indiv. sin hijos Porcent. Porcent.
+ Frec. (válido) acum.
frec. indiv. con 1 hijo 0 419 27,8 27,8
= 419 + 255 1 255 16,9 44,7
= 674 individuos 2 ≥50%
375 24,9 69,5
3 215 14,2 83,8
4 127 8,4 92,2
¿Qué porcentaje de individuos
tiene 6 hijos o menos? 5 54 3,6 95,8
◦ 97,3% 6 24 1,6 97,3
7 23 1,5 98,9
Ocho+ 17 1,1 100,0
¿Qué cantidad de hijos es tal que al Total 1509 100,0
menos el 50% de la población
tiene una cantidad inferior o igual?
◦ 2 hijos

17
ORGANIZACIÓN DE DATOS
VARIABLE CUANTITATIVA CONTINUA

Intervalo Marca de fi hi Fi Hi
[Li ; Ls> Clase (Xi)
I1 X1 f1 h1 F1 H1

I2 X2 f2 h2 F2 H2

… … … … … …

Ik Xk fk hk Fk Hk

Total n 1
Ejemplo. En la oficina de un diario, el tiempo que se tardan en imprimir la
primera plana fue registrado durante 50 días. A continuación se transcriben los
datos, aproximados a décimas de minuto:

20,8 22,8 21,9 22,0 20,7 20,9 25,0 22,2 22,8 20,1
25,3 20,7 22,5 21,2 23,8 23.3 20,9 22,9 23,5 19,5
23,7 20,3 23,6 19,0 25,1 25,0 19,5 24,1 24,2 21,8
21,3 21,5 23,1 19,9 24,2 24,1 19,8 23,9 22,8 23,9
19,7 24,2 23,8 20,7 23,8 24,3 21,1 20,9 21,6 22,7
Construya con los datos una tabla de distribución de frecuencia,
usando la regla de sturges.
PROCEDIMIENTO PARA CONSTRUIR INTERVALOS:
•Calcular el rango (R) o recorrido, el cual se define de la siguiente
manera:
R = Obs. máxima – Obs. Mínima
R = 25.3 - 19.0 = 6.3
•Determine el número de intervalos (k)
K = 1 + 3.3 log (n) (Fórmula de Sturges) K = 1 + 3.3 log (50) = 6.607
= 7 (entero) (Redondeo simple)
•Determinar la amplitud del intervalo (a=R/K) (Redondeado por
exceso) Se redondea según el número de decimales que se tiene
en la muestra : a=6.3/7=0.9
Cuadro N3
Tiempo que se tardan en imprimir la primera plana
de un diario

Tiempo Xi fi hi Fi Hi
(minutos)

[19.0-19.9> 19.45 5 0.10 5 0.10


[19.9-20.8> 20.35 6 0.12 11 0.22
[20.8-21.7> 21.25 9 0.18 20 0.40
[21.7-22.6> 22.15 5 0.10 25 0.50
[22.6-23.5> 23.05 7 0.14 32 0.64
[23.5-24.4> 23.95 14 0.28 46 0.92
[24.4-25.3] 24.85 4 0.08 50 1.00
Total 50 1

FUENTE: observación de impresión de primera plana


ELABORACION: Departamento de Logística
Grafico de Histograma:
GRAFICO N 5
TIEMPO DE IMPRESION DE PRIMERA PLANA DE UN DIARIO
30% 28%

25%

20% 18%

15% 14%
%

12%
10% 10%
10% 8%

5%

0%
18.55 19.45 20.35 21.25 22.15 23.05 23.95 24.85 24.75
Tiempo

FUENTE: observación de impresión de primera plana del Diario


ELABORACION: Departamento de Logística
Grafico de Polígono:
GRAFICO N 6
TIEMPO DE IMPRESION DE PRIMERA PLANA DE UN DIARIO
30%
28%

25%

20%
18%

15%
%

14%
12%
10% 10% 10%
8%

5%

0%
18.55 19.45 20.35 21.25 22.15
Tiempo 23.05 23.95 24.85 24.75

FUENTE: observación de impresión de primera plana del Diario


ELABORACION: Departamento de Logística
Grafico de Ojiva:
GRAFICO N 7
TIEMPO DE IMPRESION DE PRIMERA PLANA DE UN DIARIO
120%

100%
100%
92%

80%

64%
60%
%

50%
40% 40%

20% 22%

10%
0%
19.0 19.9 20.8 21.7 22.6 23.5 24.4 25.3 26.2
Tiempo

FUENTE: observación de impresión de primera plana del Diario


ELABORACION: Departamento de Logística
Organización de los Datos
Variable Numérica

Diagrama de Tallos y Hojas (Stem & Leaf)


Se ubican en una columna, en orden ascendente, todos los números que
forman los datos una vez que se ha eliminado la última cifra (de las
unidades o de los décimos) . Estos valores son los “tallos”.
Se separa con una línea vertical estos números y a la derecha de cada uno
de ellos se localizan en filas las cifras de las unidades (o de sus décimos) de
cada dato (hojas) que comienza con ese número.
En cada fila, las hojas se ordena también de menor a mayor.
Ejemplo
Variable Numérica

Gráfico de Tallos y Hojas de la variable “Edad del


Jefe de Familia”
Diagrama de tallos y hojas
Los diagramas de tallos y hojas se utilizan para describir
variables cuantitativas.
Permiten visualizar globalmente la distribución de los
datos manteniendo su individualidad.
Esta técnica funciona bien para los conjuntos de datos
que no tienen una dispersión muy grande.
Implica separar cada dato en dos partes:
◦ El primer o primeros dígitos (Tallo)
◦ El dígito o dígitos restantes (Hojas)
Diagrama de tallos y hojas
 Graph → Stem_and_Leaf …
Stem-and-Leaf Display: Peso
Stem-and-leaf of Peso N = 45
Leaf Unit = 0.10

5 4 12578
13 5 13455889
(14) 6 01223355578888
18 7 0002457899
8 8 0345689
1 9 0
Gráfico de cajas (Box-Plot)
El diagrama de cajas es una representación gráfica que
se construye en base a la mediana y los cuartiles Q1 y
Q3.
Se traza un rectángulo con los extremos
correspondientes al primer y tercer cuartil.
Dentro de la caja se traza una línea horizontal en el lugar
de la mediana.
Se ubican los límites mediante el rango intercuartil.
Gráfico de cajas (Box-Plot)
RI = Q3 – Q1
◦ Límite inferior : ISI = Q1 – 1.5 RI
◦ Límite superior: ISS = Q3 + 1.5 RI
Se trazan líneas verticales desde los extremos de la caja
hasta el valor máximo y mínimo dentro de los límites
(bigotes de la caja).
Se marcan con asterisco (*) las localizaciones de los
valores atípicos (outliers).
Gráfico de cajas (Box-Plot)
Gráfico de cajas (Box-Plot)
DISTIBUCIONES BIDIMENSIONALES
Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo
dos variables de cada elemento de la población o de la muestra.
Estas variables pueden ser cuantitativas o cualitativas. Por ejemplo: peso y altura de un
grupo de estudiantes; edad y horas de lectura; usuario y turno de asistencia, género y
edad, Nivel socioeconómico y grado de instrucción; género y raza. etc.
DISTRIBUCION DE VARIABLE:
Cuando un conjunto de datos se clasifica en función de dos variables X e Y, las parejas
(xi, yi) formadas por las observaciones, constituyen una variable estadística
bidimensional.

Todo conjunto de datos clasificado según una variable bidimensional, tiene asociado
una distribución de frecuencias.
TABLAS ESTADISTICAS BIDIMENSIONALES
Para presentar los datos obtenidos se utiliza una tabla llamada tabla de doble entrada.
TABLAS ESTADISTICAS BIDIMENSIONALES
Las “ X ” representan una de las variables, y las “ Y “ la otra variable.
En cada intersección de un valor de “X” y un valor de “Y” se presenta el número de veces
que dicho par de valores se ha presentado conjuntamente.
Además, fij es el número de veces que aparece repetido el par (xi, yi) y que llamaremos
frecuencia absoluta del par (xi, yi).`
Distribuciones Bidimensionales para Variables Cualitativas
Ejemplo:

Tenemos datos de 10 individuos de las variables X =color de ojos (A=azul, V=verde, M=marrón)
Y = color de cabello ( R= rubio, M= moreno)
X: A V M M V A A A A M

Y: R R M R M R R M M R

Construir la tabla de doble entrada

Cuadro 01:Distribución de individuos según color de


ojos y color de cabello en el barrio A- 2013
TIPOS DE FRECUENCIAS

1. FRECUENCIAS ABSOLUTAS:
La suma de las frecuencias absolutas es igual al número de pares observados (n).

Se designa por un punto el total según el índice i. o el índice j. es decir:


fi.: es la suma total de las frecuencias absolutas fij según el índice j.

f.j: es la suma total de las frecuencias absolutas fij según el índice i.


2. FRECUENCIAS RELATIVAS:
FRECUENCIAS RELATIVAS PARA EL
EJEMPLO:
Cuadro 02: Distribución de individuos según color de ojos y
color de cabello en el barrio A-2013

Fuente: Encuesta aplicada


DISTRIBUCIONES MARGINALES

De cada distribución bidimensional se puede deducir dos distribuciones, llamadas


distribuciones marginales, una correspondiente a la variable X y otra a la Y.

Se trabaja como en el caso de dos distribuciones unidimensionales.


DISTRIBUCIONES MARGINALES:
Podemos obtener las siguientes distribuciones marginales:

Al igual que se analiza todo tipo de frecuencias (absolutas y relativas) para una sola variable, también de
determinan para el análisis bidimensional.
DISTRIBUCIONES MARGINALES PARA EL
EJEMPLO:
Marginal para X

Marginal para X

Interpretación:

f1. = 5 personas tienen ojos azules.

f.2 = 4 personas tienen el cabello color moreno.


Caso: ESTUDIO SOCIOECONOMICO

Un investigador está interesado en estudiar el nivel socioeconómico (Alto = A, Medio = M y


Bajo= ) y origen ( Costa = C, Sierra = S y Selva = SV) de los empleados de la empresa CGA.

• ¿Cuáles son las variables es estudio?


• ¿Qué tipo de variables son?
• ¿Cuáles son los tipos de frecuencias?
• Construya un cuadro bidimensional.
• ¿Cuántos empleados de la selva son del nivel socioeconómico bajo?
• ¿Qué porcentaje de empleados de la costa son del nivel socioeconómico alto?
Distribuciones Bidimensionales para Variables
Cuantitativas
Ejemplo:
Tenemos datos de 10 individuos de las variables X (nivel de estudios: 1 sin estudios, 2 primarios, 3
medios y 4 superiores) e Y (nº de cigarros que fuma): Cuadro 01:
Distribución de personas según el nivel de
estudios y números de cigarros que
X: 1 1 2 2 3 3 4 4 4 4 fuman en el barrio Santa Clara -2014 .
Y: 2 6 2 2 2 4 2 4 4 6
Construir la tabla de doble entrada
SOLUCION:
Ejemplo:
Del ejemplo 1 determinar las frecuencias absolutas marginales, relativas
conjuntas/frecuencias relativas conjuntas marginales.

Cuadro 02: Distribución de personas según Cuadro 032: Distribución de personas


el nivel de estudios y números de cigarros según el nivel de estudios y números de
que fuman en el barrio Santa Clara -2014 . cigarros que fuman en el barrio Santa Clara
-2014 .
Y

X 2 4 6 fi.

1 1 0 1 2

2 2 0 0 2

3 1 1 0 2

4 1 2 1 4

f.j 5 3 2 n =10
Ejemplo:
Sean las variables: X= Edad e Y=color de cabello de un grupo de personas.
Se tienen las distribuciones absolutas/relativas y marginal:
Cuadro 04:Distribución de personas según
edad y color de cabello en la ciudad de
Cajamarca -2014 .

Determinar e interpretar:
f11, f32, f.1, f2.

Fuente: Encuesta aplicada


Interpretación:
f11 = 10

10 personas entre 20 y 35 años tienen el cabello color rubio.

f32= 22

22 personas entre 50 y 65 años tienen el cabello color moreno.

f.1 = 23

23 personas tienen el cabello color rubio.


f2. = 30

30 personas tienen entre 50 y 65


Caso :ESTUDIO DE VENTAS

El gerente de ventas de una cadena de tiendas está interesado en estudiar la relación entre los
años de experiencia (A) y el monto (M) de ventas en miles de soles, de sus vendedores.

• ¿Cuáles son las variables es estudio?


• ¿Qué tipo de variables son?
• Construya un cuadro bidimensional para estos datos.
• ¿Cuáles son los tipos de frecuencias?
• ¿Cuántos vendedores hicieron 12 mil soles en ventas?
• ¿Qué porcentaje de vendedores con 8 años de experiencia hicieron 10 mil soles en ventas?
¿Qué hemos visto?

Presentación ordenada de datos


◦ Tablas de frecuencias
◦ absolutas
◦ relativas
◦ acumuladas
◦ Representaciones gráficas
◦ Cualitativas
◦ Numéricas
◦ Diferenciales
◦ Integrales
◦ Tallos y hojas
o Diagrama de cajas
o Distribuciones Bidimensionales

50

You might also like