Professional Documents
Culture Documents
ORGANIZACIÓN DE DATOS
OBJETIVOS:
ƒ rganizar los datos en un cuadro de distribución de
O
frecuencias
ƒ resentar los datos en gráficos de distribución de
P
frecuencias.
ORGANIZACIÓN DE DATOS
CUADRO DE VARIABLE CUALITATIVA
C1 f1 (f1/n)x100
C2 f2 (f2/n)x100
… … …
Ck fk (fk/n)x100
Total n 100
ORGANIZACIÓN DE DATOS
VARIABLE CUALITATIVA
Para representar gráficamente la distribución de
frecuencias de una variable cualitativa se utilizan las
barras y los sectores circulares.
Nota
Si trabajamos con variables nominales las categorías pueden ser colocadas
en cualquier orden. En el caso de escala ordinal las categorías deberán ser
colocadas en orden(Grafico de barras)
Gráficos para v. cualitativas
Diagramas de barras
◦ Alturas proporcionales a las frecuencias (abs. o
rel.)
◦ Se pueden aplicar también a variables discretas
Pictogramas
◦ Fáciles de entender.
◦ El área de cada modalidad debe ser proporcional
a la frecuencia.
5
EJEMPLO:
En la ciudad de Cajamarca se encuestaron a
54 amas de casa sobre la marca de
detergente que usan, Ariel (A), Ace (C),
Bolivar (B), y Sapolio (S); se registraron los
datos (cuadro 1). Se pide organizar los
datos.
Datos:
A A B S B B
A A A S A C
A S A C A S
C B B C B A
A B B A C B
S B S A A S
A S A A S B
A A A B C S
B S B C A A
CUADRO 1:
DETERGENTE USADO POR LAS AMAS DE CASA DE LA
CIUDAD DE CAJAMARCA
DETERGENTE N⁰ AMAS DE
CASA (fi) hi%
BOLIVAR 14 25.93
ARIEL 22 40.74
ACE 7 12.96
SAPOLIO 11 20.37
TOTAL 54 100
FUENTE: ENCUESTA APLICADA EL DIA 23-07-2014
ELABORACION: Departamento de Personal
Grafico de Barras:
Grafico N° 1
DETERGENTE USADO POR LAS AMAS DE CASA DE LA CIUDAD
DE CAJAMARCA - 2014
25
22
20
15 14
A
11
10
7
0
BOLIVAR ARIEL ACE SAPOLIO
DETERGENTE
SAPOLIO
20% BOLIVAR
26%
ACE
13%
ARIEL
41%
Xi fi hi Fi Hi
X1 f1 h1 F1 H1
X2 f2 h2 F2 H2
… … … … …
Xk fk hk Fk Hk
TOTAL n 1
Ejemplo
Construir la distribución de frecuencias del número de hijos de 20
trabajadores:
2 1 2 4 1
3 2 3 2 0
3 2 1 3 2
3 3 1 2 4
N⁰ de Hijos Trabajadores Porcentajes
0 1 0.05x100=5%
1 4 0.20x100=20%
2 7 0.35x100=35%
3 6 0.30x100=30%
4 2 0.10x100=10%
Total 20 100%
CUADRO N⁰ 2
NUMERO DE HIJOS DE TRABAJADORES
N⁰ de hijos Trajadores (fi) hi% Fi Hi%
0 1 5 1 5
1 4 20 5 25
2 7 35 12 60
3 6 30 18 90
4 2 10 20 100
Total 20 100
FUENTE: Encuesta de trabajadores
ELABORACION: Departamento de Personal
Grafico de Bastones:
GRAFICO N⁰ 3
NUMERO DE HIJOS DE TRABAJADORES
40
35
35
30
30
25
20
20
%
15
10
10
5
5
0
0 1 2 3 4
Hijos
100
100
90
80
60
60
%
40
25
20
5
0
0 1 2 3 4
Ausencias
17
ORGANIZACIÓN DE DATOS
VARIABLE CUANTITATIVA CONTINUA
Intervalo Marca de fi hi Fi Hi
[Li ; Ls> Clase (Xi)
I1 X1 f1 h1 F1 H1
I2 X2 f2 h2 F2 H2
… … … … … …
Ik Xk fk hk Fk Hk
Total n 1
Ejemplo. En la oficina de un diario, el tiempo que se tardan en imprimir la
primera plana fue registrado durante 50 días. A continuación se transcriben los
datos, aproximados a décimas de minuto:
20,8 22,8 21,9 22,0 20,7 20,9 25,0 22,2 22,8 20,1
25,3 20,7 22,5 21,2 23,8 23.3 20,9 22,9 23,5 19,5
23,7 20,3 23,6 19,0 25,1 25,0 19,5 24,1 24,2 21,8
21,3 21,5 23,1 19,9 24,2 24,1 19,8 23,9 22,8 23,9
19,7 24,2 23,8 20,7 23,8 24,3 21,1 20,9 21,6 22,7
Construya con los datos una tabla de distribución de frecuencia,
usando la regla de sturges.
PROCEDIMIENTO PARA CONSTRUIR INTERVALOS:
•Calcular el rango (R) o recorrido, el cual se define de la siguiente
manera:
R = Obs. máxima – Obs. Mínima
R = 25.3 - 19.0 = 6.3
•Determine el número de intervalos (k)
K = 1 + 3.3 log (n) (Fórmula de Sturges) K = 1 + 3.3 log (50) = 6.607
= 7 (entero) (Redondeo simple)
•Determinar la amplitud del intervalo (a=R/K) (Redondeado por
exceso) Se redondea según el número de decimales que se tiene
en la muestra : a=6.3/7=0.9
Cuadro N3
Tiempo que se tardan en imprimir la primera plana
de un diario
Tiempo Xi fi hi Fi Hi
(minutos)
25%
20% 18%
15% 14%
%
12%
10% 10%
10% 8%
5%
0%
18.55 19.45 20.35 21.25 22.15 23.05 23.95 24.85 24.75
Tiempo
25%
20%
18%
15%
%
14%
12%
10% 10% 10%
8%
5%
0%
18.55 19.45 20.35 21.25 22.15
Tiempo 23.05 23.95 24.85 24.75
100%
100%
92%
80%
64%
60%
%
50%
40% 40%
20% 22%
10%
0%
19.0 19.9 20.8 21.7 22.6 23.5 24.4 25.3 26.2
Tiempo
5 4 12578
13 5 13455889
(14) 6 01223355578888
18 7 0002457899
8 8 0345689
1 9 0
Gráfico de cajas (Box-Plot)
El diagrama de cajas es una representación gráfica que
se construye en base a la mediana y los cuartiles Q1 y
Q3.
Se traza un rectángulo con los extremos
correspondientes al primer y tercer cuartil.
Dentro de la caja se traza una línea horizontal en el lugar
de la mediana.
Se ubican los límites mediante el rango intercuartil.
Gráfico de cajas (Box-Plot)
RI = Q3 – Q1
◦ Límite inferior : ISI = Q1 – 1.5 RI
◦ Límite superior: ISS = Q3 + 1.5 RI
Se trazan líneas verticales desde los extremos de la caja
hasta el valor máximo y mínimo dentro de los límites
(bigotes de la caja).
Se marcan con asterisco (*) las localizaciones de los
valores atípicos (outliers).
Gráfico de cajas (Box-Plot)
Gráfico de cajas (Box-Plot)
DISTIBUCIONES BIDIMENSIONALES
Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo
dos variables de cada elemento de la población o de la muestra.
Estas variables pueden ser cuantitativas o cualitativas. Por ejemplo: peso y altura de un
grupo de estudiantes; edad y horas de lectura; usuario y turno de asistencia, género y
edad, Nivel socioeconómico y grado de instrucción; género y raza. etc.
DISTRIBUCION DE VARIABLE:
Cuando un conjunto de datos se clasifica en función de dos variables X e Y, las parejas
(xi, yi) formadas por las observaciones, constituyen una variable estadística
bidimensional.
Todo conjunto de datos clasificado según una variable bidimensional, tiene asociado
una distribución de frecuencias.
TABLAS ESTADISTICAS BIDIMENSIONALES
Para presentar los datos obtenidos se utiliza una tabla llamada tabla de doble entrada.
TABLAS ESTADISTICAS BIDIMENSIONALES
Las “ X ” representan una de las variables, y las “ Y “ la otra variable.
En cada intersección de un valor de “X” y un valor de “Y” se presenta el número de veces
que dicho par de valores se ha presentado conjuntamente.
Además, fij es el número de veces que aparece repetido el par (xi, yi) y que llamaremos
frecuencia absoluta del par (xi, yi).`
Distribuciones Bidimensionales para Variables Cualitativas
Ejemplo:
Tenemos datos de 10 individuos de las variables X =color de ojos (A=azul, V=verde, M=marrón)
Y = color de cabello ( R= rubio, M= moreno)
X: A V M M V A A A A M
Y: R R M R M R R M M R
1. FRECUENCIAS ABSOLUTAS:
La suma de las frecuencias absolutas es igual al número de pares observados (n).
Al igual que se analiza todo tipo de frecuencias (absolutas y relativas) para una sola variable, también de
determinan para el análisis bidimensional.
DISTRIBUCIONES MARGINALES PARA EL
EJEMPLO:
Marginal para X
Marginal para X
Interpretación:
X 2 4 6 fi.
1 1 0 1 2
2 2 0 0 2
3 1 1 0 2
4 1 2 1 4
f.j 5 3 2 n =10
Ejemplo:
Sean las variables: X= Edad e Y=color de cabello de un grupo de personas.
Se tienen las distribuciones absolutas/relativas y marginal:
Cuadro 04:Distribución de personas según
edad y color de cabello en la ciudad de
Cajamarca -2014 .
Determinar e interpretar:
f11, f32, f.1, f2.
f32= 22
f.1 = 23
El gerente de ventas de una cadena de tiendas está interesado en estudiar la relación entre los
años de experiencia (A) y el monto (M) de ventas en miles de soles, de sus vendedores.
50