Procesamiento de Datos y Anális Estadístico

Ing. Deivy Y.
Dionicio Rosado
90
80
70
60
50 Este
40 Oeste
30 Norte
20
10
0
1er trim. 2do trim. 3er trim. 4to trim.
Objetivo:
- Leer e interpretar información de tablas y
gráficos
- Recopilar y comunicar información
utilizando los procedimientos
más adecuados a la característica de lo
que se va a informar.
RECORDEMOS
{
Como por ejemplo:
- Edad
{
Cuantitativas - Peso
- Altura
Tipos de
variables
{
Como por ejemplo:
- Color de pelo
Cualitativas
- Color de ojos
- Sexo
Distribuciones de frecuencias
Toma de datos: Es la obtención de una colección de los mismos

que no han sido ordenados numéricamente.
Ejemplo: Conjunto de alturas de 100 estudiantes, sacados de una

lista alfabética de una Universidad.
Ordenación: Es una colocación de los datos numéricos tomados,

en orden creciente o decreciente de magnitud.
Ejemplo:
32 , 45, 100, 120 , 145, 186, 198, 200 ( ordenación creciente )
200, 198, 186, 145, 120, 100, 45, 32 ( ordenación decreciente)
Al recoger información se obtiene un gran número de datos,
que conviene presentar en forma resumida en una tabla llamada
distribución de frecuencias.
Frecuencia absoluta: es el número de veces que se repite un valor de la variable.
Frecuencia acumulada hasta un valor determinado: es el número de observaciones

menor o igual al valor considerado. Se obtiene sumando sucesivamente las frecuencias
absolutas.
Frecuencia relativa: es el cociente entre la frecuencia absoluta y el número total de

individuos de la muestra
Frecuencia relativa porcentual: Es la frecuencia relativa expresada en porcentajes.

Ejemplos
 Los siguientes datos son las calificaciones de un grupo de 27

alumnos en la asignatura de matemática:
5 6 5 7 4 2 3 5 4 6 7 5 4 6 5 4 5 6
4 3 4 6 7 5 4 5 6
a) Construya una tabla de distribución de frecuencias

b) ¿Cuántos alumnos tienen nota inferior a 5?
c) ¿Qué porcentaje de alumnos tiene nota 4?
d) ¿Cuántos alumnos tiene nota 6?
e) ¿Qué porcentaje de alumnos tiene nota superior o igual a 4?
Calificación frecuencia Frecuencia Frecuencia Frec. relat.
acumulada relativa porcentual
2 1 1 1 / 27 = 0,037 3,7
3 2 3 2 / 27 = 0,074 7,4
4 7 10 7 / 27 = 0,259 25,9
5 8 18 8 / 27 = 0,296 29,6
6 6 24 6 / 27 = 0,222 22,2
7 3 27 3 / 27 = 0,111 11,1
b) 10 alumnos tienen nota inferior a 5,0

c) El 25,9% de los alumnos tiene nota 4,0
d) 6 alumnos tienen nota 6,0
e) El 88,8% de los alumnos tiene nota igual o superior a 4,0
 Una encuesta realizada a alumnos de Cuarto Medio acerca
de su futura profesión, indica lo siguiente:
Variable F. absoluta a) Completar la tabla con frecuencia

profesión Nº de alumnos acumulada, relativa y relativa
Ingeniería 10 porcentual.
Medicina 6
b) ¿Cuántos alumnos fueron encuestados?
Economía 12
c) ¿Cuál es la profesión que tiene mayor
Periodismo 8
preferencia?
Derecho 5
9
d) ¿Qué porcentaje de alumnos prefiere
Arquitectura
Otras 10
arquitectura?
e) ¿Qué porcentaje de alumnos prefiere
medicina?
Profesión Frecuencia F. acumulada F. relativa F. relat. %
Ingeniería 10 10 10 / 60 = 0,166 16,6
Medicina 6 16 6 / 60 = 0,100 10,0
Economía 12 28 12 / 60 = 0,200 20,0
Periodismo 8 36 8 / 60 = 0,133 13,3
Derecho 5 41 5 / 60 = 0,083 8.3
Arquitectura 9 50 9 / 60 = 0,150 15,0
Otros 10 60 10 / 60 = 0,166 16,6
b) 60 alumnos fueron encuestados

c) Economía es la profesión con mayor frecuencia
d) El 15% de los alumnos prefiere Arquitectura
e) El 10% de los alumnos prefiere Medicina
 En una muestra de 40 familias, el número de hijos se
distribuye según la tabla:
a) Completa la tabla con frecuencia

acumulada, relativa y relativa
Variable F. absoluta porcentual.
Nº de hijos Nº de familias b) ¿Cuántas familias tienen menos de
4 hijos?
1 2
c) ¿Cuántas familias tienen 5 hijos?
2 8
d) ¿Cuál es la frecuencia relativa de las
3 12 familias que tienen 2 hijos?
4 14 e) ¿Qué porcentaje de familias tiene 6
5 3
hijos?
f) ¿Qué fracción representan las familias
6 1
con 2 hijos?
g) ¿Qué fracción representan las familias
con 4 hijos?
Nº hijos Frecuencia F. acumulada F, relativa Frec. Relat. %
1 2 2 2 / 40 = 0,05 5
2 8 10 8 / 40 = 0,20 20
3 12 22 12 / 40 = 0,30 30
4 14 36 14 / 40 = 0,35 35
5 3 39 3 / 40 = 0,075 7,5
6 1 40 1 / 40 = 0,025 2,5
b) 22 familias tienen menos de 4 hijos

c) 3 familias tienen 5 hijos
d) La frecuencia relativa de familias con 2 hijos es de 0,20
e) El 2,5% de las familias tiene 6 hijos
f) 1 / 5 de las familias tienen 2 hijos
g) 7 / 20 de las familias tienen 4 hijos
Medidas de tendencia central.
Son valores representativos de la totalidad de los datos. Su cálculo permite analizar los
datos en torno a un valor central.
Los valores centrales más usados son:
 Media aritmética.
 Mediana
Moda.
 Media aritmética: corresponde al promedio de los valores.

Se simboliza por X̄
La media aritmética se obtiene sumando los valores de la variable dividido por el
número total de valores.
 Mediana: Es el valor de la variable que deja igual número de valores antes y
después de él en una distribución de frecuencias
 Moda: Es el valor de la variable que tiene mayor frecuencia
Representación gráfica de la información
 Gráfico lineal o de segmentos:
Se utiliza especialmente para representar datos numéricos de
situaciones que ocurren en períodos sucesivos.
35
30
25
Temperatura
20
15
10
5
0
Lunes Martes Miércoles Jueves Viernes Sábado Domingo
 gráfico de Barra : Permite hacer comparaciones mediante
barras paralelas colocadas en forma vertical u horizontal
entre dos ejes perpendiculares.
90
80
70
60
50
40 Matematica
30 Lenguaje
20
10
0
1er 2do 3er 4to
trim. trim. trim. trim.
 Gráfico circular: Consiste en un círculo dividido en sectores
que representan las frecuencias relativas porcentuales de una
distribución
Los 360 grados del círculo se dividen proporcionalmente al

porcentaje correspondiente de cada frecuencia.
4to trim. 1er trim.

13% 13%
2do trim.
17%
3er trim.
57%
Representación gráfica en datos agrupados
Histograma: Es un gráfico de barras verticales que sirve para

representar los datos de una distribución de frecuencias
en la cual los valores de la variable están agrupados en
intervalos.
El histograma tiene la siguiente característica:

Las bases de las barras o rectángulos están sobre el eje horizontal y
su ancho ( longitud sobre el eje) es igual al tamaño de los intervalos
de clase.
f
10
8
6
4
2
I
5- 7 8-10 11-13 14-16 17-19
Varianza
La varianza de un conjunto de datos se define como el cuadrado
de la desviación típica Se simboliza por S2
k n 
 (x  x) 2
S2 = k 1
n
El cálculo de la varianza es similar a la desviación típica
Una razón
es la relación entre dos categorías. Por ejemplo:
Categorías Frecuencia
Masculino 60
Femenino 30
La razón de hombres a mujeres es de = 2. Es decir, por cada dos hombres hay una
mujer.
Tasa:
Es la relación entre el número de casos de una categoría y el número de observaciones.
Una tasa es la relación entre el número de casos, frecuencias o eventos de una
categoría y el número total de observaciones, multiplicada por un múltiplo de 10,
generalmente
100 o 1000.
Tasa=
¿Cuáles son los métodos o las pruebas estadísticas
paramétricas más utilizadas?
 Coeficiente de correlación de Pearson y regresión lineal.

 Prueba t.
 Prueba de contraste de la diferencia de proporciones.
Análisis de varianza unidireccional (ANOVA en un sentido o
oneway).
Análisis de varianza factorial (ANOVA).
Análisis de covaríanza (ANCOVA).
¿Qué es el coeficiente de correlación de Pearson?
Es una prueba estadística para analizar la relación entre dos variables medidas en un nivel
por intervalos o de razón.
Se simboliza: r.
¿Qué es la prueba t?
Es una prueba estadística para evaluar si dos grupos difieren entre sí de manera
significativa respecto a sus medias en una variable. Se simboliza: t.
• Hipótesis: de diferencia entre dos grupos. La hipótesis de investigación propone que

los grupos difieren de manera significativa entre sí y la hipótesis nula plantea que los
grupos no difieren significativamente.
• Variables: la comparación se realiza sobre una variable (regularmente y de manera
teórica: dependiente).
• Cálculo e interpretación: el valor t es calculado por el programa estadístico, ya
prácticamente no se determina manualmente.
La prueba t se basa en una distribución muestral o poblacional de diferencia de medias
conocida como la distribución t de Student que se identifica por los grados de libertad, los
cuales constituyen el número de maneras en que los datos pueden variar libremente.
Estudio de un caso:
Los siguientes datos son el número de ventas de una muestra de 9 vendedores de

productos químicos en Trujillo y una muestra de 6 vendedores en Cajamarca realizaron en
cierto período fijo.
TRUJILLO : 59 68 44 71 63 46 69 54 48
CAJAMARCA : 50 36 62 52 70 41
Suponiendo que las poblaciones muestreadas pueden aproximarse con distribuciones
normales que tienen la misma varianza utilice un nivel de significancia de 0.01 para probar
si hay diferencia entre las medias.
1° Hipótesis:
Ho:1= 2
H1: 1 2
2° Nivel de significancia:  = 0.01
3° Establecer la Estadística de prueba t student
Varianza desconocidas pero diferentes 12  22
tc 
x1  x 2   1  2   58  51.83  0  0.99
S12 S 22 109 160.97


n1 n2 9 6
4° Valor crítico:
Ttabla = 3.25
2
 S12 S 22 
n  n 
gl  v   12 2 
2
 9.34
 S12   S 22 
   
 n1    n2 
n11 n2 2
5°
1- = 0.99
 = 0.05 0.005
tt = -3.25 tt = 3.25
6° Conclusión: Ho se acepta, por lo tanto no hay diferencia entre las medias

Supongamos que se quiere estudiar la posible asociación entre el hecho de que
una gestante fume durante el embarazo y que el niño presente bajo peso al nacer.
Para responder a esta pregunta se realiza un estudio de seguimiento sobre una
cohorte de 2000 gestantes, a las que se interroga sobre su hábito tabáquico
durante la gestación y se determina además el peso del recién nacido. Los
resultados de este estudio se muestran en la
Tabla de contingencia para estudiar la asociación entre fumar

durante la gestación y el bajo peso del niño al nacer. Estudio de
seguimiento de 2000 gestantes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (a) 207 (b) 250
No fumadora 105 (c) 1645 (d) 1750
Total 148 1852 2000
Para responder a esta pregunta, se utiliza un test de
hipótesis conocido como el test Chi-cuadrado de
Pearson.
 La hipótesis nula del test es

Ho: Las dos variables analizadas son
independientes.
H1: Las variables no son independientes, es decir
que existe una relación entre las dos variables.
Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis)
si los factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No fumadora 105 (129.5) 1645 (1620.5) 1750
Total 148 1852 2000
 
2 43  18,5
2

207  231,5
2

105  129,5
2

1645  1620,5
2
 40,04
18,5 231,5 129,5 1620,5
Ho: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño y el
hecho de fumar durante la gestación son independientes, no están
asociados).
H1: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar durante
la gestación están asociados.
Bajo la hipótesis nula de independencia, se sabe que los valores del estadístico Ji
Cuadrado se distribuyen según una distribución conocida denominada Ji-
cuadrado, que depende de un parámetro llamado “grados de libertad”
(g.l.).
Para el caso de una tabla de contingencia de r filas y k columnas, los g.l.
son igual al producto del número de filas menos 1 (r-1) por el número de
columnas menos 1 (k-1). Así, para el caso en el que se estudie la relación
entre dos variables dicotómicas (Tabla 2x2) los g.l. son 1.
El valor-p que usualmente reportan la mayoría de paquetes estadísticos

no es más que la probabilidad de obtener, según esa distribución, un dato
más extremo que el que proporciona el test o, equivalentemente, la
probabilidad de obtener los datos observados si fuese cierta la hipótesis
de independencia. Si el valor-p es muy pequeño (usualmente se
considera p<0.05) es poco probable que se cumpla la hipótesis nula y se
debería de rechazar.
Obteniendo los resultados respectivos (p<0.005), a la vista de los resultados,

rechazamos la hipótesis nula (Ho) y aceptamos la hipótesis alternativa (H1) como
probablemente cierta.
Limitaciones:
 Las frecuencias esperadas no debe ser pequeñas(< 5) si
esto ocurre en muchas (> 20%) debe usarse, la Prueba
Exacta de Fisher.
 Si las muestras son muy grandes, la prueba dará
significativos incluso donde posiblemente consideremos
que las diferencias no son de relevancia clínica.
 Si las variables tienen muchos niveles la prueba no
resulta de mucho interés.
 2 sirve para contrastar independencia, debe usarse como
medida de asociación.
"PARA PROSPERAR, CON EL
ESTADISTICO DEBES TRABAJAR"
"EL SISTEMA ESTADISTICO
NACIONAL PUEDE Y DEBE SER
CONDUCIDO POR PROFESIONALES
ESTADISTICOS PERUANOS"

Procesamiento de Datos y Anális Estadístico

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Procesamiento de Datos y Anális Estadístico

Uploaded by

Copyright:

Available Formats

Ing. Deivy Y.

Toma de datos: Es la obtención de una colección de los mismos

Ejemplo: Conjunto de alturas de 100 estudiantes, sacados de una

Ordenación: Es una colocación de los datos numéricos tomados,

Frecuencia absoluta: es el número de veces que se repite un valor de la variable.

Frecuencia acumulada hasta un valor determinado: es el número de observaciones

Frecuencia relativa: es el cociente entre la frecuencia absoluta y el número total de

Frecuencia relativa porcentual: Es la frecuencia relativa expresada en porcentajes.

 Los siguientes datos son las calificaciones de un grupo de 27

a) Construya una tabla de distribución de frecuencias

b) 10 alumnos tienen nota inferior a 5,0

Variable F. absoluta a) Completar la tabla con frecuencia

b) 60 alumnos fueron encuestados

a) Completa la tabla con frecuencia

b) 22 familias tienen menos de 4 hijos

 Media aritmética: corresponde al promedio de los valores.

Los 360 grados del círculo se dividen proporcionalmente al

4to trim. 1er trim.

Histograma: Es un gráfico de barras verticales que sirve para

El histograma tiene la siguiente característica:

El cálculo de la varianza es similar a la desviación típica

 Coeficiente de correlación de Pearson y regresión lineal.

• Hipótesis: de diferencia entre dos grupos. La hipótesis de investigación propone que

Los siguientes datos son el número de ventas de una muestra de 9 vendedores de

6° Conclusión: Ho se acepta, por lo tanto no hay diferencia entre las medias

Tabla de contingencia para estudiar la asociación entre fumar

 La hipótesis nula del test es

Recién nacido de bajo peso

Fumadora 43 (18.5) 207 (231.5) 250

No fumadora 105 (129.5) 1645 (1620.5) 1750

Total 148 1852 2000

El valor-p que usualmente reportan la mayoría de paquetes estadísticos

Obteniendo los resultados respectivos (p<0.005), a la vista de los resultados,

You might also like