You are on page 1of 53

02/10/2018

Tema 1
Distribuciones de frecuencias
unidimensionales
1. Conceptos básicos: población, muestra y variable estadística.

2. Tabulación de datos: distribuciones de frecuencias


unidimensionales.

3. Representaciones gráficas.

4. Medidas descriptivas de posición y dispersión.

5. Medidas de concentración: índice de Gini y curva de Lorenz.


Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 1

1. Conceptos básicos: población, muestra y variable estadística.

A los conjuntos de información numérica, o listas de datos, se


les denomina estadísticas.

Estadística es la ciencia de recopilar, organizar, presentar,


analizar e interpretar información para ayudar a la tomar
decisiones más efectivas.1

La Estadística es el conjunto de métodos necesarios para


recoger, clasificar, representar y resumir datos, así como para
hacer inferencias (extraer consecuencias) científicas a partir de
ellos.2
1. Lind – Marchal - Wathen
2. Aranda Gallego – Gómez García Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 2

1
02/10/2018

Estadística descriptiva es la que recoge, clasifica, representa y


resume los datos proporcionados por la experiencia.

Inferencia estadística consiste en llegar a conclusiones válidas


para todo el colectivo, a partir de datos obtenidos de sólo una
parte de ese colectivo.

Población es el conjunto de todos los individuos, medidas u


objetos de interés.
En poblaciones no homogéneas, a menudo es conveniente
dividir la población en estratos o subpoblaciones de
composición más homogénea.
Muestra es un subconjunto finito (representativo) de elementos
tomados de una población.
¿Por qué tomamos una muestra en vez de estudiar a todos los miembros de
la población?
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 3

Los elementos de una población poseen cualidades o rasgos


definitorios que se denominan caracteres.

- El carácter es cualitativo si no es medible: Atributo o variable


cualitativa.
Cada situación posible del atributo se llama modalidad.
El atributo puede ser ordinal (si puede ordenarse) o nominal (si
no está sujeto a ningún orden).
- El carácter es cuantitativo si es medible: Variable cuantitativa
o simplemente variable.
Cada manifestación posible de la variable se llama valor, y es un
número.
Las variables pueden ser discretas (tienen un número finito o
infinito numerabe de valores) o continuas (tienen un número
infinito no numerabe de valores).
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 4

2
02/10/2018

2. Tabulación de datos: distribuciones de frecuencias


unidimensionales.

En un estudio estadístico, una vez definidos los objetivos, se


procede a elaborar los datos.
Para elaborar los datos, en primer lugar se determina la
población objeto del estudio y los caracteres a observar. Después
se recogen los datos, se clasifican de acuerdo a los caracteres y
se presentan en forma de tablas y gráficos.
La información así presentada se analiza para obtener unos
resultados, que se interpretan y de ellos se extraen conclusiones,
e incluso se podrán realizar predicciones.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 5

Ordenación y tabulación
Caso 1
Cuando una variable toma pocos valores para un número
pequeño de observaciones no es necesario resumir la
información.
Caso 2
En el caso de una variable que toma pocos valores para un
número grande de observaciones, se procede al recuento de los
mismos y se presentan los datos ordenados en una tabla que
muestra las repeticiones de cada valor de la variable.
Notación
En total tenemos N datos
La variable X puede tomar los valores o modalidades distintas: x1, x2, …,xr.
Siempre que pueda establecerse una relación de orden supondremos las
observaciones ordenadas de forma creciente: xi < xj si i < j

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 6

3
02/10/2018

Ejemplo 1: Datos cuantitativos (Ejercicio 1 - Relación 1)

Se quiere analizar el número de asignaturas aprobadas en un


cuatrimestre por los alumnos de primer curso de una titulación,
para lo que se estudia una muestra de 40 alumnos, obteniendo
los siguientes resultados:

3 6 4 7 5 5 4 7
6 3 5 7 5 5 6 7
4 4 5 3 5 6 4 6
5 6 6 5 6 4 6 5
6 6 4 5 6 6 7 5

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 7

Ejemplo 1: Datos cuantitativos (Ejercicio 1 - Relación 1)

La siguiente tabla resume los valores de las 40 observaciones:

Xi ni
3 3
4 7
5 12
6 13
7 5
N=40

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 8

4
02/10/2018

Ejemplo 2: Datos cualitativos no ordenables (Ejerc. 2 – Rel. 1)

Realizada una encuesta sobre las preferencias de los jóvenes por


determinados productos de marca se han obtenido los siguientes
resultados:

Marca 2 Marca 3 Marca 1 Marca 1 Marca 1 Marca 2

Marca 4 Marca 2 Marca 1 Marca 3 Marca 1 Marca 4

Marca 2 Marca 2 Marca 2 Marca 2 Marca 1 Marca 4

Marca 3 Marca 2 Marca 2 Marca 4 Marca 4 Marca 1

Marca 3 Marca 1 Marca 3 Marca 2 Marca 2 Marca 2

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 9

Ejemplo 2: Datos cualitativos no ordenables (Ejerc. 2 – Rel. 1)

La siguiente tabla resume las modalidades de las 30


observaciones:
Xi ni
Marca 1 8
Marca 2 12
Marca 3 5
Marca 4 5
N=30

Las modalidades no presentan un orden que sugiera realizar


agrupaciones u operaciones con los datos.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 10

5
02/10/2018

Ejemplo 3: Datos cualitativos ordinales (Ejerc. 3 – Rel. 1)

El grado de satisfacción de 25 consumidores de un determinado


producto es:

Bajo Bajo Medio Alto Medio


Bajo Muy bajo Medio Muy bajo Medio
Muy alto Medio Medio Medio Muy alto
Muy alto Bajo Medio Medio Muy alto
Medio Medio Muy alto Alto Muy bajo

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 11

Ejemplo 3: Datos cualitativos ordinales (Ejerc. 3 – Rel. 1)

La tabla que resume las modalidades de las 25 observaciones es:


Xi ni
Muy bajo 3
Bajo 4
Medio 11
Alto 2
Muy Alto 5
N=25
Las modalidades pueden ordenarse, lo que permite realizar
agrupaciones y ciertas operaciones con los datos.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 12

6
02/10/2018

Caso 3

Es el caso de una variable que toma muchos valores para un


número grande de observaciones. En estos casos la variable o
bien es continua o bien es discreta con un elevado número de
valores. Aquí es conveniente agrupar los valores de la variable en
intervalos. Con ello se gana en comodidad para manejar los
datos pero se pierde información, pues dentro de cada intervalo
hay valores diferentes.

¿Dónde está el equilibrio entre operatividad y pérdida de información?

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 13

Se denomina amplitud a la diferencia entre los valores máximo y


mínimo dentro de un intervalo.

El recorrido, Re, es la distancia entre el máximo y el mínimo de


los valores observados.

Si se desea un cierto número de intervalos y que sean de la


misma amplitud,

¿Deben tener todos los intervalos la misma amplitud?


Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 14

7
02/10/2018

Lo más general es que se tomen intervalos abiertos por la


izquierda y cerrados por la derecha, (Li-1, Li]

En las tablas de datos agrupados en intervalos, se sustituyen los


valores de cada intervalo por su marca de clase.

Notación
Tomaremos los intervalos abiertos por la izquierda y cerrados por la derecha, (Li-1, Li]

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 15

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

El número de horas extras trabajadas por 30 de los temporeros


contratados por una empresa hortofrutícola en una semana de
trabajo son:

2,9 14 9,4 12,1 4 9,3


1 10,1 6,6 9,5 12,6 11,7
19,4 12 9,8 5,4 12,1 6,9
6,4 8,4 11,8 7,9 8,3 13,4
6,9 1 15,8 8,2 5,4 11,1

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 16

8
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Xi ni
1 2

Sin agrupar 2,9


4
1
1
5,4 2
6,4 1
6,6 1
6,9 2
7,9 1
8,2 1
8,3 1
8,4 1
9,4 1
Falta claridad y síntesis. Es 9,5 1
9,5 1
conveniente agrupar los datos 9,8 1
10,1 1
para resumir la información. 11,1 1
11,7 1
11,8 1
12 1
12,1 2
12,6 1
13,4 1
14 1
15,8 1
19,4 1
N = 30
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 17

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


La siguiente tabla resume los valores de las 30 observaciones, en
el caso de igual amplitud:

(Li-1, Li] Xi ni
(0 – 4] 2 4
(4 – 8] 6 7
(8 – 12] 10 12
(12 – 16] 14 6
(16 – 20] 18 1
N=30

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 18

9
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

La siguiente tabla resume los valores de las 30 observaciones, en


un caso de distinta amplitud:

(Li-1, Li] Xi ni
(0 – 6] 3 6
(6 – 8] 7 5
(8 – 10] 9 7
(10 – 12] 11 5
(12 – 20] 16 7
N=30

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 19

Distribuciones de frecuencias
Frecuencia absoluta, ni, es el número de veces que se repite cada
valor de la variable.

Frecuencia relativa, fi, es la proporción de veces que aparece ese


valor (o intervalo).

La frecuencia relativa también puede expresarse en porcentajes.


Notación
En relación a los conceptos sobre las distribuciones de frecuencias tomaremos como
ejemplo los valores de las variables, y, en general, será extensivo a las modalidades de
los atributos.
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 20

10
02/10/2018

Si las datos son susceptibles de ordenar:

Frecuencia absoluta acumulada (ascendente), Ni, es el número de


observaciones que son menores o iguales que xi (o Li en el caso de
intervalos).

Frecuencia relativa acumulada (ascendente), Fi, es la proporción


de observaciones que son menores o iguales que xi (o Li en el caso
de intervalos).
i
N
Fi   f j  i
j 1 N

En ambos casos se puede definir también la frecuencia acumulada


descendente (observaciones cuyo valor es mayor que el de xi (o Li
en el caso de intervalos).
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 21

En el caso de valores agrupados en intervalos, llamamos densidad


de frecuencia, di, de un intervalo a su frecuencia absoluta dividida
entre su amplitud, ai.

Esta transformación es necesaria especialmente en el caso de


intervalos de distinta amplitud, ya que sus frecuencias no serían
comparables.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 22

11
02/10/2018

Distribución de frecuencias es el conjunto de valores que toma la


variable y sus frecuencias correspondientes.

Ejemplo 1: Datos cuantitativos (Ejercicio 1 - Relación 1)

xi ni fi fi(%) Ni Fi Fi(%)
3 3 0,075 7,5% 3 0,075 7,5%
4 7 0,175 17,5% 10 0,250 25,0%
5 12 0,300 30,0% 22 0,550 55,0%
6 13 0,325 32,5% 35 0,875 87,5%
7 5 0,125 12,5% 40 1 100%
sumas 40 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 23

Ejemplo 2: Datos cualitativos no ordenables (Ejerc. 2 – Rel. 1)

Xi ni fi fi(%)
Marca 1 8 0,2667 26,67%
Marca 2 12 0,4000 40,00%
Marca 3 5 0,1667 16,67%
Marca 4 5 0,1667 16,67%
sumas 30 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 24

12
02/10/2018

Ejemplo 3: Datos cualitativos ordinales (Ejerc. 3 – Rel. 1)

xi ni fi fi(%) Ni Fi Fi(%)
Muy bajo 3 0,12 12% 3 0,12 12%
Bajo 4 0,16 16% 7 0,28 28%
Medio 11 0,44 44% 18 0,72 72%
Alto 2 0,08 8% 20 0,80 80%
Muy Alto 5 0,20 20% 25 1 100%
sumas 25 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 25

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Xi ni fi fi (%) Ni Fi Fi (%)
1 2 0,0667 6,67% 2 0,0667 6,67%
2,9 1 0,0333 3,33% 3 0,1000 10,00%

Sin agrupar 4
5,4
1
2
0,0333
0,0667
3,33%
6,67%
4
6
0,1333
0,2000
13,33%
20,00%
6,4 1 0,0333 3,33% 7 0,2333 23,33%
6,6 1 0,0333 3,33% 8 0,2667 26,67%
6,9 2 0,0667 6,67% 10 0,3333 33,33%
7,9 1 0,0333 3,33% 11 0,3667 36,67%
8,2 1 0,0333 3,33% 12 0,4000 40,00%
8,3 1 0,0333 3,33% 13 0,4333 43,33%
8,4 1 0,0333 3,33% 14 0,4667 46,67%
9,3 1 0,0333 3,33% 15 0,5000 50,00%
Falta claridad y síntesis. 9,4 1 0,0333 3,33% 16 0,5333 53,33%
9,5 1 0,0333 3,33% 17 0,5667 56,67%
Muy repetitivo. Es 9,8 1 0,0333 3,33% 18 0,6000 60,00%
conveniente agrupar los 10,1 1 0,0333 3,33% 19 0,6333 63,33%
11,1 1 0,0333 3,33% 20 0,6667 66,67%
datos para resumir la 11,7 1 0,0333 3,33% 21 0,7000 70,00%
información. 11,8 1 0,0333 3,33% 22 0,7333 73,33%
12 1 0,0333 3,33% 23 0,7667 76,67%
12,1 2 0,0667 6,67% 25 0,8333 83,33%
12,6 1 0,0333 3,33% 26 0,8667 86,67%
13,4 1 0,0333 3,33% 27 0,9000 90,00%
14 1 0,0333 3,33% 28 0,9333 93,33%
15,8 1 0,0333 3,33% 29 0,9667 96,67%
19,4 1 0,0333 3,33% 30 1,0000 100,00%
30 Pérez
Antonio Arques 1,0000 100,00%
& Antonio Calvo-Flores Segura – Tema 1 – pág. 26

13
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Igual amplitud
(Li-1, Li] Xi ni fi fi(%) ai di Ni Fi Fi(%)
(0 – 4] 2 4 0,1333 13,33% 4 1 4 0,1333 13,33%
(4 – 8] 6 7 0,2333 23,33% 4 1,75 11 0,3667 36,67%
(8 – 12] 10 12 0,4000 40,00% 4 3 23 0,7667 76,67%
(12 – 16] 14 6 0,2000 20,00% 4 1,5 29 0,9667 96,67%
(16 – 20] 18 1 0,0333 3,33% 4 0,25 30 1 100%
sumas 30 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 27

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Distinta amplitud
(Li-1, Li] Xi ni fi fi(%) ai di Ni Fi Fi(%)
(0 – 6] 3 6 0,2000 20,00% 6 1 6 0,2000 20,00%
(6 – 8] 7 5 0,1667 16,67% 2 2,5 11 0,3667 36,67%
(8 – 10] 9 7 0,2333 23,33% 2 3,5 18 0,6000 60,00%
(10 – 12] 11 5 0,1667 16,67% 2 2,5 23 0,7667 76,67%
(12 – 20] 16 7 0,2333 23,33% 8 0,875 30 1 100%
sumas 30 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 28

14
02/10/2018

3. Representaciones gráficas.

Para atributos o variables cualitativas


- Diagrama de rectángulos
- Diagrama de sectores
- Pictograma

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 29

Diagrama de rectángulos
En este gráfico, la frecuencia de cada modalidad del atributo se
representa mediante un rectángulo cuya altura es dicha
frecuencia. La base del rectángulo debe ser la misma para todas
las modalidades, de forma que la altura de al barra es proporcional
a la frecuencia.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 30

15
02/10/2018

Diagrama de sectores

Este gráfico tiene la forma de un círculo y la frecuencia de cada


modalidad del atributo se representa mediante un sector circular.
La superficie del sector es proporcional a la frecuencia y para ello
se reparten los 360̊ del círculo según la frecuencia relativa de cada
modalidad,

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 31

Pictograma
Este gráfico presenta la frecuencia de cada valor de la variable
mediante una figura cuya altura es dicha frecuencia.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 32

16
02/10/2018

Representaciones gráficas
Para variables no agrupadas en intervalos

- Diagrama de barras
- Poligonal de frecuencias
- Sectores
- Pictogramas

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 33

Diagrama de barras
Este gráfico presenta la frecuencia de cada valor de la variable
mediante una barra o segmento cuya altura es dicha frecuencia.
Por tanto, la altura de la barra es proporcional a la frecuencia.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 34

17
02/10/2018

Poligonal de frecuencias
Este gráfico une mediante rectas los puntos superiores de las
barras que representan la frecuencia de cada valor de la variable.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 35

Representaciones gráficas
Para variables agrupadas en intervalos

- Histograma
- Polígono de frecuencias
- Sectores
- Pictogramas

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 36

18
02/10/2018

Histograma
Este gráfico se utiliza para variables con valores agrupados en
intervalos. Se representa la frecuencia de cada valor de la variable
mediante un rectángulo cuya superficie es proporcional a la
frecuencia. La base del rectángulo es la amplitud del intervalo y la
altura es la densidad. En el caso de igualdad de amplitudes, la
altura puede ser la frecuencia.

3,5 Igual amplitud 4 Distinta amplitud


3 3,5
2,5 3
2,5
2
di
2
di

1,5 1,5
1 1
0,5 0,5
0 0
0 4 8 12 16 20 0 6 8 10 12 20
Horas extra Horas extra
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 37

Polígono de frecuencias (sobre intervalos)


Se puede sustituir el histograma por un polígono de frecuencias
que una los puntos medios de la altura de cada barra del
histograma, y en los extremos se une al valor mínimo y máximo de
la variable. De este modo el área encerrada bajo el polígono se
aproxima a la del histograma.

0,3
0,25
0,2
di (o ni)

0,15
0,1
0,05
0
0 4 8 12 16 20
Horas extra
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 38

19
02/10/2018

Ejemplo 1: Datos cuantitativos

Diagrama de barras y polígonal de frecuencias

14 13
12
Xi ni 12

Número de alumnos
10
3 3
8 7
4 7 6 5

4 3
5 12
2
6 13 0
3 4 5 6 7
7 5
Núm ero de asignaturas aprobadas
n=40

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 39

Ejemplo 2: Datos cualitativos no ordenables

Xi ni Diagrama de rectángulos
Marca 1 8 14
Número de consumidores

Marca 2 12 12
Marca 3 5 10
Marca 4 5 8
sumas 30 6
4
2
0
Marca 1 Marca 2 Marca 3 Marca 4
Marca preferida

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 40

20
02/10/2018

Ejemplo 2: Datos cualitativos no ordenables

Xi ni Pictograma
Marca 1 8 14

Número de consumidores
Marca 2 12 12
Marca 3 5 10
Marca 4 5 8
sumas 30 6
4
2
0
Marca 1 Marca 2 Marca 3 Marca 4
Marca preferida

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 41

Ejemplo 2: Datos cualitativos no ordenables

Diagrama de sectores
Xi fi Grados
Marca 1 0,2667 96 Marca preferida
Marca 2 0,4000 144 Marca 4
Marca 3 0,1667 60 17% Marca 1
Marca 4 0,1667 26%
60
sumas 1 360
Marca 3
17%

Marca 2
40%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 42

21
02/10/2018

Ejemplo 3: Datos cualitativos ordinales

Diagrama de rectángulos
Xi ni 12
Muy bajo 3

Nº de consumidores
10
Bajo 4
8
Medio 11
6
Alto 2
4
Muy Alto 5
2
sumas 25
0
Muy bajo Bajo Medio Alto Muy alto
Nivel de satisfacción

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 43

Ejemplo 3: Datos cualitativos ordinales

Diagrama de sectores
xi fi Grados
Muy bajo 0,12 43,2 Grado de satisfacción
Bajo 0,16 57,6 Muy bajo
Muy alto 12%
Medio 0,44 158,4 20%
Alto 0,08 28,8
Bajo
Muy Alto 0,20 72 Alto 16%
sumas 1 360 8%

Medio
44%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 44

22
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos

Igual amplitud Histograma


3,5
(Li-1, Li] ni di
3
(0 – 4] 4 1 2,5
(4 – 8] 7 1,75 2

di
(8 – 12] 12 3 1,5
(12 – 16] 6 1,5 1
(16 – 20] 1 0,25 0,5
sumas 30 0
0 4 8 12 16 20
Horas extra

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 45

Ejemplo 4: Datos cuantitativos en intervalos

4
Polígono de frecuencias (sobre intervalos)
3
di

2
3,5
1 3
0 2,5
0 4 8 12 16 20
Horas extra 2
di

1,5
1
0,5
0
0 4 8 12 16 20
Horas extra

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 46

23
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos

Distinta amplitud 4 Histograma


3,5
(Li-1, Li] ni ai di 3
(0 – 6] 6 6 1 2,5
(6 – 8] 5 2 2,5

di
2
(8 – 10] 7 2 3,5 1,5
(10 – 12] 5 2 2,5 1
(12 – 20] 7 8 0,875 0,5
0
0 6 8 10 12 20
Horas extra

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 47

Ejemplos de gráfico más elaborados


Lectores de diarios gratuitos del grupo Metro
49 % hombres --– 51 % mujeres

Prensa tradicional Metro


Edad

65 y más

55-64

45-54

35-44

25-34

18-24

0 5 10 15 20 25 30
Porcentaje de lectores del medio

Fuente: INS Global Survey (mayo-octubre 2005).

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 48

24
02/10/2018

Preferencias de los lectores de diarios gratuitos


%
Cine/Teatro/eventos 53

Empleo 43

Agencias de viajes/Vuelos 30

Radio/Tv 30

Inmobiliaria 22

Ropa 20

Productos de segunda mano 20

Automoción 17

Almentación/Supermercado 16

Cosméticos 13

Sexo y contactos 4

Ocio/Cultura/Educación 1

Informática 0
¿Qué tipo de anuncios le gustaría encontrar?
De todo un poco 3

Otro 1

Ninguno 4

Ns/Nc 11

0 60

Fuente: Ipsos Media para Orange Media, 2007.


Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 49

Reparto de la inversión publicitaria en diarios en 2007

Total Inversión Prensa: 1.894 mill. de euros


+5,8% vs. 2006 Variación
07 vs. 06

Inf. Gral. Nacionales + 7,5%


Gral.
Gral. Inf. Gral. Regionales + 2,5%
Regionales
55,4% Gratuitos
Inf. Gral. Gratuitos + 29,5%
9,0%
Deportivos Deportivos - 8,6%
3,8%
Económicos + 18,5%
Económico
s
2,3%
Gral.
Nacionales
29,5%

Fuente: Arena Media Communications a partir de datos de Infoadex


Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 50

25
02/10/2018

Perfil de lectores de diarios. EGM 1/2008.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 51

4. Medidas descriptivas de posición y dispersión.

Las tablas estadísticas muestran la información recogida, pero, a


menudo sigue siendo un volumen demasiado grande para
asimilarlo y extraer conclusiones. Se precisa de unos valores
numéricos (medidas) que la resuman y representen.

• Medidas de posición. Indican en torno a qué valores se


sitúa una distribución.
• Medidas de dispersión. Informan de cómo se reparte la
distribución en torno a las medidas de posición. Miden la
variabilidad.
• Medidas de concentración. Muestran el grado de
uniformidad en la distribución.
• Medidas de forma. Contrastan la forma con de la
distribución con la de la normal. (No se estudian en este curso)
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 52

26
02/10/2018

Medidas de posición

• Medidas de tendencia central:


- Media aritmética (v. cuantitativa)
- Media geométrica (v. cuantitativa)
- Mediana (escala ordinal)
- Moda
• Medidas de tendencia no central:
- Cuantiles (escala ordinal)
▪ Cuartiles
▪ Deciles
▪ Percentiles

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 53

Media aritmética
Es la suma de todos los valores de la variable, es decir, de los
distintos valores multiplicados por sus respectivas frecuencias
absolutas, dividida por el número total de observaciones.
r

 x n i i r Ejemplo:
X i 1
  xi  f i Calcular la renta media de un
N i 1
conjunto de individuos

Media geométrica
Se usa para encontrar el promedio de porcentajes, razones, índice
o tasas. Es la raíz enésima del producto de todos los valores de la
variable, elevado cada uno a su respectiva frecuencia absoluta,
siendo N el número total de observaciones.
Ejemplo:
r Calcular el tipo medio de
G  N  xi siendo xi  0
ni
interés de una operación
i 1 financiera
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 54

27
02/10/2018

Propiedades de la media aritmética


1. La suma de las desviaciones de los valores de la variable
respecto a su media es cero.

 x  X  n
i
i i 0

2. Cambio de origen. Si a todos los valores de la variable se les


suma una misma cantidad, la media aritmética aumenta esa
misma cantidad.
yi  xi  a  Y  X  a
3. Cambio de escala. Si multiplicamos a todos los valores de la
variable por una misma cantidad, la media aritmética queda
multiplicada por esa misma cantidad.

yi  bxi  Y  bX
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 55

4. Cambio de origen y de escala. Si se realiza simultáneamente un


cambio de origen y de escala, la media aritmética queda afectada
de la siguiente manera:
yi  bxi  a  Y  bX  a

N1 X 1  N 2 X 2
X
N
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 56

28
02/10/2018

Mediana
Para una distribución ordenada de menor a mayor, se define la
mediana como el punto medio, es decir, el valor que deja a su
izquierda y a su derecha a la mitad de las observaciones.
Caso 1
Para calcular la mediana, si N es impar, la mediana será el valor de
la observación que ocupe el lugar
N 1
1 1 1 1 2 2 3 3 3 4 5 N  11
2
Pero si N es par, la mediana será el valor de la observación que
ocupe el lugar
N N
y 1 1 1 1 2 2 3 3 3 4 5 N  10
2 2
Si son distintos, se dan ambos valores o su media aritmética.
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 57

Mediana
Caso 2
Para una variable presentada en una tabla de frecuencias, con
valores no agrupados en intervalos, la mediana es el primer valor
con frecuencia absoluta acumulada igual o superior a N/2. Si
coincide con N/2, la mediana será la media entre ese valor y el
siguiente (si es admisible para la variable) o ambos valores (si no es
admisible el valor de esa media).
xi ni Ni xi ni Ni
3 3 3 3 3 3
4 7 10 4 7 10
5 12 22 5 10 20
6 13 35 6 15 35
7 5 40 7 5 40
N N
sumas 40  20 sumas 40  20
2 2
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 58

29
02/10/2018

Mediana
Caso 3

Para una variable con valores agrupados en intervalos, el intervalo


mediano, (Li-1 – Li], es aquel con frecuencia absoluta acumulada
igual o superior a N/2. Se supone que los valores se distribuyen
uniformemente dentro del intervalo de amplitud ai y la mediana se
calcula según la siguiente fórmula de proporcionalidad:

(Li-1, Li] ni ai Ni
(0 – 4] 4 4 4
(4 – 8] 7 4 11
(8 – 12] 12 4 23
(12 – 16] 6 4 29
(16 – 20] 1 4 30
N
 15 sumas 30
2
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 59

Mediana
Caso 3

Alternativamente se puede utilizar la formula basada en las


frecuencia relativas.
En este caso el intervalo mediano, (Li-1 – Li], es aquel con
frecuencia relativa acumulada igual o superior a 0,5.
La mediana se calcula según la siguiente fórmula de
proporcionalidad (que en realidad es la misma que la anterior):

(Li-1, Li] fi ai Fi
0,5  Fi 1
Me  Li 1  ai (0 – 4] 0,1333 4 0,1333
fi
(4 – 8] 0,2333 4 0,3667
(8 – 12] 0,40000 4 0,7667
0,5  0,3667 (12 – 16] 0,2000 4 0,9667
Me  8  4  9,3
0,4 (16 – 20] 0,0333 4 1
sumas 1

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 60

30
02/10/2018

Moda
Es el valor de la observación que aparece con mayor frecuencia, es
decir, el más repetido.
En el caso de distribuciones agrupadas en intervalos hablaremos
de intervalo modal. En el caso de intervalos de la misma amplitud,
será el intervalo con mayor frecuencia absoluta. Si las amplitudes
son distintas será el intervalo con mayor densidad.

xi ni (Li-1, Li] ni ai (Li-1, Li] ni ai di


3 3 (0 – 4] 4 4 (0 – 6] 6 6 1
4 7 (4 – 8] 7 4 (6 – 8] 5 2 2,5
5 12 (8 – 12] 12 4 (8 – 10] 7 2 3,5
6 13 (12 – 16] 6 4 (10 – 12] 5 2 2,5
7 5 (16 – 20] 1 4 (12 – 20] 7 8 0,875
sumas 40 sumas 30 sumas 30

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 61

Cuantiles
Los cuantiles son los valores de la variable que dividen a la
distribución en partes iguales, es decir, intervalos que contienen
igual número de observaciones.

▪ Cuartiles: son tres valores que dividen la distribución en cuatro


partes que contienen cada una de ellas el 25 % de las
observaciones.
▪ Deciles: son nueve valores que dividen la distribución en diez
partes que contienen cada una de ellas el 10 % de las
observaciones.
▪ Percentiles: son 99 valores que dividen la distribución en cien
partes que contienen cada una de ellas el 1 % de las
observaciones.
¿Con qué cuantil coincide la mediana?

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 62

31
02/10/2018

Cuantiles

Para obtener los cuantiles se procede de la misma forma que para


la mediana.

Cuartiles
Son los valores que dejan por debajo el 25 %, el 50 % y el 75 % de
las observaciones.
Cuartiles
xi Ni Fi(%) N
3  10 C1 = entre 4 y 5
3 7,5% 4
4 10 25,0% N
5  20 C2 = 5
22 55,0% 2
6 35 87,5% 3N
7 40 100%
 30 C3 = 6
4
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 63

Cuantiles
En el caso de distribuciones agrupadas en intervalos, se calculan
los cuartiles aplicando el mismo procedimiento que para la
mediana teniendo en cuenta que las posiciones buscadas son N/4 ;
2N/4 = N/2 ; y 3N/4.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 64

32
02/10/2018

Cuantiles

(Li-1, Li] ni ai Ni Fi(%) Cuartiles


(0 – 6] 6 6 6 20,00%
(6 – 8] 5 2 11 36,67%
(8 – 10] 7 2 18 60,00%
(10 – 12] 5 2 23 76,67%
(12 – 20] 7 8 30 100%

N
 7'5
4
N
 15
2
3N
 22'5
4
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 65

Deciles Cuantiles
Son los valores que dejan por debajo el 10 %, el 20 %,… y el 90 % de las
observaciones. Se calculan de igual forma que los cuartiles pero para los
niveles N/10 , 2N/10, …….y 9N/10
Percentiles
Son los valores que dejan por debajo el 1 %, el 2 %,… y el 99 % de las
observaciones, o en general el  % de la distribución. La mediana es el
percentil del 50%,, el primer cuartil el del 25% o el tercer decil el del 30%.
Así, podríamos hablar únicamente de percentiles, pues todos los
estadísticos de orden son casos particulares de un cierto percentil.
Si queremos calcular el percentil de orden %, con  entre 0 y 100,
localizaremos el primer intervalo (Li-1 – Li] con frecuencia absoluta
acumulada igual o superior a N/100

 
N  N i 1  Fi 1
P  Li 1  100 ai P  Li 1  100 ai
ni fi
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 66

33
02/10/2018

Medidas de dispersión
Las medidas de posición indican en torno a qué valores se sitúa la
distribución pero no dicen nada sobre la extensión de la misma.
Las medidas de dispersión verifican la representatividad de las
medidas de posición y su validez como sintetizadoras de la
información.

1. Recorrido. Es la diferencia entre el valor más alto y el más bajo


de la distribución.

2. Varianza. Es la media aritmética de las desviaciones al cuadrado


sobre la media.
 x  X  n
r
2
i i
S 
2 i 1

N
Cuanto mayor sea la varianza, menos representativa será la media.
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 67

Propiedades de la varianza.
a. La varianza siempre es positiva.
b. La varianza se puede calcular también como:
r

x n 2
i i
S2  i 1
X2
N
c. Efecto de los cambios de origen y escala en la varianza.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 68

34
02/10/2018

3. Desviación típica. Se define como la raíz cuadrada positiva de la


varianza. r

x n 2
i i
S   S2   i 1
X2
N
Esta medida es de gran utilidad pues viene dada en las mismas
unidades de medida que la media, mientras que la varianza
aparece en unidades al cuadrado. Se puede interpretar como la
desviación media que experimentan las observaciones sobre el
valor central.
Efecto de los cambios de origen y escala en la desviación típica.
Si yi  xi  a  S y  S x
Si yi  bxi  S y  b Sx
Si yi  a  bxi  S y  b S x
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 69

4. Coeficiente de variación de Pearson. Es el cociente de la


desviación típica entre la media y por tanto es adimensional.
S
CV 
x
A mayor valor del coeficiente de variación, menor será la
representatividad de la media. Permite comparar la
representatividad de la media de variables distintas.
Al coeficiente de variación no le afectan los cambios de escala,
pero sí los de origen.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 70

35
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

El número de horas extras trabajadas por 30 de los temporeros


contratados por una empresa hortofrutícola en una semana de
trabajo son:

2,9 14 8,4 12,1 4 9,3


1 10,1 6,6 9,5 12,6 11,7
19,4 12 9,8 5,4 12,1 6,9
6,4 8,4 11,8 7,9 8,3 13,4
6,9 1 15,8 8,2 5,4 11,1

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 71

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Sin agrupar

1 1 2,9 4 5,4 5,4 6,4 6,6 6,9 6,9 7,9 8,2 8,3 8,4 9,3
9,4 9,5 9,8 10,1 11,1 11,7 11,8 12 12,1 12,1 12,6 13,4 14 15,8 19,4

r
xi 1  1  2,9  4  5,4  5,4 ···19,4
X    9,11
i 1 N 30

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 72

36
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Sin agrupar

1 1 2,9 4 5,4 5,4 6,4 6,6 6,9 6,9 7,9 8,2 8,3 8,4 9,3
9,4 9,5 9,8 10,1 11,1 11,7 11,8 12 12,1 12,1 12,6 13,4 14 15,8 19,4

La moda es el valor más repetido. En este caso hay empates. La


distribución es multimodal.

Moda: 1; 5,4; 6,9; 12,1

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 73

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Sin agrupar

1 1 2,9 4 5,4 5,4 6,4 6,6 6,9 6,9 7,9 8,2 8,3 8,4 9,3
9,4 9,5 9,8 10,1 11,1 11,7 11,8 12 12,1 12,1 12,6 13,4 14 15,8 19,4

Percentil 60

Como coincide con una observación, este cuantil estará


compuesto por los valores que ocupan los puestos 18 y 19, es
decir, los valores 9,8 y 10,1. Pueden darse ambos valores o su
media aritmética.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 74

37
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Sin agrupar

1 1 2,9 4 5,4 5,4 6,4 6,6 6,9 6,9 7,9 8,2 8,3 8,4 9,3
9,4 9,5 9,8 10,1 11,1 11,7 11,8 12 12,1 12,1 12,6 13,4 14 15,8 19,4

S2  
30
xi  9,112 30

2
xi
 9,1133 
2 2993,2
 83,0522  16,7211  S  4,089
30
i 1 i 1 30 30
S 4,089
CV    0,4487
x 9,11

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 75

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Sin agrupar

Media 9,11
Moda 1; 5,4; 6,9; 12,1
Percentil 60 9,95
Desviación típica 4,089
Coeficiente de variación 0,449
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 76

38
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Igual amplitud
(Li-1, Li] Xi ni Xini fi fi(%) ai di Ni Fi Fi(%)
(0 – 4] 2 4 8 0,1333 13,33% 4 1 4 0,1333 13,33%
(4 – 8] 6 7 42 0,2333 23,33% 4 1,75 11 0,3667 36,67%
(8 – 12] 10 12 120 0,4000 40,00% 4 3 23 0,7667 76,67%
(12 – 16] 14 6 84 0,2000 20,00% 4 1,5 29 0,9667 96,67%
(16 – 20] 18 1 18 0,0333 3,33% 4 0,25 30 1 100%
sumas 30 272 1 100%

r
xi  ni 2  4  6  7  10 12  14  6  18 1
X    9,067
i 1 N 30
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 77

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Igual amplitud
(Li-1, Li] Xi ni fi fi(%) ai di Ni Fi Fi(%)
(0 – 4] 2 4 0,1333 13,33% 4 1 4 0,1333 13,33%
(4 – 8] 6 7 0,2333 23,33% 4 1,75 11 0,3667 36,67%
(8 – 12] 10 12 0,4000 40,00% 4 3 23 0,7667 76,67%
(12 – 16] 14 6 0,2000 20,00% 4 1,5 29 0,9667 96,67%
(16 – 20] 18 1 0,0333 3,33% 4 0,25 30 1 100%
sumas 30 1 100%

Moda: el intervalo de mayor densidad es (8-12]

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 78

39
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Igual amplitud
(Li-1, Li] Xi ni fi fi(%) ai di Ni Fi Fi(%)
(0 – 4] 2 4 0,1333 13,33% 4 1 4 0,1333 13,33%
(4 – 8] 6 7 0,2333 23,33% 4 1,75 11 0,3667 36,67%
(8 – 12] 10 12 0,4000 40,00% 4 3 23 0,7667 76,67%
(12 – 16] 14 6 0,2000 20,00% 4 1,5 29 0,9667 96,67%
(16 – 20] 18 1 0,0333 3,33% 4 0,25 30 1 100%
sumas 30 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 79

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Igual amplitud
(Li-1, Li] Xi ni X2ini
(0 – 4] 2 4 16
(4 – 8] 6 7 252
(8 – 12] 10 12 1200
(12 – 16] 14 6 1176
(16 – 20] 18 1 324
Sumas 30 2968

x n 2

 X  
i i
 9,067   16,73  S  16,73  4,09
2 2968
S2  i 2

N 30
4,09
Cv   0,4511
9,067
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 80

40
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Igual amplitud
3,5

2,5

2
di

1,5

0,5

0
Horas extra

Media 9,067
Moda (8-12]
Percentil 60 10,33
Desviación típica 4,090
Coeficiente de variación 0,451
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 81

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Distinta amplitud
(Li-1, Li] Xi ni Xini fi fi(%) ai di Ni Fi Fi(%)
(0 – 6] 3 6 18 0,2000 20,00% 6 1 6 0,2000 20,00%
(6 – 8] 7 5 35 0,1667 16,67% 2 2,5 11 0,3667 36,67%
(8 – 10] 9 7 63 0,2333 23,33% 2 3,5 18 0,6000 60,00%
(10 – 12] 11 5 55 0,1667 16,67% 2 2,5 23 0,7667 76,67%
(12 – 20] 16 7 112 0,2333 23,33% 8 0,875 30 1 100%
sumas 30 283 1 100%

r
xi  ni 3  6  7  5  9  7  11  5  16  7
X    9,433
i 1 N 30

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 82

41
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Distinta amplitud
(Li-1, Li] Xi ni fi fi(%) ai di Ni Fi Fi(%)
(0 – 6] 3 6 0,2000 20,00% 6 1 6 0,2000 20,00%
(6 – 8] 7 5 0,1667 16,67% 2 2,5 11 0,3667 36,67%
(8 – 10] 9 7 0,2333 23,33% 2 3,5 18 0,6000 60,00%
(10 – 12] 11 5 0,1667 16,67% 2 2,5 23 0,7667 76,67%
(12 – 20] 16 7 0,2333 23,33% 8 0,875 30 1 100%
sumas 30 1 100%

Moda: el intervalo de mayor densidad es (8-10]

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 83

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Distinta amplitud
(Li-1, Li] Xi ni fi fi(%) ai di Ni Fi Fi(%)
(0 – 6] 3 6 0,2000 20,00% 6 1 6 0,2000 20,00%
(6 – 8] 7 5 0,1667 16,67% 2 2,5 11 0,3667 36,67%
(8 – 10] 9 7 0,2333 23,33% 2 3,5 18 0,6000 60,00%
(10 – 12] 11 5 0,1667 16,67% 2 2,5 23 0,7667 76,67%
(12 – 20] 16 7 0,2333 23,33% 8 0,875 30 1 100%
sumas 30 1 100%

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 84

42
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)


Distinta amplitud

(Li-1, Li] Xi ni X2ini


(0 – 6] 3 6 54
(6 – 8] 7 5 245
(8 – 10] 9 7 567
(10 – 12] 11 5 605
(12 – 20] 16 7 1792
sumas 30 3263

x n 2

 X  
i i
 9,433  16,779  S  16,779  4,447
2 3263
S2  i 2

N 30
4,447
Cv   0,4715
9,433
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 85

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Distinta amplitud
4
3,5
3
2,5
di

2
1,5
1
0,5
0
Horas extra

Media 9,433
Moda (8-10]
Percentil 60 10
Desviación típica 4,447
Coeficiente de variación 0,471
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 86

43
02/10/2018

Ejemplo 4: Datos cuantitativos en intervalos (Ejerc. 4 – Rel. 1)

Resumen
Igual Distinta Sin
amplitud amplitud agrupar
Media 9,067 9,433 9,11
8
Moda (8-12] (8-10] 1; 5,4; 6,9; 12,1
Percentil 60 10,33 10 9,95
Desviación típica 4,090 4,447 4,089
Coeficiente de variación 0,451 0,471 0,449

¿Cuáles de estas medidas son más ajustadas a


la realidad?
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 87

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Datos de la empresa
Datos
sectoriales Salario Nº
empleados
Media 190
(60-90] 6
Moda 145
(90-120] 14
Mediana 150
(120-160] 23
Desviación típica 175
(160-200] 17
Índice de Gini 0’45
(200-250] 6
(250-300] 22
(300-500] 2

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 88

44
02/10/2018

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Tabla de frecuencias
Li-1 Li ai Xi ni fi Ni Fi Fi% di
60 90 30 75 6 0,086 6 0,086 8,6% 0,2
90 120 30 105 14 0,200 20 0,286 28,6% 0,467
120 160 40 140 23 0,329 43 0,614 61,4% 0,575
160 200 40 180 17 0,243 60 0,857 85,7% 0,425
200 250 50 225 6 0,086 66 0,943 94,3% 0,12
250 300 50 275 2 0,029 68 0,971 97,1% 0,04
300 500 200 400 2 0,029 70 1 100% 0,01
N= 70

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 89

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Li-1 Li ai Xi ni Xini fi Ni Fi Fi% di


60 90 30 75 6 450 0,086 6 0,086 8,6% 0,2
90 120 30 105 14 1470 0,200 20 0,286 28,6% 0,467
120 160 40 140 23 3220 0,329 43 0,614 61,4% 0,575
160 200 40 180 17 3060 0,243 60 0,857 85,7% 0,425
200 250 50 225 6 1350 0,086 66 0,943 94,3% 0,12
250 300 50 275 2 550 0,029 68 0,971 97,1% 0,04
300 500 200 400 2 800 0,029 70 1 100% 0,01
N= 70 10900
r
xi  ni
X  
i 1 N
75  6  105 14  140  23  180 17  225  6  275  2  400  2
  155,71
70
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 90

45
02/10/2018

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Li-1 Li ai Xi ni fi Ni Fi Fi% di
60 90 30 75 6 0,086 6 0,086 9% 0,2
90 120 30 105 14 0,200 20 0,286 29% 0,467
120 160 40 140 23 0,329 43 0,614 61% 0,575
160 200 40 180 17 0,243 60 0,857 86% 0,425
200 250 50 225 6 0,086 66 0,943 94% 0,12
250 300 50 275 2 0,029 68 0,971 97% 0,04
300 500 200 400 2 0,029 70 1 100% 0,01
N= 70

Moda: el intervalo de mayor densidad es (120-160]

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 91

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Li-1 Li ai Xi ni fi Ni Fi Fi% di
60 90 30 75 6 0,086 6 0,086 9% 0,2
90 120 30 105 14 0,200 20 0,286 29% 0,467
120 160 40 140 23 0,329 43 0,614 61% 0,575
160 200 40 180 17 0,243 60 0,857 86% 0,425
200 250 50 225 6 0,086 66 0,943 94% 0,12
250 300 50 275 2 0,029 68 0,971 97% 0,04
300 500 200 400 2 0,029 70 1 100% 0,01
N= 70

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 92

46
02/10/2018

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Sector Empresa

Media 190 Media 155,71


Moda 145 Moda (120-160]
Mediana 150 Mediana 146,08

Las medidas de posición central apuntan a que los


salarios son más bajos en la empresa que en el
conjunto del sector. Esto es especialmente notable en
el caso de la media. No obstante es preciso comprobar
la representatividad de las mismas, con el estudio de
las desviaciones.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 93

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Li-1 Li Xi ni Xini X2ini


60 90 75 6 450 33750
90 120 105 14 1470 154350
120 160 140 23 3220 450800
160 200 180 17 3060 550800
200 250 225 6 1350 303750
250 300 275 2 550 151250
300 500 400 2 800 320000
70 10900 1964700
x n 2

 X  
i i
 155,71  3820,2041  S  3820,2041  61,8078
2 1964700
S 
2 i 2

N 70
61,8078
Cv   0,397
155,71
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 94

47
02/10/2018

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10– Rel. 1)

Sector Empresa
Media 190 Media 155,71
Desv. típica 175 Desv. típica 61,81
Coef. variación 0’921 Coef. variación 0’397

Las medidas de dispersión indican que existe mayor


variabilidad en el sector que en la empresa.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 95

Recorrido intercuartílico
Es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1) :
RI= Q3 - Q1
En el RI se distribuye el 50% central de las observaciones.
En conjunción con el Recorrido ayuda a situar la distribución.
Diagrama de Caja (Box Plot): datos atípicos
Es un gráfico que utiliza los cuartiles y el RI para ayudar a estudiar la
simetría de la distribución y la presencia de datos atípicos o extremos
(outliers).
Los datos atípicos son aquellos excesivamente grandes o pequeños en
comparación con el resto de la distribución.
La presencia de datos atípicos puede distorsionar los resultados de los
indicadores que usen todos los datos, como la media o la varianza.
La presencia de datos atípicos requiere un estudio de cada uno de ellos y
de la mejor estrategia para su tratamiento (por ejemplo si resulta
adecuado excluirlos de los análisis)
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 96

48
02/10/2018

DIAGRAMA DE CAJA (BOX-PLOT)

dato menor del interior dato mayor del interior

Barrera exterior Barrera exterior

extremo

Barrera interior Barrera interior atípicos

1,5 RI 1,5 RI RI 1,5 RI 1,5 RI

datos atípicos datos atípicos


datos atípicos extremos datos atípicos extremos
Q1 mediana Q3

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 97

Ejemplo 6: Determinar valores atípicos


Prima de riesgo frente a
Alemania a 29/01/2018 Posición Países Prima
Países Prima 1 Japón -61 ultimo interior
Alemania 0 2 Suiza -58
España 73 3 Alemania 0
Reino Unido 76 4 Dinamarca 3
RI = 201-12 = 189,0
Francia 27 5 Holanda 4
1,5RI = 283,5
Italia 133 6 Austria 12 1º cuartil
Barrera exterior
Portugal 126 7 Finlandia 13
(mín) -555,0
Estados Unidos 201 8 Bélgica 14
Barrera interior
Japón -61 9 Suecia 26
(mín) -271,5
Australia 215 10 Francia 27
Barrera interior
Austria 12 11 Irlanda 42
(max) 484,5
Bélgica 14 12 España 73 Mediana
Barrera exterior
Canadá 160 13 Reino Unido 76 (max) 768,0
Dinamarca 3 14 Noruega 116
Finlandia 13 15 Portugal 126 Media 130,8
Grecia 297 16 Italia 133
Holanda 4 17 Canadá 160
India 675 18 Estados Unidos 201 3º cuartil
Irlanda 42 19 Australia 215
México 689 20 Nueva Zelanda 225
Noruega 116 21 Grecia 297 ultimo interior
Nueva Zelanda 225 22 India 675 atípico
Suecia 26 23 México 689 atípico
Suiza -58
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 98

49
02/10/2018

Ejemplo 6: Determinar valores atípicos: diagrama de caja

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 99

5. Medidas de concentración: índice de Gini y curva de Lorenz.

En ocasiones puede resultar de interés medir el grado de igualdad


en el reparto del total de los valores de la variable. Es el caso, por
ejemplo, del reparto de la renta, los ingresos, el consumo o los
salarios entre una población.
Se dice que hay concentración máxima cuando sólo uno de los N
individuos percibe el total de los recursos. Esto supone que para
todos los individuos salvo uno el valor de la variable es cero.

Se da una concentración mínima o equidistribución cuando todos


los individuos perciben la misma cantidad de recursos, es decir,
todos tienen el mismo valor de la variable.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 100

50
02/10/2018

Para calcular el índice de Gini hay que introducir un nuevo


concepto en la tabla de frecuencias:
i
Vi   vi i  1 r
Valor
vi  xi  ni Valor  Absoluto
j 1 Acumulado

Pi  Fi % 
V Valor Frecuencia
Qi  i 100  Relativo  Relativa
Vr Acumulado Acumulada

xi ni vi fi fi(%) Ni Vi Fi Fi(%)=Pi Qi
x1 n1 v1 f1 f1% N1 V1 F1 p1 q1
x2 n2 v2 f2 f2% N2 V2 F2 p2 q2
· · · · · · · · · ·
· · · · · · · · · ·
xr nr vr fr fr% Nr Vr Fr pr qr
sumas N Vr

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 101

Si relacionamos los dos últimos conceptos enfrentamos la


acumulación de recursos a la acumulación de personas que los
recibe. La representación gráfica de estas dos columnas nos
proporciona la curva de concentración o curva de Lorenz.
Qi
100 La línea curva es la representación
de (Pi, Qi) o curva de Lorenz.
La recta diagonal correspondería a
una equidistribución, en la que
Pi=Qi.

0 Pi
100
El área entre las dos curvas es la diferencia entre la
equidistribución y el reparto actual. Cuanto mayor sea el área
rayada mayor será la concentración de los recursos.
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 102

51
02/10/2018

r 1 r 1

 (P  Q ) i i Q i
Se define el índice de Gini como: IG  i 1
r 1
 1 i 1
r 1

P
i 1
i P
i 1
i

La concentración es máxima cuando el índice de Gini vale uno.


La concentración es mínima cuando el índice de Gini vale cero.
Qi Qi
100

0 0
100 Pi 100 Pi
Concentración mínima Concentración máxima
Observar que Pi y Qi se pueden expresar en porcentaje o en tanto por uno
Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 103

Ejemplo 7: Datos cuantitativos en intervalos (Ejerc. 10 – Rel. 1)

Tabla de frecuencias
Li-1 Li Xi ni Ni Fi% vi=Xini Vi Qi Pi Pi-Qi
60 90 75 6 6 8,57 450 450 4,13 8,57 4,44
90 120 105 14 20 28,57 1470 1920 17,61 28,57 10,96
120 160 140 23 43 61,43 3220 5140 47,16 61,43 14,27
160 200 180 17 60 85,71 3060 8200 75,23 85,71 10,48
200 250 225 6 66 94,29 1350 9550 87,61 94,29 6,67
250 300 275 2 68 97,14 550 10100 92,66 97,14 4,48
300 500 400 2 70 100 800 10900
N= 70 324,4 375,7 51,3
r 1 r 1

 (P  Q )i i
51,3 Q i
324,4
IG  i 1
r 1
  0,137 IG  1  i 1
r 1
 1  0,137
P P
375,7 375,7
i i
i 1 i 1 Calvo-Flores Segura –
Antonio Arques Pérez & Antonio Tema 1 – pág.
104

52
02/10/2018

Ejemplo 7: Datos cuantitativos en intervalos (Ejerc. 10 – Rel. 1)

Curva de Lorenz
100
Li-1 Li Qi Pi
60 90 4,13 8,57 80
90 120 17,61 28,57
120 160 47,16 61,43 60
qi
160 200 75,23 85,71 40
200 250 87,61 94,29
250 300 92,66 97,14 20
300 500 100 100 0 pi
0 20 40 60 80 100

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 105

Ejemplo 5: Datos cuantitativos en intervalos (Ejerc. 10 – Rel. 1)

Sector Empresa

Índice Gini 0,45 Índice Gini 0,137

El sector presenta una mayor concentración de salarios. En la


empresa los salarios están más cercanos a la equidistribución.

Antonio Arques Pérez & Antonio Calvo-Flores Segura – Tema 1 – pág. 106

53

You might also like