You are on page 1of 40

Estadística

Giancarlo Sal y Rosas PhD


Medida de Resumen

Variables Variables
cuantitativas cualitativas

Medidas de Medidas de
tendencia central dispersión

Media Desviación Proporción


estándar
Mediana
Razón
Rango
Moda Intercuartil
Medidas de tendencia
central
• Las medidas descriptivas más comunes son las de
tendencia central o localización. Entre ellas podemos
citar a la media aritmética, mediana y moda.

• Estas nos brindan, de existir alguna región donde se


concentren los datos (tendencia central), un valor que
los represente, al cual llamaremos en general un
promedio.
Media aritmetica
• Supongamos que deseamos saber que jugador es
mejor entre Lebron y Kobe.

• Medimos los puntos que tuvieron en los ultimos 5


partidos

20 19 10 25 33

20 19 22 25 21
Media aritmética
• La media aritmética se calcula de la siguiente forma
n

x
x 1  x 2  ...  x n i  1
i

X 
n n
• Ventajas:

• Es intuitiva y fácil de calcular.

• Utiliza toda la información generada por los datos


Media aritmética
20 19 10 25 33 21.4

• Una propiedad fundamental es que la suma de las


distancias de cada punto a la media es 0.

20 – 21.4 -1.4
19 – 21.4 -2.4
10 – 21.4 -11.4
25 – 21.4 3.6
33 – 21.4 11.6
Media aritmética
• Es el valor que se encuentra mas cerca (en termino de
la distancia cuadrática) a todos los datos.

21.4
Media aritmética:
Desventajas
• Es sensible a valores extremos. Es decir, valores
atípicamente muy grandes o pequeños, hacen que la
media se vea arrastrada hacia ellas.

20 19 10 25 33 21.4

100 39.4

• No es aplicable a variables cualitativas.


Media aritmética
20 19 10 25 33 21.4

20 19 22 25 21 21.4

• Kobe y Lebron tienen la misma media de puntos.

• Quien es mejor de acuerdo a estos numeros ?


La Mediana
Se define como el valor que ocupa la posición central cuando
los datos están ordenados de menor a mayor

Datos: x1 , x2 , x3 , , xn  2 , xn 1 , xn

Datos ordenados: x1 , x2  , x3  , , xn  2  , xn 1 , xn 


Dato mas pequeño: x1
Dato mas grande: xn 
La Mediana
• Se define como el valor que ocupa la posición central
cuando los datos están ordenados de menor a mayor.

 x   n  1 2  si n es impar

Me   x
 n 2   x  ( n 2) 1
 si n es par
 2

• Es el valor que divide a los datos en aproximadamente


la mitad: 50% menores y 50% mayores que el
La Mediana
20 19 10 25 33

10 19 20 25 33 20

20 19 22 25 21

19 20 21 22 25 21

Quien es mejor ?
La Mediana
• Es preferible usar mediana cuando se desea controlar
por el efecto de los valores extremos (muy grandes o
muy pequeños).

20 19 10 25 33 20

100 25

• La mediana se puede aplicar a datos provenientes de


una variable medida en escala ordinal.
Percentiles
• El concepto de mediana se puede al de percentiles.
• Que valor divide a los datos en 4 partes iguales ?
• Que valor divide a los datos de tal modo que el 25%
es menor que el y el 75% es mayor o igual que el ?

• El percentil “K” o pk se define como el valor debajo del


cual se encuentran el K% de los datos.

K% (100-K)%

pk
Percentiles
• Tenemos varios percentiles populares
• El p50 es la mediana
• Los llamados cuartiles: p25, p50 y p75

25% 25% 25% 25%


La Moda
• Se utiliza con cualquier tipo de variable pero tiene mas
utilidad para variables medidas en escala nominal.

• Es el valor que mas se repite. Es decir, aquel con la


mayor frecuencia absoluta

• Puede ser única, que tengamos varias o que no exista.

• Para variables en escala nominal es la única medida de


tendencia central.
Medidas de dispersión
• La localización o tendencia central de los datos de una
variable no provee necesariamente toda la
información necesaria.

• Es fundamental conocer también cuan similares o no


son los datos.

• Un conjunto de datos se dicen que tienen baja


dispersión cuando ellos se aglomeran en torno a
alguna medida de tendencia central.
La varianza
• Es un promedio de las desviaciones al cuadrado de
cada dato con respecto a su media

n n

 ( xi  X )  i 
2 2 2
x nX
S2  i 1
 i 1
n 1 n 1

Definición Formula que


usamos en la
practican
La varianza
20 19 10 25 33 21.4

Varianza = 71.3

20 19 22 25 21 21.4

Varianza = 5.3

Quien es mejor ?
Varianza y desviación
estándar
• El problema con la varianza es que no esta definida en
las mismas unidades que los datos.

• La desviación estándar “S” se define como la raíz


cuadrada de la varianza.

• La desviación estándar si tiene las mismas unidades


que los datos.
La desviación estandar
20 19 10 25 33 21.4

Desviación estándar = 8.4

20 19 22 25 21 21.4

Desviación estándar = 2.3

Quien es mejor ?
El rango intercuartil
• Es una medida de dispersión mas robusta que la
desviación estándar.

• Se puede aplicar a variables medidas en escala ordinal.

• Se define como la diferencia entre el tercer y primer


cuartil:

RI = P75 – P25
El rango intercuartil
20 19 10 25 33 20

RI = 19-25

20 19 22 25 21 21

RI = 20-22

Quien es mejor ?
Grafico de cajas
Presión sistólica Valores atípicos
superiores (más de 1.5
15.5 RI sobre P75)

Valor superior que no


llega a ser atípico
(adyacente superior) 1.5 RI
14.5
P75
Caja que contiene
13.5 al 50 % casos de Mediana RI = P75-P25
los datos
centrales P25
12.5 Valor inferior que no 1.5 RI
llega a ser atípico
(adyacente inferior)

Valores atípicos
11.5 inferiores (más de 1.5
RI bajo P25)
Grafico de cajas
• Hemos obtenido los puntos que Lebron a anotado en
los últimos 50 de la temporada pasada.

8 27 35 25 28 24 32 19
24 27 32 24 34 32 26 24
30 27 29 29 33 32 28 35
30 30 26 26 22 27 31 30
27 33 30 32 28 32 31 23
24 20 33 32 27 25 22 30
25 23
Grafico de cajas
• Para una interpretación de las cajas en dos o más
distribuciones uno debe ver primero la tendencia
que se refleja en la mediana.

• Luego hay que ver el largo de las cajas. La caja más


larga (de mayor RI) es la que tiene más dispersión.

• Es importante ver también los datos atípicos


ubicados fuera de los bigotes.

• Finalmente la asimetría.
Coeficiente de variación
• Se define como el cociente entre la desviación
estándar y la media.
s
CV 
X

• Carece de unidades, por lo que resulta útil para


comparar la dispersión de dos conjuntos de
datos bajo distintas unidades o condiciones.
Coeficiente de variación
20 19 10 25 33

Media = 21.4 & DS = 8.4 CV = 0.39

20 19 22 25 21

Media = 21.4 & DS = 2.3 CV = 0.10

Quien tiene una performancia mas homogénea?


La desigualdad de
Chebychev
• Dato un conjunto de datos de una variable “X”, al
menos un 100(1-1/k2)% de estos se encuentra dentro de
“k” desviaciones estándar de la media.

K = 1.5 100(1-1/2.25)% = 55.6%

K=2 100(1-1/4)% = 75%

K= 3 100(1-1/9)% = 88.9%

Al menos el 75% de los datos están en el intervalo formado


por la media mas menos dos desviaciones estándar.
La desigualdad de
Chebychev
• Supongamos que tenemos las anotaciones de la ultima
semana de Kobe Bryant: 15, 20, 21, 10, 30, 34 y 20.

Media (M) 21
Desviación estándar (DE) 8
Coeficiente de Variación (CV) 0.38

• Según Chebyschev se debe cumplir que


• Al menos 55.6% de los datos están en el intervalo ✔
[21 - 1.5x8 , 21 + 1.5+8] = [9-33]


• Al menos 88.9% de los datos están en el intervalo
[21 -2x8 , 21+2x8] = [5-47]
Datos Agrupados
• Prueba de conocimientos en estadística (n=50).

• La media de los scores fue 9.01

Frecuencia Frecuencia
Intervalo
absoluta porcentual
Extremo Extremo
izquierdo derecho
3.53 5.42 4 7.69
5.42 7.31 9 17.31
7.31 9.2 15 28.85
9.2 11.09 16 30.77
11.09 12.98 3 5.77
12.98 14.87 4 7.69
14.87 16.76 1 1.92
Datos agrupados
• Que pasa si recibimos los datos agrupados y deseamos
saber algunas medidas descriptivas como media,
varianza, percentiles, etc ?
Datos agrupados
K K

x i  xˆ i fi
X  i 1 X  i 1

n n

Punto medio Frecuencia


del intervalo absoluta

x
K
 nX  ˆi i
2 2

22
i x f nX
S2  i 1
S2  i 1
n 1 n 1
Datos agrupados
• Prueba de conocimientos en estadística (n=50)

Marcas de Frecuencia
Intervalo xi x fi
clase absoluta
Extremo Extremo
izquierdo derecho
3.53
5.42
5.42
7.31
4.48
6.37
4
9
17.92
57.33
X  9.38
7.31 9.2 8.26 15 123.90
9.2 11.09 10.15 16 162.4
11.09 12.98 12.04 3 36.12
12.98 14.87 13.93 4 55.72
14.87 16.76 15.82 1 15.82
Datos agrupados
• Recordemos…

Frecuencia Frecuencia
Frecuencia
Intervalo acumulada acumulada
absoluta
absoluta relativa
Extremo Extremo
izquierdo derecho
3.53 5.42 4 4 0.08
5.42 7.31 9 13 0.25
7.31 9.2 15 28 0.54
9.2 11.09 16 44 0.85
11.09 12.98 3 47 0.90
12.98 14.87 4 51 0.98
14.87 16.76 1 52 1.00
Datos Agrupados
• Si el percentil pk esta ubicado en el intervalo Ii,
entonces

 0.01k  n  Fi 1 
Pk  li    A
 fi 

Limite inferior del intervalo

Frecuencia acumulada absoluta hasta el intervalo Ii-1


Frecuencia absoluta del intervalo Ii

Amplitud del intervalo Ii


Datos Agrupados
5.42 7.31 9 13 0.25
7.31 9.2 15 28 0.54
9.2 11.09 16 44 0.85

El valor exacto de p50 y p75 son 9.06 y 10.47 respectivamente


Puntuación
estandarizada
• Supongamos que se mide los conocimiento de
estadística a alumnos del profesor Sal y Rosas (10) y
del profesor Ortiz (10).
Media DE
Profesor Sal y Rosas
14 11 12 13 9 12.4 2.0
16 12 14 12 11
Profesor Ortiz
16 15 13 13 12 14.2 1.3
14 14 15 14.5 15.5
Un chico que saca 14 con el profesor Sal y Rosas esta
mejor posicionado en su grupo que uno que saca 15 con
el profesor Ortiz ?
Puntuación
estandarizada
• Dado los datos x1, x2,…, xn de una variable X,
se denomina una puntuación estandarizada zi
de la observación xi, donde
xi  X
zi 
S

Las observaciones zi son adimensionadas

La media aritmética de las zi es 0 y su desviación


estándar es 1
Puntuación
estandarizada

You might also like