Professional Documents
Culture Documents
Estadstica Descriptiva
1
1 Definiciones y conceptos
Distribuciones de frecuencias
Problemas Resueltos
Python
Problemas resueltos
Python
Problemas resueltos
2
Definiciones y conceptos
3
Estadstica
4
#10 Peso
5
#9 Trabajo y estudio
6
#8 Television
7
#7 Consumo de drogas
9
#5 Consumo de tabaco
11
#3 Cociente intelectual
12
Observacion: Segun el experto James Flynn, como
especie evolucionamos en el entendimiento de categoras,
sistemas hipoteticos, lenguaje no verbal e imagenes
visuales que retratan realidades alternativas.
13
#2 Peces en el mar
14
#1 Ancianos
15
Fuente: 10 curiosos datos estadsticos que prueban como ha
cambiado el mundo, por Pablo Fernandez.
16
Piratas contra el calentamiento global
18
Poblacion y muestra
19
En vez de examinar todo el grupo, al que se le conoce como
poblacion o universo, se examina solo una pequena parte del
grupo, al que se le llama muestra.
20
Las poblaciones pueden ser finitas o infinitas. Por ejemplo:
21
Si la muestra es representativa de la poblacion, el analisis de la
muestra permite inferir conclusiones validas acerca de la
poblacion.
A la parte de la estadstica que se ocupa de las condiciones
bajo la cuales tales inferencias son validas se le llama
estadstica inductiva o inferencial.
Como estas inferencias no pueden ser absolutamente ciertas,
para presentar estas conclusiones se emplea el lenguaje de la
probabilidad.
22
A la parte de la estadstica que unicamente trata de describir y
analizar un grupo dado, sin sacar ninguna conclusion ni hacer
inferencia alguna acerca de un grupo mas grande, se le conoce
como estadstica descriptiva o deductiva.
23
Variables: discretas vs continuas
24
Una variable X que puede tomar cualquiera de los valores en
la recta numerica R es una variable continua.
Si los valores que una variable puede tomar se pueden numerar
X1 , X2 , ..., XN , ...
25
Ejemplo 1.1.
26
Ejemplo 1.2.
La estatura H de una persona que puede ser 62 pulgadas (in),
63.8 in o 65.8341 in, dependiendo de la exactitud conque se
mida, es una variable continua.
27
Los datos descritos mediante una variable discreta son datos
discretos y los datos descritos mediante una variable continua
son datos continuos.
Que tipo de dato es..
28
Es util ampliar el concepto de variable a entidades no
numericas;por ejemplo, en el arco iris, color C es una variable
que puede tomar los valores rojo, anaranjado, amarillo,
verde, azul, ndigo o violeta.
Estas variables se pueden reemplazar por numeros; por
ejemplo, se puede denotar rojo con 1, anaranjado con 2,
etcetera.
29
Definiciones y conceptos
Distribuciones de frecuencias
30
Datos en bruto
31
Ordenaciones
74 60 = 14 in.
32
DISTRIBUCIONES DE FRECUENCIA
33
A la disposicion tabular de los datos en clases con sus
respectivas frecuencias de clase se le conoce como
distribucion de frecuencias o tabla de frecuencias.
34
Figura 1.12: Distribucion de frecuencias de las estaturas
(registradas a la pulgada mas cercana) de 100 estudiantes de la
universidad XYZ.
35
La primera clase (o categora), por ejemplo, consta de las
estaturas que van desde 60 hasta 62 pulgadas y queda
identificada por el smbolo 60-62. Como hay cinco estudiantes
cuyas estaturas pertenecen a esta clase, la frecuencia de clase
correspondiente es 5.
36
A los datos organizados y resumidos como en la distribucion
de frecuencias anterior se les llama datos agrupados.
37
INTERVALOS DE CLASE Y LIMITES DE CLASE
38
Un intervalo de clase que, por lo menos teoricamente, no
tenga indicado el lmite de clase superior o el lmite de clase
inferior, se conoce como intervalo de clase abierto.
Por ejemplo, al considerar grupos de edades de personas, un
intervalo que sea 65 anos o mayores es un intervalo de clase
abierto.
39
FRONTERAS DE CLASE
40
En la practica, las fronteras de clase se obtienen sumando el
lmite superior de un intervalo de clase al lmite inferior del
intervalo de clase inmediato superior y dividiendo entre 2.
41
Algunas veces, las fronteras de clase se usan para representar a
las clases.
Por ejemplo, las clases de la tabla 2.1 pueden indicarse como
59.5-62.5, 62.5-65.5, etc.
Para evitar ambiguedades cuando se usa esta notacion, las
fronteras de clase no deben coincidir con las observaciones.
Por lo tanto, si una observacion es 62.5, no es posible decidir
si pertenece al intervalo 59.5-62.5 o al intervalo 62.5-65.5
42
TAMANO O AMPLITUD DE UN INTERVALO DE
CLASE
43
Si en una distribucion de frecuencia todos los intervalos de
clase tienen la misma amplitud, esta amplitud comun se
denota c.
En este caso, c es igual a la diferencia entre dos lmites
inferiores de clases sucesivas o entre dos lmites superiores de
clases sucesivas.Por ejemplo, en los datos de la tabla 2.1, el
intervalo de clase es
44
LA MARCA DE CLASE
45
Para los analisis matematicos posteriores, se supone que todas
las observaciones que pertenecen a un intervalo de clase dado
coinciden con la marca de clase.
As, se considera que todas las estaturas en el intervalo de
clase 60-62 in son de 61 in.
46
REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCION DE FRECUENCIAS I
47
REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCION DE FRECUENCIAS II
48
REGLAS GENERALES PARA FORMAR UNA DIS-
TRIBUCION DE FRECUENCIAS III
49
HISTOGRAMAS Y POLIGONOS DE FRECUEN-
CIAS
50
Un histograma o histograma de frecuencias consiste en un
conjunto de rectangulos que tienen: a) sus bases sobre un eje
horizontal (el eje X ), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del
intervalo de clase, y b) areas proporcionales a las frecuencias
de clase.
51
Un polgono de frecuencias es una grafica de lnea que
presenta las frecuencias de clase graficadas contra las mar- cas
de clase. Se puede obtener conectando los puntos medios de
las partes superiores de los rectangulos de un histograma.
52
Figura 1.13: Histograma que muestra los puntos medios y las
frecuencias de clase.
53
DISTRIBUCIONES DE FRECUENCIAS RELATIVAS
54
Si en la tabla 1.12 las frecuencias se sustituyen por frecuencias
relativas, la tabla que se obtiene es una distribucion de
frecuencias relativas, distribucion porcentual o tabla de
frecuencias relativas.
55
Las representaciones graficas de las distribuciones de
frecuencias relativas se obtienen a partir de los histogramas o
polgonos de frecuencias, cambiando unicamente, en la escala
vertical, las frecuencias por las frecuencias relativas y
conservando la grafica exactamente igual.
A las graficas que se obtienen se les llama histogramas de
frecuencias relativas (o histogramas porcentuales) y
polgonos de frecuencias relativas (o polgonos
porcentuales), respectivamente.
56
DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS Y OJIVAS
57
Figura 1.14: Polgono de frecuencias de las estaturas de los
estudiantes.
58
A una tabla en la que se presentan las frecuencias acumuladas
se le llama distribucion de frecuencias acumuladas, tabla
de frecuencias acumuladas o simplemente distribucion
acumulada, y se presenta en la tabla 2.2 para la distribucion
de las estaturas de los estudiantes de la tabla 1.12.
59
Figura 1.15: Una grafica que muestra las frecuencias acumuladas
menores de cada frontera superior de clase respecto a cada
frontera superior de clase se le conoce como grafica de
frecuencias acumuladas u ojiva.
60
DISTRIBUCIONES DE FRECUENCIAS ACUMULA-
DAS RELATIVAS Y OJIVAS PORCENTUALES
61
Por ejemplo, la frecuencia acumulada relativa de las estaturas
meno- res que 68.5 in es 65/100 = 0.65 o 65 %, lo que
significa que 65 % de los estudiantes tienen estaturas menores
a 68.5 in.
62
Si en la tabla 1.15 se emplean las frecuencias acumuladas
relativas en lugar de las frecuencias acumuladas, se obtiene
una distribucion de frecuencias acumuladas relativas (o
distribucion acumulada porcentual) y una grafica de
frecuencias acumuladas relativas (u ojiva porcentual),
respectivamente.
63
Definiciones y conceptos
Problemas Resueltos
64
Problema Resuelto 1.1.
1 Disponer los numeros 17, 45, 38, 27, 6, 48, 11, 57, 34, 22 en
una ordenacion.
2 Determinar el rango de estos numeros.
65
# -*- coding: utf-8 -*-
"""
Ejercicio 2.1
a) Disponer los numeros 17, 45, 38, 27, 6, 48, 11, 57,
b) Determinar el rango de estos numeros.
"""
miLista = [17,45,38,27,6,48,11,57,34,22]
print(miLista)
miListaOrdenada = sorted(miLista)
print(miListaOrdenada)
rango = max(miLista)-min(miLista)
print(rango)
66
Problema Resuelto 1.2.
En la tabla siguiente se presentan las calificaciones finales que
obtuvieron en matematica 80 alumnos de una universidad.
67
De acuerdo con esta tabla, encontrar:
70
#La calificacion mas alta.
M=max(miLista); print(M)
#La calificacion mas baja.
m=min(miLista); print(m)
#El rango.
rango=M-m; print(rango)
71
#Ordenamos la lista
miListaOrd = sorted(miLista)
print(miListaOrd)
#Las calificaciones de los cinco mejores estudiantes.
print(miListaOrd[-5:])
#Las calificaciones de los cinco peores estudiantes.
print(miListaOrd[:5])
#La calificacion del alumno que tiene el decimo lugar
#entre las mejores calificaciones.
print(miListaOrd[-10])
72
#El numero de estudiantes que obtuvieron 75 o mas.
mayorQue75 = [elemento for elemento in miListaOrd
if elemento>=75]
print(mayorQue75, len(mayorQue75))
#El numero de estudiantes que obtuvieron 85 o menos.
menorQue85 = [x for x in miListaOrd if x<=85]
print(menorQue85, len(menorQue85))
73
#El porcentaje de los estudiantes
#que obtuvieron calificaciones
#mayores a 65 pero no mayores a 85.
de65a85 = [x for x in miListaOrd if 65<=x<=85]
print(len(de65a85)/len(miLista))
print(1.0*len(de65a85)/len(miLista))
74
#Las calificaciones que no aparecen en esta tabla.
complemento = [x for x in range(0,100+1)
if not(x in miLista)]
print(complemento)
75
Ahora, exploraremos los datos a traves de histogramas. Para
este fin, utilizaremos dos paquetes muy populares de Python:
numpy y matplotlib.
76
Numpy
1
https://es.wikipedia.org/wiki/NumPy
77
Matplotlib
2
https://es.wikipedia.org/wiki/Matplotlib
78
import numpy as np
import matplotlib.pyplot as plt
miLista = [68,84,75,83,68,90,62,88,76,93,
73,79,88,73,60,93,71,59,85,75,
61,65,75,87,74,62,95,78,63,72,
66,78,82,75,94,77,69,74,68,60,
96,78,89,61,75,95,60,79,83,71,
79,62,67,97,78,85,76,65,71,75,
65,80,73,57,88,78,62,76,53,74,
86,67,73,81,72,63,76,75,85,77]
miLista = np.array(miLista)
79
plt.hist(miLista, bins=auto)
# arguments are passed to np.histogram
plt.title("Histogram with auto bins")
plt.show()
80
plt.hist(miLista, bins=[53,64.75,86,97])
# arguments are passed to np.histogram
plt.show()
81
plt.hist(miLista, bins=np.arange(miLista.min(),
miLista.max()+1))
plt.show()
82
plt.hist(miLista,
bins=np.arange(miLista.min(), miLista.max()+1),
align=left)
plt.show()
83
plt.ylabel(Cumulative Frequency)
plt.xlabel(Data)
84
plt.ylabel(Relative Cumulative Frequency)
plt.xlabel(Data)
plt.hist(miLista, bins=auto,normed=1,
histtype=step, cumulative=True)
# arguments are passed to np.histogram
plt.title("Histogram with auto bins")
plt.show()
85
86
myBins = np.linspace(50,100, (100-50)/5+1)
print myBins
miHistograma = np.histogram(miLista, bins=myBins)
print miHistograma
print miHistograma[0]
print miHistograma[1]
87
print "Intervalo"+8*" "+"Frecuencia"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "\
+str(frecuencia)
88
print "Intervalo"+8*" "+"Frecuencia"+2*" "+\
"Elementos en intervalo"
for k in range(len(myBins)-1):
liminf=myBins[k]
limsup=myBins[k+1]-1
frecuencia=miHistograma[0][k]
elementos = []
for x in miLista:
if (liminf<=x and x<limsup):
elementos.append(x)
sep = len("Frecuencia")+2-len(str(frecuencia))
print "["+str(liminf)+"-"+str(limsup)+")"+6*" "+\
str(frecuencia)+12*" "+str(elementos)
89
Que opciones existen para el parametro bins?
1 https://docs.scipy.org/doc/numpy/reference/generated/
numpy.histogram.html
2 https://stackoverflow.com/questions/9141732/how-does-
numpy-histogram-work
90
Ejercicio de practica.
Analice los siguientes datos a traves de histogramas, utilizando
las diferentes opciones para el parametro bins.
[ 5. 4. 6. 5. 4. 6. 6. 4. 5. 3.
6. 6. 6. 3. 5. 5. 5. 5.
6. 3. 5. 4. 5. 6. 6. 5. 6. 3.
5. 6. 5. 5. 6. 6. 6. 5.
5. 5. 6. 7. 5. 4. 5. 3. 5. 4.
5. 5. 6. 5. 6. 4. 4. 5.
4. 5. 5. 5. 6. 7. 4. 5. 5. 5.
6. 3. 7. 4. 5. 6. 4. 5.
6. 6. 4. 7. 5. 4. 6. 5. 5. 1.
6. 5. 5. 5. 6. 6. 5. 6.
5. 5. 4. 4. 6. 5. 5. 6. 4. 4.]
91
Sugerencia
import numpy as np
np.random.seed(1234)
mu, sigma = 5, 1 # mean and standard deviation
s = np.random.normal(mu, sigma, 100)
print np.rint(s)
92
Para profundizar...
93
Medidas de tendencia central
94
Indice y subndices
95
Definicion 2.1 (Sumatoria).
N
X
Xj = X1 + ... + XN
j=1
96
Ejemplo 2.1.
N
X
Xk Yk = X1 Y1 + ... + XN YN
k=1
XN N
X
aXi = aX1 + ... + aXN = a Xn .
i=1 n=1
97
Observacion: Cuando se sobrentiende que el contador
P
j corre sobre los numeros 1, 2, ..., N, escribimos Xj o
simplemente X en lugar de N
P P
j=1 .
98
Linealidad
Problema 2.1.
Si a, b son constantes, demuestre que
X X X
(aX + bY ) = a X +b Y.
99
Promedio
100
Se pueden definir varios tipo de promedios:
Media aritmetica;
mediana;
moda;
media geometrica;
media armonico.
101
Observacion: Cada medida de tendencia central tiene
ventajas y desventajas de acuerdo al tipo de datos y el
proposito del uso.
102
Definicion 2.2 (Media aritmetica).
PN
Xj
P
X1 + ... + XN j=1 X
X = = = (2.1)
N N N
103
Ejemplo 2.2.
La media aritmetica de 8, 3, 5, 12, 10 es...
104
Si los numeros X1 , X2 , ..., Xk se presentan con frecuencias
f1 , f2 , ..., fk respectivamente su media aritmetica es
P P
f1 X1 + ... + fk Xk fX fX
X = = P = . (2.2)
f1 + ... + fk f N
P
donde N = f es la suma de frecuencias o total de
casos.
105
Ejemplo 2.3.
Si 5, 8, 6, 2 se presentan con frecuencias 3, 2, 4, 1
respectivamente, su media aritmetica es...
106
Media aritmetica ponderada
107
Definicion 2.3 (Media ponderada).
Si w1 , .., wk son pesos tales que 0 wi 1 y wi = 1,
P
108
Ejemplo 2.4.
Si en una clase, al examen final se le da el triple del valor que
a los examenes parciales y un estudiante obtiene 85 en el final
y 70 y 90 en los dos examenes parciales, obtener su media
ponderada.
109
1
1 Si wi = N
, obtenemos la media aritmetica usual.
fi
2 Si wi = N
, obtenemos la formula (2.2).
110
Cuando los numeros son muy grandes, se suele utilizar un
pivote P : P
f i di
X = P + ,
N
donde di = Xi P.
En ocasiones, utilizaremos la notacion
P
f i di
d = ,
N
de manera que d es la desviacion promedio y X = P + d.
111
Observacion:
Para datos agrupados, Xi se escoge como la marca de la
iesima clase.
112
La mediana
113
Ejemplo 2.5.
La mediana de la lista de numeros 3, 4, 5, 6, 8, 8, 8, 10 es...
La mediana de la lista de numeros 5, 5, 7, 9, 11, 12, 15, 18
es..
114
Definicion 2.4 (Mediana para datos agrupados).
N P
2 C<CM f
Mediana = L +
fCM
donde
115
Moda
116
Ejemplo 2.6.
La moda de la lista 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es...
En este caso, diremos que la lista es unimodal.
Cual es la moda de la lista 3, 5, 8, 0, 12, 15, 16?
Cual es la moda de la lista 3, 8, 8, 8, 15, 15, 15? En este
caso diremos que la lista es bimodal.
117
Definicion 2.5 (Moda para datos agrupados).
!
1
Moda = L + c
1 + 2
donde
118
Medidas de tendencia central
Python
119
numpy.mean
3
https://github.com/numpy/numpy/blob/v1.13.0/numpy/core/fromnumeric.py
L2909
120
Ejemplos
121
numpy.median
4
https://docs.scipy.org/doc/numpy/reference/generated/numpy.median.html
122
Ejemplos I
import numpy as np
123
Ejemplos II
m = np.median(a, axis=0)
out = np.zeros_like(m)
print np.median(a, axis=0, out=m)
#array([ 6.5, 4.5, 2.5])
print m
#array([ 6.5, 4.5, 2.5])
b = a.copy()
print np.median(b, axis=1, overwrite_input=True)
#array([ 7., 2.])
124
Ejemplos III
b = a.copy()
print np.median(b, axis=None, overwrite_input=True)
#3.5
assert not np.all(a==b)
125
SciPy
5
https://es.wikipedia.org/wiki/SciPy
126
Moda I
import numpy as np
from scipy import stats
a = np.array([3,5,6,5,6,5,6,6,3,1,5])
print stats.mode(a)
# ModeResult(mode=array([5]), count=array([4]))
127
Moda II
b = np.array([[6, 8, 0, 0],
[3, 3, 0, 3],
[8, 1, 8, 5],
[5, 3, 0, 5],
[4, 7, 5, 3]])
print stats.mode(b)
# ModeResult(mode=array([[3, 3, 0, 3]]),
count=array([[1, 2, 3, 2]]))
128
Moda III
129
Medidas de tendencia central
Problemas resueltos
130
Problema Resuelto 2.1.
131
Problema Resuelto 2.2.
132
Problema Resuelto 2.3.
133
Problema Resuelto 2.4.
134
Problema Resuelto 2.5.
135
Problema Resuelto 2.6.
136
Problema Resuelto 2.7.
137
Problema Resuelto 2.8.
138
Problema Resuelto 2.9.
139
Problema Resuelto 2.10.
140
Desviacion estandar y otras
medidas de dispersion
141
Dispersion o variacion
142
Rango
143
Desviacion media
144
Ejemplo 3.2.
Encuentre la desviacion media de la lista 2, 3, 6, 8, 11.
145
Desviacion estandar
donde xj := Xj X.
146
Si X1 , ..., XN se presentan con frecuencias f1 , ..., fN
respectivamente, la desviacion estandar se puede expresar
como
v 2
uP sP
u f X
t j j X fj x2j
s= =
N N
147
Observacion: En ocasiones, N se reemplaza por N 1
en las formulas anteriores, debido a que esta definicion
aproxima mejor a la poblacion de la que se ha obtenido la
muestra. Pero para muestras muy grandes N > 30
practicamente no hay diferencia.
148
Varianza
149
Observacion: En estadstica, es importante distinguir
entre la desviacion estandar de una poblacion y una
muestra. Para distinguirla, en el primer caso utilizaremos
y en el segundo, continuaremos usando s.
150
Metodos abreviados
2
s2 = X 2 X
2
s 2 = d2 d
151
En las distribuciones normales se tiene que
152
Si 2 conjuntos de N1 y N2 datos respectivamente tienen
correspondientes s21 y s22 varianzas pero una misma media
aritmetica X, entonces la varianza de la union de ambos
conjuntos es
N1 s21 + N2 s22
s2 = .
N1 + N2
153
Teorema de Chebyshev
1
Para k > 1, por lo menos 1 2 de la distribucion de
k
probabilidad de cualquier variable aleatoria esta a nomas de k
desviaciones estandar de la media.
154
Desviacion estandar y otras
medidas de dispersion
Python
155
numpy.std
157
#In single precision, std() can be inaccurate:
a = np.zeros((2, 512*512), dtype=np.float32)
a[0, :] = 1.0
a[1, :] = 0.1
print np.std(a)
#0.45000005
158
Desviacion estandar y otras
medidas de dispersion
Problemas resueltos
159
Problema Resuelto 3.1.
160
Problema Resuelto 3.2.
161
Problema Resuelto 3.3.
162
Problema Resuelto 3.4.
Demostrar que
sP
X2 X 2
P q
2
s= = X2 X
v
N N
!2
u f X2
uP P
fX
q
2
s= t
= X2 X
N N
163
Problema Resuelto 3.5.
164
Problema Resuelto 3.6.
165
Problema Resuelto 3.7.
166
Problema Resuelto 3.8.
167