Professional Documents
Culture Documents
Estadística General
Mc. Víctor M. Alvarez
alvarezv@usac.edu.gt
alvarezvicma@hotmail.com
Escuela de Zootecnia
1
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Fuentes de Datos
F u e n te s d e D a to s
P r im a r ia s S e c u n d a r ia s
E x p e r im e n t o s C e n s o s , e n c u e s ta s C o n s u lt a s c e n s a le s R e v is ió n r e g is t r o s
2
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Tipos de Datos
D a to s
C a t e g ó r ic o s C u a n t it a t iv o s
N o m in a le s O r d in a l I n t e r v a lo R azón
3
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Definiciones
• Una variable categórica indica a qué grupo o a
qué categoría pertenece una observación. Todo lo
que podemos hacer es calcular la proporción de
datos que entra en cada categoría.
Ejemplos
Datos cuantitativos Datos categóricos
Estadística Descriptiva
• Abarca la agrupación, resúmen y presentación de
los datos para permitir su interpretación y poder
tomar decisiones basadas en dicha interpretación.
7
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Variables Categóricas
8
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Variables cuantitativas
• Las variables cuantitativas contínuas toman un
número considerable de valores.
9
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
160
200
160
120
120
80
40
0
0 1 2 3 4
80
40
0
0 1 2 3 4
10
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
11
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
12
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
7, 3, 9, -2, 4, 6
6
∑ i=1 xi 71 + x
x 32 + x
93 +−x24 + x
45 + x
66
x= = = 4.5
6 6
14
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
• Ejemplo:
do muchas observaciones toman el mismo valor, estas se pu
mir en una tabla de frecuencias. Supongamos que el númer
en una muestra de 16 empleados fuera el siguiente:
NUMERO DE HIJOS 0 1 2 3
NUMERO DE EMPLEADOS 3 4 7 2
16 empleados
∑16
i=1xix1+ x2...+ x16 3(0) + 4(1) + 7(2) + 2(3)
x= = = = 1.5
16 16 16
15
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
La mediana
• La mediana (M) es el “valor central” de un
histograma.
16
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
La mediana
• Ejemplo:
Los salarios de siete empleadosSupongamos
fueron que se agrega al grupo el
los siguientes (en 1000s) : Salario de un empleado más (Q31,000)
28, 60, 26, 32, 30, 26, 29. ¿Cuál es la mediana?
¿Cuál es la mediana?
Nro. de observaciones es Nro.
imparde observaciones es par
Primero, ordenar los Primero, ordenar los
salarios. salarios.
Luego, localizar el valor en Luego, localizar el valor en
el medio. Hayeldos valores en el medio!
medio.
26,26,28,29,30,32,6026,26,28,29,
26,26,28,29,29.530,31, 32,60
, 30,31,32,60
17
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
La moda
La moda es el valor que ocurre con mayor frecuencia
en un grupo de observaciones.
Cuando la muestra
La moda es grande, los datos
se agrupan en intervalos
y obtenemos el
Intervalo modal
La moda
Ejemplo
19
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Media y Mediana
• La media es sensible a observaciones extremas y a outliers.
Distribuciones simétricas y
asimétricas
• Una distribución es simétrica si el lado derecho e
izquierdo del histograma con respecto a la mediana
son aproximadamente iguales.
• Un distribución es asimétrica hacia la derecha si el
lado derecho del histograma se extiende sobre un
mayor número de valores (intervalos) que el lado
izquierdo.
• Una distribución es asimétrica hacia la izquierda si el
lado izquierdo del histograma se extiende sobre un
mayor número de valores (intervalos) que el lado
derecho.
21
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
22
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
25
20
15
10
5
0
1 2 3 4 5 6 7 8 9 10 11 12
23
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
16
14
12
10
8
6
4
2
0
40 45 50 55 60 65
24
Edad
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Medidas de dispersión
• Caracterizar una distribución solamente a través de una medida
central no es apropiado.
26
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Medidas de dispersión
Ejemplo de dos conjuntos de datos con igual media
Medidas de dispersión
• Rango
Medidas de dispersión
• El rango depende sólo de las observaciones
máxima y mínima, que podrían ser observaciones
atípicas.
• Podríamos mejorar nuestra descripción de la
dispersión fijándonos, por ejemplo, también en la
dispersión del 50% de los valores centrales de
nuestros datos.
• Un conjunto de estadísticos de utilidad son los
cuartiles de una distribución.
29
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Cuartiles
Para calcular los cuartiles de una distribución debemos:
30
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Cuartiles
• Los cuartiles son medidas de tendencia no central de una
distribución.
Q1 Q2 Q3
31
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Percentiles
• Los percentiles son otro conjunto de medidas de tendencia
no central de una distribución.
• Ejemplo
– Supongamos que el 78% de los resultados del GMAT es menor o
igual a 600 puntos. Entonces, 600 es el percentil 78 de la
distribución.
78% de todos los resultados 22%
200 600 800 32
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Percentiles
– Percentiles frecuentemente utilizados
• Primer decil = percentil 10
• Primer cuartil, Q1, = percentil 25
• Segundo cuartil,Q2, = percentil 50
• Tercer cuartil, Q3, = percentil 75
• Noveno decil = percentil 90
Ejemplo
Encontrar los cuartiles del siguiente conjunto de datos:
Percentiles
– Solución
• Primero, ordenar las observaciones
2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30
15 observaciones
Primer cuartil
Diagrama de caja
• Los cinco números resúmen de una distribución
son representados gráficamente por un diagrama
de caja.
• L - Observación máxima
• Q3 - Tercer cuartil
• Q2 - Mediana
• Q1 - Primer cuartil
• S - Observación mínima
35
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Diagrama de caja
• Los lados inferior y superior de la caja van del
primer al tercer cuartil. Por tanto, la altura de la
caja es la amplitud del 50% de los datos centrales.
• El segmento del interior de la caja indica la
mediana. Los extremos de los segmentos
perpendiculares a los lados superior e inferior
indican, respectivamente, los valores máximo y
mínimo de la distribución.
S Q1 Q2 Q3 L
36
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Diagrama de caja
37
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
( x1 − x ) + ( x 2 − x ) + ... + ( x n − x )
2 2 2
s =
2
n −1
• De forma compacta:
1
s = 2
n−1
∑ (x i − x) 2
38
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
La varianza 9 –10 = -1
11 –10 = +1
Considere dos poblaciones: 8 –10 = -2
Población A: 8, 9, 10, 11, 12 12 – 10 = +2
Población B: 4, 7, 10, 13, 16 Suma = 0
Comencemos calculando la suma de las desviaciones
En ambos casos, la suma
La media de ambas poblaciones es 10...
de las desviaciones es
La varianza
Calculemos la suma de las desviaciones al cuadrado para ambas
poblaciones:
(8 − 10 ) 2
+ (9 − 10 ) 2
+ (10 − 10 ) 2
+ (11 − 10) 2
+ (12 − 10 ) 2
σ A2 = = 2.5
4
( 4 − 10) 2
+ ( 7 − 10 ) 2
+ (10 − 10 ) 2
+ (13 − 10) 2
+ (16 − 10) 2
σ B2 = = 22.5
4
or qué la varianza esta definida
mo un promedio de desviaciones
cuadrado y no como su simple suma?
La suma de las
desviaciones al cuadrado
aumentan
cuando la dispersión 40
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
La varianza
Calculemos la suma de las desviaciones cuadradas para ambas
poblaciones
B es mas dispersa alrededor
de su media que A. Sin embargo,
la suma no muestra eso.
Es por ello que se usa el promedio
A B
1 2 3 1 3 5
σA2 =2=
SumaA = (1-2)2 +…+(1-2)2 +(3-2)2 +… +(3-2) 10A/(N-1) = 10/4 = 2
Sum
5 veces 5 veces
• Ejemplo:
Tasas de retorno de dos fondos de inversiones durante 10 años
¿Cual de los dos es más riesgoso?
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6 Desviación estandar: 16.74
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desviación estandar: 9.97
El fondo A es mas riesgoso dado que su desviación estándar es mayor.
42
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Grados de libertad
• ¿Por qué calculamos la varianza dividiendo por n - 1, en
lugar de dividir por n?
• Como la suma de las desviaciones es 0, la última
desviación es una combinación lineal de las n - 1
desviaciones restantes.
• Por lo tanto, no estamos calculando el promedio de n
números independientes (los desvíos). Solo n -1 de las
desviaciones al cuadrado pueden variar libremente y por
ello, promediamos la suma de los desvíos al cuadrado
dividiendo por n -1.
• Al numero n -1 se lo denomina grados de libertad de la
varianza o de la desviación típica.
43
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Coeficiente de variación
• El coeficiente de variación es una medida de dispersión
relativa.
• Muestra la dispersión de una distribución en relación a su
media.
• Se utiliza para comparar distintas distribuciones.
• Su fórmula es:
s
CV
x
• Por ejemplo, una desviación estandar de 10, puede ser
grande si la media es 100, pero no lo es si la media es 500.
46
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Coeficiente de asimetría
• El coeficiente de asimetría es una medida de asimetría de
una distribución.
• Su fórmula es:
3
n n
xi x
CA
(n 1)(n 2) i1 s
47
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Concentración: Kurtosis
• La kurtosis es una medida de la concentración de la
distribución en torno a su media.
• Su fórmula es:
4
n(n 1) n
xi x 3(n 1)2
K
(n 1)(n 2)(n 3) i1 s
(n 2)(n 3)
• Si K es positiva, la distribución tiene una concentración
superior a la de una curva normal. Si es negativa, ocurre lo
contrario.
48
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
∑(x i − µ x )( yi − µ y )
Covarianza poblacional = COV(X, Y) =
N
µx (µ y) es la media poblacional de la variable X (Y)
∑(x i − x)(yi − y)
Covarianza muestral = cov(X, Y) =
n -1
49
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Medidas de asociación:
Correlación
Coeficiente de correlacion poblacional Coeficiente de correlacion muestral
COV ( X , Y ) cov( X , Y )
ρ= r=
σ xσ y sx s y
50
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Coeficiente de Correlación
Correlación
+1 lineal positiva fuerte
El valor se encuentra cerca de 1 COV(X,Y)>0
ρ o r = No
0
hay correlación lineal
Coeficiente cercano a cero COV(X,Y)=0
51
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Medidas de asociación
• Ejemplo
– Busque la covarianza y el coeficiente de correlación
para medir como los gastos de marketing y los niveles
de ventas se relacionan.
MarketingVentas sió n…
Ventas p e r
1 30 60 de dis
f i c o
3 40 gra
50
e n este
5 40 40 en te,
t u i t ivam s tar
In e
4 50 30
a r ecen das
20 l e s p laciona
2 35 v
b
aria nte re
10 La s me Gastos de marketing
5 50 t i v a
0 posi
3 35 0 1 2 3 4 5 6
2 25 52
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
A continuación calculamos cov() y r:
Mes x y xy x2 y2 X,Y) =
cov(
1 1 30 30 1
900 ∑ n (x − x)(y − y)
i=1 i
2 3 40 120
1600 9
i
=
3 5 40 200
1600 25 n− 1
4 4 50 2500 1 n
200 16 ∑ ni=1 xi ∑ ni=1 yi
5 2 35 70
1225 4 ∑ i=1 xiyi − =
6 5 50 2500 n− 1
250 25 n
7 3 35 105
1225 1 9 25× 305
8 2 25 50
625 1025
4 − = 10.268
Suma 25 3051025 93 12175 7 8
sx =
1 (
∑ i =1 xi −
n
)
∑ i =1 x
2
=
1 252
93 − = 1.554
2 n 2
n − 1 n 7 8
s x = 1.554 = 1.458 r=
cov(
X,Y)
=
10.268
= .797
sxsy 1.458× 8.839 53
De igual forma, sy = 8.839
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Medidas de asociación
Interpretación
– La covarianza (10.2679) indica que los gastos de
marketing y los niveles de ventas están positivamente
relacionados
– El coeficiente de correlación (.797) indica que hay una
relación lineal positiva fuerte entre los gastos de
marketing y los niveles de ventas.
54
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
55
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
56
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
57
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
58
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
61
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
• Eij = (NAi*NBj)/N.
χ2 = ∑ ∑
r c (Oij − E ij )2
i =1 j =1 E ij
– r = número de categorías de la variable en las filas
– c = número de categorías de la variable en las columnas
– Oij = número observado en entrada ij
– Eij = número esperado en la entrada ij
• Este estadístico Chi-cuadrado tiene (r-1)*(c-1) grados de
63
libertad.
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
• Considere un estudio sobre consumo que esta
interesado en investigar las preferencias de las
familias por diferentes tamaños de lavarropas.
65
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
• Supongamos que para investigar esta relación el
fabricante de lavarropas toma una muestra
aleatoria de tamaño n=300 de todas aquellas
familias que luego de comprar el lavarropas
enviaron la garantía al fabricante. En esa garantía
además de los datos personales se preguntaba
tamaño de la familia.
• La siguiente tabla provee la clasificación de los
300 datos:
66
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
Tamaño de la Familia
1a2 3a4 5 o más Total
Tamaño de Lavarropas
Comprado
Carga de 1kg. 25 37 8 70
Carga de 3kg 10 62 53 125
Carga de 5kg 5 41 59 105
67
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
• Nuestra tarea es determinar si el tamaño de la
familia afecta la decisión de compra de lavarropas.
68
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
• Trabajemos con un nivel de confianza del 90% y
calculemos el estadístico de Pearson.
69
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
– B1 Familia de 1 a 2 miembros
– B2 Familia de 3 a 4 miembros
– B3 Familia de más de 5 miembros
Ejemplo
• E11 = ( N
70A1 * N40
B1 ) / N300 = 9.33
• E12 = ( N
70A1 * N140
B2 ) / N
300 = 32.67
70A1 * N120
• E13 = ( N B3 ) / N
300 = 28
125 300 16.67
• E21 = ( NA2 * N40B1 ) / N =
125 140 300 58.33
• E22 = ( NA2 * NB2 ) / N =
125 120 300 50
• E23 = ( NA2 * NB3 ) / N =
105 40 300 14
• E31 = ( NA3 * NB1 ) / N300
= 49
105 140
• E32 = ( N A3 * N
105 B2 ) / N
120 300 = 42 71
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
• La fórmula de cálculo del estadístico viene dada
por
χ
3 3 (Oij − Eij ) 2
( 25 − 9 . 33)
2
(37 − 32 .67)
2
∑∑
2
= = + +
i =1 j =1 E ij
9.33 32.67
(8− 28) − − −
2 2 2 2
+
(10 16 .67) +
(62 58 .33) +
(53 50) +
28 16.67 58.33 50
(5−14) − −
2 2 2
+
( 41 49) +
(59 42) = 58.231
14 49 42 72
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Ejemplo
• El valor crítico desde una tabla Chi-cuadrado con 4
grados de libertad y un nivel de significatividad del
90% es 7.78
χ
2
C =
χ
2
n+
58.231
C = = 0.403
300 + 58.231
76
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
min(r − 1, c − 1) 2
C max
=
1 + min(r − 1, c − 1)
=
3
= 0.816
79
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
80
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
∀ φ = (χ2/N)1/2
81
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Terminología:
– Mercado Potencial: Es una estimación de la demanda
máxima de un producto en un punto del tiempo
determinado y para un área específica cuando los
gastos de marketing de una industria se aproximan a
infinito.
– Demanda de Mercado: Es el número de unidades de un
producto que pueden ser vendidas (por la industria) en
un área, con un determinado programa de marketing.
– Demanda de una Empresa: Es el número de unidades
de un producto que pueden ser vendidas (por una
82
empresa de la industria) en un área, con un determinado
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Mercado Potencial. Una forma simple de medir el
mercado potencial es considerar el máximo de
ventas que una industria puede lograr con un gasto
de marketing determinado:
MP = N × P × Q
• Donde: MP es el mercado potencial, N es el
número de posibles compradores, P es el precio de
venta promedio y Q es la cantidad vendida
promedio por comprador. 83
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Ejemplo: Suponga que queremos encontrar el
potencial de mercado de las ventas de CDs. Para
ello lo primero que necesitamos saber es cuantas
personas tienen aparatos para pasar CDs en el área
(supongamos 1,000,000); supongamos que el
precio promedio de venta de CDs es de 12$ y la
cantidad promedio de compras es de 4 CDs al año.
En este contexto el potencial de mercado es:
MP = 1,000,000 × 12 × 4 = 48,000,000
84
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Note que:
– El potencial de mercado depende crucialmente de la
situación económica. No es lo mismo el mercado
potencial de los CDs en épocas de recesión que en
épocas de prosperidad económica. Hay un movimiento
de las curvas de potencial y demanda de mercado.
85
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
Prosperidad Potencial de Mercado
Demanda de Mercado
Potencial de Mercado
Recesión b
a
Demanda de Mercado
x1 x2 Gasto de Marketing
86
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Otro de los métodos para medir el mercado potencial
es el método de variación en cadena que implica
multiplicar un número base por varios porcentajes de
ajuste.
• Ejemplo: Una empresa cervecera quiere estimar el
potencial de mercado de una cerveza negra:
• MP = Población × Ingreso per capita × % del ingreso
gastado en alimentos × % del gasto en alimentos que se
hace en bebidas × % del gasto en bebidas que se hace en
bebidas alcoholicas × % del gasto en beb. alcoh. que se
hace en cerveza × % del gasto en cerveza que se hace en 87
cerveza negra.
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• La demanda de mercado surge como suma de las
demandas de cada una de las empresas que
participan en el mercado.
• La demanda de cada empresa depende del nivel de
esfuerzo de marketing de la empresa en un período
determinado.
• Uno puede estimar funciones de respuesta de las
ventas a los niveles de gastos de marketing usando
las técnicas de estimación de funciones vistas en
econometría. 88
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Asociado con las ventas esperadas, basadas en el
plan de marketing seleccionado se encuentra el
concepto de cuota de mercado de la empresa.
• Cuota de mercado es la proporción de ventas de
un producto en las ventas totales del producto:
V ( A)
QM =
VT
• Donde QM es la cuota de mercado, V(A) son las
ventas del producto A y VT las ventas totales.
89
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• La cuota de mercado de una empresa puede
expresarse en términos de su penetración en el
mercado (market penetration) y de su cobertura
del mercado (market coverage).
V ( A) CTC
QM = ×
CTC VT
Donde: CTC son
las compras Penetración en Cobertura del
totales de los
clientes servidos. el Mercado Mercado
90
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
Técnicas de Medición de la
Demanda
• Ejemplo: Supongamos que las ventas de la
empresa X del producto A son (en miles) 40$ y
que las ventas totales del producto A son 100$. La
empresa vende el producto a 2 supermercados
(20$ a cada uno). El mercado esta compuesto por
4 supermercados que se dividen la compra del
producto en partes iguales (compra 25$ cada uno).
V 40
( A) V 40
( A) CTC
50
QM = = × = 0.40
VT
100 CTC
50 VT
100
91