Professional Documents
Culture Documents
Tema 1
Estadstica descriptiva:
Distribucin de frecuencias,
histogramas y grficos
ESTADSTICA DESCRIPTIVA
sobre cada clase se levanta un rectngulo de altura proporcional al nmero de observaciones de la
variable (frecuencia absoluta) que caen en la clase.
El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado
una prdida de algo de detalle. As, cuando el nmero de observaciones es relativamente
pequeo, o cuando las observaciones slo toman pocos valores, puede construirse el histograma a
partir de la distribucin de frecuencias de los datos sin agrupar, dando lugar a los diagramas de
barras.
Las distribuciones de frecuencias son la herramienta ms sencilla y ms utilizada y eficaz cuando
estamos rodeados de montones de datos que no nos dicen nada si no hacemos ms que
enumerarlos. Al expresar estos datos en forma de una distribucin de frecuencias, ya nos
proporcionan diversas ideas. Puesto que las distribuciones de frecuencias se utilizan muy a
menudo en el control de calidad, es necesario conocer la finalidad de las mismas y su
interpretacin y uso.
ESTADSTICA DESCRIPTIVA
con valores
continuacin.
Frecuencia absoluta
xi
de la variable
xi
de la variable
Frecuencia relativa
X
xi
y el
f =n / N .
nmero total de valores de la variable ( N ) . O sea, i i
xi
anteriores o iguales a
xi
. Su valor es
N i= ni con i=1, , N .
Fi =N i / N
La suma de las frecuencias absolutas sin acumular es igual a( nmero total de elementos
( f i=1 ) .
ESTADSTICA DESCRIPTIVA
( f i=1 )
Al conjunto de valores que ha tomado una variable (junto con sus frecuencias), se le denomina
distribucin de frecuencias de la caracterstica o variable. Para que una distribucin de
frecuencias quede determinada, es necesario conocer todos los valores de la variable y uno
cualquiera de los conceptos de frecuencia que acabamos de definir, ya que el paso de uno a otro
es inmediato. Adems, segn la forma en que se presenten los valores de la variable ser posible
distinguir dos tipos de distribuciones de frecuencias:
Cuando se trabaja con distribuciones agrupadas por intervalos o clases, es necesario que las
frecuencias observadas se asignen de alguna forma a los puntos del intervalo. Se podr optar por
suponer que los valores del intervalo se distribuyen uniformemente a lo largo de l, o por
considerar como representativo de todos los puntos del intervalo un nico valor (por ejemplo, el
X
punto medio del mismo), que denominaremos marca de clase ( i ) y que, en consecuencia, se
obtendr mediante
X i= ( Li1 + Li ) /2
Frecuencia
relativa
acumulada
Fi
Interval
o
Ii
Marca
de clase
Xi
Frecuencia
absoluta
ni
Frecuencia
relativa
fi
[ L0 , L1 ]
x1
n1
f 1 =n1 / N
N 1=n1
F1=N 1 /N
[ L1 , L 2 ]
x2
n2
f 2=n2 / N
N 2=n 1+n 1
F2 =N 2 /N
[ L2 , L 3 ]
x3
n3
f 3 =n3 / N
N 3=n 1+ n1+ n3
F3 =N 3 /N
ESTADSTICA DESCRIPTIVA
[ Lk1 , Lk ]
xk
nk
f k =n k /N
N k =n1++ nk =N
F k =N k / N=1
Sturges:
3 log ( N )
k= +
2 log ( 2 )
En algunos libros aparece otra frmula de Sturges, que difiere en el clculo:
k =1+ 3.3 log (N )
O tambin tomar:
k = N
de las
llantas tipo A que fabrica una empresa. Para ello se extrae una muestra de 60 llantas nuevas y,
bajo condiciones homogneas de experimentacin, se determina la duracin de cada una. En la
Tabla 2 se consignan las duraciones de las 60 llantas nuevas en miles de kms., los datos estn
presentados en la forma en que se colectaron, pero aun as no destaca la informacin que
contienen.
Tabla 2
40.1
47.5
46.9
45.8
47.2
45.2
44.1
42.9
47.0
52.0
ESTADSTICA DESCRIPTIVA
42.1
42.6
41.9
43.9
46.7
42.6
49.1
46.1
50.8
51.2
40.6
46.9
46.7
44.5
43.4
43.1
41.8
45.5
48.3
44.8
ESTADSTICA DESCRIPTIVA
Histograma
14
12
10
8
Frecuencias 6
4
2
0
12
9
11
8
5
3
6
2
Marcas de clase
2.2 Fractiles
En el polgono de frecuencias se puede observar que a una abscisa dada le corresponde una
ordenada que representa a la fraccin del nmero total de observaciones que es menor o igual
que el valor dado de la abscisa.
Inversamente, a cada ordenada le corresponde una abscisa que da el lmite abajo del cual se tiene
a la fraccin de observaciones indicada por la ordenada. A la abscisa se le llama el fractil
correspondiente a la fraccin dada. Por ejemplo, los fractiles de 15% , 50% y 95% estn dados
respectivamente por 41, 44 y 50 mil kilmetros.
Fractiles
Algunos de los fractiles reciben nombres especiales, as el fractil 50% se le llama mediana
porque la mitad de las observaciones son mayores que dicho valor y el resto son menores que l.
A los fractiles 25% y 75% se les llama cuartiles, "inferior" al primero y "superior" al segundo y
q1 y q3
se les representa con las letras
, respectivamente. Observe que para la poblacin deber
tenerse:
q1
f (x )dx= f ( x ) dx=0.25
q2
Finalmente a los fractiles 10, 20, ..., 90% se les denomina deciles y a los fractiles 1, 2, ..., 99% se
les llama percentiles.
ESTADSTICA DESCRIPTIVA
ESTADSTICA DESCRIPTIVA
f 1 =f 2 ==f n=
i=1
i=1
m1k = x ki p i= x ki f i=
x2
fm
son iguales a
1
n
1
x k (1)
n i=1 i
valores observados:
xm
f1
son iguales a
x1
f2
son
, con:
f 1 + f 2 ++ f m=n
entonces el momento de orden k
m1k = x kj f j=
j=1
fj
x1 , x2, , xn
n valores observados:
1
x k f (2)
n j=1 j j
, respectivamente.
tj
. En
este caso se supone que todos los valores que caen en un intervalo de clase coinciden con la
marca de clase de dicho intervalo y, consecuentemente, el momento de orden k con respecto al
origen de la correspondiente distribucin emprica ser:
m
m k = t j f j (3)
1
j=1
2.2.2 La media ( x )
La ms comn y til medida de tendencia central es la media, que se define como el primer
momento con respecto al origen y se representa con el smbolo x . De esta manera la media
x
x1 , x2, , xn
ESTADSTICA DESCRIPTIVA
1
x =m = x i (3)
n j=1
1
1
x =
1
t f (4)
n j=1 j j
Si los datos al representarse en un histograma muestran una figura que empieza a crecer hacia la
derecha hasta alcanzar un mximo para despus decrecer suavemente, la media es un valor tpico
en el sentido que identifica al punto donde las observaciones se concentran ms. En el Ejemplo
2 de la duracin de las llantas se tiene para datos agrupados y considerando la Tabla 2.1 que la
media es:
m
x =
1
=44.975
t f = 2,698.50
n j=1 j j
60
y este valor est bastante prximo al centro que intuitivamente se sealara para la distribucin de
los datos.
~
2.2.3 La moda ( x )
La moda es el valor de
frecuencia relativa
f ( x)
p ( x ) , o en la distribucin emprica, la
cerca de la mitad; otras presentan dos mximos o ms, stas se llaman bimodales o multimodales,
segn sea el caso, esto se muestra en la Figura 2.3.
ESTADSTICA DESCRIPTIVA
~
x del punto de interseccin P de las rectas QS y RT que
x=L1
x=L2
las
~
xL1 L2~
x
=
1
2
~
Y despejando a x :
2(~
xL1 )=1 ( L2~
x)
~
x 22 L1=1 L2~
x 1
ESTADSTICA DESCRIPTIVA
~
x 1 + ~
x 2=1 L2 + 2 L1
~
x ( 1 + 2 )=1 L2 + 2 L1
L + L
~
x= 1 2 2 1
1+2
Pero,
L2=L1+ C
, en donde C
~
x=
1 ( L1 +C ) + L1 2
1 + 2
L1 1+ 1 C+ L1 2 L1 ( 1+ 2 ) + 1 C
=
1+ 2
1+ 2
o bien,
~
x=L1 +
1
C(5)
1+ 2
43.25
129 = 3
128 =4
1.5
~
x=L1 +
1
3
C=43.25+
( 1.5 )=43.9
1+ 2
3+4
( )
Observe que la frecuencia mxima 12 corresponde al intervalo cuya marca de clase es 44. Este
valor puede considerarse aproximadamente como el valor de la moda
Para el intervalo modal que tiene los extremos (46.2547.75), se obtiene:
L1
46.25
118 = 3
116 =5
1.5
ESTADSTICA DESCRIPTIVA
Usando la Ecuacin (5), la moda, es:
~
x=L1 +
1
3
C=46.25+
( 1.5 )=46.8
1+ 2
3+5
( )
Observe que la frecuencia mxima 11 corresponde al intervalo cuya marca de clase es 47. Este
valor puede considerarse aproximadamente como el valor de la moda.
2.2.4 La mediana ( x )
La mediana
+
es el valor ( X =x )
valor tal que la mitad del nmero total de observaciones son mayores o iguales que ella y la otra
mitad son menores o iguales que ella.
Si los datos no estn agrupados bastar ponerlos en orden creciente y el que ocupe el lugar central
ser la mediana. Si el nmero de observaciones es para, la mediana ser el promedio de los dos
valores centrales.
Si los valores observados estn agrupados, la mediana
es la abscisa correspondiente a la
recta LM que divide el histograma en dos partes de igual rea, como se muestra en la Figura 2.5.
Se supondr que los intervalos de clase son de igual magnitud.
ESTADSTICA DESCRIPTIVA
n
rea AMLD = ( f )1
2
en donde
( f )1
| AM|=
en donde f
n/2( f ) 1
|AB|
f
AB=C
es su
en donde
L1
n /2( f )1
C (6)
f
ejemplo de la duracin de las llantas la mediana cae en el intervalo de extremos (44.75, 46.25) y
se obtiene:
L1
n/2
( f )1
44.75
60/2 = 30
1+3+5+9+12 =30
1.5
x=L1+
n /2( f )1
3030
( 1.50 )=44.75
C=44.75+
f
8
Este valor de la mediana est muy cercano a los valores que se obtuvieron para la media y la
moda. Entre ms perfecta es la forma acampanada del histograma, la media, la moda y la
mediana difieren menos.
Al estudiar distribuciones con misma media, stas pueden diferir segn que los valores de
estn dispersos o concentrados a cada lado de la media. Para analizar esta caracterstica
numricamente se estudiarn algunas medidas de dispersin y concentracin.
ESTADSTICA DESCRIPTIVA
2.3.1 Momentos con respecto a la media
Una discusin enteramente similar a la del inciso 2.2. permite establecer las siguientes
definiciones.
Dado el conjunto de observaciones:
x1 , x2 , , xn
mk
con
a la expresin:
n
mk =
1
( x x ) k (7)
n i=1 i
x1 , x2, , xn
estn agrupados en
t1 , t2 , , tm
tj
intervalos de
. Sea
fj
la
todos los valores que caen en un intervalo de clase coinciden con la marca de clase de dicho
k respecto a la media de la
intervalo y, consecuentemente, el momento de orden
correspondiente distribucin emprica ser:
m
mk =
1
( t x )k f j (8)
n j=1 j
x1 , x2 , , xn
ESTADSTICA DESCRIPTIVA
n
s x =m2 =
1
( x x )2 (9)
n i=1 i
1
t j x )2 f j (10)
(
n j=1
( CV )x =
sx
(12)
x
Observe que el coeficiente de variacin es independiente de las unidades usadas lo cual puede ser
de utilidad cuando se traten de comparar dos distribuciones cuyas unidades sean distintas. Una
desventaja es que el coeficiente de variacin es de poca utilidad como una medida de dispersin
cuando x est muy prxima a cero.
2.3.4 El rango
Una medida simple de dispersin de los datos es la diferencia entre la mxima y la mnima
observacin que recibe el nombre de rango.
As, por ejemplo, el rango del conjunto de datos 2, 3, 7, 8, 9, 10, 12, es 12 2 = 10. Algunas
veces el rango se expresa escribiendo simplemente los valores de las observaciones mnima y
mxima respectivamente. En el ejemplo anterior el rango se indicara como 2 a 12 o (2,12).
Jos Antonio Rivera ColmeneroPgina 16
ESTADSTICA DESCRIPTIVA
xl
Considere un conjunto de observaciones tales que cada una est afectada de una caracterstica
susceptible de sumarse. Tal es el caso de un grupo de individuos clasificados segn su salario, de
un conjunto de unidades de produccin ordenadas de acuerdo con su precio, etc.
Dichas observaciones pueden clasificarse de acuerdo con su nmero o conforme a la importancia
de la caracterstica considerada. Esta distincin conduce a la posibilidad de construir dos
histogramas:
f
Uno que proporcione el nmero de observaciones por clase ( j ) .
f t
Otro que refleje la importancia de la caracterstica poseda por clase ( j j ) .
xl
ESTADSTICA DESCRIPTIVA
528.00 517.00
500.00
382.50
400.00
291.00
300.00
Caracterstica fjtj
200.00
205.00
118.50
100.00
38.00
0.00
100.00
364.00
154.50
Marcas de clase tj
n/2( f j t j )1
C(13)
f jt j
( f j t j )1=38.00+ 118.50+205.50+382.50+528.00=1,276.50
f j t j=364.00
ESTADSTICA DESCRIPTIVA
L1=44.75
C=1.5
( 1,349.251,272.00
) 1.5=45.07
364
x=44.75
Como se sabe, la mediana es una medida de tendencia central; es un valor x tal que el nmero
de observaciones mayor que x es igual al nmero de observaciones menores que x .
El medial es una mediana particular calculada sobre una caracterstica totalizable. Por
ejemplo, en una distribucin de salarios, el salario medial ser el de aqul individuo que divide al
conjunto de individuos, clasificados segn sus salarios, en dos grupos tales que en cada uno de
ellos el total de los salarios percibidos es el mismo y por tanto es igual a la mitad del total
general. Observe que si los salarios estuviesen altamente concentrados, ello se reflejara en una
xl
fuerte diferencia entre los valores de la mediana, x y los de la medial
2.4.2 Curva de Lorenz, ndice de concentracin
La concentracin puede enjuiciarse a travs de la desviacin existente entre el medial y la
mediana. Otra manera de hacerlo es construyendo una curva tomando para cada clase las
frecuencias relativas acumuladas de las observaciones como abscisas, y como ordenadas a las
frecuencias relativas acumuladas de la caracterstica poseda por la clase.
De esta manera se obtiene una curva llamada de concentracin o de Lorenz, como se muestra en
la Figura 7.
ESTADSTICA DESCRIPTIVA
fjtj %
0.400
0.200
0.000
0.000
0.200
0.400
0.600
0.800
1.000
fj %
q1
q3
a la mediana
q2
sern
[ ( q3 q2 ) ( q 2q 1) ] = q 32 q 2+ q1 (14)
sx
sx
sx
m3=0
respecto a la media. Si la
m3
m3
ESTADSTICA DESCRIPTIVA
Anlogamente si la rama larga de la distribucin est en el lado de los valores negativos, entonces
m3
ser negativo y se tendr asimetra negativa, esto se observa en la Figura 8.
ESTADSTICA DESCRIPTIVA
Con el fin de utilizar un parmetro adimensional y puesto que
, o de
m3
tiene la dimensin de
m3
entre
x3
s x , entre
b1=
m23
( 15)
m32
23
(16)
32
b1=0.012
m4
m22
(17)
4
22
(18)
Se ha notado en una amplia clase de curvas de probabilidad, escogiendo de la escala en forma tal
que la variancia fuera la unidad, que la ordenada correspondiente a la media o a el modo es
s
2
mayor o menor segn que x sea mayor o menor. Esto es, el valor de
sirve para indicar
si la curva es alta y estrecha en el centro (leptocrtica) o achatada (platicrtica).
ESTADSTICA DESCRIPTIVA
Para clasificar el grado de aplanamiento de una distribucin se le compara con la distribucin
2=3
normal estndar. Se demuestra que para esta distribucin se tiene
. Es por esta razn
que a la diferencia:
2=
2< 0
b 23 ( muestra )
(19)
2 3( poblacin)
son leptocrticas, todo ello tomando como referencia a la curva normal estndar que es
mesocrtica,
2=0
de la poblacin correspondiente, y
xj
x =
1
1
1
b
f j x j= f j ( y jb )= y j f j f j
n j=1
n j =1
n j =1
n j=1
Y = X+ b , o
ESTADSTICA DESCRIPTIVA
Pero como el primer sumando es la media de la distribucin emprica asociada a la variable
aleatoria Y , y el segundo sumando es igual a (b /n)( n)=b , resulta:
x = y b(20)
mk =
1
k
x jx ) f j
(
n j=1
k
1
1
1
mk ( X ) = ( x j x ) k f j = [ ( y jb )( y b ) ] f j= ( y j y )k f j
n j=1
n j=1
n j=1
Esto es:
mk ( X ) =mk ( Y ) (21)
Y de la ecuacin (21) y de las relaciones,
m1=0
1
1 2
m2=m2( m1 )
1 2
1 4
m4=m44 m1 m3 +6 ( m1 ) m23 ( m1 )
resulta:
m2 ( X )=m2 ( Y ) =m12 ( Y )[ m 11 (Y ) ]
ESTADSTICA DESCRIPTIVA
Las expresiones (20) y (22) facilitan el clculo de los parmetros descriptivos de una distribucin
emprica. En la Tabla 4 se ilustra dicho clculo para el ejemplo de las llantas; en ella se tiene
y j =x j45
ya que x=45 es bastante prxima a x .
b=45
Tabla 4, resulta:
m11= x = y b=0.025+ 45=44.975
2
s x =m2 ( X )=9.737
ESTADSTICA DESCRIPTIVA
s x = m2 ( X )=3.1204
s 3.1204
( CV )x = x =
=0.069
x 44.975
m23 ( 2.487 )2
b1= 3 =
=0.0067
m2 ( 9.737 )3
b2 =
m4
2
2
241.409
=2.5463
( 9.737 )2
Problemas resueltos
Problema 1. En la Tabla 1.1 se muestra el nmero semanal de accidentes por cada mil
automviles que circularon en cierta carretera muy transitada. Construya una tabla que muestre
las frecuencias de clase de los accidentes y la importancia de esta caracterstica. Dibuje el
histograma y el polgono de frecuencia correspondientes.
Tabla 1.1
3.0
2.9
2.9
2.8
2.8
2.7
Ayuda:
3.4
3.3
3.3
3.3
3.3
3.2
3.8
3.7
3.7
3.7
3.7
3.6
5.3
4.7
4.6
4.4
4.3
4.3
1.8
2.1
2.3
2.4
2.5
2.5
3.0
3.1
3.1
3.1
3.2
3.2
3.4
3.4
3.5
3.5
3.5
3.5
3.8
3.9
3.9
4.0
4.0
3.0
2.6
3.2
3.6
4.2
Primera marca de clase = 1.7; longitud del intervalo de clase = 0.5; nmero de
intervalos de clase = 8.
ESTADSTICA DESCRIPTIVA
Tabla 3.1
16.5
10.3
8.4
2.7
14.2
6.8
1.1
9.6
3.5
12.1
10.2
11.3
2.1
0.5
17.8
12.5
4.3
3.7
10.1
10.4
11.6
12.8
14.9
7.1
16.4
10.2
16.6
13.6
11.7
9.1
14.2
2.3
17.5
4.5
1.6
16.8
2.9
13.1
15.3
4.7
11.2
15.1
1.3
12.8
9.4
3.1
18.4
7.5
8.3
10.6
18.5
13.5
3.8
11.6
13.9
4.4
8.5
0.8
12.1
9.2
11.4
15.6
3.3
16.7
17.9
9.1
2.4
11.8
5.6
15.3
7.6
17.2
19.3
3.7
8.7
11.9
18.2
5.7
2759
2135
1936
3623
5530
1435
2352
2682
4731
2699
2034
3063
3239
2372
2299
2430
2018
2834
2433
2080
2797
2640
2325
2997
2273
2574
4040
2588
Soluciones
Problema 1. Puesto que solo se tienen 52 observaciones que cubren un intervalo que va de 1.8
hasta 5.3 posiblemente sean convenientes ocho clases de amplitud (5.31.8)/8=0.5 . La
primera marca de clase que es de 1.7, se fij de tal manera que la observacin mnima cayera en
Jos Antonio Rivera ColmeneroPgina 27
ESTADSTICA DESCRIPTIVA
la primera clase (1.45 1.95). Con esta base se construy la siguiente Tabla 1.1 en donde se
muestran simultneamente las frecuencias de clase de los accidentes semanales y la importancia
de esta caracterstica.
Con base en los datos consignados en la Tabla 1.1 es posible dibujar el histograma y el polgono
de frecuencias que se muestran en las Figuras 1.1 y 1.2, respectivamente.
ESTADSTICA DESCRIPTIVA
1
1
x = f j x j= ( 175.90 ) =3.383
n j=1
52
y j =x jx =x j3.383
ESTADSTICA DESCRIPTIVA
n
y =
1
f y =0 ,
n i =1 j j
se obtiene:
m11=3.4 ,
y consecuentemente:
a) Medidas de tendencia central
Media:
x =m11=3.383
~
x=L1 +
1
9
C=2.95+
( 0.5 )=3.325
1+ 2
9+ 3
( )
n /2( f )1
2612
( 0.5 )=3.362
C=2.95+
f
17
Se observa que la media, la moda y la mediana son prcticamente iguales esto significa que
la distribucin emprica puede considerarse simtrica.
A este respecto se ha observado que para distribuciones empricas ligeramente asimtricas se
tiene:
1
x x= ( x~
x ) (23)
3
( x )
y la moda
( ~x ) , se puede determinar la
ESTADSTICA DESCRIPTIVA
1
1
x=x ( x~
x )=3.383 ( 3.3833.325 )=3.363
3
3
Que coincide sensiblemente con el valor ya calculado.
b) Medidas de dispersin
Variancia:
s x =m2 =0.452
m23 ( 0.037 )2
=
=0.015
m32 ( 0.452 )3
m4
2
2
0.681
=3.333
( 0.452 )2
2=b 23=3.3333=0.333
2> 0
2< 0
2=0
ESTADSTICA DESCRIPTIVA
Problema 3. La Tabla 3.2 muestra las frecuencias de clase y la Figura 3.1 el histograma
correspondiente consignando en cada uno de sus rectngulos la frecuencia que le corresponde. Se
P1 , P2
distinguen tres modos que pueden asociarse a las zonas identificadas con las letras
y
P3
producto abastecido por los diversos proveedores, pudindose identificar tres grupos de ellos, que
P
P
P
podran llamarse: bueno ( 1 ) , regular ( 2 ) y malo ( 3 ) .
ESTADSTICA DESCRIPTIVA
De esta manera puede aceptarse que el fenmeno se divide en tres partes y que el anlisis de la
distribucin emprica debe disociar estos tres subfenmenos y estudiar separadamente a cada
uno de ellos. Con este objeto se llen la Tabla 3.4, como se explica enseguida.
La moda correspondiente a cada grupo puede leerse directamente en la Tabla 3.3 o en la Figura
3.1.
~
x 1=3.5
~
x 2=11.5
~
x 3=16.5
Las medianas se obtuvieron grficamente a partir del histograma aplicando la definicin
correspondiente; esto tambin se ilustra en la Figura 3.1.
x 1=L1+
n /2( f )1
22/210
( 1.0 )=3.2
C=3+
f
6
x 2=L1+
n /2( f )1
39/219
( 1.0 ) =11.1
C=11+
f
8
x 3=L1+
n /2( f )1
17/24
( 1.0 )=16.9
C=16+
f
5
ESTADSTICA DESCRIPTIVA
3 x 3 x=x~
x
2 x =3 x ~x
x =
3 x~x
(24)
2
Y con la ecuacin (24) se calculan las medias en funcin de las medianas y las modas que les
corresponden:
x 1=
3 x 1 ~
x 1 3 ( 3.2 )3.5
=
=3.05
2
2
ESTADSTICA DESCRIPTIVA
x 2=
3 x 2 ~
x 2 3 ( 11.1 )11.5
=
=10.9
2
2
x 3=
3 x 3 ~
x 3 3 (16.9 )16.5
=
=17.1
2
2
Tabla 3.4
Grupos de
proveedores
Naturaleza
P1
3.5
3.2
3.05
Asimtrica positiva
P2
11.5
11.1
10.9
Asimtrica positiva
P3
16.5
16.9
17.1
Asimtrica negativa
Es claro que la informacin anterior no se habra tenido si se hubiesen calculado, sin ningn
anlisis previo, los parmetros descriptivos de la distribucin emprica con base en lo consignado
en la Tabla 3.3. As para la media general se tendra:
783
=10.04
78
n
1
x =
n i =1
f j x j=
Sin identificar los grupos de proveedores mencionados; adems este valor tambin puede
obtenerse en forma aproximada a travs de la Tabla 3.4:
x =
El hecho ilustrado en este ejemplo se presenta con frecuencia, esto es, a menudo, con base en
alguna caracterstica, los elementos de una poblacin se asignan a grupos llamados estratos y,
posteriormente, se extrae una muestra aleatoria de cada uno de ellos. Los elementos de todas las
muestras tomados conjuntamente constituyen a la muestra de la poblacin. Este tipo de muestreo
se estudia ms adelante.
ESTADSTICA DESCRIPTIVA
Problema 4. Los valores de los pesos en gramos de 80 anillos metlicos producidos por una
mquina son los siguientes:
7.33
7.31
7.26
7.33
7.37
7.27
7.30
7.33
a)
b)
c)
d)
7.32
7.35
7.39
7.33
7.38
7.33
7.37
7.35
7.34
7.32
7.29
7.35
7.38
7.32
7.33
7.32
7.40
7.33
7.32
7.34
7.33
7.31
7.32
7.33
7.28
7.33
7.34
7.33
7.35
7.34
7.31
7.32
7.29
7.36
7.30
7.36
7.30
7.32
7.33
7.34
7.35
7.32
7.34
7.33
7.31
7.34
7.32
7.32
7.33
7.31
7.32
7.35
7.33
7.32
7.30
7.34
7.34
7.35
7.39
7.31
7.35
7.31
7.29
7.32
7.28
7.36
7.30
7.33
7.33
7.36
7.38
7.33
Solucin:
Comenzamos introduciendo los datos como la variable de nombre PA (peso anillo) en la primera
columna de la hoja de clculo. Es decir los copiamos de la tabla de datos y los pegamos en forma
de columna. A continuacin seleccionamos la opcin Anlisis de datos del men Datos y en la
pantalla Anlisis de datos elegimos Histograma.
ESTADSTICA DESCRIPTIVA
En el campo Rango de entrada se introduce el rango en el que se sitan los datos de la variable.
En el campo Rango de clases se sita el rango que ocupa la columna de los extremos superiores
de los intervalos de clase, pero en nuestro caso lo dejamos en blanco para que Excel divida los
datos automticamente en un nmero adecuado de clases de la misma anchura. En el campo
Jos Antonio Rivera ColmeneroPgina 37
ESTADSTICA DESCRIPTIVA
Rango de salida se sita el rango que ocupar la tabla de frecuencias, pero en nuestro caso
situaremos slo el extremo superior izquierdo de dicho rango (Celda D12). Sealamos la opcin
Grfico para obtener el histograma de frecuencias absolutas, y la opcin Porcentaje acumulado
para obtener el polgono de frecuencias relativas acumuladas. Al pulsar Aceptar se obtiene la
figura que se muestra a continuacin, cuyo histograma se ajusta bien a una campana de Gauss, lo
que indica normalidad en los datos.
Problema 5. Se han medido los dimetros de 50 tornillos y se han obtenido los resultados
siguientes en milmetros:
32.1
34.0
33.0
31.8
32.2
a)
b)
c)
d)
31.0
31.7
31.4
33.0
33.1
32.6
33.0
32.4
32.3
34.2
30.0
31.0
31.6
31.4
31.3
32.8
32.3
32.7
32.4
29.6
31.4
32.6
34.0
31.4
32.7
32.0
32.0
33.2
34.0
33.0
30.0
31.4
33.1
33.4
31.4
30.1
30.2
33.7
32.7
32.6
31.8
32.0
31.0
32.3
33.0
Solucin:
Comenzaremos introduciendo los datos en la hoja de clculo como la variable numrica de
nombre DIAME. Para formar la tabla de frecuencias adecuadamente tomaremos el nmero de
k =1+ ENTERO ( 3.3log ( N ) )=6 ; o bien:
clases dado por la frmula de Sturges:
ESTADSTICA DESCRIPTIVA
k =ENTERO ( RAIZ ( N ) ) =7 , siendo ENTERO la funcin parte entera y
N=50 . Luego, lo
lgico ser tomar 6 o 7 clases para la tabla de frecuencias. De esta forma, considerando la clase
inferior formada por los dimetros menores o iguales a 30 y la superior por los mayores que 34,
los extremos superiores de los intervalos de clase (salvo el ltimo) sern 30, 31, 32, 33 y 34 y
sern introducidos como una columna de nombre CLASES en la hoja de clculo.
A continuacin, seleccionamos la opcin Anlisis de datos del men Datos, y en la pantalla
Anlisis de datos elegimos Histograma. Pulsamos Aceptar y rellenamos la pantalla
Histograma, tal y como se indica en la siguiente figura.
En el campo Rango de entrada se introduce el rango en el que se sitan los datos de la variable
(incluidos los Rtulos). En el campo Rango de clases se sita el rango que ocupa la columna de
los extremos superiores de los intervalos de clase (CLASES). En el campo Rango de salida se
sita el rango que ocupar la tabla de frecuencias, pero basta con situar slo el extremo superior
izquierdo de dicho rango. Adems, sealamos la opcin Grfico para obtener el histograma de
frecuencias absolutas.
Al pulsar Aceptar se obtiene la figura siguiente, que nos ofrece la tabla de frecuencias, y cuyo
histograma presenta un dudoso ajuste a una campana de Gauss, lo que no permite intuir
claramente normalidad en los datos, ya que se observa una ligera simetra hacia la izquierda.
ESTADSTICA DESCRIPTIVA
Problema 6.
frecuencias absolutas
{ x1 , x2 , x3 , x4 , x5 }
con
n5=6.
ESTADSTICA DESCRIPTIVA
Comenzamos introduciendo los 22 valores de la variable
TAREA 1
Problema 1. Una muestra de 120 componentes elctricos se probaron mediante la operacin de
cada uno de ellos de forma continua hasta que fallan. Se registr el tiempo de la hora ms cercana
a la falla. Los resultados se muestran en la Tabla 1.
TABLA 1
1347
2075
2242
3391
1945
932
1296
1104
916
678
983
3385
2297
1550
17
535
2366
1274
1459
219
316
3997
2960
594
317
933
635
323
180
3
166
159
310
ESTADSTICA DESCRIPTIVA
1878
1952
5312
4042
4825
639
1989
132
432
1413
Ayuda: Use 9 intervalos de clase. Un ancho del intervalo de clase ms conveniente es de 600
horas.
Lmite inferior de la clase = 0.5.
Tema 2
Estadstica descriptiva:
Medidas de concentracin,
dispersin y forma
Medidas de posicin
Se trata de encontrar medidas que sinteticen las distribuciones de frecuencias. En vez de manejar
todos los datos sobre las caractersticas o variables de calidad, tarea que puede ser pesada,
podemos caracterizar su distribucin de frecuencias mediante algunos valores numricos,
eligiendo como resumen de los datos un valor central alrededor del cual se encuentran
distribuidos los valores de la variable. El valor de la variable elegido para representar a una
distribucin se llama promedio o medida de posicin, y es un valor representativo de todos los
valores que toma la variable. Debe hallarse entre el mayor y el menor valor de la variable.
ESTADSTICA DESCRIPTIVA
Pero estas medidas de posicin de una distribucin de frecuencias han de cumplir determinadas
condiciones para que sean verdaderamente representativas de la variable a la que resumen. Toda
sntesis de una distribucin se considerar como operativa si intervienen en su determinacin
todos y cada uno de los valores de la distribucin, siendo nica para cada distribucin de
frecuencias, y siendo siempre calculable y de fcil obtencin. A continuacin, se hace una
relacin de las medidas de posicin ms comunes utilizadas en estadstica.
Media aritmtica: Se define como la suma de todos los valores de la distribucin dividida por
el nmero total de datos. La expresin matemtica que representa la media aritmtica coincide
con el momento de primer orden respecto al origen. Pero esto slo es vlido en el supuesto ms
sencillo, en el que los datos de la variable estn sin agrupar. En el caso de que tuvisemos una
distribucin con datos agrupados en intervalos, los valores individuales de la variable seran
desconocidos y, por tanto, no podramos utilizar la frmula anterior. En este supuesto, los datos
estarn agrupados en clases, y se postula la hiptesis de que el punto medio del intervalo de clase
(marca de clase) representa adecuadamente el valor medio de dicha clase, por lo que aplicaramos
la frmula original de la media simple para dichos valores. En el caso de que la variable presente
valores anormalmente extremos, stos pueden distorsionar la media aritmtica, hacindola
incluso poco representativa. A los estadsticos que no son afectados por los valores extremos de la
muestra, se les denomina estadsticos robustos. La media no es un estadstico robusto. Como
veremos posteriormente, este inconveniente no lo posee la mediana. Si la distribucin de
x ,n
xi
frecuencias es ( i i ) , siendo
los valores de la variable o las marcas de clase, y siendo
ni
X , se define
como sigue:
k
1
X = xi ni
N i=1
Media aritmtica ponderada: Caso particular de la media aritmtica, que aparece cuando
ni
xi
wi
, distinto de la frecuencia
peso en el clculo de la media. La cuanta de dichos pesos define la importancia de cada valor de
x ,n ,w
la distribucin en el clculo de la media. Si la distribucin de frecuencias es ( i i i ) , siendo
xi
ni
wi
los
W , se
ESTADSTICA DESCRIPTIVA
k
x i ni w i
W = i=1k
ni w i
i=1
representaremos como
Nsima
valores de la distribucin.
N
G= x1 x 2 x k
n1
n2
nk
H=
N
k
1
x n
n i=1 i i
Observe que la inversa de la media armnica es la media aritmtica de los inversos de los valores
de la variable. No es aconsejable en distribuciones de variables con valores pequeos. Se suele
utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos,
cambios, etc.
n1 x 21+ n2 x 22 ++ nk x 2k
C=
N
Jos Antonio Rivera ColmeneroPgina 44
ESTADSTICA DESCRIPTIVA
La media cuadrtica es la raz cuadrada de la media aritmtica de los cuadrados de los valores de
la variable.
Mediana: Se define como mediana el valor de la distribucin, suponiendo que sta est
Me , mediante la expresin:
Me=Li1+
dnde
N i1< N /2< N i
siendo
ci
[ Li1 , Li ]
[(
N
N i1 /ni ci
2
N /2 ,
su amplitud.
Como ventaja de la mediana tenemos que no influyen en ella los valores extremos (estadstico
robusto). La mediana tiene gran utilidad en los grficos de control de procesos.
Moda: La moda es el valor de la variable que ms veces se repite, y en consecuencia, en una
[ Mo=Li1 ]
o el extremo
ESTADSTICA DESCRIPTIVA
superior
[ Mo=xi ]
[ Mo=Li ]
, o bien hacer que la moda sea igual a la marca de clase del intervalo modal
. En caso de que todos los valores del intervalo modal estn distribuidos
Mo=Li1+ ni +
1
1
c i=Li1 + ni +
ci
( ni1+n i+1 )
( 2 ni )
Para intervalos de distinta amplitud, realmente las densidades de frecuencias nos dan el nmero
de valores que hay en cada unidad de intervalo para cada intervalo. La mayor densidad de
L ,L
frecuencia, ahora s, nos determina el intervalo modal [ i1 i ] , calculndose la moda
mediante la expresin:
Mo=Li1+
d i +1
c
d i1 +d i+1 i
con:
d i=
ni
ci
ESTADSTICA DESCRIPTIVA
r /k
( 100 r /k
1r /k
( 100(k r )/k
de orden k
rsimo
donde
N i1<
siendo
ci
rN
<Ni
k
[ Li1 , Li ]
[(
rsimo
rN
N i1 /ni c i
k
rN /k ,
su amplitud.
k =4
cuantil
r=1,2,3,
cuartiles son, por tanto, los tres valores de la distribucin que la dividen en 4 partes iguales, es
decir, en 4 intervalos dentro de cada cual est incluido el 25% de los valores de la distribucin.
Los deciles son los 9 puntos que dividen la distribucin en 10 partes, tales que dentro de cada una
est incluido el 10% de los valores de la distribucin. Los percentiles son los 99 puntos que
dividen la distribucin en 100 partes, tales que dentro de cada una est incluido el 1% de los
valores de la distribucin.
Para distribuciones sin agrupar en intervalos, el primer cuartil, Q1,4 , es el valor
distribucin que ocupa el lugar N /4 ; el segundo cuartil, Q2,4 , es el valor
distribucin que ocupa el lugar 2 N /4 ; el tercer cuartil, Q3,4 , es el valor
distribucin que ocupa el lugar 3 N /4 ; el rsimo decil , Qr , 10 , es el valor
distribucin que ocupa el lugar
rN /10
de la
de la
de la
de la
tenemos los momentos potenciales. Dos distribuciones que tienen sus momentos iguales son
iguales, y sern ms parecidas cuanto ms prximos sean sus momentos. Los momentos suelen
considerarse respecto del origen y respecto de la media.
Jos Antonio Rivera ColmeneroPgina 47
ESTADSTICA DESCRIPTIVA
El momento de orden r
x ri ni
i=1
m r=
1
( x x )r ni
N i=1 j
Se observa que el momento de orden 1 centrado en el origen coincide con la media aritmtica de
la distribucin, y el momento de orden 2 centrado en la media coincide con la varianza de la
distribucin.
Medidas de dispersin
Las medidas de dispersin permiten calcular la representatividad de una medida de posicin, para
lo cual ser preciso cuantificar la distancia de los diferentes valores de la distribucin respecto a
dicha medida. A tal distancia es a lo que, en trminos estadsticos, denominaremos variabilidad o
dispersin de la distribucin. Las medidas de dispersin tienen como finalidad estudiar hasta qu
punto, para una determinada distribucin de frecuencias, las medidas de tendencia central o de
posicin son representativas como sntesis de toda la informacin de la distribucin. Medir la
representatividad de una medida de posicin equivale a cuantificar la separacin de los valores de
la distribucin respecto a dicha medida. Por ejemplo, si queremos estudiar en qu grado una
media aritmtica nos marca una tendencia central generalizable del comportamiento de todos los
elementos del conjunto estudiado, tendremos que fijamos en la separacin o desviacin de cada
valor respecto a la media. Si todos los valores estn cercanos al valor medio, ste ser
representativo de ellos. A la mayor o menor separacin de los valores de una distribucin
respecto de otro, que se pretende que sea sus sntesis, se le llama dispersin o variabilidad. Ser,
pues, tanto ms representativa la media aritmtica de una variable cuanto ms agrupados en torno
a ella estn los valores promediados; por el contrario, ser tanto ms rechazable, por no ser
representativa, cuanta mayor dispersin exista de los valores de la variable respecto a la media.
Resulta pues necesario para completar la informacin que pueda deducirse de una medida de
posicin o centralizacin, acompaada de uno o varios coeficientes que nos midan el grado de
dispersin de la distribucin de la variable respecto de esa medida de centralizacin. Estos
coeficientes son los que llamamos medidas de dispersin. Inicialmente, se distingue entre
medidas de dispersin absolutas y relativas, entendindose por relativas las que no dependen de
las unidades de medida. Posteriormente, se clasifican las medidas absolutas y relativas segn sean
medidas referidas a promedios o no lo sean.
ESTADSTICA DESCRIPTIVA
Entre las medidas de dispersin absolutas no referidas a promedios tenemos el recorrido, o
diferencia entre el mayor valor y el menor valor de una distribucin, y el recorrido
intercuartlico, o diferencia existente entre el tercer cuartil y el primero.
Entre las medidas de dispersin relativas no referidas a promedios tenemos el coeficiente de
apertura, o cociente entre el mayor valor y el menor valor de una distribucin, y el recorrido
relativo, o cociente entre el recorrido y la media, as como el recorrido semintercuartlico, o
cociente entre el recorrido intercuartlico y la suma del primer y tercer cuartil.
Entre las medidas de dispersin absolutas referidas a promedios tenemos las desviaciones medias,
la varianza y la desviacin tpica. Estas medidas de dispersin involucran a los promedios, y
permiten medir el error que cometemos utilizando el promedio en cuestin como resumen de los
datos. Como medida de dispersin ms simple relativa a la medida de posicin P , podramos
considerar las desviaciones de cada valor al promedio y promediar estas desviaciones, es decir,
considerar el valor:
k
1
D= ( x iP ) n i
N i=1
Pero esto, que sera lo primero que se nos ocurrira, tiene como grave inconveniente las posibles
compensaciones de las desviaciones positivas con las negativas al efectuar la suma, pudiendo
obtenerse una medida pequea siendo la dispersin grande. Para solucionar este inconveniente se
consideran los valores absolutos de las desviaciones, o bien se elevan stas al cuadrado. A
continuacin, se definen las medidas de dispersin ms interesantes, entre las que tenemos:
Desviaciones medias: Para medir la eficacia de la media se considera la desviacin media
respecto de la media aritmtica, que se define como la media aritmtica de los valores absolutos
de las diferencias entre los valores de la variable y la media aritmtica, y cuya expresin es la
siguiente:
k
1
D m= | x jx|ni
N i=1
la mediana, que se define como la media aritmtica de los valores absolutos de las diferencias
entre los valores de la variable y la mediana, y cuya expresin es la siguiente:
k
1
D Me = | x jMe|ni
N i=1
ESTADSTICA DESCRIPTIVA
desviacin tpica), son las ms importantes. Si en vez de considerar los valores absolutos de las
desviaciones respecto del promedio consideramos sus cuadrados, surge una nueva medida de
dispersin denominada varianza, y que definimos como la media aritmtica de los cuadrados de
las desviaciones de los valores de la variable a la media aritmtica, es decir, el momento de
segundo orden respecto a la media aritmtica. Se define mediante la expresin:
k
1
2
= ( x jx ) ni
N i =1
2
Como propiedades ms importantes de la varianza tenemos que nunca puede ser negativa, que
es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al
cuadrado, que si en la distribucin de frecuencias sumamos a todos los valores de la variable una
constante la varianza no vara (un cambio de origen en la variable no afecta a la varianza), y que
al multiplicar los valores de una distribucin de frecuencias por una constante k la varianza
queda multiplicada por el cuadrado de la constante.
As como las desviaciones medias vienen expresadas en las mismas unidades de medida que la
distribucin, la varianza no, ya que vendr dada en las unidades correspondientes, pero elevadas
al cuadrado. Esto dificulta su interpretacin, y hace necesario definir la desviacin tpica o
desviacin estndar. La desviacin tpica es la raz cuadrada, con signo positivo, de la varianza,
con lo que su expresion ser:
=
1
( x x )2 ni
N i=1 j
Al ser la raz cuadrada de la varianza, vendr expresada en las mismas unidades de medida que la
distribucin, lo cual la hace ms apta como medida de dispersin.
Un estadstico muy utilizado como medida de dispersin, sobre todo debido a sus propiedades
muestrales, es la cuasivarianza, cuya expresin es:
k
S=
1
( x x )2 ni
N1 i=1 j
1
2
S=
( x j x ) ni
N1 i=1
Error estndar. Otro estadstico muy utilizado como medida de dispersin, tambin por sus
ESTADSTICA DESCRIPTIVA
e=
S
.
n
D Me < Dm < .
Entre las medidas de dispersin absolutas referentes a promedios, podramos haber definido
tambin la desviacin media respecto a la moda y las desviaciones cuadrticas respecto a la
mediana y a la moda, que vienen dadas en las mismas unidades de medida que la distribucin, y
que marcan la representatividad de los promedios con los que se relacionan.
Entre las medidas de dispersin relativas (valores adimensionales que no se ven afectados por
las unidades de medida y que siempre se concretan en forma de cociente) utilizadas para
comparar medidas de posicin o promedios, tenemos el ndice de dispersin respecto a la
mediana y el coeficiente de variacin de Pearson.
Coeficiente de variacin de Pearson: Se usa para resolver el problema de comparacin
( x )
Como tanto en el clculo de como en el clculo de x han intervenido todos los valores
de la distribucin, CV presenta la garanta, frente a otros coeficientes, de que utiliza toda la
ESTADSTICA DESCRIPTIVA
informacin de la distribucin. La cota inferior de CV es cero, y el nico caso problemtico
se presenta cuando x =0 , lo que hara que CV tendiera a infinito.
ndice de dispersin respecto a la mediana: Se usa para resolver el problema de
D Me
.
Me
Medidas de forma
Una vez iniciado el anlisis estadstico de sintetizacin de la informacin, para lo cual hemos
estudiado las medidas de posicin y dispersin de la distribucin de una variable, necesitamos
conocer ms sobre el comportamiento de la misma. No podemos basar nuestras conclusiones
nicamente en expresiones que vengan dadas en trminos de medidas de posicin y dispersin. Si
bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio,
para lo cual las medidas de posicin son nuestro mejor instrumento, no debemos proceder a una
interpretacin que implique un comportamiento de todos los elementos del colectivo
uniformemente constante e igual a la medida de posicin en cuestin con un error dado por la
correspondiente medida de dispersin. Este error o disparidad se hace ms ostensible al analizar
la representacin grfica de la distribucin. Pues bien, las medidas de forma de una distribucin
se basan en su representacin grfica, sin llegar a realizar la misma.
Las medidas de forma se clasifican en medidas de asimetra y medidas de curtosis o
apuntamiento.
Las medidas de asimetra tienen como finalidad el elaborar un indicador que permita establecer
el grado de simetra (o asimetra) que presenta una distribucin, sin necesidad de llevar a cabo su
representacin grfica. Supongamos que hemos representado grficamente una distribucin de
frecuencias. Si trazamos una perpendicular al eje de abscisas por x y tomamos esta
perpendicular como eje de simetra, diremos que una distribucin es simtrica si existe el mismo
nmero de valores a ambos lados de dicho eje, equidistantes de x dos a dos, y tales que cada
par de valores equidistantes de
ESTADSTICA DESCRIPTIVA
curtosis se aplican a distribuciones campaniformes, es decir, unimodales simtricas o con ligera
asimetra. Para estudiar la curtosis de una distribucin es necesario definir previamente una
distribucin tipo, que vamos a tomar como modelo de referencia. Esta distribucin es la normal,
que corresponde a fenmenos muy corrientes en la naturaleza, y cuya representacin grfica es
una campana de Gauss.
Tomando la normal como referencia, diremos que una distribucin puede ser ms apuntada que
la normal (es decir, leptocrtica), o menos apuntada (es decir, platicrtica). A la distribucin
normal, desde el punto de vista de la curtosis, se le llama mesocrtica. Con la curtosis se estudia
la deformacin, en sentido vertical, respecto a la normal, de una distribucin. A continuacin, se
definen las medidas de asimetra ms comunes, entre las que destacan las siguientes:
Coeficiente de asimetra de Fisher: Ahora se intenta buscar una medida que recoja la
g1=
Si
g1=0
m3
3
1
( x x )3 ni
N i=1 j
=
, la distribucin es simtrica; si
derechas); y si
g1 <0
1
N
3 /2
( x j x ) ni
i=1
g1 >0
asimtrica a derechas o positiva cuando la suma de las desviaciones positivas de sus valores
Jos Antonio Rivera ColmeneroPgina 53
ESTADSTICA DESCRIPTIVA
respecto de la media es mayor que la suma de las desviaciones con signo negativo (la grfica de
la distribucin tiene ms densidad a la derecha de la media). En caso contrario, la distribucin es
asimtrica a la izquierda o negativa.
N >150 , el coeficiente de
6/ N . Este hecho nos lleva a
g1
6
N
donde
x Mo
negativa. Tambin Pearson comprob empricamente para este tipo de distribuciones que se
cumple 3 ( x Me ) x Mo (la mediana siempre se sita entre la media y la moda en las
distribuciones moderadamente asimtricas). Por esta razn, algunos autores utilizan como
coeficiente de asimetra de Pearson el valor:
ESTADSTICA DESCRIPTIVA
Ap
3 ( x Me )
.
(C 3+C 12 Me )
.
( C 3+C 1 )
m4
la expresin
m4=3 4 , siendo
g2=m4 / 4 3 , su valor ser cero para la distribucin normal. Por ello, como
m4
3=
4
1
4
x j x ) ni
(
N i=1
ESTADSTICA DESCRIPTIVA
1
N
( x j x ) ni
i=1
g2=0 , es
g >0 , y es platicrtica
g <0 .
Con lo que se obtiene la siguiente Figura 2-1, en cuyo cuadro Seleccionar una categora se elige
Estadsticas, presentndose todas las funciones de dicha categora elegida en el cuadro
Seleccionar una funcin (Figura 2-2).
ESTADSTICA DESCRIPTIVA
Figura 2-1
Figura 2-2
Si en el cuadro Seleccionar una funcin hacemos dic con el ratn sobre una funcin (por ejemplo
la funcin CONTAR), se obtiene la paleta de la funcin con su sintaxis (Figura 2-3).
Figura 2-3
Una vez completados los argumentos, se obtiene el resultado en la parte inferior de la paleta
(=15). Al pulsar Aceptar, la frmula y su resultado se insertan en la celda activa de la hoja de
clculo (Figura 2-4).
ESTADSTICA DESCRIPTIVA
Figura 2-4
A continuacin, se presenta una relacin de funciones de Excel para medidas de centralizacin,
dispersin y forma, acompaadas de un ejemplo referido a la variable X de la hoja de clculo
de la Figura 3-4, cuyos valores ocupan el rango A2:A16. Para algunas funciones se presenta su
paleta, omitindose dicha presentacin para paletas de funciones muy similares en su sintaxis.
CONTAR(numvar)
CONTAR(A2:A16)
ESTADSTICA DESCRIPTIVA
CONTAR.SI(rango,criterio)
CONTAR(A2:A16, >2)
PROMEDIO(numvar)
PROMEDIO(A2:A16)
ESTADSTICA DESCRIPTIVA
MEDIA.GEOM (numvar)
MEDIAGEOM(A2:A16)
MEDIA.ARMO (numvar)
MEDIA.ARMO(A2:A16)
MEDIANA(numvar)
MEDIANA(A2:A16)
MODA(numvar)
MODA(A2:A16)
ESTADSTICA DESCRIPTIVA
MIN(numvar)
MIN(A2:A16)
ESTADSTICA DESCRIPTIVA
MAX(numvar)
MAX(A2:A16)
PERCENTIL(numvar,n)
PERCENTIL(A2:A16,0.75)
ESTADSTICA DESCRIPTIVA
CUARTIL(numvar,n)
CUARTlL(A2:A16,1)
COEFICIENTE.ASIMETRIA
(numvar)
COEFICIENTE.ASIMETRIA(A2:A 16)
CURTOSIS(numvar)
CURTOSIS(A2:A16)
NORMALlZACON(m,a,b)
NORMALIZACION(10)
ESTADSTICA DESCRIPTIVA
Estas funciones de estadstica descriptiva pueden escribirse directamente sobre las celdas de
la hoja de clculo de igual modo que cualquier otra frmula.
La Figura 2-5 presenta varias funciones de clculo de medidas de concentracin, dispersin y
forma situadas en las celdas de la hoja de clculo, y referidas a los valores de la variable X que
ocupa la primera columna de la hoja. La Figura 2-6 presenta los resultados de las frmulas
cuando no se encuentra activada la casilla Frmulas.
Figura 2-5
Figura 2-6
ESTADSTICA DESCRIPTIVA
2.3
Podemos utilizar las herramientas de anlisis estadstico avanzado para calcular medidas de
posicin, dispersin y forma, seleccionando la opcin Anlisis de datos en el men Datos
(Figura 2-7), y eligiendo la opcin Estadstica descriptiva en el cuadro Funciones para anlisis
de la Figura 2-8.
Figura 2-7
Figura 2-8
Al hacer clic en Aceptar, se obtiene la pantalla Estadstica descriptiva de la Figura 2-9, cuyos
campos tienen las siguientes funcionalidades:
Jos Antonio Rivera ColmeneroPgina 65
ESTADSTICA DESCRIPTIVA
Rango de entrada: Introduzca la referencia de celda correspondiente al rango de datos que desee
analizar. La referencia deber contener dos o ms rangos adyacentes organizados en columnas o
filas.
Agrupado por: Haga clic en el botn Filas o Columnas para indicar si los datos del rango de
entrada estn organizados en filas o en columnas.
Rtulos en la primera fila y rtulos en la primera columna: Si la primera fila del rango de
entrada contiene rtulos, active la casilla de verificacin Rtulos en la primera fila. Si los rtulos
estn en la primera columna del rango de entrada, active la casilla de verificacin Rtulos en la
primera columna. Esta casilla de verificacin estar desactivada si el rango de entrada carece de
rtulos; Microsoft Excel generar los rtulos de datos correspondientes para la tabla de
resultados.
Nivel de confianza para la media: Active esta casilla si desea incluir una fila correspondiente al
nivel de confianza de la media en la tabla de resultados. En el cuadro, escriba el nivel de
confianza que desee utilizar. Por ejemplo, un valor de 95% calcular el nivel de confianza de la
media con un nivel de importancia del 5%.
K-simo mayor: Active esta casilla si desea incluir una fila correspondiente al valor k-simo
mayor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el nmero que va a
utilizarse para k . Si escribe 1, esta fila contendr el mximo del conjunto de datos.
K-simo menor: Active esta casilla si desea incluir una fila correspondiente al valor k-simo
menor de cada rango de datos en la tabla de resultados. En el cuadro, escriba el nmero que va a
utilizarse para k . Si escribe 1, esta fila contendr el mnimo del conjunto de datos.
Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados. Esta herramienta genera dos columnas de informacin por cada conjunto de
datos. La columna de la izquierda contiene los rtulos de estadstica, y la columna de la derecha
contiene las estadsticas. Excel escribir una tabla de estadsticas de dos columnas por cada
columna o fila del rango de entrada, dependiendo de la opcin que se haya seleccionado en el
cuadro Agrupado por.
En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un
nombre a la nueva hoja de clculo, escrbalo en el cuadro.
En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado.
Resumen de estadsticas: Seleccione esta opcin si desea que Excel genere un campo en la tabla
de resultados por cada una de las siguientes variables estadsticas: media, error tpico (de la
ESTADSTICA DESCRIPTIVA
media), mediana, moda, desviacin estndar, varianza, curtosis, coeficiente de asimetra, rango,
mnimo, mximo, suma, cuenta, mayor (#), menor (#) y nivel de confianza.
Al pulsar Aceptar en la Figura 2-9, se obtiene la Figura 2-10 con todos los estadsticos, incluido
el radio del intervalo de confianza para la media de la variable, suponiendo normalidad con
desconocida (ltima celda). El intervalo de confianza para la media viene definido por
t
x t n1, / 2(S / n)
, siendo S la cuasivarianza muestral y n1, / 2 el valor de la abscisa de
una T de Student con n1 grados de libertad que deja a su derecha /2
Figura 2-9
de rea.
ESTADSTICA DESCRIPTIVA
Figura 2-10
EJERCICIOS
Ejercicio 1. Se han medido los dimetros de 50 tornillos y se han obtenido los resultados
siguientes en milmetros:
32.1
34.0
33.0
31.8
32.2
31.0
31.7
31.4
33.0
33.1
32.6
33.0
32.4
32.3
34.2
30.0
31.0
31.6
31.4
31.3
32.8
32.3
32.7
32.4
29.6
31.4
32.6
34.0
31.4
32.7
32.0
32.0
33.2
34.0
33.0
30.0
31.4
33.1
33.4
31.4
30.1
30.2
33.7
32.7
32.6
31.8
32.0
31.0
32.3
33.0
a) Calcular la mediana, la moda, el primer y tercer cuartil, el sexto y sptimo deciles y los
percentiles 54, 47 y 82.
b) Calcular tambin los momentos de orden 3 y 4 centrados en la media.
Solucin:
La forma ms sencilla de resolver el primer inciso de este problema es introducir los datos de la
variable en una columna de la hoja de clculo y plantear las frmulas que se indican en la Figura
2-11. Los resultados que se obtienen se presentan en la Figura 2-12.
ESTADSTICA DESCRIPTIVA
Figura 2-11
Figura 2-12
Para resolver la segunda parte del problema no existen frmulas adecuadas predefinidas en Excel,
ni tampoco existe un procedimiento de herramientas de anlisis que incorpore los momentos de
orden 3 y 4 centrados en la media. Por lo tanto, tendremos que resolver el problema partiendo de
las propias definiciones de los momentos (Figura 2-13):
m 3=
1
N
( x j x ) 3
m 4=
i=1
Figura 2-13
1
( x x )4
N i =1 j
ESTADSTICA DESCRIPTIVA
Ejercicio 2. Los valores sobre el metabolismo basal1 de 50 individuos de una poblacin que se
supone normal son los siguientes:
102
115
116
112
120
98
130
118
114
106
93
100
89
106
110
100
86
102
114
100
98
95
128
100
106
105
103
99
116
117
115
105
119
108
109
110
92
128
113
108
99
99
110
106
105
120
134
130
105
106
Figura 2-14
Al hacer clic en Aceptar, se obtiene la pantalla Estadstica descriptiva, cuyos campos se rellenan
como se indica en la Figura 2-15.
1 El metabolismo basal es el valor mnimo de energa necesaria para que la clula subsista. Esta energa
mnima es utilizada por la clula en las reacciones qumicas intracelulares necesarias para la realizacin de
funciones metablicas esenciales, como es el caso de la respiracin.
Jos Antonio Rivera ColmeneroPgina 70
ESTADSTICA DESCRIPTIVA
Figura 2-15
Al hacer dic en Aceptar se obtiene la Figura 2-16, que presenta varios de los estadsticos pedidos
en el problema, incluyendo el radio del intervalo de confianza para la media al 95% suponiendo
poblacin normal de varianza desconocida.
Figura 2-16
Como la media es 108.38 y el radio es 3.0721, el intervalo de confianza al 95% ser 108.38
3.0721=[105.308 , 111.452].
Jos Antonio Rivera ColmeneroPgina 71
ESTADSTICA DESCRIPTIVA
Para calcular el intervalo de confianza para al media al 90%, seleccionamos otra vez la opcin
Anlisis de datos en el men Datos, elegimos la opcin Estadstica descriptiva en el cuadro
Funciones para anlisis de la Figura 2-14, y rellenamos la pantalla Estadstica descriptiva como
se indica en la Figura 2-17.
Figura 2-17
Al pulsar Aceptar se obtiene el resultado de la Figura 2-18.
Figura 2-18
Jos Antonio Rivera ColmeneroPgina 72
ESTADSTICA DESCRIPTIVA
El nuevo intervalo de confianza ser 108.38 2.563 = [105.817 , 110.943].
Para ver si la poblacin es efectivamente normal, observamos que los coeficientes de asimetra
(0.388) y curtosis (0.0445) caen dentro del intervalo [2, 2], en cuyo caso habr normalidad.
Para hallar el metabolismo basal ms frecuente, calculamos la moda de la variable BASAL, que
ya hemos visto que es 106. Para hallar el valor del metabolismo basal tal que la mitad de los
restantes valores sean inferior a l, calculamos la mediana de la variable BASAL, que ya hemos
visto que tambin es 106.
Para realizar el histograma de Frecuencias absolutas y el polgono de frecuencias relativas
acumuladas, es necesario utilizar las herramientas de anlisis estadstico avanzado, seleccionando
la opcin Anlisis de datos en el men Datos, y eligiendo la opcin Histograma en el cuadro
Funciones para anlisis de la Figura 2-19.
Figura 2-19
Se rellena la pantalla Histograma como se indica en la Figura 2-20, y al pulsar Aceptar.
Figura 2-20
Jos Antonio Rivera ColmeneroPgina 73
ESTADSTICA DESCRIPTIVA
Se obtiene el histograma pedido y las distribuciones de frecuencias absolutas y relativas
acumuladas (Figura 2-21).
Figura 2-21
Ejercicio 3. Supongamos que una poblacin finita de 50 unidades, respecto de una caracterstica
W , presenta la siguiente distribucin de frecuencias:
Wi
ni
10
20
10
20
50
100
200
ESTADSTICA DESCRIPTIVA
Solucin:
Se trata de un problema de clculo de estadsticos por subconjuntos de datos definidos en una
poblacin. Comenzaremos introduciendo en la hoja de clculo los datos de la variable W y los
de una variable auxiliar
La variable
W
W1
W1
en el tercer estrato.
Como se trata de calcular estadsticos por subconjuntos, en el men Insertar se hace dic en
Tablas dinmica (Figura
Figura 2-21
En la ventana Crear tabla dinmica se selecciona el rango y la celda a partir de la cual de desea
colocar el informe de tabla dinmica(Figura 2-22).
ESTADSTICA DESCRIPTIVA
Figura 2-22
Al dar clic en Aceptar, aparece la siguiente pantalla (Figura 2-23):
Figura 2-23
Para disear el informe, se arrastran los campos cuyos valores van a situarse en filas en la tabla,
desde la derecha de la figura a la zona FILAS (en nuestro caso W). Tambin se arrastran los
campos cuyos valores van a situarse en columnas a la zona COLUMNA (en nuestro caso la
variable de estratificacin W1). Por ltimo, se arrastra el campo por cuyos valores se tabula (en
nuestro caso Cantidad (Figura 2-24).
ESTADSTICA DESCRIPTIVA
Figura 2-24
Para construir el Histograma de frecuencias se da un clic sobre el informe de la Tabla dinmica,
se selecciona el men INSERTAR/Grficos recomendados (Figura 2-25).
Se da clic en
cualquier parte
del informe
Figura 2-25
Y se selecciona el siguiente grfico (Figura 2-26):
ESTADSTICA DESCRIPTIVA
Figura 2-26
Damos clic en Aceptar y se tiene finalmente el Histograma (Figura 2-27).
Figura 2-27
Jos Antonio Rivera ColmeneroPgina 78
ESTADSTICA DESCRIPTIVA