You are on page 1of 76

ESTADSTCA BSCA

TEMA 1
INTRODUCCIN. ANLISIS ESTADSTICO DE UNA VARIABLE.
TABLAS ESTADSTICAS. GRFICOS.
1.1. Estadstica. Clases de datos estadsticos.
1.2. Frecuencias absolutas y relativas. Frecuencias
acumuladas.
1.3. Tabla estadstica para variable discreta.
1.4. Tabla estadstica para variable continua: recorrido,
intervalo, amplitud, marca de clase, densidad de frecuencia..
1.5. Grficos estadsticos.
1.1. Estadstica. Class d dat!s stadstic!s.
D"i#ici$# d stadstica.
El trmino estadstica tiene su raz en la palabra Estado. Surge
cuando se hace necesario para sus intereses cuantificar conceptos.
En la mayora de los casos esta cuantificacin se har en funcin de
unos fines econmicos o militares. El estado quiere conocer censo
de personas, de infraestructura, de recursos en general, para poder
obtener conclusiones de esta informacin.
Actualmente la estadstica es una ciencia. No es ya una cuestin
reservada al estado. Podramos decir que se encuentra en la totalidad
del resto de ciencias. La razn es clara: por una parte la estadstica
proporciona tcnicas precisas para obtener informacin, (recogida y
descripcin de datos) y por otra parte proporciona mtodos para el
anlisis de esta informacin .
De ah el nombre de ESTADSTCA DESCRPTVA, ya que el
objetivo ser, a partir de una muestra de datos (recogida segn una
tcnica concreta), la descripcin de las caractersticas ms
importantes, entendiendo como caractersticas, aquellas cantidades
que nos proporcionen informacin sobre el tema de inters del cual
hacemos el estudio.
D"i#ici!#s d t%&'i#!s stadstic!s(
)OBLACIN( Es el conjunto de elementos, individuos o entes
sujetos a estudio y de los cuales queremos obtener un resultado.
VARIABLE( Es la caracterstica que estamos midiendo.
Existen dos categoras o tipo de variables:
Va&ia*l c+alitati,a( Es aquella que expresa un atributo o
caracterstica, ejemplo: Rubio, moreno, etc.
Va&ia*l c+a#titati,a( Es aquella que podemos expresar
numricamente: edad, peso, n. de hijos, etc. Esta a su vez la
podemos subdividir en:
Va&ia*l disc&ta, aquella que entre dos valores
prximos puede tomar a lo sumo un nmero finito de
valores. Ejemplos: el nmero de hijos de una familia, el
de obreros de una fabrica, el de alumnos de la
universidad, etc.
Va&ia*l c!#ti#+a la que puede tomar los infinitos
valores de un intervalo. En muchas ocasiones la
diferencia es ms terica que prctica, ya que los
aparatos de medida dificultan que puedan existir todos
los valores del intervalo. Ejemplos, peso, estatura,
distancias, etc.
La variable se denota por las maysculas de letras
finales del alfabeto castellano. A su vez cada una de
estas variables puede tomar distintos valores , colocando
un subndice, que indica orden:
- . /-
1
0 -
1
0 -
2
0 ...... 0 -
341
0 -
341
0 -
3
5
M+st&a( Conjunto de elementos que forman parte de poblacin.
La muestra representa a esta poblacin.
Ta'a6! '+st&al( Es el nmero de elementos u observaciones
que tomamos. Se denota por n N.
Dat!( Cada uno de los individuos, cosas, entes abstractos que
integran una poblacin o universo determinado. Dicho de otra forma,
cada valor observado de la variable.
1.1. F&c+#cias a*s!l+tas 7 &lati,as. F&c+#cias
ac+'+ladas.
F&c+#cia a*s!l+ta( Llamaremos as al nmero de repeticiones
que presenta una observacin. Se representa por n
i
.
F&c+#cia &lati,a( Es la frecuencia absoluta dividida por el
nmero total de datos, se suele expresar en tanto por uno, siendo su
valor 4i%si'!

n
n
f
i
i
=
La suma de todas las frecuencias relativas, siempre debe ser
igual a la unidad.
F&c+#cia a*s!l+ta ac+'+lada: es la suma de los distintos
valores de la frecuencia absoluta tomando como referencia un
individuo dado. La ltima frecuencia absoluta acumulada es igual al n
de casos:
N
1
= n
1
N
2
= n
1
+ n
2
N
n
= n
1
+ n
2
+ . . . . . . + n
n-1
+ n
n
=n

F&c+#cia &lati,a ac+'+lada, es el resultado de dividir cada
frecuencia absoluta acumulada por el nmero total de datos, se la
suele representar con la notacin: F
i
De igual forma, tambin se puede definir a partir de la frecuencia
relativa, como suma de los distintos valores de la frecuencia relativa,
tomando como referencia un individuo dado. La ltima frecuencia
relativa acumulada es igual a la unidad.
1.2 Ta*la d "&c+#cias 8a&a +#a ,a&ia*l disc&ta. La
ordenacin en la tabla, ser:
9
i
#
i
N
i
"
i
F
i
x
1
n
1
N
1
f
1
F
1
x
2
n
2
N
2
f
2
F
2
x
3
n
3
N f
3
1
n
i
=N 1
1.: Ta*la d "&c+#cias 8a&a ,a&ia*l c!#ti#+a( &c!&&id!0
i#t&,al!0 a'8lit+d0 'a&ca d clas0 d#sidad d "&c+#cia.
Cuando nos encontramos con una distribucin con un gran
nmero de variables, se suelen agrupar en intervalos para facilitar la
comprensin de los datos. Esta prctica tiene en cambio un
inconveniente: se pierde informacin sobre la propia distribucin.
;L
i41 0
L
i
5
Se indica por L
i-1
al extremo inferior del intervalo y por L
i
al
extremo superior. Cerramos el intervalo por la izquierda y abrimos por
la derecha. Es una manera de organizarse, pudiendo ser al contrario.
Para operar utilizaremos la 'a&ca d clas0 el punto medio de un
intervalo. Para calcularla podemos definirla como la semisuma de los
valores extremos del intervalo, esto es sumar los extremos, y dividir
entre 2.
La a'8lit+d dl i#t&,al!0 sera la longitud del intervalo, se
representa por: a

. L
i
4 L
i41
NOTA: Cmo obtener, a partir de los datos, una tabla de
frecuencias agrupada?
N de intervalos: A partir de la raz cuadrada del nmero
de datos, decidimos, redondeando el nmero de
intervalos.
Recorrido: Valor mayor, menos valor menor de los datos.
Re= x
n
-x
1
2
1 i i
i
L L
c
+
=

Amplitud: Divisin entre el Recorrido y el nmero de
intervalos que hayamos decidido. Se puede redondear
tambin.

ervalos de N
a
i
int
Re
=
NOTA: Si los intervalos no son de la misma amplitud hay que
calcular la d#sidad d "&c+#cia del intervalo -i%si'! , como el
cociente entre el nmero total de observaciones de un intervalo y la
amplitud del mismo
i
a
i
n
i
d =

E<'8l! 1
El gobierno desea averiguar si el nmero medio de hijos por
familia ha descendido respecto de la dcada anterior. Para ello ha
encuestado a 50 familias respecto al nmero de hijos, y ha obtenido
los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
Se pide:
a) Cul es la poblacin objeto de estudio?
b) Qu variable estamos estudiando?
c) Qu tipo de variable es?
d) Construir la tabla de frecuencias?
e) Cul es el nmero de familias que tiene como mximo 2
hijos?
f) Cuntas familias tienen ms de 1 hijo, pero como mximo 3?
Qu porcentaje de familias tiene ms de 3 hijos?
S!l+ci$#(
a) La poblacin objeto de estudio es el c!#<+#t! d "a'ilias de
un determinado pas.
b) La variable que estamos estudiando es el #='&! d >i<!s por
familia
c) El tipo de variable es discreta ya que el nmero de hijos solo
puede tomar determinados valores enteros (es imposible tener
medio o un cuarto de hijo).
d) Para construir la tabla de frecuencias tenemos que ver cuantas
familias tienen un determinado nmero de hijos. Podemos ver
que el nmero de hijos, toma los valores existentes entre 0
hijos, los que menos y 6 hijos, los que ms y tendremos:
9i #i Ni Fi Fi
0 2 2 0.04 0.04
1 4 6 0.08 0.12
2 21 27 0.42 0.54
3 15 42 0.30 0.84
4 6 48 0.12 0.96
5 1 49 0.02 0.98
6 1 50 0.024 1
N = 50 1
e) El nmero de familias que tienen dos o menos hijos es:
2+4+21 = 27
f) El nmero de familias que tienen ms de un hijo pero tres como
mximo es: 21 + 15 = 36
Por ltimo el porcentaje de familias que tiene ms de tres hijos,
son aquellos que tienen 4; 5 y 6 es decir 6+1+1= 8
El porcentaje ser el tanto por uno multiplicado por cien es decir,
la frecuencia relativa de dichos valores multiplicado por 100:
( 0.12+0.02+0.02)* 100 = 0,16 + 100 = 16 %
E<'8l! 1
Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de
decidir el precio de sus habitaciones, el gerente investiga los precios
por habitacin de 40 hoteles de la misma categora de esa ciudad. Los
datos obtenidos en miles de pesetas fueron
3,9 4,7 3,7 5,6 4,3 4,9 5,0 6,1 5,1 4,5
5,3 3,9 4,3 5,0 6,0 4,7 5,1 4,2 4,4 5,8
3,3 4,3 4,1 5,8 4,4 4,8 6,1 4,3 5,3 4,5
4,0 5,4 3,9 4,7 3,3 4,5 4,7 4,2 4,5 4,8
Se pide:
a) Cul es la poblacin objeto de estudio?
b) Qu variable estamos estudiando?
c) Qu tipo de variable es?
d) Qu problema plantea la construccin de la tabla de
frecuencias?
e) Cunto hoteles tienen un precio entre 3,25 y 3,75?
f) Cunto hoteles tienen un precio superior a 4,75?
g) Qu porcentaje de hoteles cuestan como mucho 4,25?
SOLUCIONES(
a) La poblacin objeto de estudio son los hoteles de una ciudad.
b) La variable que estamos estudiando es el precio.
c) El tipo de variable es continua.
d) El problema que plantea es que existen muchos valores
diferentes para por tanto es bueno agrupar la serie en
intervalos.
La manera de hacerlo sera la siguiente: primero, calculamos el
recorrido Re = x
n
x
1
= 6.1 3.3 = 2.8
Cuando no se nos dice nada el n de intervalos, se obtiene
calculando la raz cuadrada del n de datos observado. Veremos que
la raz cuadrada de 40 es igual a 6.32 por lo tanto tomaremos 6
intervalos.
Como el recorrido es 2.8 si lo dividimos por el n de intervalos
tendremos la amplitud de cada uno de ellos y as: 2,8/6 = 0,46.
I'8!&ta#t( La amplitud es de 0,46 por lo que adems de no ser
muy fcil operar, puede que no cubra el rango de la variable. Lo
podemos evitar, tomaremos un valor superior, en este caso 0,5:
;L
i4100
L
i
5 #i Ni Fi Fi
[3,25,3,75) 3 3 0.075 0.075
[3,75,4,25) 8 11 0.2 0.275
[4,25,4,75) 14 25 0.35 0.625
[4,75,5,25) 6 31 0.15 0.775
[5,25,5,75) 4 35 0.1 0.875
[5,75,6,25) 5 40 0.125 1
N= 40
e) 3
f) 15
g) %=F
2
*100=0.275*100=27.5
1.?. G&@"ic!s stadstic!s.
Para apreciar a golpe de vista la magnitud o posicin de las
variables, se suelen efectuar una representacin grfica, los sistemas
de grficos ms usuales son:
DiaA&a'a d sct!&s El rea de cada sector es proporcional a
la frecuencia que se quiera representar, sea absoluta o relativa.
Para calcularlo podemos decir que el rea depende del ngulo
central, mediante la siguiente proporcin: n
i
/N=/360
Como resulta n
i
/N = f
i
, tendremos que
360 *
i
f =
x1
x2
x3
x4
x5
Este diagrama se utiliza para cualquier tipo de variable
DiaA&a'a d *a&&as( se utiliza para frecuencias absolutas o
relativas, acumuladas o no, de una VARABLE DSCRETA. En el eje
de abcisas, situaremos los diferentes valores de la variable. En el eje
de ordenadas la frecuencia. Levantaremos barras o columnas
SEPARADAS de altura correspondiente a la frecuencia adecuada.
0
2
4
6
8
x1 x2 x3 x4 x5
Bist!A&a'a( gual que el anterior en cuanto al tipo de frecuencias
que se pueden utilizar. La diferencia : es para variables CONTNUAS.
Si la amplitud del intervalo es la misma, elevaremos columnas
UNDAS, a altura la frecuencia correspondiente. Si la amplitud del
intervalo es diferente, el rea del rectngulo columna ser proporcional
a la frecuencia representada.
DiaA&a'a d scal&a( se utiliza para frecuencias acumuladas.
0
5
10
15
20
25
x1 x2 x3 x4 x5
)ict!A&a'a( se suele utilizar para expresar un atributo. Se
suelen utilizar iconos que se identifiquen con la variable (ejemplo un
coche) y su tamao suele guardar relacin con la frecuencia
Ca&t!A&a'a se representa mediante un diagrama convencional
insertado en un mapa geogrfico de una zona. Por ejemplo en un
mapa de la Comunidad Valenciana se puede utilizar el diagrama de
tartas para representar la produccin industrial, agrcola etc.
)!lA!#! d "&c+#cias0 es la recta que une los extremos de las
variables de una distribucin, un ejemplo clsico es el de la evolucin
de la temperatura de un paciente
n
i
variable
0
1
2
3
4
5
6
x1 x2 x3 x4 x5
Nota: Si la variable es cualitativa ( rubio, moreno, alto bajo, etc.)
se suelen utilizar ms los diagramas de sectores o pictogramas
Si la variable es c+a#titati,a podemos tener dos casos: Variable
disc&ta o variable c!#ti#+a.
En el primer caso: variable discreta utilizaremos sin no piden nada
concreto, el diagrama de barras cuando se refiera a la representacin
grfica de la frecuencia absoluta (ni)
0
2
4
6
8
x1 x2 x3 x4 x5
En cambio cuando nos estemos refiriendo a la frecuencia absoluta
acumulada optaremos por el diagrama de escalera
0
5
10
15
20
25
x1 x2 x3 x4 x5
En el caso de la variable continua, optaremos por el histograma
para las frecuencias absolutas y por el polgono de frecuencias en el
caso de la frecuencia acumulada.
TEMA 1
MEDIDAS DE CENTRALICACIN
2.1 Caractersticas de las medidas de posicin central.
2.2 Medidas de centralizacin: media aritmtica, mediana y
moda. Propiedades. Relacin entre media, mediana y
moda.
2.3 Cuantiles: cuartiles, deciles y percentiles.
2.4 Medias geomtrica, armnica.
INTRODUCCIN
En este tema y los dos siguientes vamos a obtener unos nmeros
que cuantifiquen las propiedades fundamentales de la distribucin de
frecuencias. Estos nmeros podemos clasificarlos en:
Mdidas d l!caliDaci$# /8!sici$#5. Son coeficientes de tipo
promedio que tratan de representar una determinada
distribucin, pueden ser de dos tipos:
1.4CENTRALES(
-Medias:
Aritmtica
Geomtrica
Armnica
-Medianas
-Moda
1.4NO CENTRALES(
-Cuantiles:
Cuartiles
Deciles
Centiles o percentiles
Mdidas d dis8&si$#.
Son complementarias de las de posicin en el sentido que
sealan la dispersin en conjunto de todos los datos de la
distribucin respecto de la medida o medidas de localizacin
adoptadas.
-Medidas de dispersin absoluta: Recorrido
-Medidas de dispersin relativa: Recorrido intercuartlico,
desviacin media, varianza, desviacin tpica.
-Coeficiente de variacin PEARSON.
-Diagrama de caja.
Mdidas d "!&'a
Estudian la asimetra- simetra y deformacin (apuntamiento,
aplastamiento) respecto de una distribucin modelo denominada
distribucin NORMAL
Coeficiente de asimetra y coeficiente de Curtosis.
Mdidas d c!#c#t&aci$#
Estudian la concentracin de una distribucin frente a la
uniformidad.
NDCE DE GN, CURVA DE LORENZ.
1.1 CARACTERSTICAS DE LAS MEDIDAS DE )OSICIN
CENTRAL.
Las medidas de posicin son promedios y pueden ser de
tendencia central o no, las ms importantes son las que hemos
indicado en la introduccin, esto es: media, mediana, moda y los
cuantiles.
1.1 MEDIDAS DE CENTRALICACIN( MEDIA ARITMETICA0
MEDIANA F MODA. )RO)IEDADES. RELACIN ENTRE MEDIA0
MEDIANA F MODA.
MEDIA ARITMETICA( Es la suma de todos los valores de la
variable dividida entre el nmero total de elementos.
n
x
n
x x x x x
X
n
i
i
n n

=
=
+ + + +
=
1 1 3 2 1
....
Si el valor xi de la variable X se repite n
i
veces, aparece en la
expresin de la media aritmtica de la forma:
n
n x
X
i i
= , que ser la expresin que consideraremos definitiva
de la media aritmtica.
Como
N
n
f
i
i
= otra posible expresin ser i
n
i
i
f x X

=
=
1
Ejemplo: Si tenemos la siguiente distribucin, se pide hallar la
media aritmtica, de los siguientes datos expresados en kg.
9
i
#
i
9
i
#
i
54 2 108
59 3 177
63 4 252
64 1 64
10 601
1 , 60
10
601
= = =

n
n x
X
i i
kg
NOTA: A la media aritmtica se la denomina tambin CENTRO
DE GRAVEDAD de la distribucin.
Si la variable esta agrupada en intervalos (variable continua), se
asignan las frecuencias a las marcas de clase y se procede como si la
variable fuera discreta. E# l "+t+&! c!#sid&a&'!s
i#disti#ta'#t ci . 9i
Ejemplo:
;L
i41
0L
i
5 9
i
. c
i
#
i
c
i
#
i
[30 , 40) 35 3 105
[40 , 50) 45 2 90
[50 , 60) 55 5 275
10 470
47
10
470
= = =

n
n x
X
i i
Aadimos
las
columnas
segn las
MEDIA ARITMETICA )ONDERADA( En ocasiones no todos los
valores de la variable tienen el mismo peso. Esta importancia que
asignamos a cada variable, es independiente de la frecuencia absoluta
que tenga. Ser como un aumento del valor de esa variable, en tantas
veces como consideremos su peso.
Es la media aritmtica que se utiliza cuando a cada valor de la
variable (x
i
) se le otorga una ponderacin o peso distinto de la
frecuencia o repeticin. Para poder calcularla se tendr que tener en
cuenta las ponderaciones de cada uno de los valores que tenga la
variable
Se la suele representar como:

=
i i
i i i
n w
n w x
w X
Siendo w
i
la ponderacin de la variable x
i
y i
w
la suma de
todas las ponderaciones.
Ejemplo: Un estudiante realiza 3 exmenes de complejidad
creciente, obteniendo los siguientes resultados: 5, 8 y 7.
El primer examen lo hizo en hora, el segundo en 1 hora y el
tercero en hora y media, por lo que se les atribuye una ponderacin de
1, 2 y 3 respectivamente. Se pide calcular la nota media.
-i #
i
Gi 9i Hi
5 1 1 5
8 1 2 16
7 1 3 21
3 N = 6 42
Si calculamos la media aritmtica tendremos que :
67 , 6
3
7 8 5
=
+ +
= =

n
n x
X
i i
.
Ahora bien, si calculamos la media ponderada, obtendremos:
( ) ( ) ( )
( )
7
6
42
6
21 16 5
3 2 1
3 7 2 8 1 5
= =
+ +
=
+ +
+ +
=
x x x
x
w
Propiedades de la media aritmtica
PROPEDAD 1: La suma de las desviaciones de los valores de la
variable con respecto a la media aritmtica es 0.
Veamos que resulta al operar la siguiente expresin:

n
i
i
X x
1
!
.
Tendremos:
( ) ( ) ( )
0
1
0
1
.
1 1 1 1
! !
1
= =

= = = = =


=
i i
i i
i i
i
i i
i
i i i
i
i i i
i
i i i
i
i
n
i
i
n n
n
n
n x
n x
n
n X n x
n
n X n x
n
n X n x
n
n X n x
n
n
X x

PROPEDAD 2: La media aritmtica de los cuadrados de las
desviaciones de los valores de la variable con respecto a una
constante cualquiera se hace mnima cuando dicha constante
coincide con la media aritmtica /T!&'a d 3IRING).
( )
( ) ( )
0 0 1
2 2
= = =

=

=
n
n
prop
n
n x x
n
n k x
k D
i i i i i
Para x k = (media aritmtica) el valor de las desviaciones ser
mnima.
PROPEDAD 3: Si a todos los valores de la variable se le suma
una misma cantidad, la media aritmtica queda aumentada en dicha
cantidad:
Supongamos que tenemos una variable x de la que conocemos
su media.
Supongamos ahora que tenemos otra variable, que se calcula a
partir de la anterior de la siguiente forma:
k x y
i i
+ =
. Si ahora
queremos calcular la media de esta segunda variable:
( ) ( )
k
n
n x
n
kn
n
n x
n
n k
n
n x
n
n k n x
n
kn n x
n
n k x
n
n y
y
i i i i
i i i i i i i i i i i
n
i
i i
+ = + =
= + =
+
=
+
=
+
= =

=1
como X
n
n x
i i
=

si sustituimos tendremos k X Y + = que es


lo que pretendamos demostrar.
PROPEDAD 4: Si todos los valores de la variable se multiplican
por una misma constante la media aritmtica queda multiplicada por
dicha constante . La demostracin se realizara de manera anloga
a la anterior.
NOTA: De las dos propiedades anteriores se deduce que la resta
y la divisin se realizaran de igual manera para la propiedad 3 y 4
respectivamente.
C!&!la&i!( Si una variable es transformacin lineal de otra
variable (suma de un nmero y multiplicacin por otro), la media
aritmtica de la 1 variable sigue la misma transformacin lineal con
respecto a la media aritmtica de la 2 variable, siendo yi = a xi
+ b , donde a y b son nmeros reales:
b x a
n
n b
n
n x a
n
bn n ax
n
n b ax
n
n y
y
i i i i i i i i i i
+ = + =
+
=
+
= =

! !
Podemos utilizar esta metodologa para calcular la media de la
siguiente distribucin.
-
i
#
i
38432 4
38432 8
38436 4
38438 3
38440 8
Si efectuamos un cambio de variable
2
38436
=
i
i
x
y tomando como
nueva variable el valor ms centrado, tendremos:
9
i
#
i
7
i
7
i
#
i
38432 4 (38432 - 38436)/2 = -2 -8
38432 8 (38432 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
# . 1J 2
"
1
27
3
= = =
n
n y
y
i i
Como
2
38436
=
x
y , entonces
222 , 38436 38436 222 , 0 38436
"
1
2 38436 2 = + = + = + = y x
PROPEADAD 5: - Si en un conjunto de valores se pueden
obtener 2 ms subconjuntos disjuntos, la media aritmtica del
conjunto se relaciona con la media aritmtica de cada uno de los
subconjuntos disjuntos de la siguiente forma:
n
N x
X
N
I
i i
=
=
1
Siendo i
x
la media de cada subconjunto y N
i
el nm. de
elementos de cada subconjunto.
Veamos la demostracin de la propiedad: Sea la distribucin x
1
,
x2, x3, x4, .. xn, xn+1, xn+2 ....xk, observando que habran como dos subconjuntos de
n y k-n elementos cada uno. Si consideramos la media aritmtica de la distribucin:
n
n x
X
i i
=
y
calculamos los sumatorios para los dos subconjuntos, la expresin de
la media quedara:
n
n x
n
n x
n
n x n x
X
k
n r
r r
n
j
j j
k
n r
r r
n
j
j j


+ =
= + = =
+ =
+
=
1
1 1 1
Si multiplicamos numerador y denominador de cada una de las
fracciones por una misma cantidad el resultado no vara, por tanto,
multiplicaremos la primera por N1 que es su nmero de elementos del
primer subconjunto y la segunda por N2 que es el correspondiente, la
expresin quedar:
n
N
n x
N
n
N
n x
N
n N
n x N
n N
n x N
X
n
j
j j
n
j
j j
k
n r
r r
n
j
j j

= + =

= =
+ =
=
2
1
2
1
1
1
2
1
2
1
1
1
como
1
1
1
x
N
n x
n
j
j j
=

= y
2
2
1
x
N
n x
kn
n r
jr rj
=

+ =
son la media del primer y segundo
subconjunto, la expresin la podemos expresar de la siguiente
manera:
n
N X N X
n
N
X
n
N
X X
2 2 1 1 2
2
1
1
+
= + =
que es lo que queramos
demostrar ya que si las frecuencias se multiplican o dividen por un
mismo nmero, la media no vara
MPORTANTE: Hay que tener en cuenta que la media aritmtica
es muy sensible a los valores extremos, es decir, a valores numricos
muy diferentes, (tanto por lo grandes, o pequeos que sean), al resto
de la muestra. Esto puede resultar un problema. Hay formas de
resolverlo, que veremos ms adelante.
Mdia A!'%t&ica 7 a&'$#ica.
a5 Mdia A!'%t&ica( Responde a la siguiente expresin
n
n
k
n n n
k
x x x x G ......
2 2 1
3 2 1
=
y se la puede define, como la raz n-sima del producto de todos
los valores de la variable.
Tambin la podemos representar como:
n
n
k
n n n
k
x x x x G
1
3 2 1
....... !
3 2 1
=
NOTA: En muchas ocasiones, los valores de la distribucin nos
impiden poder efectuar los clculos al exceder la capacidad de la
calculadora.
Utilizaremos las propiedades de los logaritmos:
lg (a.b) = lg a + lg b
lg a
n
= n lg a
= = = ....... lg!
1
....... lg! lg
3 2 1 3 2 1
3 2 1
1
3 2 1
k k
n
k
n n n
n
n
k
n n n
x x x x
n
x x x x G
lg .... lg 2 lg !lg
1
3 2 1
3 2 1
k
n
k
n n n
x x x x
n
+ + + + =
sabiendo que lo podemos expresar en notacin compacta:

= = + + + + G
n
x n
x n x n x n x n
n
i i
k k
lg
lg
lg ...... lg lg lg !
1
3 3 2 2 1 1
, por lo que
podemos decir que
G = anti lg

n
x n
i i
lg
El logaritmo de la media geomtrica es la media aritmtica de los
logaritmos de los valores de la variable. El problema se presenta
cuando algn valor es 0 negativo y exponente de la raz par ya que
no exista raz par de un nmero negativo.
Suele utilizarse cuando los valores de la variable siguen una
progresin geomtrica. Tambin para promediar porcentajes, tasas, n
ndices, etc. siempre que nos vengan dados en porcentajes.
Ejemplo: Hallar la media geomtrica de la siguiente distribucin:
9i #i
100 10
120 5
125 4
140 3
n = 22
n
x n
G
i i
=
lg
lg
por lo tanto ser conveniente ampliar la tabla con lo que nos
quedar
9i #i lA 9i #i lA 9i
100 10 lg 100 = 2 20
120 5 lg 120 = 2.079 10,396
125 4 lg 125 = 2.097 8,387
140 3 lg 140 = 2.146 6,438
n = 22 45.221
056 , 2
22
221 , 45
lg
lg = = =

n
x n
G
i i
G = anti lg. 2,0555 = 1120K21
NOTA: En la calculadora el antilogaritmo se halla apretando la
tecla SHFT log x
*5 Mdia a&'$#ica. La &8&s#ta&'!s c!'! B: Es la
inversa de la media aritmtica de las inversas de los valores de la
variable, responde a la siguiente expresin:
....
3
3
21
2
1
1
+ + +
= =

x
n
x
n
x
n
n
x
n
n
H
i
i
Se utiliza para promediar velocidades, tiempos, rendimiento, etc.
(cuando influyen los valores pequeos).
Su problema: cuando algn valor de la variable es 0 o prximo a
cero no se puede calcular.
Ejemplo: calcular la media armnica de la siguiente distribucin:
9i #i
100 10
120 5
125 4
140 3
Para poder hallarla, es necesario que calculemos el inverso de x y
el inverso de la frecuencia por lo que ampliaremos la tabla con 2
columnas adicionales :
9i #i 1L9i #iL9i 9i#i
100 10 1/100 0.1 1000
120 5 1/120 0.042 600
125 4 1/125 0.032 500
140 3 1/140 0.021 420
N= 22 0.195 2520
82 , 112
1"5 , 0
22
= = =

i
i
x
n
n
H
545 , 114
22
2520
= = =

n
n x
X
i i
Entre la media aritmtica la media geomtrica y media armnica
se da siempre la siguiente relacin:
X G H
MEDIANA( M
La mediana o valor mediano ser el valor de la variable que
separa en dos grupos los valores de las variables, ordenadas de
menor a mayor. Por tanto es una cantidad que nos indica !&d#
dentro de la ordenacin.
El lugar que ocupa se determina dividiendo el n de valores entre
2:
2
n
Cuando hay un nmero impar de valores de la variable, la
mediana ser justo el valor de orden central, aquel cuya frecuencia
absoluta acumulada coincida con
2
n
. Es decir: i i i
x Me N
n
N = <

2
1 . Por
tanto la mediana coincide con un valor de la variable.
El problema est cuando haya un nmero par de valores de la
variable. Si al calcular
2
n
resulta que es un valor menor que una
frecuencia absoluta acumulada, el valor de la mediana ser aquel
valor de la variable cuya frecuencia absoluta cumpla la misma
condicin anterior: i i i
x Me N
n
N = <

2
1 . Por el contrario si coincide
que i
N
N
=
2
, para obtener la mediana realizaremos el siguiente clculo:
2
1 +
+
=
i i
x x
Me
Ejemplo: Sea la distribucin
9i #i Ni
1 3 3
2 4 7
5 9 16
J 1M 1K
10 7 33
13 2 35
n = 35
lugar que ocupa
5 , 17
2
35
2
= =
n

como se produce que i i i
x Me N
n
N = < < < <

26 7 , 17 16
2
1 por lo
tanto M . J
El otro caso lo podemos ver en la siguiente distribucin:
9i #i Ni
1 3 3
2 4 7
? N 1K
7 10 26
10 6 32
n= 32
Lugar que ocupa = 32/2 = 16 ==> 6
2
7 5
2
1 1
=
+
=
+
=
+ i
x x
Me
Notar que en este caso se podra haber producido que hubiera
una frecuencia absoluta acumulada superior a 16. En este caso se
calculara como en el ejemplo anterior.
En dist&i*+ci!#s aA&+8adas, hay que determinar el intervalo
mediano
[ )
i i
L L ,
1 , la forma de hacerlo ser calcular el valor de la
mitad de n, y observar que intervalo tiene una frecuencia absoluta
acumulada que cumpla i i
N
n
N < <

2
1 .
Despus de saberlo haremos el siguiente clculo:
i
i
i
i
a
n
N
N
L Me
1
1
2

+ =
Siendo: [ L
i
-1
,
L
i
) el intervalo que contiene a la frecuencia
acumulada N/2
a
i
= amplitud de dicho intervalo.
Ejemplo:
; L
i
41
0
L
i
5 #i Ni
[20 , 25) 100 100
[25 , 30) 150 250
;2M 0 2?5 1MM :?M
[35 , 40) 180 630
[40 , 45) 41 671
N = 671
671/2 = 335.5 ; Me estar en el intervalo [30 - 35 ). Por tanto
realizamos el clculo:
138 , 32 5 *
200
250 5 , 33
30
2
1
1
=

+ =

+ =

i
i
i
i
a
n
N
n
L Me
MODA( M!
Ser el valor de la variable que ms veces se repite, es decir, el
valor que tenga mayor frecuencia absoluta.
Pueden existir distribuciones con ms de una moda: bimodales,
trimodales, etc.
En las distribuciones sin agrupar, la obtencin de la moda es
inmediata.
Ejemplo:
9i #i
1 2
1 J
3 5
: J
5 4
Moda {2, 4}, en este caso tenemos una distribucin bimodal.
En los supuestos que la distribucin venga dada en intervalos, es
decir, sea agrupada, se pueden producir dos casos: que tengan la
misma amplitud, o que esta sea distinta.
Si tienen la misma amplitud, en primer lugar tendremos que
encontrar el intervalo modal, ser aquel que tendr mayor frecuencia
absoluta
, #
1 i i
L L
. Posteriormente realizaremos el siguiente clculo:
i
i i
i
i
a
n n
n
L Mo
1 1
1
1
+
+

+
+ =
Siendo:
L
i-1
= extremo inferior del intervalo modal
a
i
amplitud de dicho intervalo
n
i-1
+ n
i+1
= densidades de frecuencia de los intervalos
anterior y posterior respectivamente al que contiene la moda.
Cuando los intervalos sean de distinta amplitud, el intervalo modal
ser el de 'a7!& d#sidad d "&c+#cia , es decir
i
i
i
a
n
d =
,ya que
consideraremos la "calidad del intervalo en funcin de la frecuencia y
de la amplitud. Para realizar el clculo, tendremos en cuenta la
siguiente expresin: i
i i
i
i
a
d d
d
L Mo
1 1
1
1
+
+

+
+ =
Nota:
1.- Cuando hay una nica moda, la mediana suele estar
comprendida entre x y Mo.
2.- Cuando la distribucin es simtrica (con 1 moda) se cumple
que: x = Me=Mo
Ejemplo: Hallar la moda de la siguiente distribucin
;L
i41
0L
i
5 #
i
di . #iLai
[0 , 25) 20 0.8
;1? 0 ?M5 1:M ?.K
[50 , 100) 180 3.6
[100 , 150) 40 0.8
[150 , 200) 20 0.4
Calculamos el intervalo modal [25 50). Operamos:
5 , 45 25
6 , 3 8 , 0
6 , 3
25
1 1
1
1
=
+
+ =
+
+ =
+
+
i
i i
i
i
a
d d
d
L Mo
1.2 CUANTILES( CUARTILES0 DECILES F )ERCENTILES
Son medidas de localizacin similares a las anteriores. Se las
denomina CUANTILES /O5. Su funcin es informar del valor de la
variable que ocupar la posicin (en tanto por cien) que nos interese
respecto de todo el conjunto de variables.
Podemos decir que los Cuantiles son unas medidas de posicin
que dividen a la distribucin en un cierto nmero de partes de manera
que en cada una de ellas hay el mismo de valores de la variable.
Las ms importantes son:
CUARTILES0 dividen a la distribucin en cuatro partes iguales
(tres divisiones). C
1
,C
2
,C
3
, correspondientes a 25%, 50%,75%.
DECILES0 dividen a la distribucin en 10 partes iguales (9
divisiones).D
1
,...,D
9
, correspondientes a 10%,...,90%
)ERCENTILES0 cuando dividen a la distribucin en 100 partes
(99 divisiones).P
1
,...,P
99
, correspondientes a 1%,...,99%.
Existe un valor en cual coinciden los cuartiles, los deciles y
percentiles es cuando son iguales a la Mediana y as veremos
100
50
10
5
4
2
= =
Distinguiremos entre distribuciones agrupadas, y las que no lo
estn:
En las distribuciones si# aA&+8a&, primero hallaremos el lugar que
ocupa:
Entonces tendremos que :
Ni=1 < (%) . n < Ni Q = xi
en el supuesto que (%).n = Ni
2
1 +
+
=
i i
x x
Q
Primero encontraremos el intervalo donde estar el cuantil:
lugar Ni=1 < (%) n< N
i
ntervalo [Li-1, Li) , en este caso:
[
( )
]
i
i
i
i
a
n
N N
L Q
1
1
%

+ =
Ejemplo: DSTRBUCONES NO AGRUPADAS: En la siguiente
distribucin
9i #i Ni
5 3 3
10 7 10
15 5 15
20 3 18
25 2 20
n = 20
Calcular la mediana (Me); el primer y tercer cuartil (C
1
,C
3
); el 4
decil (D
4
) y el 90 percentil (P
90
)
Mdia#a /M5
Lugar que ocupa la mediana lugar 20/2 = 10
Como es igual a un valor de la frecuencia absoluta acumulada,
realizaremos es clculo:
5 , 12
2
15 10
2
1
=
+
=
+
=
+ i i
x x
Me
)&i'& c+a&til /C
1
5
Lugar que ocupa en la distribucin ( ). 20 = 20/4 = 5 Como Ni-1
< (25%).n < Ni , es decir 3 < 5 < 10 esto implicara que C
1
= xi =
10
T&c& c+a&til /C
2
5
Lugar que ocupa en la distribucin (3/4).20 = 60/4 = 15, que
coincide con un valor de la frecuencia absoluta acumulada, por tanto
realizaremos el clculo: 5 , 17
2
20 15
2
1
3
=
+
=
+
=
i i
x x
C
C+a&t! dcil /D
:
5
Lugar que ocupa en la distribucin (4/10) . 20 = 80/10 = 8. Como
Ni-1 < (%).n < Ni ya que 3 < 8 < 10 por tanto D
4
=10.
N!#aA%si'! 8&c#til /)
NM
5
Lugar que ocupa en la distribucin (90/100). 20 = 1800/100 = 18.
que coincide con un valor de la frecuencia absoluta acumulada, por
tanto realizaremos el clculo:
5 , 22
2
25 20
2
1
"0
=
+
=
+
=
i i
x x
P
Ejemplo: DSTRBUCONES AGRUPADAS: Hallar el primer
cuartil, el cuarto decil y el 90 percentil de la siguiente distribucin:
;Li-1 0 Li5 #i Ni
[0 , 100) 90 90
[100 , 200) 140 230
[[200 , 300) 150 380
[300 , 800) 120 500
n = 500
)&i'& c+a&til /C45
Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 =
125. Por tanto C4 estar situado en el intervalo [100
200).Aplicando la expresin directamente, tendremos:
125 100
140
"0 125
100
4
=

+ = C
C+a&t! dcil /D45
Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D4 estar
situado en el intervalo [100 200). Aplicando la expresin tendremos:
57 , 178 100
140
"0 200
100
4
=

+ = D
N!#aA%si'! 8&c#til /) 905
Lugar que ocupa: (90/100) . 500 = 450, por tanto P90 estar
situado en el intervalo [300 800). Aplicando la expresin tendremos:
67 , 5"1 500
120
70
300 500
120
380 450
300
"0
= + =

+ = P
TEMA 2
MEDIDAS DE DIS)ERSIN
3.1.- Caractersticas de las medidas de dispersin.
3.2.-Medidas de dispersin: Recorrido, recorrido
intercuartlico, varianza y desviacin tpica. Propiedades.
3.3.-Coeficiente de variacin de PEARSON.
2.1.4Ca&act&sticas d las 'didas d dis8&si$#.
Las medidas de dispersin nos sirven para cuantificar la
separacin de los valores de una distribucin.
Llamaremos DSPERSN O VARABLDAD, a la mayor o menor
separacin de los valores de la muestra, respecto de las medidas de
centralizacin que hayamos calculado.
Al calcular una medida de centralizacin como es la media
aritmtica, resulta necesario acompaarla de otra medida que indique
el grado de dispersin, del resto de valores de la distribucin, respecto
de esta media.
A estas cantidades o coeficientes, les llamamos: MEDDAS DE
DSPERSN, pudiendo ser a*s!l+tas ! &lati,as
2.1.4Mdidas d dis8&si$#( Rc!&&id!0 &c!&&id! i#t&c+a&tlic!0
,a&ia#Da 7 ds,iaci$# t8ica. )&!8idads.
a5 Mdidas d dis8&si$# a*s!l+tas(
Recorrido
Recorrido intercuartlico.
Va&ia#Da
Ds,iaci$# t8ica
Desviacin media respecto de la mediana
*5 Mdidas d dis8&si$# &lati,as
C!"ici#t d ,a&iaci$# d )EARSON
ndice de variacin respecto de la mediana
Rc!&&id!( Se define como la diferencia entre el mayor y menor
valor de las variables de una distribucin:
1
x x
n
=

Rc!&&id! i#t&c+a&tlic!( Se define como la diferencia entre el
tercer y el primer cuartil:
1 3
C C
i
=
Ds,iaci$# 'dia &s8ct! d la 'dia#a( Es la media aritmtica de
los valores absolutos de las desviaciones de los valores de la variable
con respecto de la mediana.
n
n Me x
D
i i
Me


=
Va&ia#Da( Es la media aritmtica de los cuadrados de las
desviaciones de los valores de la variable con respecto de la media de
la distribucin. Responde a la expresin
n
n X x
!
i i
2
2
!


=
NOTA: Su problema son las unidades ya que minutos al cuadrado
no existen, y si hablamos de longitud m x m nos dara metros al
cuadrado o sea superficie. El valor de la varianza no lo podemos
tomar, pues, como la cantidad que resulta, en las unidades que
nos proporcionan los datos. Para hacernos una idea aproximada,
nunca exacta, hay que obtener la raz cuadrada, y as esta nueva
medida, es la desviacin tpica:
Ds,iaci$# t8ica( La desviacin tpica o standard, es la raz
cuadrada, c!# siA#! 8!siti,!, de la varianza. Se representa por
S, y tiene la siguiente expresin:
N
n X x
! !
i i
2
2
!
+ = + =

Si operamos, podemos obtener la siguiente expresin, que es
mucho ms sencilla de operar, y obtenemos menos error de redondeo:
2
2 2
2
!
X
n
n x
n
n X x
!
i i i i
=

=

)&!8idads d la ,a&ia#Da (
1.- Es siempre un valor no negativo, que puede ser igual o distinta de
0. Ser 0 solamente cuando
2.- La varianza es la medida de dispersin cuadrtica optima por ser
la menor de todas.
3.- Si a todos los valores de la variable se le suma una constante la
varianza no se modifica. Vemoslo:
n
n X x
!
i i

=
2
2
!
Si a xi le sumamos una constante xi' = xi + k
tendremos (sabiendo que k x x + = $ )
2
2 2 2
2
! % $ ! #! $ $ !
!
n
n X x
n
n k X k x
n
n X x
!
i
i i i i i
=

=
+ +
=

=

x x
i
=
4.- Si todos los valores de la variable se multiplican por una
constante la varianza queda multiplicada por el cuadrado de dicha
constante. Vemoslo:
Si a xi' = xi k tendremos (sabiendo que k X X & $ = )
=

=

N
n X x k
N
n k X k x
N
n X x
!
i
i i i i i
2 2 2
2
% ! # % $& ! & #! $ $ !
2 2
2 2 2 2
&
! !
! k
n
X x k
n
n X x k
i i i
=

=

5.- Si en una distribucin obtenemos una serie de subconjuntos
disjuntos, la varianza de la distribucin inicial se relaciona con la
varianza de cada uno de los subconjuntos mediante la expresin
n
! N
!
i i
x

=
2
2
Siendo
Ni el n de elementos del subconjunto (i)
S
2
i la varianza del subconjunto (i)
)&!8idads d la ds,iaci$# t8ica
A su vez la desviacin tpica, tambin tiene una serie de
propiedades que se deducen fcilmente de las de la varianza (ya que
la desviacin tpica es la raz cuadrada de la varianza):
1.- La desviacin tpica es siempre un valor no negativo S ser
siempre 0 por definicin. Cuando S = 0 X = xi (para todo i).
2.- Es la medida de dispersin ptima por ser la ms pequea.
3.- Si a todos los valores de la variable se le suma una misma
constante la desviacin tpica no vara.
4.- Si a todos los valores de la variable se multiplican por una misma
constante, la desviacin tpica queda multiplicada por el valor
absoluto de dicha constante.
2.2.4 Mdidas d dis8&si$# &lati,a. C!"ici#t d ,a&iaci$# d
)EARSON.
El problema de las medidas de dispersin absolutas es que
normalmente son un indicador que nos da problemas a la hora de
comparar. Comparar muestras de variables que entre s no tienen
cantidades en las mismas unidades, de ah que en ocasiones se
recurra a medidas de dispersin relativas. El coeficiente de variacin
de PEARSON es una de las ms significativas y lo podemos definir,
c!'! l c!ci#t #t& la ds,iaci$# t8ica 7 la 'dia a&it'%tica
d +#a dist&i*+ci$#.
Es necesario tener en cuenta que al efectuar el cociente
eliminamos las unidades por tanto V es adimensional.
X
!
"
x
=
Cuando Vx < Vy significa que X es ms representativa que Y, o
que la media de X representa mejor a su distribucin, que la media de
Y a la suya.
Por convencin se considera que la dispersin es ptima si Vx
es igual o menor que 0,3.
El coeficiente de variacin no se ve influido si multiplicamos
todos los valores de la variable por una constante
x x
"
X k
! k
X k
! k
" = = =
)&!8idad(
Si a todos los valores de la variable se le suma una misma
constante el coeficiente de variacin queda alterado. Es consecuencia
inmediata de las propiedades de la media.
)! (
!
) , (
r n
n
r n P

=
TEMA :
FUNDAMENTOS DE )ROBABILIDAD
4.1. Permutaciones con repeticin
4.2. Permutaciones sin repeticin
4.3. Combinaciones
4.4. Distribuciones de probabilidad
4.1. Permutaciones con repeticin
Una permutacin es una combinacin en donde el orden es
importante. La notacin para permutaciones es P (n, r) que es la
cantidad de permutaciones de "n elementos si solamente se
seleccionan "r.
! ! !
!
, ,
c b a
n
PR
c b a
n
=
Ejemplo: Si nueve estudiantes toman un examen y todos obtienen
diferente calificacin, si consideramos las 3 calificaciones ms altas,
cualquier alumno podra alcanzar la calificacin ms alta. La segunda
calificacin ms alta podra ser obtenida por uno de los 8 restantes. La
tercera calificacin podra ser obtenida por uno de los 7 restantes.
La cantidad de permutaciones posibles sera: P(9,3) = 9*8*7 = 504
combinaciones posibles de las tres calificaciones ms altas.
Llamamos a las permutaciones c!# &8tici$# de n elementos
tomados de a en a, de b en b, de c en c, etc, cuando en los n
elementos existen elementos repetidos (un elemento aparece a veces,
otro b veces, otro c veces, etc) verificndose que a+b+c+...=n.
El nmero de estas permutaciones ser:
Ejemplos:
1. De cuntas formas pueden ordenarse en una
estantera 5 libros de lomo blanco, 3 de lomo azul y 6
de lomo rojo?
1KP1KP
2. Cuntas palabras de 6 letras con o sin sentido se
pueden formas con las letras de AMASAS ?
KM
3. En una carrera por equipos participan 4 espaoles,
5 franceses y 3 marroques. Si lo nico reseable de
cada corredor es su nacionalidad, de cuntas
formas posibles podran terminar la carrera?
1JJ1M
4.. Permutaciones sin repeticin

)! ( !
!
) , (
r n r
n
r n C

=
Las 8&'+taci!#s si# &8tici$# d n l'#t!s se definen como
las distintas formas de ordenar todos esos elementos distintos, por lo
que la nica diferencia entre ellas es el orden de colocacin de sus
elementos.
El nmero de estas permutaciones ser:
Pn = n!
Ejemplos:
1. De cuntas formas pueden sentarse 8 amigos en
una fila de butacas de un cine?
:M21MN
2. De cuntas formas diferentes se pueden
fotografiar 5 amigos frontalmente en lnea recta?
11M
3. Un tcnico de sonido tiene que unir 6 terminales en
6 conexiones. Si lo hiciera al azar, de cuntas formas
diferentes podra completar las conexiones?
J1M
4.". #ombinaciones
Una combinacin es un arreglo donde el orden NO es importante. La
notacin para las combinaciones es C (n, r), que es la cantidad de
combinaciones de "n elementos seleccionados "r a la vez. Es igual a
la cantidad de permutaciones de "n elementos tomados "r a la vez
dividido por "r factorial. Esto sera P (n, r) / r!, expresado normalmente
como:
Ejemplo: Si se seleccionan cinco cartas de un grupo de nueve,
cuantas combinaciones de cinco cartas habra?
La cantidad de combinaciones posibles sera: P(9,5)/5! = (9*8*7*6*5)/
(5*4*3*2*1) = 126 combinaciones posibles.
1. Una persona est interesada en contar todos los
posibles resultados en el juego de la LOTERA
PRMTVA. Podras ayudarle?
12NP2P1K
2. Siete amigos hacen cola para el cine. Al llegar slo
quedan 4 entradas. De cuntas formas podran
repartirse estas entradas para ver la pelcula ?
2?
3. En una clase de 30 alumnos se quiere elegir un
grupo de 5 alumnos para participar en un concurso.
De cuntas formas podra hacerse ?
1:1?MK
4.". Propiedades y reglas de la Probabilidad
PENDENTE
4.4 $istribuciones de probabilidad
4.4.1. $istribuciones de probabilidad para variables discretas
Recordemos inicialmente que existen las ,a&ia*ls alat!&ias, siendo
aquellas que se asocian a la ocurrencia de un fenmeno aleatorio.
Cuando una de estas variables aleatorias toma diversos valores, la
probabilidad asociada a cada uno de tales valores puede ser
organizada como una dist&i*+ci$# d 8&!*a*ilidad, la cual es la
distribucin de las probabilidades asociadas a cada uno de los valores
de la variable aleatoria.
Las distribuciones de probabilidad pueden representarse a travs de
una tabla, una grfica o una frmula, en cuyo caso tal regla de
correspondencia se le denomina "+#ci$# d 8&!*a*ilidad.
Consideraremos primero las dist&i*+ci!#s d 8&!*a*ilidad 8a&a
,a&ia*ls disc&tas.
)!& <'8l!( Consideremos a la variable aleatoria X como la cantidad
de guilas observadas cuando se lanzan dos volados. El espacio
muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la
variable X puede tomar como valores 0, 1 y 2.
Calculando las probabilidades tenemos:
P(de no observar guilas) = P(SS) = P(X=0) =
P(de observar una guila) = P(SA , AS) = P(X=1) =
2
/
4
P(de observar dos guilas) = P(AA) = P(X=2) =
Si ahora se organizan estos resultados con el siguiente formato
% P/%.&5
0
1
2
/
4
2
se podr explicar por qu se usa el nombre "distribucin de
probabilidad". E, incluso, con esta informacin se puede construir una
grfica de barras o un histograma como el que sigue:
Las 8&!8idads d las dist&i*+ci!#s d ,a&ia*ls disc&tas son
dos, y que posteriormente, al hablar de las distribuciones de variables
continuas, se repetirn de manera muy similar:
1. 0 < P(X=x) < 1.
2. ZP(X=x) = 1, o que es lo mismo: la suma de todas las
probabilidades de los eventos posibles de una variable aleatoria
es igual a la unidad.
Hay que hacer notar que estas propiedades se enuncian suponiendo
que conocemos el valor de la probabilidad, pero en la realidad esto no
ocurre, es decir que no sabemos la probabilidad y lo que se hace es
trabajar con estimaciones. Precisamente esto nos lleva a modelos
tericos que estiman los resultados, los principales son los que a
continuacin se presentan.
M!dl!s d dist&i*+ci!#s d 8&!*a*ilidad d ,a&ia*ls disc&tas
U#i"!&'. Es la distribucin donde todos los eventos
elementales tienen la misma probabilidad. Por ejemplo: tirar un
dado, donde la funcin P(X=x)=
1
/
6
para valores de x=1,2,3,4,5,6.
Bi#!'ial. Es la que maneja la distribucin de la probabilidad de
obtener cierta cantidad de xitos al realizar una cantidad de
experimentos con probabilidad de xito constante y con ensayos
independientes.
G!'%t&ica. Es la distribucin de la probabilidad de realizar
cierto nmero de experimentos antes de obtener un xito.
Bi8&A!'%t&ica. Es similar a la binomial, pero con un tamao
de muestra grande en relacin al tamao de la poblacin. Puede
calcularse con Excel.
D )!iss!#. Es la distribucin de la probabilidad de que ocurra
un evento raro en un periodo de tiempo, un espacio o un lugar.
Puede calcularse con Excel
La que ms se utiliza es la distribucin binomial, de la hablaremos un
poco ms adelante.
Mdia 7 ds,iaci$# st@#da& d +#a dist&i*+ci$# d 8&!*a*ilidad
8a&a ,a&ia*ls disc&tas
En una distribucin de frecuencias para datos agrupados se calculaba
la media utilizando la frmula , la cual puede expresarse
como
Considerando la definicin de probabilidad de un evento, P(X) es el
cociente de la frecuencia entre el nmero total de eventos
(probabilidad frecuencial de ocurrencia), por lo que la 'dia d +#a
dist&i*+ci$# d 8&!*a*ilidad d +#a ,a&ia*l disc&ta es:
)!& <'8l!( Consideremos la variable X del ejemplo de guilas
observadas en dos lanzamientos de monedas. Es decir, X tal que su
distribucin de probabilidad sea:
% P/%.&5
0
1
2
Entonces, para calcular su media se realiza:
De manera similar, la varianza se defini como ,
y haciendo un tratamiento anlogo anterior tenemos que
para que, finalmente, la ,a&ia#Da d +#a dist&i*+ci$# d
8&!*a*ilidad d +#a ,a&ia*l disc&ta sea:
Consecuentemente, la ds,iaci$# st@#da& d +#a dist&i*+ci$# d
8&!*a*ilidad d +#a ,a&ia*l disc&ta es:
)!& <'8l!( Considerando la misma distribucin de probabilidad que
en el ejemplo anterior, su desviacin estndar se calcula:
La distribucin binomial
Consideremos los llamados #sa7!s B&#!+lli, stos son aquellos
experimentos cuyo resultado es uno de dos posibles y mutuamente
excluyentes, a los que se denominarn xito y fracaso.
)!& <'8l!( Los siguientes son ensayos Bernoulli.
Un tornillo, puede estar defectuoso o no defectuoso.
El sexo de un beb al nacer, nio o nia.
La respuesta correcta o incorrecta en un examen.
Si consideramos una serie de ensayos Bernoulli que tiene como
caractersticas:
1. La probabilidad de xito permanece constante, ensayo tras
ensayo; y
2. Los ensayos son independientes entre s.
Entonces se tiene lo que se denomina 98&i'#t! *i#!'ial, donde
el nmero de ensayos se denota con n, la probabilidad de xito con p
y la de fracaso con q. Hay que notar que las probabilidades de xito y
de fracaso estn relacionadas de la siguiente manera: p+q=1.
)!& <'8l!( Consideremos un examen con tres preguntas de opcin
mltiple, con cuatro opciones, y que ser contestado al azar.
Podemos utilizar el siguiente ejemplo < Lydia Lic. la por
proporcionadas fueron preguntas>:
1.4 Las flores de la carrastrana frislea son:
a) rojas b) azules c) amarillas d) naranjas
1.4 Don Luis nocuo descubri el trideralto de magnesio en:
a) 1518 b) 1635 c) 1457 d) 1706
2.4 El significado de la palabra montaraz es
a) lpiz b) rbol c) miedo d) fiera
Con esto contamos con un experimento binomial, ya que la
probabilidad de xito permanece constante en las tres preguntas
(p=) y las respuestas de una a otra pregunta son independientes
entre s. Se cuenta con una cantidad n=3 de ensayos y q=1-p=
3
/
4
.
Hay que decir que n y p son los llamados 8a&@'t&!s d la
dist&i*+ci$#.
Tenemos ahora la variable aleatoria X que representar el nmero de
respuestas correctas, siendo sus posibles valores: 0, 1, 2, y 3.
Para calcular la distribucin de probabilidad correspondiente,
consideraremos como E los xitos y como F los fracasos (el subndice
indica el nmero de pregunta). As pues, tenemos que:
Al presentar esta informacin como tabla y su respectivo histograma
se obtiene:
% P/%.&5
0 0.422
1 0.422
2 0.141
3 0.016
En general, si se tienen n ensayos Bernoulli con probabilidad de xito
p y de fracaso q, entonces la distribucin de probabilidad que la
modela es la dist&i*+ci$# d 8&!*a*ilidad *i#!'ial y su regla de
correspondencia es:
,
para x=0,1,2,.,n.
Utilizando la funcin de Excel, o bien las tablas, se pueden obtener los
valores que toma esta distribucin.
La 'dia 7 la ds,iaci$# st@#da& d la dist&i*+ci$# *i#!'ial
La 'dia d +#a dist&i*+ci$# 8&!*a*ilstica *i#!'ial con
parmetros n y p es:
= n p
Por otro lado, la ds,iaci$# st@#da& d +#a dist&i*+ci$#
8&!*a*ilstica *i#!'ial con parmetros n y p es:
)!& <'8l!( Consideremos la distribucin resultante de aplicar los
exmenes del ejemplo anterior. Sus parmetros son n=3 y p=0.25,
entonces la media de la distribucin es:
= (3)(0.25) = 0.75
Y la desviacin estndar es:
Esto quiere decir que si se aplicara este examen, en teora, el
promedio de aciertos sera de 0.75 (casi de un acierto) con una
dispersin de 0.75.
$emostracin de 'ue la distribucin probabil(stica binomial
cumple con las propiedades de la distribuciobnes
probabil(sticas de variable discreta
Como se mencion anteriormente, las distribuciones probabilsticas
cumplen con dos propiedades: a) todos los valores de la distribucin
son mayores o iguales que cero, y adems son menores o iguales que
uno; y b) La suma de todas las probabilidades de la distribucin es la
unidad. Esta demostracin es para mostrar que la distribucin
probabilstica binomial cumple con tales propiedades.
Se puede observar que en ningn caso las combinaciones toma
valores negativos, y como p y q son positivos o cero, entonces todos
los valores de la distribucin probabilstica son positivos o cero.
Faltara mostrar que las imgenes de la funcin #! toman valores
mayores que uno, pero eso se har despus de la siguiente parte.
Para demostrar que la suma es igual a la unidad, se har referencia al
teorema del binomio, por lo que se tiene que:
Adems, como la suma total de las probabilidades es la unidad,
entonces cada una de stas debe ser menor o igual que uno.
Con esto queda demostrado que, efectivamente, la distribucin
probabilstica binomial cumple con las dos propiedades de las
distribuciones probabilsticas de variable discreta.
La media de una distribucin binomial
Considerando, como ya se ha dicho con anterioridad, que la media de
una distribucin probabilstica de variable discreta es = xP(x), y
tambin que la funcin que modela la distribucin binomial es
, entonces se sigue que:
Sean y=x-1 y m=n-1, entonces realizando la sustitucin en el ltimo
rengln se tiene que:
Slo que la sumatoria presente es la suma de todos los valores de una
distribucin binomial con parmetros m y p, cuyo resultado ya se
demostr que es igual a 1.
Por tanto, se tiene
= np
4.4. $istribuciones de probabilidad para variables continuas
Hasta el momento se han considerado las distribuciones de
probabilidad para variables discretas, donde se poda asignar el valor
que toma la funcin de probabilidad cuando la variable aleatoria
tomaba un valor en concreto. Sin embargo, al considerar las variables
continuas se encuentra uno el problema de que, lo ms probable, los
datos que se puedan recabar no sean completamente exactos, o dos o
ms de ellos no coincidan, por lo que se tienen que trabajar en
intervalos y, en ese momento, modelar una funcin se convierte en un
problema serio.
Sin embargo, se pueden realizar aproximaciones y describir la
probabilidad a travs de modelos tericos de probabilidad cuya grfica
es una lnea continua, a diferencia de las variables discretas que le
corresponde un histograma.
Para clarificar cmo se realiza esta aproximacin al modelo terico
consideremos el siguiente caso:
Se han registrado los tiempos que le tom a una empresa de
mensajera entregar 190 paquetes con destinatarios diferentes dentro
de una misma ciudad. Los datos se han agrupado en una distribucin
de frecuencias considerando intervalos de cinco das como sigue:
Ti'8!
d
#t&Aa
/das5
N!. d
8aQ+ts
[0,5) 115
[5,10) 31
[10,15) 17
[15,20) 12
[20,25) 10
[25,30) 5
Supongamos que un posible cliente, conociendo esta informacin,
quisiera saber qu probabilidad tiene de que su paquete sea
entregado en dos das. El problema es que al manejar intervalos de
cinco das estamos suponiendo que dentro de cada intervalo los datos
se distribuyen uniformemente, cosa que no es real.
Podramos aumentar la muestra y seguir recogiendo informacin para
hacer una distribucin de frecuencias similar a la anterior, pero se
tendra el mismo problema: dentro de cada intervalo se est
presuponiendo que los datos se distribuyen uniformemente.
Otra posible solucin es reducir la amplitud de los intervalos, de tal
suerte que podramos tomar una amplitud de tres das por intervalo y
hacer la siguiente distribucin de frecuencias:
Ti'8!
d
#t&Aa
/das5
N!. d
8aQ+ts
/"&c.5
[0,3) 93
[3,6) 30
[6,9) 18
[9,12) 13
[12,15) 9
[15,18) 8
[18,21) 6
[21,24) 6
[24,27) 4
[27,30) 3
Al seguir reduciendo la amplitud a dos das se obtiene la distribucin:
Ti'8!
d
#t&Aa
/das5
N!. d
8aQ+ts
/"&c.5
[0,2) 76
[2,4) 29
[4,6) 18
[6,8) 13
[8,10) 10
[10,12) 8
[12,14) 6
[14,16) 6
[16,18) 5
[18,20) 4
[20,22) 4
[22,24) 4
[24,26) 3
[26,28) 2
[28,30) 2
Y al reducirla a intervalos de un da se tiene la distribucin:
Ti'8! d
#t&Aa
/das5
N!. d
8aQ+ts
/"&c.5
[0,1) 51
[1,2) 25
[2,3) 17
[3,4) 12
[4,5) 10
[5,6) 8
[6,7) 7
[7,8) 6
[8,9) 5
[9,10) 5
[10,11) 4
[11,12) 4
[12,13) 3
[13,14) 3
[14,15) 3
[15,16) 3
[16,17) 3
[17,18) 2
[18,19) 2
[19,20) 2
[20,21) 2
[21,22) 2
[22,23) 2
[23,24) 2
[24,25) 2
[25,26) 1
[26,27) 1
[27,28) 1
[28,29) 1
[29,30) 1
Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad
de que se haga una entrega en un cierto tiempo, por lo que habra que
considerar las frecuencias relativas y, como antes, reducir la amplitud
de los intervalos. Con esto se obtendran las siguientes distribuciones
de frecuencias:
I#t&,al!s d ci#c! das
I#t&,al! "&c. "&c.
&l.
[0,5) 115 0.605
[5,10) 31 0.163
[10,15) 17 0.089
[15,20) 12 0.063
I#t&,al!s d t&s das
I#t&,al! "&c. "&c.
&l.
[0,3) 93 0.489
[3,6) 30 0.158
[6,9) 18 0.095
[9,12) 13 0.068
[20,25) 10 0.053
[25,30) 5 0.026
[12,15) 9 0.047
[15,18) 8 0.042
[18,21) 6 0.032
[21,24) 6 0.032
[24,27) 4 0.021
[27,30) 3 0.016
I#t&,al!s d d!s das
I#t&,al! "&c. "&c.
&l.
[0,2) 76 0.400
[2,4) 29 0.153
[4,6) 18 0.095
[6,8) 13 0.068
[8,10) 10 0.053
[10,12) 8 0.042
[12,14) 6 0.032
[14,16) 6 0.032
I#t&,al! "&c. "&c.
&l.
[16,18) 5 0.026
[18,20) 4 0.021
[20,22) 4 0.021
[22,24) 4 0.021
[24,26) 3 0.016
[26,28) 2 0.011
[28,30) 2 0.011
I#t&,al!s d +# da
I#t&,al! "&c. "&c.
&l.
[0,1) 51 0.268
[1,2) 25 0.132
[2,3) 17 0.089
[3,4) 12 0.063
[4,5) 10 0.053
[5,6) 8 0.042
[6,7) 7 0.037
[7,8) 6 0.032
[8,9) 5 0.026
[9,10) 5 0.026
I#t&,al! "&c. "&c.
&l.
[10,11) 4 0.021
[11,12) 4 0.021
[12,13) 3 0.016
[13,14) 3 0.016
[14,15) 3 0.016
[15,16) 3 0.016
[16,17) 3 0.016
[17,18) 2 0.011
[18,19) 2 0.011
[19,20) 2 0.011
I#t&,al! "&c. "&c.
&l.
[20,21) 2 0.011
[21,22) 2 0.011
[22,23) 2 0.011
[23,24) 2 0.011
[24,25) 2 0.011
[25,26) 1 0.005
[26,27) 1 0.005
[27,28) 1 0.005
[28,29) 1 0.005
[29,30) 1 0.005
Y podramos graficar tal informacin en histogramas para poder ver
cmo se aproximan, si es que ocurre, los valores a una curva
continua:
donde las barras rosas (y la lnea roja) corresponden a los intervalos
de cinco das; las barras y lnea azules, a los intervalos de tres das;
las barras y lnea amarillas, a los intervalos de dos das; y las barras y
lneas verdes, a los intervalos de un da.
Se han incluido de una vez las lneas que unen los puntos medios de
las barras del histograma porque se puede ver que las barras de las
frecuencias relativas se "ac>a8a&&a#" y las lneas graficadas estn tan
separadas del lado izquierdo (en este caso) que no se puede hablar
de una aproximacin continua a una sla lnea.
Una posible solucin es utilizando la d#sidad dl i#t&,al!, que se
va a definir como el cociente de la frecuencia relativa entre la amplitud
del intervalo:
(De hecho, existe la funcin de densidad de una distribucin de
probabilidad, de donde se deriva esta definicin de densidad del
intervalo.)
De esta manera, a las distribuciones de frecuencias anteriores se les
puede aadir la columna correspondiente a la densidad:
Intervalos de cinco das
I#t&,al! "&c. "&c.
&l.
d#sidad
[0,5) 115 0.605 0.121
[5,10) 31 0.163 0.033
[10,15) 17 0.089 0.018
[15,20) 12 0.063 0.013
[20,25) 10 0.053 0.011
[25,30) 5 0.026 0.005
Intervalos de tres das
I#t&,al! "&c. "&c.
&l.
d#sidad
[0,3) 93 0.489 0.163
[3,6) 30 0.158 0.053
[6,9) 18 0.095 0.032
[9,12) 13 0.068 0.023
[12,15) 9 0.047 0.016
[15,18) 8 0.042 0.014
[18,21) 6 0.032 0.011
[21,24) 6 0.032 0.011
[24,27) 4 0.021 0.007
[27,30) 3 0.016 0.005
I#t&,al!s d d!s das
I#t&,al! "&c. "&c.
&l.
d#sidad
[0,2) 76 0.400 0.200
[2,4) 29 0.153 0.076
[4,6) 18 0.095 0.047
I#t&,al! "&c. "&c.
&l.
d#sidad
[16,18) 5 0.026 0.013
[18,20) 4 0.021 0.011
[20,22) 4 0.021 0.011
[6,8) 13 0.068 0.034
[8,10) 10 0.053 0.026
[10,12) 8 0.042 0.021
[12,14) 6 0.032 0.016
[14,16) 6 0.032 0.016
[22,24) 4 0.021 0.011
[24,26) 3 0.016 0.008
[26,28) 2 0.011 0.005
[28,30) 2 0.011 0.005
I#t&,al!s d +# da
I#t&,al! "&c. "&c.
&l.
d#sidad
[0,1) 51 0.268 0.268
[1,2) 25 0.132 0.132
[2,3) 17 0.089 0.089
[3,4) 12 0.063 0.063
[4,5) 10 0.053 0.053
[5,6) 8 0.042 0.042
[6,7) 7 0.037 0.037
[7,8) 6 0.032 0.032
[8,9) 5 0.026 0.026
[9,10) 5 0.026 0.026
I#t&,al! "&c. "&c.
&l.
d#sidad
[10,11) 4 0.021 0.021
[11,12) 4 0.021 0.021
[12,13) 3 0.016 0.016
[13,14) 3 0.016 0.016
[14,15) 3 0.016 0.016
[15,16) 3 0.016 0.016
[16,17) 3 0.016 0.016
[17,18) 2 0.011 0.011
[18,19) 2 0.011 0.011
[19,20) 2 0.011 0.011
I#t&,al! "&c. "&c.
&l.
d#sidad
[20,21) 2 0.011 0.011
[21,22) 2 0.011 0.011
[22,23) 2 0.011 0.011
[23,24) 2 0.011 0.011
[24,25) 2 0.011 0.011
[25,26) 1 0.005 0.005
[26,27) 1 0.005 0.005
[27,28) 1 0.005 0.005
[28,29) 1 0.005 0.005
[29,30) 1 0.005 0.005
y realizar los histogramas correspondientes, que quedan como sigue:
donde las barras rosas, y la lnea roja, corresponden a los intervalos
de cinco das; las barras y lnea verdes, a los intervalos de tres das;
las barra y lnea amarillas, a los intervalos de dos das; y las barras y
lnea azules, a los intervalos de un da.
gual que en el caso anterior, se han graficado simultneamente las
barras y las lneas que unen los puntos medios de stas para observar
que con la densidad s se aproximan los histogramas a una lnea
continua (que la mejor aproximacin presentada es la lnea azul)
cuando los intervalos se reducen continuamente.
El resultado es una lnea continua que es la grfica de una cierta
funcin denominada "+#ci$# d d#sidad d la dist&i*+ci$#
8&!*a*ilstica.
Ahora, considerando la manera en que se defini la densidad de un
intervalo como:
y recordando que la frecuencia relativa es la probabilidad de un evento
(en el ejemplo de la mensajera sera la probabilidad de entregar un
paquete dentro de un intervalo dado de tiempo):
Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta
segunda expresin obtenemos que
probabilidad del evento = (densidad del intervalo) (amplitud del
intervalo)
Es decir, que la probabilidad de que ocurra un evento corresponde al
rea de las barras del histograma hecho tomando en cuenta la
densidad de los intervalos; y que cuando tales intervalos tienen una
amplitud que tiende a cero, y la grfica se convierte en la curva
continua de la funcin de densidad, entonces la probabillidad de que
un evento ocurra en un intervalo (a,b) es el rea bajo la curva de la
funcin en ese intervalo:
y, por tanto, el clculo de tal probabilidad se realiza utilizando clculo
integral:
donde (x) es la funcin de densidad de la distribucin probabilstica
correspondiente.
Hay que estar conscientes de que en el caso de las variables
continuas slo se puede calcular la probabilidad de que un evento
caiga dentro de un intervalo, debido a que la exactitud de los
instrumentos de medicin siempre es relativa y muy lejana a la
"exactitud" de los clculos matemticos.
Por esto, la probabilidad de que la variable aleatoria tome un valor
exacto es nula:
Esto se puede explicar de la siguiente manera: si, como ya dijimos, la
probabilidad (frecuencia relativa) es igual a la densidad del intervalo
por la amplitud del intervalo, entonces no importa qu tan grande sea
la densidad de tal intervalo porque, como ya tambin se dijo, por ser
variable continua la amplitud del intervalo tiende a cero y, por tanto, la
probabilidad es igual a cero.
M!dl!s d dist&i*+ci$# d 8&!*a*ilidad d ,a&ia*ls c!#ti#+as
Al igual que en el caso de las distribuciones de probabilidad de
variables discreta, en el caso de las distribuciones de probabilidad de
variables continuas se tienen varios modelos tericos que en seguida
presentamos.
A la derecha de cada modelo aparece la funcin de densidad
correspondiente a cada modelo.
U#i"!&'. Es la distribucin en
donde todos los eventos tienen la
misma probabilidad.
E98!##cial. Se utiliza para
estudiar el tiempo entre dos
sucesos. La funcin de Excel que le
corresponde es DSTR.EXP.
Bta. Sirve para el estudio de
variaciones, a travs de varias
muestras, de un porcentaje que
representa algn fenmeno. La
funcin DSTR.BETA del Excel sirve
para obtener sus valores; y la
funcin DSTR.BETA.NV
proporciona los valores inversos de
la funcin, es decir, se utiliza como
parmetro la imagen de la funcin y
regresa la variable independiente.
Ga''a. Se utiliza para estudiar
variables cuya distribucin puede ser
asimtrica. La funcin de Excel que
le corresponde es DSTR.GAMMA; y
la funcin DSTR.GAMMA.NV es la
inversa de la anterior.
<i c+ad&ada / R5. Es una
distribucin asociada a la prueba ,
y se usa para comparar los valores
observados con los esperados. La
funcin DSTR.CH de Excel sirve
para este caso.
N!&'al. Es la distribucin ms
utilizada porque la mayora de las
variables utilizadas en fenmenos
sociales se distribuyen
aproximadamente siguiendo este
modelo. Es la que tocaremos a
continuacin y se le llama
comnmente dist&i*+ci$# #!&'al.
La distribucin Normal
La curva de la distribucin normal puede ser modelada utilizando la
funcin
donde y o son los parmetros y corresponden a la media y a la
desviacin estndar, respectivamente, cuyos valores permitidos son
todos los reales, para o son los reales positivos y el dominio de es el
conjunto de los nmeros reales.
Dado que para variables continuas la probabilidad de que x tome un
valor en el intervalo (a,b) es el rea bajo la curva limitado por rectas
verticales que pasan por a y b, entonces se puede encontrar la
probabilidad en un intervalo integrando:
aunque resulta ms cmodo el uso de las tablas que casi todos los
libros y formularios proveen.
Sin embargo, las tablas de los libros corresponden a la distribucin
normal con =0 y o=1, por lo que en casos en que los parmetros
sean diferentes, entonces hay que realizar una transformacin.
)&!8idads d la c+&,a d dist&i*+ci$# #!&'al
Las propiedades de la curva son bsicamente seis, y su demostracin
est basada en conceptos de clculo:
1. Los valores de la curva son positivos
2. La curva es simtrica con respecto al valor de la media, tiene
una nica moda que coincide con la media y la mediana.
Segn esto, para este tipo de variables existe una
probabilidad de un 50% de observar un dato mayor que la
media, y un 50% de observar un dato menor.
3. La curva tiene un valor mximo en el valor de la media
4. La distancia entre la lnea trazada en la media y el punto de
inflexin de la curva es igual a una desviacin tpica ( ).
Cuanto mayor sea , ms aplanada ser la curva de la
densidad.
5. La curva, en sus extremos izquierdo y derecho, tiende a
acercarse infinitamente al valor cero, es decir, el eje de las
abscisas es asntota horizontal. Por ello, cualquier valor entre
y es tericamente posible.
6. El rea bajo la curva es la unidad
7. El rea bajo la curva comprendida entre los valores situados
aproximadamente a dos desviaciones estndar de la media
es igual a 0.95. En concreto, existe un 95% de posibilidades
de observar un valor comprendido en el intervalo
.
8. La forma de la campana de Gauss depende de los
parmetros y o. La media indica la posicin de la campana,
de modo que para diferentes valores de la grfica es
desplazada a lo largo del eje horizontal. Por otra parte, la
desviacin estndar determina el grado de apuntamiento de la
curva. Cuanto mayor sea el valor de o, ms se dispersarn
los datos en torno a la media y la curva ser ms plana. Un
valor pequeo de este parmetro indica, por tanto, una gran
probabilidad de obtener datos cercanos al valor medio de la
distribucin.
)n*lisis de las Propiedades de la curva de distribucin normal
Sea
1. Los valores de la curva son positivos: (x)>0.
Se puede verificar fcilmente esta propiedad, pues ninguno de los dos
factores que componen la regla de correspondencia pueden tomar
como valor el cero o negativos.
1. La curva es simtrica con respecto al valor de la media: Realizando
la sustitucin:
3. La curva tiene un valor mximo en el valor de la media
Calculando la derivada de (x) e igualando a cero para resolver:
existe un punto crtico en x=.
Calculando la derivada de segundo orden y sustituyendo en el
punto crtico tenemos que:
se tiene que en este punto la funcin tiene un mximo.
:. La curva tiene puntos de inflexin en aquellos valores de x para los
cuales a la media se le suma o se le resta una desviacin estndar, es
decir, en x = + o.
Calculando la derivada de segundo orden, igualando a cero y
resolviendo para x, se tiene:
la funcin tiene puntos de inflexin
?. La curva, en sus extremos izquierdo y derecho, tiende a acercarse
infinitamente al valor cero, es decir, el eje de las abscisas es asntota
horizontal. Esto quiere decir que .
K. El rea bajo la curva es la unidad, es decir, la integral
tiene valor igual a la unidad.
Considerando , entonces . Resolviendo la
integral:
Sea y=r sen0 y !=r cos0, entonces haciendo sustitucin
trigonomtrica:
7. PENDENTE
8. Como se deduce de este ltimo apartado, no existe una nica
distribucin normal, sino una familia de distribuciones con una forma
comn, diferenciadas por los valores de su media y su varianza. De
entre todas ellas, la ms utilizada es la dist&i*+ci$# #!&'al st@#da&,
que corresponde a una distribucin de media 0 y varianza 1. As, la
expresin que define su densidad es:
Es importante conocer que, a partir de cualquier variable X que siga
una distribucin , se puede obtener otra caracterstica " con
una distribucin normal estndar, sin ms que efectuar la
transformacin:
Esta propiedad resulta especialmente interesante en la prctica, ya
que para una distribucin N (0, 1) existen tablas publicadas a partir de
las que se puede obtener de modo sencillo la probabilidad de observar
un dato menor o igual a un cierto valor z, y que permitirn resolver
preguntas de probabilidad acerca del comportamiento de variables de
las que se sabe o se asume que siguen una distribucin
aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que
se sabe que el peso de los sujetos de una determinada poblacin
sigue una distribucin aproximadamente normal, con una media de 80
Kg y una desviacin estndar de 10 Kg. Podremos saber cul es la
probabilidad de que una persona, elegida al azar, tenga un peso
superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos
en esa poblacin, sta sigue una distribucin N (80, 10). Si su
distribucin fuese la de una normal estndar podramos utilizar la tabla
para calcular la probabilidad que nos interesa. Como ste no es el
caso, resultar entonces til transformar esta caracterstica segn la
ecuacin y obtener la variable:
para poder utilizar dicha tabla. As, la probabilidad que se desea
calcular ser:
Como el rea total bajo la curva es igual a 1, se puede deducir que:
Esta ltima probabilidad puede ser fcilmente obtenida a partir de la
tabla resultando ser P(Z > 2) = 0.9772; por lo tanto, la probabilidad
buscada de que una persona elegida aleatoriamente de esa poblacin
tenga un peso mayor de 100 Kg , es de 1 0.9772 = 0.0228, es decir,
aproximadamente de un 2.3%.
De modo anlogo, podemos obtener la probabilidad de que el peso de
un sujeto est entre 60 y 100 Kg:
De la siguiente figura:
tomando a=-2 y b=2, podemos deducir que:
Por el ejemplo previo, se sabe que P(Z > 2) = 0.9772 . Para la
segunda probabilidad, sin embargo, encontramos el problema de que
las tablas estndar no proporcionan el valor de P(Z > 2) para valores
negativos de la variable. Sin embargo, haciendo uso de la simetra de
la distribucin normal, se tiene que:
Finalmente, la probabilidad buscada de que una persona elegida al
azar tenga un peso entre 60 y 100 Kg., es 0.9772 0.0228 = 0.9544,
es decir, aproximadamente de un 95%. Resulta interesante
comprobar que se obtendra la misma conclusin recurriendo a la
propiedad de la distribucin normal.
No obstante, es fcil observar que este tipo de situaciones no
corresponde a lo que habitualmente nos encontramos en la prctica.
Generalmente no se dispone de informacin acerca de la distribucin
terica de la poblacin, sino que ms bien el problema se plantea a la
inversa: a partir de una muestra extrada al azar de la poblacin que
se desea estudiar, se realizan una serie de mediciones y se desea
extrapolar los resultados obtenidos a la poblacin de origen. En un
ejemplo similar al anterior, supongamos que se dispone del peso de
n=100 individuos de esa misma poblacin, obtenindose una media
muestral de Kg, y una desviacin estndar muestral S = 12
Kg, querramos extraer alguna conclusin acerca del valor medio real
de ese peso en la poblacin original. La solucin a este tipo de
cuestiones se basa en un resultado elemental de la teora estadstica,
el llamado teorema central del lmite. Dicho axioma viene a decirnos
que las medias de muestras aleatorias de cualquier variable siguen
ellas mismas una distribucin normal con igual media que la de la
poblacin y desviacin estndar la de la poblacin dividida por .
En nuestro caso, podremos entonces considerar la media muestral
, con lo cual, a partir de la propiedad se conoce
que aproximadamente un 95% de los posibles valores de caeran
dentro del intervalo . Puesto que los valores de y
son desconocidos, podramos pensar en aproximarlos por sus
anlogos muestrales, resultando .
Estaremos, por lo tanto, un 95% seguros de que el peso medio real en
la poblacin de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque la
teora estadstica subyacente es mucho ms compleja, en lneas
generales ste es el modo de construir un intervalo de confianza para
la media de una poblacin.
#ontrastes de Normalidad
La verificacin de la hiptesis de normalidad resulta esencial para
poder aplicar muchos de los procedimientos estadsticos que
habitualmente se manejan. Tal y como ya se apuntaba antes, la
simple exploracin visual de los datos observados mediante, por
ejemplo, un histograma o un diagrama de cajas, podr ayudarnos a
decidir si es razonable o no el considerar que proceden de una
caracterstica de distribucin normal.
Resulta obvio que este tipo de estudio no puede llevarnos sino a
obtener una opinin meramente subjetiva acerca de la posible
distribucin de nuestros datos, y que es necesario disponer de otros
mtodos ms rigurosos para contrastar este tipo de hiptesis. En
primer lugar, deberemos plantearnos el saber si los datos se
distribuyen de una forma simtrica con respecto a su media o
presentan algn grado de asimetra, pues es sta una de las
caractersticas fundamentales de la distribucin de Gauss. Aunque la
simetra de la distribucin pueda valorarse, de modo simple,
atendiendo a algunas medidas descriptivas de la variable en cuestin
8
(comparando, por ejemplo, los valores de media, mediana y moda),
resultar til disponer de algn ndice que nos permita cuantificar
cualquier desviacin. Si se dispone de una muestra de tamao n,
de una caracterstica X, se define el c!"ici#t d
asi't&a d Fis>& como:
a partir del cual podemos considerar que una distribucin es simtrica
( =0), asimtrica hacia la izquierda ( <0) o hacia la derecha ( >0).
En segundo lugar, podemos preguntarnos si la curva es ms o menos
"aplastada", en relacin con el grado de apuntamiento de una
distribucin gaussiana. El c!"ici#t d a8lasta'i#t! ! c+&t!sis
d Fis>&, dado por:
permite clasificar una distribucin de frecuencias en mesocrtica (tan
aplanada como una normal, ), leptocrtica (ms apuntada que
una normal, ) o platicrtica (ms aplanada que una normal,
).
Siguiendo con los ejemplos anteriores, y tal y como caba esperar, el
coeficiente de asimetra toma un valor mayor para la distribucin de la
edad ( ) que para el peso observado ( ). En cuanto
a los niveles de curtosis, no hay apenas diferencias, siendo de 0.320
para el peso y de 0.366 para la edad.
Los A&@"ic!s d 8&!*a*ilidad #!&'al constituyen otra importante
herramienta grfica para comprobar si un conjunto de datos puede
considerarse o no procedente de una distribucin normal. La idea
bsica consiste en enfrentar, en un mismo grfico, los datos que han
sido observados frente a los datos tericos que se obtendran de una
distribucin gaussiana. Si la distribucin de la variable coincide con la
normal, los puntos se concentrarn en torno a una lnea recta, aunque
conviene tener en cuenta que siempre tender a observarse mayor
variabilidad en los extremos. En los A&@"ic!s )4) se confrontan las
proporciones acumuladas de una variable con las de una distribucin
normal. Los A&@"ic!s O4O se obtienen de modo anlogo, esta vez
representando los cuantiles respecto a los cuantiles de la distribucin
normal. Adems de permitir valorar la desviacin de la normalidad, los
grficos de probabilidad permiten conocer la causa de esa desviacin.
Una curva en forma de "U" o con alguna curvatura, significa que la
distribucin es asimtrica con respecto a la gaussiana, mientras que
un grfico en forma de "S" significar que la distribucin tiene colas
mayores o menores que la normal, esto es, que existen pocas o
demasiadas observaciones en las colas de la distribucin.
Parece lgico que cada uno de estos mtodos se complemente con
procedimientos de anlisis que cuantifiquen de un modo ms exacto
las desviaciones de la distribucin normal. Existen distintos tests
estadsticos que podemos utilizar para este propsito. El tst d
3!l'!A!&!,4S'i&#!, es el ms extendido en la prctica. Se basa en
la idea de comparar la funcin de distribucin acumulada de los datos
observados con la de una distribucin normal, midiendo la mxima
distancia entre ambas curvas. Como en cualquier test de hiptesis, la
hiptesis nula se rechaza cuando el valor del estadstico supera un
cierto valor crtico que se obtiene de una tabla de probabilidad. Dado
que en la mayora de los paquetes estadsticos, como el SPSS,
aparece programado dicho procedimiento, y proporciona tanto el valor
del test como el p-valor correspondiente, no nos detendremos ms en
explicar su clculo. Existen modificaciones de este test, como el de
Anderson-Darling que tambin pueden ser utilizados. Otro
procedimiento muy extendido es tambin el test chi-cuadrado de
bondad de ajuste. No obstante, este tipo de procedimientos deben ser
utilizados con precaucin. Cuando se dispone de un nmero
suficiente de datos, cualquier test ser capaz de detectar diferencias
pequeas an cuando estas no sean relevantes para la mayor parte
de los propsitos. El test de Kolmogorov-Smirnov, en este sentido,
otorga un peso menor a las observaciones extremas y por la tanto es
menos sensible a las desviaciones que normalmente se producen en
estos tramos.

You might also like