Professional Documents
Culture Documents
1. Medidas de Centralización
Entre las medidas caracterı́sticas de una distribución destacan las llamadas medidas de
centralización, que nos indicarán el valor promedio de los datos, o en torno a qué valor se
distribuyen éstos.
k
1 X
x̄ = xi n i , (2)
N i=1
Una propiedad importante de la media aritmética es que la suma de las desviaciones de un con-
junto de datos respecto a su media es cero. Es decir, la media equilibra las desviaciones positivas
y negativas respecto a su valor [1], además, ésta es bastante dependiente de las observaciones
extremas.
*
e-mail: john.mateus@uptc.edu.co
1
1.2. Medias Geométrica, Armónica y Cuadrática
Siguiendo con una muestra de tamaño N , la media geométrica se define como:
√
x̄G = N x1 x2 · · · xN . (4)
Esta medida presenta problemas si alguno de los datos es nulo o negativo. El logaritmo de la
media geométrica es la media aritmética del logaritmo de los datos.
La media armónica xA se define como la inversa de la media artimética de las inversas de
los valores de la variable, es decir:
N
x̄A = PN , (6)
i=1 (1/xi )
N
x̄A = Pk . (7)
i=1 (ni /xi )
1.3. Mediana
La mediana de un conjunto de datos es la medida de tendencia central que implica el
valor intermedio, cuando los valores de los datos originales se presentan en orden de magnitud
creciente (o decreciente) [2]. La mediana suele de denotarse con x̃ (y se lee “x con tilde”).
Para calcular la mediana, primero se ordenan los valores (se acomodan en orden) y luego se
sigue uno de los siguientes dos procedimientos:
1. Si el número de valores es impar, la mediana es el número que se localiza exactamente a
la mitad de la lista.
En el caso de que tengamos una variable discreta con valores repetidos sobre la cual hemos
elaborado una tabla de frecuencias se calcula en primer lugar el número de observaciones N
dividido entre 2. Podemos distinguir entonces dos casos. El primero de ellos es cuando dicho
valor N/2 coincide con la frecuencia absoluta acumulada Nj de un valor xj de la variable (o,
lo que es lo mismo, cuando la frecuencia relativa acumulada es Fj = 0,5) [1]. En este caso
la mediana se ha de situar entre este valor de la variable y el siguiente ya que de esta forma
dividirá la distribución de frecuencias en 2. Es decir, se calcula como la media aritmética de
dicho valor de la variable y su superior:
xj + xj+1
x̃ = . (11)
2
Si N/2 no coincidiese con ningún valor de la columna de frecuencias acumuladas (como suele
ocurrir) la mediana serı́a el primer valor de xj con frecuencia absoluta acumulada Nj mayor que
N/2, ya que el valor central de la distribución corresponderı́a a una de las medidas englobadas
en ese xj .
Supongamos ahora que tenemos una muestra de una variable continua cuyos valores están
agrupados en intervalos de clase. En este caso pueden ocurrir dos situaciones. En primer lugar, si
N/2 coincide con la frecuencia absoluta acumulada Nj de un intervalo (aj , aj+1 ) (con marca de
clase cj ), la mediana será sencillamente el extremo superior aj+1 de ese intervalo. En el caso ge-
neral de que ninguna frecuencia absoluta acumulada coincida con N/2 será necesario interpolar
en el polı́gono de frecuencias acumuladas. Supongamos que el valor N/2 se encuentra entre las
frecuencias Nj−1 y Nj , correspondientes a los intervalos (aj−1 , aj ) y (aj , aj+1 ) respectivamente,
la mediana se situará en algún lugar del intervalo superior (aj , aj+1 ).
aj+1 − aj x̃ − aj
= , (12)
Nj − Nj−1 N/2 − Nj−1
N/2 − Nj − 1
x̃ = aj + (aj+1 − aj ) . (13)
nj
1.4. Moda
La moda de un conjunto de datos es el valor que se presenta con mayor frecuencia [2].
? Cuando dos valores se presentan con la misma frecuencia y ésta es la más alta, ambos
valores son modas, por lo que el conjunto de datos es bimodal.
? Cuando más de dos valores se presentan con la misma frecuencia y ésta es la más alta,
todos los valores son modas, por lo que el conjunto de datos es multimodal.
2. Medidas de Dispersión
Para analizar la representatividad de las medidas de centralización se definen las llamadas
medidas de dispersión [1]. Estas nos indicarán la variabilidad de los datos en torno a su valor
promedio, es decir si se encuentran muy o poco esparcidos en torno a su centro.
A efectos prácticos, la varianza se puede transformar en otra expresión más fácil de aplicar:
k
!
1 X
s2 = x2 ni − N x̄2 . (18)
N − 1 i=1 i
Partición en Intervalos
Regla de Sturges: En estadı́stica descriptiva esta regla es muy utilizada cuando se quiere
realizar un histograma de frecuencias ya que con esta regla se calcula el número de clases (o
intervalos) necesarios para representar fielmente los datos:
k = 1 + log2 (N ) . (20)
Sturges consideró un histograma de frecuencias ideal con k intervalos, donde el i−ésimo intervalo
contiene un número de muestras dado por el coeficiente binomial k−1
i
. Por el Teorema Central
del Lı́mite sabemos que cuando k aumente el histograma de frecuencias se aproximará a la
distribución Normal. Podemos calcular el número de muestras de todos los intervalos, ya que
[3]:
k−1
X k−1
N= = (1 + 1)k−1 = 2k−1 . (21)
i=0
i
Si aplicamos logaritmos:
log2 (N ) = k − 1 , (22)
k = 1 + log2 (N ) , (23)
2. Redondear los números (en el caso de que no lo estén) hasta tengan las cifran que quera-
mos. Por ejemplo, si tenemos el número 3,62856 y queremos que tenga 2 dı́gitos la parte
decimal, lo redondeamos a 3,63.
3. Dibujar una tabla con dos columnas, la primera columna para el tallo y la segunda para
las hojas. Disponer todos los tallos en la primera columna en orden descendente. Cada
tallo solo se escribe una vez.
4. Registrar en la segunda columna todas las hojas, en orden creciente, junto al tallo corres-
pondiente.
Referencias
[1] Gorgas, J.; Cardiel, N.; Zamorano, J.; Estadı́stica Básica para Estudiantes de Ciencias,
Dpto. de Astrofı́sica y Ciencias de la Atmósfera, Facultad de Ciencias Fı́sicas, Universidad
Complutense de Madrid, 2009.
[2] Triola, M., F.; Estadı́stica, 10-Ed., Pearson Ed., México, 2009.
[3] https://fdesnedecor.wordpress.com/2014/08/05/regla-de-sturges/ Visitada el 10 de Agos-
to de 2017.