Professional Documents
Culture Documents
Es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar su uso
generalmente con el apoyo de tablas, medidas numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de
centralización y de dispersión que describen el conjunto estudiado. Por ejemplo, edad de una población, altura de los estudiantes de
una escuela, temperatura en los meses de verano, etc.)
DATOS AGRUPADOS
Los datos agrupados son como lo indica su nombre, una cantidad dada de datos que puede clasificarse, ya sea por sus cualidades
cualitativas o cuantitativas, y por tal agruparse para su análisis.
Estos datos por lo general son aconsejable agruparles cuando su población cuenta con alrededor de 20 o más elementos que
comparten una característica y caben dentro de una categorización (repeticiones de un valor), pues permite un mejor manejo y
análisis más profundo de los mismos. Porque al emplear este método podemos manejarlos por clases (una clase es una categoría en
la que se agrupan los datos).
Por lo cual pueden organizarse o clasificarse de dos formas: datos agrupados en frecuencia o en intervalos.
Los datos agrupados en frecuencia son los que se distribuyen u organizan en una tabla de frecuencia (La frecuencia es igual al
número de veces en que se repite cada valor en una serie de datos.), así, Por medio de ella, es fácil identificar la cantidad de
respuestas repetidas. Los datos agrupados por intervalos son los que se organizan dentro de un rango y se delimita su amplitud por
límites establecidos. Así, por medio de esta, es fácil identificar la cantidad de elementos en un determinado rango de valores.
Edad..........Frecuencia
1..................2
2..................4
3..................7
4..................4
5..................2
6..................1
Total............20
Agrupación en intervalos, por ejemplo, de 2 años para este caso.
Edad..........Frecuencia
1-2...............6
3-4...............11
5-6...............3
Total.............20
DATOS NO AGRUPADOS
Los datos no agrupados son el conjunto de datos que no se ha clasificado y se es presentada en su forma de aparición en una tabla
de datos donde cada valor se representa de forma individual. Por lo general este conjunto comprende una cantidad de elementos
menor a 30 (n<30) con poca o nula repetición.
El tratamiento de estos datos sin agrupar. El manejo de estos datos es simple, se recolectan los datos de la población de estudio y
dichos datos se distribuyen en una tabla de datos y se analizan sin necesidad de formar clases con ellos. Estos datos al distribuirse
en tabla de frecuencia donde cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado.
Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y así como te dan la edad así la
anotas)
2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6 (Total 20 niños)
Estos son datos no agrupados por qué no los has clasificado y contado.
1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,6 (Total 20 niños)
Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni
clasificados solamente están ordenados.
La media aritmética
También se llama promedio o media, es la medida de tendencia central más conocida y usada en la práctica, por su sencillez de
cálculo y es el fundamento de un gran número de técnicas estadísticas. Indica la tendencia general de una distribución de frecuencias
de una variable y es el valor central de las observaciones “centro de gravedad”. Sin embargo se limita para calcular variables
cuantitativas.
La mediana
Es el índice empleado cuando la distribución es asimétrica y no es posible aplicar la media aritmética. La mediana no se ve afectada
por los valores extremos que en su cálculo ocupan las posiciones centrales. Por lo tanto, la mediana es un valor apropiado para
representar la tendencia central de la distribución y se puede obtener todo tipo de variables excepto en variables cualitativas.
La mediana de una variable X, representada por Md, se define como el valor de la variable que divide la distribución de frecuencias en
dos partes iguales, conteniendo cada una el 50% de las observaciones.
La moda
La moda es otro índice de tendencia central que se puede obtener tanto en variables cualitativas como en cuantitativas. Se representa
por Mo, y se define como el valor o categoría de la variable con mayor frecuencia absoluta.
Si se da en una variable cuantitativa con los datos no agrupados en intervalos, la moda es el valor con la mayor frecuencia absoluta.
Si se da en una distribución de una variable cuantitativa en intervalos, se localiza el intervalo modal que es el intervalo con la
frecuencia máxima y la moda es el medio de dicho intervalo.
Una frecuencia es unimodal cuando existe un único valor con la frecuencia máxima. Si presenta varios valores con la frecuencia más
alta, ésta será bimodal, trimodal, ...
2. MEDIDAS DE DISPERSION
La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de puntuaciones. Por ejemplo: “entre dos
distribuciones que presentan la misma media aritmética, difieren en la variabilidad de sus puntuaciones”. Así, cuanto menor es la
variabilidad, más homogénea es la muestra de sujetos en la variable. En el caso de máxima homogeneidad, todos los valores de la
variable serán iguales. De otro modo, cuanto más o menos dispersión en los datos, la muestra es más o menos heterogénea y las
puntuaciones difieren entre sí.
Para cuantificar la dispersión de los datos, se pueden distinguir dos tipos de índices: los que miden el grado de semejanza y diferencia
de las puntuaciones entre sí (amplitud total o rango y la amplitud semi-intercuartil), y los que la dispersión se mide a alguna medida de
tendencia central como la media aritmética (varianza y la desviación típica).
Coeficiente de variación
Es frecuente que uno de los objetivos del análisis descriptivo de los datos sea la comparación del grado de variabilidad o dispersión
entre dos conjuntos de puntuaciones en una misma o distintas variables. Debido a que, por lo general, las variables objeto de estudio
se miden en unidades distintas no tiene sentido compararlas en base a los valores de sus varianzas o desviaciones típicas. Para
paliar este inconveniente es necesario definir un índice de variabilidad relativa que no dependa de las unidades de medida. Un
coeficiente que cumple con estos requisitos es el coeficiente de variación, que se expresa en porcentajes:
CV = (Sx / X) × 100
El coeficiente de variación está definido para variables con X > 0 y es recomendable que su resultado se acompañe de la media y
desviación típica de la distribución a partir de las cuales ha sido calculado.
Cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, también es necesario el coeficiente de variación
para comparar la dispersión de ambas distribuciones. Únicamente es posible utilizar la desviación típica cuando la media de ambos
grupos es la misma, y entonces, llegaríamos a las mismas conclusiones con ambos índices.
Coeficiente de Sesgo
Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la
media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la
izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo
negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda,
en símbolos
Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.
Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la
media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de
Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es
simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos Md=Mo
Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media
aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la
derecha una cola más larga que a la izquierda.
También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmética es mayor
que la mediana y éste a valor de la mediana a su vez es mayor que la moda, en símbolos
Coeficiente de Karl Pearson
3. MEDIDAS DE POSICIÓN
Las medidas o índices de posición, también llamados cuartiles, informan acerca de la posición relativa de un sujeto con respecto a su
grupo de referencia, dentro de la distribución de frecuencias de la variable. Para ello debemos dividir la distribución en un número de
partes o secciones iguales entre sí en cuanto al número de observaciones. Trataremos tres medidas de posición o cuantiles: los
percentiles, los cuartiles y los deciles.
Percentiles
Los también llamados centiles, son los 99 valores de la variable que dividen en 100 la distribución de frecuencias. Representado por
Pk , es un valor de la variable de interés que deja por debajo de sí un porcentaje k de sujetos, donde k = 1,2....99
El cálculo de los percentiles se realiza utilizando una extensión del método expuesto para la mediana. La diferencia está en que para
la mediana se trata de localizar la posición de n/2; mientras los percentiles se hace en base al número n×k/100. Este número es igual
a n/2 cundo calculamos el percentil 50, entonces si k = 50; n×50/100 = n/2.
Al igual que con la mediana, cuando en la distribución de frecuencias los datos no están en intervalos, se aplica I = 1.
Sin embargo lo que queremos calcular es qué percentil ocupa un valor X debemos de despejar k i para Xi.
A veces el resultado puede darnos un valor con decimales; en este caso, tomamos la cantidad entera más próxima.
Cuartiles y deciles
Los cuartiles y deciles son medidas de posición en las que las secciones son muchas menos que en los percentiles.
Los cuartiles son tres valores de la distribución que se dividen en cuatro partes. El primer cuartil se representa por Q1 , deja por
debajo de sí el 25%, correspondiendo con el percentil 25. El segundo cuartil Q2 , deja por debajo el 50%, equivalente al percentil 50 y
a la mediana de la distribución. El tercero Q3 , deja por debajo de sí el 75%, equivalente al percentil 75.
Para calcular los cuartiles emplearemos las mismas fórmulas que para los percentiles en su equivalencia.
Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se representa por Di , donde i = 1,2,...9.
El primer decil, deja por debajo de sí al 10% de los sujetos, el segundo el 20% y así hasta el 90%; pudiendo emplear nuevamente los
percentiles correspondientes para su cálculo.