Estadistica Descriptiva Conceptos

ESTADISTICA DESCRIPTIVA
Es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar su uso
generalmente con el apoyo de tablas, medidas numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de
centralización y de dispersión que describen el conjunto estudiado. Por ejemplo, edad de una población, altura de los estudiantes de
una escuela, temperatura en los meses de verano, etc.)
DATOS AGRUPADOS
Los datos agrupados son como lo indica su nombre, una cantidad dada de datos que puede clasificarse, ya sea por sus cualidades
cualitativas o cuantitativas, y por tal agruparse para su análisis.
Estos datos por lo general son aconsejable agruparles cuando su población cuenta con alrededor de 20 o más elementos que
comparten una característica y caben dentro de una categorización (repeticiones de un valor), pues permite un mejor manejo y
análisis más profundo de los mismos. Porque al emplear este método podemos manejarlos por clases (una clase es una categoría en
la que se agrupan los datos).
Por lo cual pueden organizarse o clasificarse de dos formas: datos agrupados en frecuencia o en intervalos.
Los datos agrupados en frecuencia son los que se distribuyen u organizan en una tabla de frecuencia (La frecuencia es igual al
número de veces en que se repite cada valor en una serie de datos.), así, Por medio de ella, es fácil identificar la cantidad de
respuestas repetidas. Los datos agrupados por intervalos son los que se organizan dentro de un rango y se delimita su amplitud por
límites establecidos. Así, por medio de esta, es fácil identificar la cantidad de elementos en un determinado rango de valores.
Concluyendo con la distinción de puntos significativos de este tema.

1.- su fin es resumir la información mediante el uso de de tablas que organizan sus elementos y agrupan sus valores para ser
presentados numérica o gráficamente. Esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias o intervalos.
2.- Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de verificarse que
los datos n sean significativos, esto es: que la información sea “repetitiva”, también debemos de verificar que los datos puedan
clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos está pidiendo).
Ejemplo: se busca determinar el número de niños en cada uno de los grados escolares de una primaria, (del 1 al 6 grado), por lo que
se recolectan los datos y se organizan y agrupan en una tabla de frecuencias.
Edad..........Frecuencia
1..................2
2..................4
3..................7
4..................4
5..................2
6..................1
Total............20
Agrupación en intervalos, por ejemplo, de 2 años para este caso.
Edad..........Frecuencia
1-2...............6
3-4...............11
5-6...............3
Total.............20
DATOS NO AGRUPADOS
Los datos no agrupados son el conjunto de datos que no se ha clasificado y se es presentada en su forma de aparición en una tabla
de datos donde cada valor se representa de forma individual. Por lo general este conjunto comprende una cantidad de elementos
menor a 30 (n<30) con poca o nula repetición.
El tratamiento de estos datos sin agrupar. El manejo de estos datos es simple, se recolectan los datos de la población de estudio y
dichos datos se distribuyen en una tabla de datos y se analizan sin necesidad de formar clases con ellos. Estos datos al distribuirse
en tabla de frecuencia donde cada dato mantiene su propia identidad después que la distribución de frecuencia se ha elaborado.
Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y así como te dan la edad así la
anotas)
2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6 (Total 20 niños)
Estos son datos no agrupados por qué no los has clasificado y contado.
1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,6 (Total 20 niños)
Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni
clasificados solamente están ordenados.
1. MEDIDAS DE TENDENCIA CENTRAL
La media aritmética
También se llama promedio o media, es la medida de tendencia central más conocida y usada en la práctica, por su sencillez de
cálculo y es el fundamento de un gran número de técnicas estadísticas. Indica la tendencia general de una distribución de frecuencias
de una variable y es el valor central de las observaciones “centro de gravedad”. Sin embargo se limita para calcular variables
cuantitativas.
La mediana
Es el índice empleado cuando la distribución es asimétrica y no es posible aplicar la media aritmética. La mediana no se ve afectada
por los valores extremos que en su cálculo ocupan las posiciones centrales. Por lo tanto, la mediana es un valor apropiado para
representar la tendencia central de la distribución y se puede obtener todo tipo de variables excepto en variables cualitativas.
La mediana de una variable X, representada por Md, se define como el valor de la variable que divide la distribución de frecuencias en
dos partes iguales, conteniendo cada una el 50% de las observaciones.
La moda
La moda es otro índice de tendencia central que se puede obtener tanto en variables cualitativas como en cuantitativas. Se representa
por Mo, y se define como el valor o categoría de la variable con mayor frecuencia absoluta.
Si se da en una variable cuantitativa con los datos no agrupados en intervalos, la moda es el valor con la mayor frecuencia absoluta.
Si se da en una distribución de una variable cuantitativa en intervalos, se localiza el intervalo modal que es el intervalo con la
frecuencia máxima y la moda es el medio de dicho intervalo.
Una frecuencia es unimodal cuando existe un único valor con la frecuencia máxima. Si presenta varios valores con la frecuencia más
alta, ésta será bimodal, trimodal, ...
2. MEDIDAS DE DISPERSION
La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de puntuaciones. Por ejemplo: “entre dos
distribuciones que presentan la misma media aritmética, difieren en la variabilidad de sus puntuaciones”. Así, cuanto menor es la
variabilidad, más homogénea es la muestra de sujetos en la variable. En el caso de máxima homogeneidad, todos los valores de la
variable serán iguales. De otro modo, cuanto más o menos dispersión en los datos, la muestra es más o menos heterogénea y las
puntuaciones difieren entre sí.
Para cuantificar la dispersión de los datos, se pueden distinguir dos tipos de índices: los que miden el grado de semejanza y diferencia
de las puntuaciones entre sí (amplitud total o rango y la amplitud semi-intercuartil), y los que la dispersión se mide a alguna medida de
tendencia central como la media aritmética (varianza y la desviación típica).
Amplitud total o rango

La amplitud total o rango (AT), de un conjunto de puntuaciones es la distancia que hay en la escala numérica entre los valores que
representan la puntuación máxima y la puntuación mínima.
Uno de los inconvenientes de la amplitud total es su limitación al utilizar únicamente los valores extremos de la distribución; de esta
forma, no recoge la poca o mucha dispersión que pueda existir entre los restantes valores, que son la mayoría de las puntuaciones.
Aún así se recomienda incluir éste valor como complementario de otras medidas de dispersión.
Varianza y desviación típica

La variabilidad se puede basar en la distancia observada entre las puntuaciones y un valor central de la distribución como la media
aritmética. De modo que, una distribución con poca variabilidad es en la que la mayoría de las puntuaciones están próximas a la
media, mientras que con mucha variabilidad, las puntuaciones se alejan del valor medio de la variable.
Un primer índice podría ser el promedio de las desviaciones o diferencias de cada puntuación con su media.
X¯d = ∑(Xi - X¯) / n
El problema de este índice es que el sumatorio del numerador ∑(Xi - X¯), siempre es igual a cero; para ello se han propuesto
dos soluciones. La primera consiste en calcular el valor absoluto de cada desviación antes de realizar la suma “desviación suma”:
DM = ∑|Xi - X¯| / n
Una segunda alternativa consiste en basarnos en el cuadrado de las diferencias y así obtenemos la varianza que se define de la
siguiente manera:
La varianza de un conjunto de n puntuaciones en una variable X, denotada por Sx2 se define como el promedio de los cuadrados de
las desviaciones de las puntuaciones con respecto a la media:
Sx2 = ∑(Xi - X¯)2 / n
Varianza a partir de una distribución de frecuencias absolutas:
Sx2 = ∑ni(Xi - X¯)2 / n
Varianza a partir de una distribución de frecuencias relativas:
Sx2 = ∑pi Xi2 - X¯2 / n
La desviación típica de un conjunto de n puntuaciones, que se representa por Sx es la raíz cuadrada de la varianza.
Tanto la varianza como la desviación típica son índices de dispersión muy útiles en el desarrollo posterior de la estadística inferencial
estando en la base de numerosas técnicas estadísticas. Ambos índices presentan las siguientes propiedades:
El cálculo de la varianza y la desviación típica, a diferencia de otros índices de dispersión, requieren el uso de todas las puntuaciones
observadas en la distribución.
La varianza y la desviación típica miden la variabilidad de los datos con respecto a la media aritmética, por lo que únicamente deben
aplicarse si estamos utilizando la media como medida de tendencia central.
La varianza y la desviación típica siempre son no negativas, es decir, pueden ser iguales o mayores que cero. Son iguales a cero
únicamente si todas las puntuaciones son iguales entre sí. En este caso, no habría variabilidad o dispersión en los datos. En el resto
de los casos la varianza y la desviación típica son positivas, siendo sus valores mayores a medida que aumenta la variabilidad de las
puntuaciones.
Otro índice de variabilidad relacionado con la varianza es la cuasi varianza:
Sn-12 = ∑(Xi - X¯)2 / n-1
Coeficiente de variación
Es frecuente que uno de los objetivos del análisis descriptivo de los datos sea la comparación del grado de variabilidad o dispersión
entre dos conjuntos de puntuaciones en una misma o distintas variables. Debido a que, por lo general, las variables objeto de estudio
se miden en unidades distintas no tiene sentido compararlas en base a los valores de sus varianzas o desviaciones típicas. Para
paliar este inconveniente es necesario definir un índice de variabilidad relativa que no dependa de las unidades de medida. Un
coeficiente que cumple con estos requisitos es el coeficiente de variación, que se expresa en porcentajes:
CV = (Sx / X) × 100
El coeficiente de variación está definido para variables con X > 0 y es recomendable que su resultado se acompañe de la media y
desviación típica de la distribución a partir de las cuales ha sido calculado.
Cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, también es necesario el coeficiente de variación
para comparar la dispersión de ambas distribuciones. Únicamente es posible utilizar la desviación típica cuando la media de ambos
grupos es la misma, y entonces, llegaríamos a las mismas conclusiones con ambos índices.
Coeficiente de Sesgo
Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la
media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la
izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo
negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda,
en símbolos
Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.
Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la
media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de
Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es
simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos Md=Mo
Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media
aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la
derecha una cola más larga que a la izquierda.
También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmética es mayor
que la mediana y éste a valor de la mediana a su vez es mayor que la moda, en símbolos
Coeficiente de Karl Pearson
Donde: = media aritmética. Md = Mediana. s = desviación típica o estándar.
3. MEDIDAS DE POSICIÓN
Las medidas o índices de posición, también llamados cuartiles, informan acerca de la posición relativa de un sujeto con respecto a su
grupo de referencia, dentro de la distribución de frecuencias de la variable. Para ello debemos dividir la distribución en un número de
partes o secciones iguales entre sí en cuanto al número de observaciones. Trataremos tres medidas de posición o cuantiles: los
percentiles, los cuartiles y los deciles.
Percentiles
Los también llamados centiles, son los 99 valores de la variable que dividen en 100 la distribución de frecuencias. Representado por
Pk , es un valor de la variable de interés que deja por debajo de sí un porcentaje k de sujetos, donde k = 1,2....99
El cálculo de los percentiles se realiza utilizando una extensión del método expuesto para la mediana. La diferencia está en que para
la mediana se trata de localizar la posición de n/2; mientras los percentiles se hace en base al número n×k/100. Este número es igual
a n/2 cundo calculamos el percentil 50, entonces si k = 50; n×50/100 = n/2.
Al igual que con la mediana, cuando en la distribución de frecuencias los datos no están en intervalos, se aplica I = 1.
Sin embargo lo que queremos calcular es qué percentil ocupa un valor X debemos de despejar k i para Xi.
A veces el resultado puede darnos un valor con decimales; en este caso, tomamos la cantidad entera más próxima.
Cuartiles y deciles
Los cuartiles y deciles son medidas de posición en las que las secciones son muchas menos que en los percentiles.
Los cuartiles son tres valores de la distribución que se dividen en cuatro partes. El primer cuartil se representa por Q1 , deja por
debajo de sí el 25%, correspondiendo con el percentil 25. El segundo cuartil Q2 , deja por debajo el 50%, equivalente al percentil 50 y
a la mediana de la distribución. El tercero Q3 , deja por debajo de sí el 75%, equivalente al percentil 75.
Para calcular los cuartiles emplearemos las mismas fórmulas que para los percentiles en su equivalencia.
Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se representa por Di , donde i = 1,2,...9.
El primer decil, deja por debajo de sí al 10% de los sujetos, el segundo el 20% y así hasta el 90%; pudiendo emplear nuevamente los
percentiles correspondientes para su cálculo.

Estadistica Descriptiva Conceptos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica Descriptiva Conceptos

Uploaded by

Copyright:

Available Formats

ESTADISTICA DESCRIPTIVA

Concluyendo con la distinción de puntos significativos de este tema.

1. MEDIDAS DE TENDENCIA CENTRAL

Amplitud total o rango

Varianza y desviación típica

Donde: = media aritmética. Md = Mediana. s = desviación típica o estándar.

You might also like