Professional Documents
Culture Documents
NUCLEO TEMTICO I
INTRODUCCIN
La Estadstica es una disciplina que utiliza recursos matemticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. Por ejemplo, la
estadstica interviene cuando se quiere conocer el estado sanitario de un pas, el consumo de ciertos
productos alimenticios, el rendimiento estudiantil, entre otros, a travs de ciertos parmetros como la
tasa de mortalidad de la poblacin, existencia de productos, promedios de notas, respectivamente. En
este caso, la estadstica describe la muestra en trminos de datos organizados y resumidos, y luego
infiere conclusiones respecto a la poblacin.
LA ESTADISTICA
La Estadstica, se puede definir como el conjunto de mtodos, normas, reglas y principios que tienen
como propsito por parte del investigador llevar a cabo las acciones de observar, agrupar, describir,
cuantificar y analizar el comportamiento de un grupo o poblacin en estudio. Es as como podemos
clasificar a la estadstica en dos grandes grupos:
TIPOS DE MUESTREO
Las muestras pueden ser elegidas mediante diversas tcnicas o
procedimientos. Estas tcnicas se clasifican segn el segn como sean
elegidos los individuos.
Se dividen en dos grandes grupos:
Muestreo probabilstico (o muestreo aleatorio): proceso de seleccin de individuos de manera que
cada sujeto tiene probabilidad positiva e independiente de ser seleccionado.
Muestreo aleatorio simple: 1) todos los individuos tienen la misma probabilidad de ser elegidos,
2) las observaciones se realizan con reemplazamiento, de forma que la poblacin es igual en todas
las extracciones.
Muestreo aleatorio estratificado: los individuos se dividen en grupos o estratos. La muestra se
elige escogiendo en cada estrato un nmero representativo de individuos.
Muestreo aleatorio sistemtico: se utiliza en muestras ordenadas. Consiste en seleccionar al azar
un elemento y a partir de l, incrementando un intervalo fijo, seleccionar toda la muestra.
Muestreo aleatorio por conglomerados: la poblacin est dividida en conglomerados naturales
(provincias, ciudades,etc.). Se seleccionan algunos conglomerados y se toman en representacin de
toda la poblacin.
Muestreo no probabilstico (o muestreo no aleatorio): la seleccin de los individuos se basa en el
criterio del investigador. No se conoce la probabilidad de que cada individuo sea elegido en la muestra.
Muestreo por cuotas: se basa en seleccionar la muestra despus de dividir la poblacin en grupos
o estratos. Los sujetos dentro de cada grupo se eligen por mtodos no probabilsticos.
Muestreo por conveniencia: consiste en seleccionar a los individuos que convienen al investigador
para la muestra. Esta conveniencia se produce porque al investigador le resulta ms fcil examinar a
estos sujetos, ya sea por proximidad geogrfica, por ser sus amigos, etc.
Muestreo de bola de nieve (o muestreo por referidos): se realiza sobre poblaciones en las que no
se conoce a sus individuos o es muy difcil acceder a ellos. Se llama muestreo de bola de nieve porque
cada sujeto estudiado propone a otros, produciendo un efecto acumulativo parecido a una bola de
nieve.
Muestreo casual o accidental: los individuos son elegidos de manera casual, sin ningn juicio
previo. Las personas que realizan el estudio eligen un lugar o un medio, y desde ahi realizan el estudio
a los individuos de la poblacin que accidentalmente se encuentren a su disposicin.
Muestreo discrecional (o muestreo por juicio): los sujetos se seleccionan a base del conocimiento
y juicio del investigador
3
VARIABLE
Una variable estadstica es cada una de las caractersticas o cualidades que poseen los individuos de
una poblacin.
2. En la escala de ordenacin, o de clasificacin directa, se pide al sujeto que ordene las palabras o
conceptos de mayor a menor agrado.
3. En las escalas de comparaciones binarias se ofrece al sujeto parejas de palabras y se le pide que
selecciona cul de las dos prefiere.
ESCALAS DE INTENSIDAD
Las escalas de intensidad o de apreciacin estructuran las opiniones bajo formas de respuesta en
abanico, segn la evolucin o grados de un continuum de actitud. Por ejemplo:
Una variacin es trazar una lnea graduada del 1 al 10, por ejemplo, y pedir que marque su grado de
acuerdo grficamente.
EL ESCALOGRAMA DE GUTTMAN
Lo importante en esta tcnica es que las preguntas estn convenientemente jerarquizadas. Para ello
ha de hacerse un estudio piloto previo.
Escalas anlogas son las de Dood, que mide actitudes respecto a grupos nacionales, sociales o
religiosos, o la de Crespi.
ESCALA DE LIKERT
En este tipo de escalas se ofrece una afirmacin al sujeto y se pide que la califique del 0 al 4 segn
su grado de acuerdo con la misma. Estas afirmaciones pueden reflejar actitudes positivas hacia algo
o negativas.
Las primeras se llaman favorables y las segundas desfavorables. Es muy importante que las
afirmaciones sean claramente positivas o negativas, toda afirmacin neutra debe ser eliminada.
EL DIFERENCIAL SEMNTICO
El diferencial semntico es un procedimiento destinado a medir la significacin que tienen ciertos
objetos, hechos, situaciones o personas para los encuestados. Concretamente se mide esa
significacin a partir de la situacin del concepto del objeto analizado en un espacio semntico de
dimensiones valorativas. As, por ejemplo, el concepto de concierto de rock puede tener dos
7
significados diferentes para dos personas, A y B, en un espacio semntico definido por las
coordenadas: culturalidad y agresividad:
Para establecer el diferencial semntico de un objeto, situacin, hecho o persona, se proponen pares
de adjetivos contrapuestos, y se pide al encuestado que sita la cercana a cada extremo del par en
una escala de 7 grados.
Un ejemplo de pregunta sera:
La construccin del diferencial semntico comienza con la eleccin del o los conceptos o cuestiones
que se quiera analizar. Como siempre, la eleccin viene determinada por los objetivos de la
investigacin. El siguiente paso consiste en buscar los pares de adjetivos polares que se van a utilizar,
los cuales han de ser claramente enfrentados. Por ltimo se escoge la escala utilizada. Lo habitual es
5 o 7 grados. Los pares de adjetivos deben estar situados con distintas polaridades, se trata de evitar
que el encuestado piense que uno de los lados es el bueno y tienda a l. Aplicando esta tcnica se
obtiene una serie de puntuaciones o posiciones espaciales para cada sujeto, es el significado de ese
concepto para cada persona. A partir de esta informacin se puede localizar grupos de personas con
anlogos perfiles, y relacionarlo que determinadas caractersticas sociales o personales, o con las
respuestas a otras cuestiones.
DATOS ESTADSTICOS
Son nmeros que pueden ser comparados, analizados e interpretados.
El campo del cual son tomados los datos estadsticos se identifica como poblacin o universo.
Resmenes de datos:
Cualitativos
Distribucin de frecuencias
Grficas de barra y pastel
Cuantitativos
Distribucin de frecuencias
Grfica de puntos
Histogramas, Diagrama acumulativo
Diagrama de tallo y hojas
8
Distribucin de frecuencias.
It = l.s - l.i.
FRECUENCIAS
Frecuencia absoluta:
La frecuencia absoluta de una variable estadstica es el nmero de veces que
aparece en la muestra dicho valor de la variable, la representaremos por n i
Frecuencia Absoluta Acumulada:
Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de
ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta
frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que
ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por N i
Frecuencia relativa:
La frecuencia absoluta, es una medida que est influida por el tamao de la muestra, al aumentar el
tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no sea
una medida til para poder comparar. Para esto es necesario introducir el concepto de frecuencia
relativa, que es el cociente entre la frecuencia absoluta y el tamao de la muestra. La denotaremos
por f i
PORCENTAJE
Porcentaje:
La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre
en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la
frecuencia relativa por 100. La denotaremos por p i
Porcentaje Acumulado:
Anlogamente se define el Porcentaje Acumulado y lo vamos a denotar pori P como la frecuencia
relativa acumulada por 100.
Ejm. Veamos esto con un ejemplo: Tomamos para ello los datos relativos a las personas activas.
Ejemplo.
En funcin de los pesos de la seccin de estadstica, representar los resultados grficamente y
analizar.
Datos fabi
11
68,3 2
68,6 3
68,9 5
70,2 2
70,5 1
70,9 1
71,6 2
72,7 3
72,9 _ 1_
. 20
4) Distribucin de la frecuencia
Representacin grfica
NUCLEO
TEMTICO
II
13
Medidas de centralizacin
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como
representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones
en un conjunto de datos. Por orden de importancia, son:
Media aritmtica
La media: suma de todos los valores de una variable dividida entre el nmero total de datos de los
que se dispone:
La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad
por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores
que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores
nos dar a su vez 60, que es el valor de la mediana.
Media Aritmtica
Xi fabi
13 2 26
14 1 14
15 0 0
16 1 16
17 1 17
18 0 0
19 1 19
Total = 6 92
15
Mediana
(Me): es el valor que separa por la mitad las observaciones ordenadas de menor a
mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50%
son mayores. Si el nmero de datos es impar la mediana ser el valor central, si es
par tomaremos como mediana la media aritmtica de los dos valores centrales.
Donde:
Me es mediana.
De la tabla anterior se han tomado los valores necesarios para sustituir en la frmula y obtener el
valor de la Mediana:
L = 15.7
n = 90
FA = 31
f = 24
c=4
16
MODA (M0)
Es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta es
mayor. No tiene por qu ser nica.
Donde :
L = Limite inferior de la clase modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior.
C = Intervalo de clase.
= 18,75= 18,8
17
Medidas de posicin
Los cuantiles son valores de la distribucin que la dividen en partes iguales, es decir, en intervalos,
que comprenden el mismo nmero de valores. Los ms usados son los cuartiles, los deciles y los
percentiles.
PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos
ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y
por encima queda el 85%
CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
iguales, son un caso particular de los percentiles:
El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos
El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos
El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos
DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes
iguales, son tambin un caso particular de los percentiles.
Cuartil 1:
Cuartil 2:
Cuartil 3:
18
Cuartil 4:
Ejemplo:
Dada la siguiente distribucin en el nmero de hijos (Xi) de cien familias, calcular sus cuartiles.
xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solucin:
1. Primer cuartil:
2. Segundo cuartil:
3. Tercer cuartil:
En el siguiente ejercicio se muestran los clculos de lo Percentiles, Deciles y Cuartiles para Datos,
tanto No Agrupados como Agrupados
19
Percentil 35
Percentil 60
Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
ai es la amplitud de la clase.
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados
en cuatro partes iguales.
Q1, Q2 y Q3determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Q2 coincide con la mediana.
Medidas de dispersin
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersin nos dicen hasta qu punto estas medidas de tendencia
central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la
separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Se
distingue entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras
y las relativas que nos permitirn comparar varias muestras.
Haciendo operaciones en la frmula anterior obtenemos otra frmula para calcular la varianza:
Si los datos estn agrupados utilizamos las marcas de clase en lugar de Xi.
DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades que la variable pero al
cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica
que se define como la raz cuadrada positiva de la varianza
Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la
frmula (cuasi desviacin tpica):
24
CV representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo
tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media.
Calificaciones Frecuencia Xi fi
Xi fi
13 2 26
14 1 14
15 0 0
16 1 16
17 1 17
18 0 0
19 1 19
Total = 6 92
a) Rango o amplitud
25
La medida de dispersin ms simple recibe el nombre de Amplitud o recorrido y es muy poco usada
puesto que su nica ventaja es la sencillez con que se calcula. Es comn que se use tambin el
nombre de Rango para esta medida. La amplitud (A) de un conjunto de datos es la diferencia entre
las observaciones que tienen el mayor y el menor valor numrico en el mismo.
R = Ls LiR = 19 13 = 6
De este ejemplo se puede deducir que la diferencia entre C3 y el C1 siempre va a ser el 50% de las
observaciones, lo que vara es la distancia en unidades de acuerdo con las caractersticas de la
distribucin. Es decir, cuando los datos se concentren en el centro de la distribucin, la DSC ser
pequea, pero cuando los datos estn muy dispersos, la DSC ser grande.
c) Desviacin media
Es la media de los valores absolutos de la diferencia entre las variantes y la media aritmtica.
Calificaciones x-X
Xi
13 13 - 15 =2
14 14 - 15 =1
26
16 16 - 15 =1
17 17 - 15 =2
19 19 - 15 =4
Total = 10
Este valor indica que cada calificacin difiere de la media en un promedio de 1,67 ptos.
alificaciones x-X 2
Xi
13 13 - 15 2= 4
14 14 - 15 2= 1
16 16 - 15 2= 1
17 17 - 15 2= 4
19 19 - 15 2= 16
Total = 26
27
sto indica que en promedio cada calificacin difiere de la media aritmtica en 2,28 ptos.
e) Varianza.
Al cuadrado de la desviacin estndar se le denomina varianza. Igualmente se le conoce como el
promedio de los cuadrados de los desvos con respecto a la media.
Datos Agrupados.
Desviacin media
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones
respecto a la media.
Desviacin media para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la desviacin media
es:
Varianza
La desviacin tpica es la raz cuadrada de la varianza.
La desviacin tpica se representa por .
28
Coeficiente de variacin
El coeficiente de variacin es la relacin entre la desviacin tpica de una muestra y su media.%
Medidas de forma
Comparan la forma que tiene la representacin grfica, bien sea el histograma o el diagrama de
barras de la distribucin, con la distribucin normal.
Medida de asimetra
Diremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica
coinciden.
Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas)
descienden ms lentamente por la derecha que por la izquierda.
Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la
distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una distribucin de frecuencias. Una de ellas es
el Coeficiente de Asimetra de Pearson:
30
Su valor es cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y
negativo cuando existe asimetra a la izquierda.
1. Mesocrtica, Normal K = 3
20
X = 70,2
Md = 69,3
Mo = 69,3
= 1,62
M. A Bowley
Curtosis: Al comparar cun aguda es una distribucin en relacin con la Distribucin Normal, se
pueden presentar diferentes grados de apuntalamiento.
1. Mesocrtica, Normal K = 3
Una medida del apuntalamiento o curtosis( Kurtosis) de la distribucin est basada en los cuartiles y
percentiles, y est dada por el coeficiente de KurtosisPercentlico
Bibliografa