Probabilidad

Probabilidad y estadística
Dirección General de Educación Superior

Te c n o l ó g i c a
INSTITUTO TECNOLOGICO DE S ALIN A CRUZ
Probabilidad y Estadística
Ing. Beatriz Elena Nieto Camacho
Salina Cruz, Oaxaca.
ITSAL 1
Dirección General de Educación Superior

Te c n o l ó g i c a
INSTITUTO TECNOLOGICO DE S ALIN A CRUZ
TEMA:
Esta
CARRERA:
Ingeniería electrónica
OPCIÓN:
Comunicaciones
MATERIA
Probabilidad y Estadística
CATEDRÁTICO:
Ing. Beatriz Elena Nieto Camacho
SEMESTRE:
II
GRUPO:
“C-2’
Salina Cruz Oaxaca a 16 de abril del 2007.
ITSAL 2
Estadística descriptiva y teoría de muestreo.
Objetivo. Aplicar los fundamentos básicos de muestreo; representar y analizar los

datos obtenidos a partir de una situación especifica.
Índice
Temas Pág.
Introducción……………………………………………………………………….. 5
Distribución de frecuencia relativa y frecuencia acumulada……………….... 6
Medidas de tendencia central…………………………………………………… 8
Media………………………………………………………………………………. 8
Mediana……………………………………………………………………………. 11
Moda……………………………………………………………………………….. 14
Promedio ponderado, móvil, media geométrica, media armónica, cuantiles
Cuarteles, deciles y percentiles ………………………………………………… 14
Medidas de dispersión…………………………………………………………… 16
Rango o amplitud de variación…………........................................................ 16
Desviación media…………………………………………………………………. 19
Varianza o desviación estándar…………………………………………………. 20
Momentos y courtosis…………………………………………………………….. 25
Muestreo aleatorio………………………………………………………………… 26
Simple………………………………………………………………………………. 26
Sistemático…………………………………………………………………………. 27
ITSAL 3
Estratificado………………………………………………………………………… 28
Por conglomerados………………………………………………………………… 29
Muestreo no aleatorio……………………………………………………………… 30
Dirigido………………………………………………………………………………. 30
Por cuotas…………………………………………………………………………… 33
Deliberado…………………………………………………………………………… 33
Conclusiones………………………………………………………………………… 37
ITSAL 4
Introducción
Para aplicar los fundamentos básicos de muestreo, tenemos conocer ciertos pasos
para conocer detalladamente las diferentes frecuencias relativas y acumuladas,
como primer paso , conoceremos las definiciones de estos aspectos, seguiremos con
las medidas de tendencia central.
Al calcular el promedio de un valor determinado nos enfoca a estar haciendo

una característica aritméticamente, nosotros podemos llegar a una conclusión bajo
calculos o símbolos que utilizeriamos en un problema.
En este espacio se relata cada una de estos temas sabiendo desarrollar y

entendiendo detenidamente al contenido de este tema..
Aprenderemos a determinar lo que nos enfoca y desarrollar problemas,

gracias a estos temas, los conceptos basicos de muestreo son los que a
continuación veremos.
Vamos a compartir el aprendizaje de este tema, ya que gracias a este

entraremos al mundo del conocimiento más al fondo.
ITSAL 5
DISTRIBUCION DE FRECUENCIA, FRECUENCIA RELATIVA Y ACOMULADA
Una distribución de frecuencias es una herramienta estadística muy útil para

organizar un grupo de observaciones.
Distribución de frecuencias: es una serie de datos agrupados en categorías o

intervalos de clase en las cuales se muestra el número de observaciones que
contiene cada categoría.
En donde (F) denota la frecuencia y (N) el número total de la muestra.
En algunos casos, al agrupar la información en distribución de frecuencia, ésta

resulta insuficiente para dar respuesta a todas las preguntas inicialmente planteadas,
como: el porcentaje de cada clase en la población, la cantidad de elementos que
están por arriba o debajo de una determinada clase. Por tal motivo, se construyen
distribuciones acumuladas relativas y relativas acumuladas.
FRECUENCIA RELATIVA
La frecuencia relativa de un intervalo, la cual denotaremos como (Fr), se define

como: la fracción del total de datos que representa la frecuencia de la clase, es decir:
Fr=F/N
Cuando esta cantidad es elevada a porcentaje se llama frecuencia relativa

porcentual o frecuencia porcentual:
Fr (100%)
ITSAL 6
De manera análoga a la frecuencia relativa, definiremos ahora la frecuencia relativa

acumulada como: el cociente de las frecuencias acumuladas y el número total de
elementos de la muestra, esto es:
Fra=Fa/N
Y al igual que la frecuencia relativa, cuando sea elevada a porcentaje le llamaremos

frecuencia relativa acumulada porcentual:
Fra (100%)
FRECUENCIA ACUMULADA
Se puede clasificar en: frecuencia acumulada menor que y frecuencia acumulada o

más.
La frecuencia acumulada menor que de una clase se define como:

La suma de la frecuencia de dicha clase con todas las frecuencias de la clase
cuyos intervalos son menores que el límite real superior de tal clase.
La frecuencia acumulada o más se define como:
La suma de las frecuencias de clases de los intervalos que son mayores que el
límite real inferior de la clase.
ITSAL 7
MEDIDAS DE TENDENCIA CENTRAL
Estadística sumaria.
Podemos usar una serie de números conocidos como estadística sumaria para
describir las características del conjunto de datos. Dos de estas características son
de particular importancia para los responsables de tomar decisiones: la de tendencia
central y la de dispersión.
Tendencia central: la tendencia central se refiere al punto medio de una distribución.

Las medidas de tendencia central se conocen como medidas de posición.
Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al

grado en que las observaciones se distribuyen.
Sesgo: las curvas que representan los puntos de datos de un conjunto de datos
pueden ser simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que
una línea vertical que pase por el punto más alto de la curva dividirá el área de ésta
en dos partes iguales. Cada parte es una imagen espejo de la otra. En las curvas
sesgadas, los valores de su distribución de frecuencias están concentrados en el
extremo inferior o en el superior de la escala de medición del eje horizontal. Los
valores no están igualmente distribuidos. Las curvas pueden estar sesgadas hacia la
derecha (positivamente sesgadas) o sesgadas hacia la izquierda (negativamente
sesgadas).
La media aritmética.
Cuando nos referimos al "promedio" de algo, estamos hablando de la media

aritmética.
Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos

entre el número de observaciones.
ITSAL 8
Símbolos convencionales.
Una muestra de una población consiste en n observaciones, con una media de x

(léase equis testada). Las medidas que calculamos para una muestra se conocen
como estadística.
La notación es diferente cuando calculamos medidas para la población entera, es

decir, para el grupo que contiene a todos los elementos que estamos describiendo.
La media de una población se simboliza con μ (letra griega mi). El número de
elementos de una población se denota con la letra mayúscula cursiva N. Por lo
general, en estadística utilizamos letras del alfabeto latino para simbolizar la
información sobre las muestras y letras del griego para referirnos a la información
sobre poblaciones.
Cálculo de la media a partir de datos no agrupados.
Media de la población:
μ = ∑x / N
x = ∑x / n
Para calcular esta media, sumamos todas las observaciones. Los estadísticos se
refieren a este tipo de datos como datos no agrupados.
Cálculo de la media de datos agrupados:
Una distribución de frecuencias consta de datos agrupados en clases. Cada valor de

una observación cae dentro de alguna de las clases. No sabemos el valor individual
de cada observación. A partir de la información de la tabla, podemos calcular
fácilmente una estimación del valor de la media de estos datos agrupados.
De haber usado los datos originales sin agrupar, podríamos haber calculado el valor
real de la media.
ITSAL 9
Para encontrar la media aritmética de datos agrupados, primero calculamos el punto

medio de cada clase. Para lograr que los puntos medios queden en cifras cerradas,
redondeamos las cantidades. Después, multiplicamos cada punto medio por la
frecuencia de las observaciones de dicha clase, sumamos todos los resultados y
dividimos esta suma entre el número total de observaciones de la muestra.
x = å (f x) / n
f = frecuencia de observaciones de cada clase
x= punto medio de cada clase de la muestra
n = número de observaciones de la muestra
Codificación:
Mediante esta técnica, podemos eliminar el problema de tener puntos medios muy
grandes o inconvenientes. En lugar de utilizar los puntos medios reales para llevar a
efecto nuestros cálculos, podemos asignar enteros consecutivos de valor pequeño,
conocidos como códigos, a cada uno de los puntos medios. El entero cero puede ser
asignado a cualquier punto medio, pero para que nuestros enteros sean pequeños,
asignaremos cero al punto medio de la parte media de la distribución (o la parte más
cercana a ésta). Podemos asignar enteros negativos a los valores menores a dicho
punto medio y enteros positivos a los valores más grandes.
Los estadísticos usan xo para representar el punto medio al que se le ha asignado el

código 0 y u para el punto medio codificado:
x = xo + w [(u f)] / n
w = ancho numérico del intervalo de clase
u = código asignado a cada punto medio de clase
ITSAL 10
Ventajas y desventajas de la media aritmética.
La media aritmética, en su carácter de un solo número que representa a un conjunto

de datos completo, tiene importantes ventajas:
Se trata de un concepto familiar para la mayoría de las personas y es intuitivamente

claro.
Cada conjunto de datos tiene una media, es una medida que puede calcularse y es
única debido a que cada conjunto de datos posee una y sólo una media.
Es útil para llevar a cabo procedimientos estadísticos como la comparación de

medias de varios conjuntos de datos.
Desventajas:
Puede verse afectada por valores extremos que no son representativos del resto de
los datos.
Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de
dato de nuestro cálculo.
Somos incapaces de calcular la media para un conjunto de datos que tiene clases de
extremo abierto, ya sea en el inferior o en el superior de la escala.
SUGERENCIA:
La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un

grupo homogéneo.
La mediana.
La mediana es un solo valor calculado a partir del conjunto de datos que mide la
observación central de éstos. Esta sola observación es la más central o la que está
ITSAL 11
más en medio en el conjunto de números. La mitad de los elementos están por

encima de este punto y la otra mitad está por debajo.
Cálculo de la mediana a partir de datos no agrupados:
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en

orden descendente o ascendente. Si el conjunto de datos contiene un número impar
de elementos, el de en medio en el arreglo es la mediana. Si hay un número par de
observaciones, la mediana es el promedio de los dos elementos de en medio.
Mediana = (n + 1) / 2
Cálculo de la mediana a partir de datos agrupados:
Encontrar qué observación de la distribución está más al centro (Mediana = (n + 1) /

2).
Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese
elemento más central.
Determinar el número de elementos de la clase y la localización de la clase que

contiene al elemento mediano.
Determinar el ancho de cada paso para pasar de una observación a otra en la clase
mediana, dividiendo el intervalo de cada clase entre el número de elementos
contenido en la clase.
Determinar el número de pasos que hay desde el límite inferior de la clase mediana
hasta el elemento correspondiente a la mediana.
Calcular el valor estimado del elemento mediano multiplicando el número de pasos

que se necesitan para llegar a la observación mediana por el ancho de cada paso. Al
producto sumarle el valor del límite inferior de la clase mediana.
ITSAL 12
Si existe un número par de observaciones en la distribución, tomar el promedio de

los valores obtenidos para el elemento mediano calculados en el paso número 6.
Un método más sencillo:
m = {[(n + 1) / 2 – (F + 1)] / fm} w + Lm
m = mediana de la muestra
n = número total de elementos de la distribución
F = suma de todas las frecuencias de clase hasta, pero sin incluir, la clase mediana
fm = frecuencia de la clase mediana
w = ancho de intervalo de clase
Lm = límite inferior del intervalo de clase mediano
Ventajas y desventajas de la mediana:
Los valores extremos no afectan a la mediana tan intensamente como a la media. La

mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos –
incluso a partir de datos agrupados con clases de extremo abierto – a menos que la
mediana entre en una clase de extremo abierto.
Podemos encontrar la mediana incluso cuando nuestros datos son descripciones

cualitativas, en lugar de números.
Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que
aquellos que utilizan la media. Debido a que la mediana es una posición promedio,
debemos ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica
consumo de tiempo para cualquier conjunto de datos que contenga un gran número
de elementos. Por consiguiente, si deseamos utilizar una estadística de muestra para
estimar un parámetro de población, la media es más fácil de usar que la mediana.
ITSAL 13
La moda.
La moda es una medida de tendencia central diferente de la media, pero un tanto

parecida a la mediana, pues en realidad no se calcula mediante algún proceso
aritmético ordinario. La moda es aquel valor que más se repite en el conjunto de
datos.
En ocasiones, el azar hace que un solo elemento no representativo se repita lo

suficiente para ser el valor más frecuente del conjunto de datos. Es por esta razón
que rara vez utilizamos la moda de un conjunto de datos no agrupados como medida
de tendencia central.
Por esta razón, siempre que utilizamos la moda como medida de tendencia central
de un conjunto de datos, debemos calcular la moda de datos agrupados (buscar la
clase modal).
Cálculo de la moda de datos agrupados:
Cuando los datos ya se encuentran agrupados en una distribución de frecuencias,

podemos poner que la moda está localizada en la clase que contiene el mayor
número de elementos, es decir, en la clase que tiene mayor frecuencia. Para
determinar un solo valor para la moda a partir de esta clase modal:
Mo = Lmo + [d1 / (d1 + d2 )] w
Lmo = límite inferior de la clase modal.
d1 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra

inmediatamente por debajo de ella.
d2 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra

inmediatamente por encima de ella.
w = ancho del intervalo de la clase modal.
ITSAL 14
Ventajas y desventajas de la moda:
La moda, al igual que la mediana, se puede utilizar como una posición central para
datos tanto cualitativos como cuantitativos.
También, al igual que la mediana, la moda no se ve mayormente afectada por los

valores extremos. Incluso si los valores extremos son muy altos o muy bajos,
nosotros escogemos el valor más frecuente del conjunto de datos como el valor
modal. Podemos utilizar la moda sin importar qué tan grandes o qué tan pequeños
sean los valores del conjunto de datos, e independientemente de cuál sea su
dispersión.
Comparación entre la media, la mediana y la moda.
Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar

la media, la mediana o la moda como medidas de tendencia central. Las
distribuciones simétricas que sólo contienen una moda, siempre tienen el mismo
valor para la media, la mediana y la moda. En tales casos, no es necesario escoger
la medida de tendencia central, pues ya está hecha la selección.
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la

moda todavía se encuentra en el punto más alto de la distribución, la mediana está
hacia la derecha de la moda y la media se encuentra todavía más a la derecha de la
moda y la mediana.
En una distribución negativamente sesgada, la moda sigue siendo el punto más alto
de la distribución, la mediana está hacia la izquierda de ella y la media se encuentra
todavía más a la izquierda de la moda y la mediana.
Cuando la población está sesgada negativa o positivamente, con frecuencia la

mediana resulta ser la mejor medida de posición, debido a que siempre está entre la
moda y la media. La mediana no se ve altamente influida por la frecuencia de
ITSAL 15
aparición de un solo valor como es el caso de la moda, ni se distorsiona con la

presencia de valores extremos como la media.
SUGERENCIA
La selección de la media, la mediana o la moda, en ocasiones, depende de la

práctica común de una industria en particular (salario medio de los obreros, precio
mediano de una casa, familia modal para el diseño de automóviles).
La dispersión.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda
sólo nos revelan una parte de la información que necesitamos acerca de las
características de los datos. Para aumentar nuestro entendimiento del patrón de los
datos, debemos medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad de la medida

de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición
central es menos representativa de los datos.
Ya que existen problemas característicos para datos ampliamente dispersos,

debemos ser capaces de distinguir que presentan esa dispersión antes de abordar
esos problemas.
Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea

tener una amplia dispersión de valores con respecto al centro de distribución o esto
presenta
Medidas de dispersión.
ITSAL 16
La dispersión puede medirse en términos de la diferencia entre dos valores

seleccionados del conjunto de datos. Las medidas de distancia son: el alcance, el
alcance interfractil y el alcance intercuartil.
Alcance.
Es la diferencia entre el más alto y el más pequeño de los valores observados.
Alcance = valor de la observación más alta – valor de la observación más pequeña
El alcance es fácil de entender y de encontrar, pero su utilidad como medida de

dispersión es limitada. Sólo toma en cuenta los valores más alto y más bajo de una
distribución y no considera ninguna otra observación del conjunto de datos. Ignora la
naturaleza de la variación entre todas las demás observaciones, y se ve muy influido
por los valores extremos.
Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor más
alto o más bajo en la clase de extremo abierto.
ITSAL 17
Alcance interfractil.
En una distribución de frecuencias, una fracción o proporción dada de los datos cae
en un fractil o por debajo de éste. La mediana, por ejemplo, es el fractil 0,5, puesto
que la mitad de los datos es menor o igual a este valor. Los fractiles son parecidos a
los porcentajes. En una distribución cualquiera, el 25% de los datos está en el fractil
0,25 o por debajo de éste; igualmente, 25% de los datos cae en el vigésimo quinto
percentil o por debajo de éste. El alcance interfractil es una medida de la dispersión
entre dos fractiles de una distribución de frecuencias, es decir, la diferencia entre los
valores de los dos fractiles.
Los fractiles tienen nombres especiales, dependiendo del número de partes iguales
en que se dividen los datos. Los fractiles que los dividen en 10 partes iguales se
conocen como deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los
percentiles dividen el conjunto de datos en 100 partes iguales.
Alcance intercuartil.
El alcance intercuartil mide aproximadamente qué tan lejos de la mediana tenemos

que ir en cualquiera de las dos direcciones antes de que podamos recorrer una mitad
de los valores del conjunto de datos. Para calcular este alcance, dividimos nuestros
datos en cuatro partes, cada una de las cuales contiene 25% de los elementos de la
distribución. Los cuartiles son, entonces, los valores más alto y más bajo de estas
cuatro partes, y el alcance intercuartil es la diferencia entre los valores del primer
cuartil y el tercer cuartil.
ITSAL 18
SUGERENCIA
El punto fractil es siempre el punto en el o debajo del cual cae la proporción

establecida de valores.
Medidas de desviación promedio.
Las descripciones más comprensivas de la dispersión son aquellas que tratan con la
desviación promedio con respecto a alguna medida de tendencia central. Dos de
tales medidas son la varianza y la desviación estándar. Ambas medidas nos dan una
distancia promedio de cualquier observación del conjunto de datos con respecto a la
media de la distribución.
Varianza de la población.
Cada población tiene una varianza, que se simboliza con s 2 (sigma cuadrada). Para
calcular la varianza de una población, dividimos la suma de las distancias al
cuadrado entre la media y cada elemento de la población entre el número total de
observaciones de dicha población.
s 2 = å (x - m )2 / N
ITSAL 19
s 2 = varianza de la población.
x = elemento u observación.
m = media de la población.
N = número total de elementos de la población.
Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas
unidades no son intuitivamente claras o fáciles de interpretar. Por esta razón,
tenemos que hacer un cambio significativo en la varianza para calcular una medida
útil de la desviación, que sea menos confusa. Esta medida se conoce como la
desviación estándar, y es la raíz cuadrada de la varianza. La desviación estándar,
entonces, está en las mismas unidades que los datos originales.
Desviación estándar de la población.
La desviación estándar de la población, o s , es simplemente la raíz cuadrada de la

varianza de la población. Como la varianza es el promedio de las distancias al
cuadrado que van desde las observaciones a la media, la desviación estándar es la
raíz cuadrada del promedio de las distancias al cuadrado que van desde las
observaciones a la media. La desviación estándar está en las mismas unidades que
las que se usaron para medir los datos.
La raíz cuadrada de un número positivo puede ser tanto positiva como negativa.
Cuando tomamos la raíz cuadrada de la varianza para calcular la desviación
estándar, los estadísticos solamente consideran la raíz cuadrada positiva.
Para calcular la varianza o la desviación estándar, construimos una tabla utilizando

todos los elementos de la población.
ITSAL 20
Usos de la desviación estándar.
La desviación estándar nos permite determinar, con un buen grado de precisión,

dónde están localizados los valores de una distribución de frecuencias con relación a
la media. El teorema de Chebyshev dice que no importa qué forma tenga la
distribución, al menos 75% de los valores caen dentro de + 2 desviaciones estándar
a partir de la media de la distribución, y al menos 89% de los valores caen dentro de
+ 3 desviaciones estándar a partir de la media.
Con más precisión:
Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación

estándar a partir de la media.
Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a

partir de la media.
Aproximadamente 99% de los valores estará en el intervalo que va desde tres

desviaciones estándar por debajo de la media hasta tres desviaciones estándar por
arriba de la media.
MEDIDAS DE DISPERSIÓN: Son indicadores estadísticos que muestran la distancia

promedio que existe entre los datos y la media aritmética.
Las medidas de dispersión nos indican la distancia promedio de los datos respecto a
las medidas de tendencia central. Así podremos diferenciar dos conjuntos de datos
que poseen iguales medias, siendo los datos de uno más dispersos del otro.
Rango:
ITSAL 21
Es la primera medida que vamos a estudiar, se define como la diferencia existente

entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente
no es una medida muy significativa e la mayoría de los casos, pero indudablemente
es muy fácil de calcular.
Hemos estudiado varias medidas de centralización, por lo que podemos hablar de

desviación con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con
respecto a la media.
Desviación: Es la diferencia que se observa entre el valor de la variable y la media

aritmética. La denotaremos por di .
No es una medida, son muchas medidas, pues cada valor de la variable lleva
asociada su correspondiente desviación, por lo que precisaremos una medida que
resuma dicha información.
La primera solución puede ser calcular la media de todas las desviaciones, es decir,
si consideramos como muestra la de todas las desviaciones y calculamos su media.
Pero esta solución es mala pues como veremos siempre va a ser 0.
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se
contrarrestan con las negativas.
Para resolver este problema, tenemos dos caminos:
• Tomar el valor absoluto de las desviaciones. Desviación media

• Elevar al cuadrado las desviaciones. Varianza.
Desviación media:
Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.
ITSAL 22
Varianza:
El cuadrado de la desviación estándar recibe el nombre de varianza y se

representa por . La suma de los cuadrados de los desvíos de la totalidad de las
observaciones, respecto de la media aritmética de la distribución, es menor que la
suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea
la media aritmética.
Si observamos, veremos que la varianza no es másque el desvío estándar al
cuadrado. Precisamente la manera de simbolizarla es .
Por lo mismo, el desvío estándar puede definirse como la raíz cuadrada de la

varianza
Es la media de los cuadrados de las desviaciones, y la denotaremos por o
también por .
Aunque también es posible calcularlo como:
ITSAL 23
Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el

cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La
varianza vendrá en cm2.
Desviación estándar o típica (S o σ): Es igual a la raíz cuadrada de la varianza.
La S representa la desviación estándar de una muestra, mientras que σ la desviación

para todos los datos de una población. Ampliando las fórmulas tenemos
Aplicamos el mismo procedimiento a las fórmulas para las tablas de frecuencias tipo
A.
Y para las tablas de frecuencias tipo B.
La desviación estándar soluciona el problema obteniendo la raíz cuadrada de la

varianza, consiguiendo así, un valor similar a la desviación media.
Es la raíz cuadrada de la varianza, se denota por Sx o s x.
Este estadístico se mide en la misma unidad que la variable por lo que se puede
interpretar mejor.
Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica,

que como veremos cuando estudiemos el tema de estimación estadística, son los
estimadores de la varianza y desviación típica poblacionales respectivamente.
ITSAL 24
MEDIDAS DE APUNTAMIENTO O CURTOSIS: COEFICIENTE DE CURTOSIS

DE FISHER
Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene
una distribución; para determinarlo, emplearemos el coeficiente de curtosis de
Fisher.
MOMENTO:
En estadística el momento centrado de orden k de una variable aleatoria X es la

esperanza matemática E[(X − E[X])k] donde E es el operador de la esperanza. Si
una variable aleatoria no tiene media el momento centrado es indefinido.
Normalmente la letra griega para el momento centrado es μ. El primer momento

centrado es zero y el segundo se llama varianza (σ²) donde σ es la desviación
estándar.
MOMENTOS Y COURTOSIS
La deformación del eje horizontal de una distribución de frecuencias se conoce

como courtosis o aplastamiento. Una medida cualitativa de la forma de las
distribuciones de frecuencias las clasifica en:
Leptocùrticas: sus datos se concentran en un reducido intervalo de valores
Mesocùrticas: estas presentan una concentración de valores alrededor de la

media, y una reducción de estos hacia los extremos. A estas se les
Conoce como distribuciones normales o de campana
ITSAL 25
Platicùrticas: En ellas los datos se redistribuyen de manera relativa uniformé en

todo el rango de valores
El momento de courtosis puede calcularse por medio de los momentos de la
distribución de frecuencias,
MUESTREO ALEATORIO SIMPLE, MUESTREO ALEATORIO

SISTEMÁTICO, MUESTREO ALEATORIO ESTRATIFICADO,
MUESTREO ALEATORIO POR CONGLOMERADOS
Muestreo: Proceso por el cual se seleccionan los individuos que formarán una muestra.
El tamaño de la muestra depende de la precisión que se quiera conseguir en la
estimación que se realice a partir de ella. Para su determinación se requieren técnicas
estadísticas superiores, pero resulta sorprendente cómo, con muestras notablemente
pequeñas, se pueden conseguir resultados suficientemente precisos.
Muestreo Aleatorio
Una muestra se dice que es extraída al azar cuando la manera de selección es tal,
que cada elemento de la población tiene igual oportunidad de ser seleccionado. Una
muestra aleatoria es también llamada una muestra probabilística son generalmente
preferidas por los estadísticos porque la selección de las muestras es objetiva y el
error muestral puede ser medido en términos de probabilidad bajo la curva normal.
Los tipos comunes de muestreo aleatorio son el muestreo aleatorio simple, muestreo
sistemático, muestreo estratificado y muestreo de conglomerados.
Muestreo aleatorio simple

Una muestra aleatoria simple es seleccionada de tal manera que cada muestra
posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la
población. Para obtener una muestra aleatoria simple, cada elemento en la población
tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no
ITSAL 26
conducir a una muestra aleatoria simple. Por conveniencia, este método pude ser
reemplazado por una tabla de números aleatorios. Cuando una población es infinita,
es obvio que la tarea de numerar cada elemento de la población es infinita, es obvio
que la tarea de numerar cada elemento de la población es imposible. Por lo tanto,
ciertas modificaciones del muestreo aleatorio simple son necesarias. Los tipos más
comunes de muestreo aleatorio modificado son sistemáticos, estratificados y de
conglomerados.
El muestreo aleatorio simple puede ser de dos tipos:
Sin reposición de los elementos: cada elemento extraído se descarta para la

subsiguiente extracción.
Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar
la vida media de las bombillas que la integran, no será posible medir más que una
vez la bombilla seleccionada.
Con reposición de los elementos: las observaciones se realizan con
reemplazamiento de los individuos, de forma que la población es idéntica en todas
las extracciones. En poblaciones muy grandes, la probabilidad de repetir una
extracción es tan pequeña que el muestreo puede considerarse sin reposición
aunque, realmente, no lo sea.
Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la

extracción de números aleatorios mediante ordenadores, calculadoras o tablas
construidas al efecto.
Muestreo sistemático.
Una muestra sistemática es obtenida cuando los elementos son seleccionados en
una manera ordenada. La manera de la selección depende del número de elementos
incluidos en la población y el tamaño de la muestra. El número de elementos en la
ITSAL 27
población es, primero, dividido por el número deseado en la muestra. El cociente

indicará si cada décimo, cada onceavo, o cada centésimo elemento en la población
va a ser seleccionado.
El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra
sistemática puede dar la misma precisión de estimación acerca de la población, que
una muestra aleatoria simple cuando los elementos en la población están ordenados
al azar.
El riesgo de los muestreos sistemáticos es el de las periodicidades ocultas.

Supongamos que queremos testear el funcionamiento de una máquina, para lo cuál
vamos a seleccionar una de cada 15 piezas producidas. Si ocurriera la desgracia de
que justamente 1 de cada 15 piezas fuese defectuosa y el error de la máquina fuera
defectuoso periódicamente, tendríamos dos posibles resultados muéstrales:
- Que falla siempre
- Que no falla nunca.
Muestreo Estratificado
Para obtener una muestra aleatoria estratificada, primero se divide la población en
grupos, llamados estratos, que son más homogéneos que la población como un todo.
Los elementos de la muestra son entonces seleccionados al azar o por un método
sistemático de cada estrato. Las estimaciones de la población, basadas en la
muestra estratificada, usualmente tienen mayor precisión (o menor error muestral)
que si la población entera muestreada mediante muestreo aleatorio simple. El
número de elementos seleccionado de cada estrato puede ser proporcional o
desproporcional al tamaño del estrato en relación con la población.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno de

los estratos, existen dos técnicas de muestreo estratificado:
ITSAL 28
• Asignación proporcional: el tamaño de cada estrato en la muestra es

proporcional a su tamaño en la población.
• Asignación óptima: la muestra recogerá más individuos de aquellos estratos
que tengan más variabilidad. Para ello es necesario un conocimiento previo de
la población.
Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por
separado las opiniones de hombres y mujeres pues se estima que, dentro de cada
uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está
compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra
que contenga también esa misma proporción.
Muestreo de conglomerados.
Para obtener una muestra de conglomerados, primero dividir la población en grupos
que son convenientes para el muestreo. En seguida, seleccionar una porción de los
grupos al azar o por un método sistemático. Finalmente, tomar todos los elementos o
parte de ellos al azar o por un método sistemático de los grupos seleccionados para
obtener una muestra. Bajo este método, aunque no todos los grupos son
muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo
tanto la muestra es aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo
tanto, da menor precisión de las estimaciones acerca de la población) que una
muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de
cada "conglomerado" tienden usualmente a ser iguales. Por ejemplo la gente rica
puede vivir en el mismo barrio, mientras que la gente pobre puede vivir en otra área.
No todas las áreas son muestreadas en un muestreo de áreas. La variación entre los
elementos obtenidos de las áreas seleccionadas es, por lo tanto, frecuentemente
mayor que la obtenida si la población entera es muestreada mediante muestreo
ITSAL 29
aleatorio simple. Esta debilidad puede reducida cuando se incrementa el tamaño de

la muestra de área.
El incremento del tamaño de la muestra puede fácilmente ser hecho en muestra
muestra de área. Los entrevistadores no tienen que caminar demasiado lejos en una
pequeña área para entrevistar más familias. Por lo tanto, una muestra grande de
área puede ser obtenida dentro de un corto período de tiempo y a bajo costo.
Por otra parte, una muestra de conglomerados puede producir la misma precisión en
la estimación que una muestra aleatoria simple, si la variación de los elementos
individuales dentro de cada conglomerado es tan grande como la de la población.
MUESTREOS NO ALEATORIOS
Cuando hemos reunido los resultados de una muestra no aleatoria a partir de una
población, lo normal es que queramos generalizar nuestros resultados. Generalizar
significa que afirmamos que los resultados son ciertos no sólo para la muestra, sino
también respecto a la población. ¿Es posible evaluar la credibilidad de tal
declaración?
La cuestión crucial en la evaluación es si la muestra se desvía de la población en

aspectos relevantes. Por relevantes entendemos aquellas cuestiones que medimos o
que se incluyen en nuestra hipótesis o en los objetivos del proyecto. Habitualmente la
única manera de estimas esto sería investigar otra muestra de la misma población, lo
que en la mayor parte de los casos iría más allá de los recursos disponibles. Como
un débil sucedáneo del examen arriba descrito, podríamos plantearnos el estudiar si
nuestra muestra no aleatoria se desvía de la población respecto a aspectos distintos
de los puntos “relevantes” arriba mencionados. Con frecuencia podremos examinar
archivos públicos y descubrir por ejemplo la conformación demográfica, edad o
estructura por sexos de nuestra población y comparar estas cifras con nuestra
muestra. Si encontramos desviaciones, tenemos que plantearnos si éstas nos dan
ITSAL 30
razones para sospechar sobre desviaciones también en las variables “relevantes”

arriba aludidas. Para ayudarnos a la hora de plantearnos esto, podríamos calcular las
correlaciones entre la variable demográfica que aparece desviada y nuestras
variables “relevantes” (si son numéricas). Por ejemplo, si la distribución por sexos no
es igual a la distribución por sexos de la población, calcularemos las correlaciones
entre sexo y nuestras variables “relevantes” en la muestra. Una correlación alta
indica que nuestra muestra estaba sesgada.
El muestreo no aleatorio, llamado “opinático puro”, consiste en la elección de una

muestra según el juicio del equipo investigador. Naturalmente, la calidad del
muestreo no puede valorarse ni a priori ni objetivamente, pues depende de los
criterios utilizados para escoger a los componentes de la muestra. A veces, razones
de economía y rapidez lo hacen aconsejable. En ocasiones se completa el muestreo
con el denominado “sistema de cuotas”, que consiste en realizar cierto número de
encuestas entre cada uno de los distintos grupos en que se divide el universo. Así, se
puede exigir que haya “X” entrevistas a familias que tengan dos hijos, “Y”
entrevistas a familias que vivan los padres con ellos... Esas especificaciones se
determinan teniendo en cuenta las características conocidas del universo.
Dentro de este apartado, tenemos el muestreo denominado “semialeatorio”

consistente en la obtención al azar de ciertos grupos del colectivo para dejar, a
criterio del entrevistador, la elección del elemento que se va a elegir.
Un muestreo, bastante utilizado en las entrevistas y que según algunos autores

puede resultar prácticamente aleatorio, es el denominado “muestreo por rutas” en el
que partiendo de unos puntos determinados (calle, número...), los agentes van
siguiendo su itinerario y efectúan las entrevistas de acuerdo con un ritmo (por
ejemplo, cada 10 edificios) y unas normas (para la elección de viviendas).
Una variante de muestreo no aleatorio, que suele utilizarse frecuentemente en

determinados casos, son las “reuniones de grupo” o “grupos de discusión”. Su
ITSAL 31
importancia en determinados estudios es tal que hemos considerado oportuno

incluirlo como tema independiente al final del capítulo.
CARACTERÍSTICAS
• Útil cuando se quiere cualificar.
• Todos los casos no tiene la misma probabilidad de ser seleccionados para la

muestra.
• El investigador elige los casos que más le interesan para una información más
rica.
• Requiere un conocimiento elevado de la población.
• Permite hacer inferencias lógicas.
TIPOS
• Muestreo de conveniencia: en los límites periféricos del muestreo

metodológico.
• Muestreo por cuotas: estructura de muestreo probabilístico.
• Muestreo intencional: desarrolla la potencialidad de un muestreo no

probabilístico.
• En cuanto a encuestas sociales se suelen usar los dos primeros.
ITSAL 32
MUESTREO POR CUOTAS
También denominado en ocasiones “accidental”. Se asienta generalmente sobre la

base de un buen conocimiento de los estratos de la población y/o de los individuos
más “representativos” o “adecuados” para los fines de la investigación. Mantiene, por
tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter
de aleatoriedad de aquél.
Es una serie bastante amplia de variantes la mayoría de las cuales se asemeja

bastante a una muestra aleatoria estratificada con fijación proporcional. Todo
muestreo por cuotas rompe el proceso de aleatoriedad en la fase de extracción del
elemento muestral (la selección del entrevistado)
 PASOS:
1. Selección de unas características de control tales como: edad,

sexo...etc. Las variables de control se escogen porque se cree que
están relacionadas con la variable a investigar, Se emplean para
estratificar la población determinar que proporción e ella tiene cada
estrato.
2. Se adopta una representación general de cada estrato en la muestra

final.
3. Elección del entrevistado (con las características que deben reunir de

acuerdo con las variables de control que se emplearon para estratificar
a la población y fijar la muestra).
ITSAL 33
4. Este método asume que una muestra que se parece a la población con
respecto a características importantes, lo hará de igual forma respecto
a las demás que se quieren estudiar (una función bastante arriesgada).
 VENTAJAS DEL MUESTREO POR CUOTAS
Bajo coste.
Asegura la heterogeneidad y proporcionalidad de la muestra
 INCONVENIENTES DEL MUESTREO POR CUOTAS
Dificultad de diseñar un sistema de estratificación (para construir las cuotas) que

considere más de tres variables de control. (Esto se debe a que el nº de variables a
considerar actúa como una función multiplicativa de cada una de las categorías
dentro de la variable)
A cada entrevistador se le adjudica una cuota de personas a entrevistar. El hecho de

poder elegir los entrevistados siempre que reúnan los requisitos adecuados, puede
llevar a error (entrevistas a amigos en proporción excesiva, a las salida de mercados,
universidades...etc.)
Son muchas las estrategias para reducir los sesgos al seleccionar entrevistados
(control sobre los barrios a investigar xej).Una de las opciones es llevar a cabo un
muestreo probabilístico polietápico con cluster, seleccionando a los entrevistadores
mediante cuotas en la última etapa.
ITSAL 34
MUESTREO INTENCIONAL
El muestreo intencional constituye una estrategia no probabilística válida para la

recolección de datos, en especial para muestras pequeñas y muy específicas.
TIPOS
Muestreo de casos extremos: seleccionar sólo aquellos casos cuyos valores se

encuentren en el extremo del rango de una variable.
Muestreo de casos poco usuales: Seleccionar aquellos elementos cuyos valores en

el rango de una variable son poco frecuentes.
Muestreo de casos con máxima variación: pretende construir una muestra los más
heterogénea posible. Esto que en muestras pequeñas representa un problema, se
convierte en este tipo de muestreo en una potencialidad.
Muestreo de subgrupos homogéneos: Escoger una muestra pequeña lo más

homogénea posible, si surge la necesidad de recoger información sobre uno o varios
grupos. Reúne una serie de individuos de condiciones sociales y experiencias
semejantes.
Muestreos estructurales: Los individuos que componen la muestra son seleccionados

en virtud de sus posiciones sociales, situación en una red social, en una
jerarquía...etc.
ITSAL 35
Muestreos con informantes estratégicos: Este tipo de muestreo es un compuesto del

homogéneo y del estructural, y parte de que el conocimiento y la información están
desigualmente distribuidos. Tiene 2 subtipos:
-Bola de nieve o en cadena: Usado en poblaciones especiales o de difícil acceso. Se

pide a una serie de informantes iniciales que suministren los nombres de otros
miembros potenciales de la muestra.
-Experto: Mandar a un experto escoger individuos típicos, ciudades

representativas...etc. No se debe generalizar a partir de la experiencia de los
individuos que componen la muestra.
Muestreo de criterio: Selecciona para su estudio a aquellos casos que se ajustan a

algún criterio predeterminado (xej un estudio sobre conducta desviada).
Muestreo de casos críticos: Trata casos que en relación al tema de estudio, pueden
servir de referencia lógica para el resto de la población o parte de ella. estos
muestreos hacen posible las generalizaciones lógicas derivadas del peso de la
evidencia que puede llegar a producir incluso un solo caso.
Muestreo de casos confirmatorios y contradictorios: Es interesante cuando la

investigación está avanzada; ya que muestrea específicamente en busca de casos
que sirvan para confirmar o contradecir el trabajo que se ha efectuado.
ITSAL 36
Conclusión
Ahora que ya sabemos el contenido de este tema, podremos llevarlo a cabo a la

práctica,gracias al aprendizaje, nuestro conocimiento sera más abierto al realizarlo.
Esperemos que estos temas se haya comprendido satisfactoriamente, al

poder entender el desarrollo de cada una de estos temas nosotros seremos fuertes,
analizando estratégicamente y poder realizar un trabajo bien hecho.
Ya sabemos como trabajar a partir de la situación especifica que te propongan

en el problema poder llevar a cabo estos pasos o bien dicho temas que nos ayuden a
realizarlo correctamente.
El resultado de tus ejercicios sera gracias al apoyo de este contenido, escrito

para que en cualquier tipo de situación podremos definirlo correctamente.
Estos temas fueron analizados cada una de ellas, para incrementar nuestro
aprendizaje, nos ayudaran mucho, este trabajo fue realizado por todo el grupo en
general.
ITSAL 37

Probabilidad

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Probabilidad

Uploaded by

Copyright:

Available Formats

Probabilidad y estadística

Dirección General de Educación Superior

Ing. Beatriz Elena Nieto Camacho

Salina Cruz, Oaxaca.

Dirección General de Educación Superior

INSTITUTO TECNOLOGICO DE S ALIN A CRUZ

Ing. Beatriz Elena Nieto Camacho

Salina Cruz Oaxaca a 16 de abril del 2007.

Estadística descriptiva y teoría de muestreo.

Objetivo. Aplicar los fundamentos básicos de muestreo; representar y analizar los

Distribución de frecuencia relativa y frecuencia acumulada……………….... 6

Medidas de tendencia central…………………………………………………… 8

Promedio ponderado, móvil, media geométrica, media armónica, cuantiles

Cuarteles, deciles y percentiles ………………………………………………… 14

Rango o amplitud de variación…………........................................................ 16

Varianza o desviación estándar…………………………………………………. 20

Al calcular el promedio de un valor determinado nos enfoca a estar haciendo

En este espacio se relata cada una de estos temas sabiendo desarrollar y

Aprenderemos a determinar lo que nos enfoca y desarrollar problemas,

Vamos a compartir el aprendizaje de este tema, ya que gracias a este

DISTRIBUCION DE FRECUENCIA, FRECUENCIA RELATIVA Y ACOMULADA

Una distribución de frecuencias es una herramienta estadística muy útil para

Distribución de frecuencias: es una serie de datos agrupados en categorías o

En donde (F) denota la frecuencia y (N) el número total de la muestra.

En algunos casos, al agrupar la información en distribución de frecuencia, ésta

La frecuencia relativa de un intervalo, la cual denotaremos como (Fr), se define

Cuando esta cantidad es elevada a porcentaje se llama frecuencia relativa

De manera análoga a la frecuencia relativa, definiremos ahora la frecuencia relativa

Y al igual que la frecuencia relativa, cuando sea elevada a porcentaje le llamaremos

Se puede clasificar en: frecuencia acumulada menor que y frecuencia acumulada o

La frecuencia acumulada menor que de una clase se define como:

La frecuencia acumulada o más se define como:

MEDIDAS DE TENDENCIA CENTRAL

Tendencia central: la tendencia central se refiere al punto medio de una distribución.

Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al

Cuando nos referimos al "promedio" de algo, estamos hablando de la media

Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos

Una muestra de una población consiste en n observaciones, con una media de x

La notación es diferente cuando calculamos medidas para la población entera, es

Cálculo de la media a partir de datos no agrupados.

Cálculo de la media de datos agrupados:

Una distribución de frecuencias consta de datos agrupados en clases. Cada valor de

Para encontrar la media aritmética de datos agrupados, primero calculamos el punto

f = frecuencia de observaciones de cada clase

x= punto medio de cada clase de la muestra

n = número de observaciones de la muestra

Los estadísticos usan xo para representar el punto medio al que se le ha asignado el

w = ancho numérico del intervalo de clase

u = código asignado a cada punto medio de clase

Ventajas y desventajas de la media aritmética.

La media aritmética, en su carácter de un solo número que representa a un conjunto

Se trata de un concepto familiar para la mayoría de las personas y es intuitivamente

Es útil para llevar a cabo procedimientos estadísticos como la comparación de

La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un

más en medio en el conjunto de números. La mitad de los elementos están por

Cálculo de la mediana a partir de datos no agrupados:

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en

Cálculo de la mediana a partir de datos agrupados:

Encontrar qué observación de la distribución está más al centro (Mediana = (n + 1) /

Determinar el número de elementos de la clase y la localización de la clase que

Calcular el valor estimado del elemento mediano multiplicando el número de pasos

Si existe un número par de observaciones en la distribución, tomar el promedio de

Un método más sencillo: