Professional Documents
Culture Documents
TAREA 1
EQUIPO:
MIGUEL GONZALEZ DIAZ
HERNANDEZ FUENTES OLIVER
TEZOCO ZEPAHUA PABLO OSWALDO
RAMIREZ MARIANO
ESTADISTICA INFERENCIAL I
1.8 formulas.
Qu es la estadstica?
La estadstica es la parte de las matemticas que se ocupa de los mtodos para recoger, organizar,
resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables
basadas en tal anlisis
Poblacin Finita: es el conjunto compuesto por una cantidad limitada de elementos, como el nmero de
especies, el nmero de estudiantes, el nmero de obreros.
Ejemplo 1: Calcule la media de los siguientes nmeros:
10, 11, 12, 12, 13
16
18
16
15
12
14
14
16
18 20 16 16
El 14 se repite 3 veces.
El 18 se repite 2 veces.
El 16 se repite 5 veces.
Por lo tanto, la moda es 16.
35
45
33
47
31
29
22
Poblacin infinita
Ejemplo 1: Desde la perspectiva de un modelo de espera, la situacin de espera se genera del siguiente
modo:
1.- Cuando un cliente llega a la instalacin se forma una cola de espera (fila o lnea).
2.-El servidor elige un cliente de la lnea de espera para comenzar a prestar el servicio.
3.-Al finalizar un servicio, el cliente abandona el servicio y se repite el proceso de elegir un cliente (en
espera).
Ejemplo 2:
Cuntas palabras de tres letras se pueden formar con cinco consonantes y tres vocales de modo que
cada palabra comience y termine en consonante?
C V C
--- --- ---
5 3 4
Ejemplo 3:
Un estudiante que realiza un examen debe responder 7 de las 10 preguntas. El orden no importa. De
cuntas formas puede responder el examen?
Existen
10 10! 10.9.8
C7 = --- = ------ = 120
7!3! 3.2.1
Combinaciones posibles de preguntas que puede contestar.
MEDIDAS DE ESTADSTICA
Medidas descriptivas
Las medidas descriptivas son valores numricos calculados a partir de la muestra y que nos resumen la
informacin contenida en Ella.
Medidas
es
decir,
de
cuartiles,
de Posicin: Cuantiles
Los cuantiles son valores de la distribucin que la dividen
en partes iguales,
en intervalos, que
comprenden el mismo nmero
valores. Los ms usados son los
los deciles y los percentiles.
PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos
ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones,
y por encima queda el 85%
CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales,
son un caso particular de los percentiles:
- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de
los datos
- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la
mitad de los datos
- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes
de los datos
DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son
tambin un caso particular de los percentiles.
Ejemplo:
Dada la siguiente distribucin en el nmero de hijos (Xi) de cien familias, calcular sus cuartiles.
xi
ni
Ni
14
14
10
24
15
39
26
65
20
85
15
100
n=100
Solucin:
1.
Primer cuartil:
2.
Segundo cuartil:
3.
Tercer cuartil:
Medidas de Centralizacin
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como representativo
de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de
datos. Por orden de importancia, son:
MEDIA: (media aritmtica o simplemente media). es el promedio aritmtico de las observaciones, es
decir, el cociente entre la suma de todos los datos y el nmero de ellos. Si xi es el valor de la variable y
ni su frecuencia, tenemos que:
Si los datos estn agrupados utilizamos las marcas de clase, es decir c i en vez de xi.
MEDIANA (Me): es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de
tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el nmero de
datos es impar la mediana ser el valor central, si es par tomaremos como mediana la media aritmtica
de los dos valores centrales.
MODA (M0): es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta
es mayor. No tiene porque ser nica.
Medidas de Dispersin
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo,
las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son
representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la
dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre
medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que
nos permitirn comparar varias muestras.
MEDIDAS DE DISPERSIN ABSOLUTAS
VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada observacin y la media
aritmtica del conjunto de observaciones.
Haciendo operaciones en la frmula anterior obtenemos otra frmula para calcular la varianza:
DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades que la variable pero al
cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica que
se define como la raz cuadrada positiva de la varianza
Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la
frmula (cuasi desviacin tpica):
RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y
el menor. Re = xmax - xmin
MEDIDAS DE DISPERSIN RELATIVAS
COEFICIENTE DE VARIACIN DE PEARSON: Cuando se quiere comparar el grado de dispersin de
dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se
utiliza el coeficiente de variacin de Pearson que se define como el cociente entre la desviacin tpica y el
valor absoluto de la media aritmtica
CV representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto
cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media.
Medidas de Forma
Comparan la forma que tiene la representacin grfica, bien sea el histograma o el diagrama de barras
de la distribucin, con la distribucin normal.
Medida de asimetra
Diremos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica coinciden.
Diremos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o relativas)
descienden ms lentamente por la derecha que por la izquierda.
Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la
distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una distribucin de frecuencias. Una de ellas es el Coeficiente
de Asimetra de Pearson:
Su valor es cero cuando la distribucin es simtrica, positivo cuando existe asimetra a la derecha y
negativo cuando existe asimetra a la izquierda.
10
Muestra estadstica
En estadstica una muestra estadstica (tambin llamada muestra aleatoria o simplemente muestra) es un
subconjunto de casos o individuos de una poblacin estadstica.
Las muestras se obtienen con la intencin de inferir propiedades de la totalidad de la poblacin, para lo
cual deben ser representativas de la misma. Para cumplir esta caracterstica la inclusin de sujetos en la
muestra debe seguir una tcnica de muestreo. En tales casos, puede obtenerse una informacin similar a
11
la de un estudio exhaustivo con mayor rapidez y menor coste (vanse las ventajas de la eleccin de una
muestra, ms abajo).
Por otra parte, en ocasiones, el muestreo puede ser ms exacto que el estudio de toda la poblacin
porque el manejo de un menor nmero de datos provoca tambin menos errores en su manipulacin. En
cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.
El nmero de sujetos que componen la muestra suele ser inferior que el de la poblacin, pero suficiente
para que la estimacin de los parmetros determinados tenga un nivel de confianza adecuado. Para que
el tamao de la muestra sea idneo es preciso recurrir a su clculo
Ventajas de la eleccin de una muestra
El estudio de muestras es preferible, en la mayora de los casos, por las siguientes razones:
1. Si la poblacin es muy grande (en ocasiones, infinita, como ocurre en determinados experimentos
aleatorios) y, por tanto, imposible de analizar en su totalidad.
2. Las caractersticas de la poblacin varan si el estudio se prolonga demasiado tiempo.
3. Reduccin de costos: al estudiar una pequea parte de la poblacin, los gastos de recogida y
tratamiento de los datos sern menores que si los obtenemos del total de la poblacin.
4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor rapidez.
5. Viabilidad: la eleccin de una muestra permite la realizacin de estudios que seran imposible
hacerlo sobre el total de la poblacin.
6. La poblacin es suficientemente homognea respecto a la caracterstica medida, con lo cual
resultara intil malgastar recursos en un anlisis exhaustivo (por ejemplo, muestras sanguneas).
7. El proceso de estudio es destructivo o es necesario consumir un artculo para extraer la muestra
(ejemplos: vida media de una bombilla, carga soportada por una cuerda, precisin de
12
Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra para datos globales es la
siguiente:
Variables discretas
Una variable discreta es una variable que solo puede tomar valores dentro de un conjunto numerable, es
decir, no acepta cualquier valor sino solo aquellos que pertenecen al conjunto. En estas variables se dan
de modo inherente separaciones entre valores observables sucesivos. Dicho con ms rigor, se define una
variable discreta como la variable que hay entre dos valores observables (potencialmente), hay por lo
menos un valor no observable (potencialmente).
10 ejemplos:
1 El nmero de los alumnos de un saln de clase
2 El nmero de los habitantes de una casa
3 El nmero de los jugadores en un partido de futbol
4 El nmero de animales en una granja
5 El nmero de visitas a un museo
13
Variables continuas
Una variable continua puede tomar un valor cualquiera dentro de un rango predeterminado. Y siempre
entre dos valores observables va a existir un tercer valor intermedio que tambin podra tomar la variable
continua. Una variable continua toma valores a lo largo de un continuo, esto es, en todo un intervalo de
valores. Un atributo esencial de una variable continua es que, a diferencia de una variable discreta, nunca
puede ser medida con exactitud; el valor observado depende en gran medida de la precisin de los
instrumentos de medicin. Con una variable continua hay inevitablemente un error de medida.
10 ejemplos:
1 la estatura de una persona
2 el peso de una persona
3 la velocidad de un autobs en un tiempo determinado
4 la Longitud de una lnea
5 El tiempo
6 La capacidad de un recipiente
14
7 la medicin de un terreno
8 El peso un objeto
9 La temperatura en un da soleado
10 El promedio de las asignaturas
TEOREMAS DE PROBABILIDAD
Teorema de la probabilidad total
El teorema de la probabilidad total afirma lo siguiente:
Sea
probabilidades condicionales
Teorema de Bayes
En la teora de la probabilidad el teorema de Bayes es un resultado enunciado por Thomas Bayes en 1763 que
expresa la probabilidad condicional de un evento aleatorio A dado B en trminos de la distribucin de probabilidad
condicional del evento B dado A y la distribucin de probabilidad marginal de slo A.
En trminos ms generales y menos matemticos, el teorema de Bayes es de enorme relevancia puesto que
vincula la probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo la probabilidad de
tener un dolor de cabeza dado que se tiene gripe, se podra saber (si se tiene algn dato ms), la probabilidad de
tener gripe si se tiene un dolor de cabeza, muestra este sencillo ejemplo la alta relevancia del teorema en cuestin
para la ciencia en todas sus ramas, puesto que tiene vinculacin ntima con la comprensin de la probabilidad de
aspectos causales dados los efectos observados.
Sea
un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la
probabilidad de cada uno de ellos es distinta de cero (0). Sea B un suceso cualquiera del que se conocen las
15
probabilidades condicionales
. Entonces, la probabilidad
dnde:
es la probabilidad de
en la hiptesis
FRMULA DE BAYES
Entonces
.
Es muy comn encontrarlo con la variable estandarizada Zn en funcin de la media muestra
16
Puesto que son equivalentes, as como encontrarlo en versiones no normalizadas como puede ser:
Nota: es importante remarcar que este teorema no dice nada acerca de la distribucin de
existencia de media y varianza
, excepto la
Teorema de Bernoulli
El Teorema de Bernoulli es un caso particular de la Ley de los grandes nmeros, que precisa la
aproximacin frecuencia de un suceso a la probabilidad p de que este ocurra a medida que se va
repitiendo el experimento.
Dados un suceso A, su probabilidad p de ocurrencia, y n pruebas independientes para
determinar
la
ocurrencia
o
no-ocurrencia
de
A.
Sea f el nmero de veces que se presenta A en los n ensayos y un nmero positivo
cualquiera, la probabilidad de que la frecuencia relativa f/n discrepe de p en ms de (en
valor absoluto) tiende a cero al tender n a infinito. Es decir:
Teorema de Moivre-Laplace
En probabilidad el teorema de Moivre-Laplace es una aproximacin normal a la
distribucin binomial. Se trata de un caso particular del Teorema central del lmite.
Establece que la distribucin binomial del nmero de xitos en n pruebas independientes
de Bernoulli con probabilidad de xito p en cada intento es, aproximadamente, una
distribucin normal de media np y desviacin tpica
, (cabe aclarar que q = 1-p), si n
es suficientemente grande y se satisfacen determinadas condiciones.
El teorema apareci por primera vez en la segunda edicin de The Doctrine of Chances,
de Abraham de Moivre, publicado en 1738. Los "ensayos de Bernoulli" no se llamaron as
en ese libro, pero De Moivre escribi lo suficiente sobre la distribucin de probabilidad del
17
nmero de veces que apareca "cara" cuando se lanzaba una moneda 1800 veces.
El teorema
Si
cuando
FORMULAS
18
Moda
La moda, M o , es el valor que tiene mayor frecuencia absoluta.
1 Todos los intervalos tienen la misma amplitud.
Mediana
Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados de menor
a mayor.
1 Si la serie tiene un nmero impar de medidas la mediana es la puntuacin central de la misma.
19
Cuartiles
Los cuartiles son los tres valores de la variable dividen a un conjunto de datos
ordenados en cuatro partes iguales.
Clculo de los cuartiles
1 Ordenamos los datos de menor a mayor.
20
, en la tabla de las
Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Clculo de deciles
Ordenamos los datos de menor a mayor.
Buscamos la puntuacin, en la serie, o la clase, en la tabla de las frecuencias acumuladas, donde se
encuentra
,.
Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Clculo de percentiles
Ordenamos los datos de menor a mayor.
Buscamos la puntuacin, en la serie, o la clase, en la tabla de las frecuencias acumuladas, donde se
encuentra
,.
21
Desviacin media
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones
respecto a la media.
Varianza
La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media de
una distribucin estadstica.
Para simplificar el clculo de la varianza vamos o utilizar las siguientes expresiones que son
equivalentes a las anteriores.
22
Desviacin tpica
La desviacin tpica es la raz cuadrada de la varianza.
Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las
anteriores.
Coeficiente de variacin
El coeficiente de variacin es la relacin entre la desviacin tpica de una muestra y su media.
23
Puntuaciones diferenciales
Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media
aritmtica.
xi = Xi X
Puntuaciones tpicas
Las puntuaciones tpicas son el resultado de dividir las puntuaciones diferenciales entre
la desviacin tpica. Este proceso se llama tipificacin.
FORMULAS MS IMPORTANTES
24
25
26
27