You are on page 1of 12

Algunas definiciones

Población: se define como la totalidad de observaciones que nos interesan, finitas o infinitas, Por ejemplo,
grupo de personas, animales o todos los resultados posibles de algún sistema biológico o de ingeniería
complicado.

Tamaño de la población: numero de observaciones en la población. Por ejemplo, cantidad de estudiantes, etc.

Variable aleatoria X: se define como cada observación en una población.

Muestra: es un subconjunto de una población a observar o estudiar.

Sesgado: se denomina cuando un procedimiento de muestreo produce inferencias que sobreestimen o


subestimen, de forma consistente, alguna característica de la población.

Muestra aleatoria

Sean X1, X2, X3,…, Xn variables aleatorias independientes, cada una con la misma distribución de probabilidad
f(x). Definimos a X1, X2,…, Xn como una muestra aleatoria de tamaño n de la población f(x) y escribimos su
distribución de probabilidad conjunta como:

𝒇(𝒙𝟏, 𝒙𝟐 ,…, 𝒙𝒏 ) = 𝒇(𝒙𝟏) ∗ 𝒇(𝒙𝟐) ∗ … ∗ 𝒇(𝒙𝒏 )

Estadística: se denomina a cualquier función de las variables aleatorias que forman una muestra aleatoria.

BUSCAR LOS DISTINTOS TIPOS DE MUESTRAS.

 Probabilísticos: Aquellas que permiten que todos los elementos de una población sean considerados al
momento de seleccionar una muestra.
o Muestreo aleatorio simple (MAS): es el más utilizado y todos los elementos tienen que tener
la misma probabilidad de ser elegidos.
o Muestreo sistemático (MS): N: tamaño de la población, n: tamaño de la muestra
𝑁
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑒𝑙𝑒𝑣𝑎𝑐𝑖ó𝑛: 𝑘 =
𝑛
o Muestreo estratificado (ME): cuando tenemos buen conocimiento de la población en estudio.
Calculo tamaño de la muestra con una proporción de mujeres y de hombres o siempre que
quiera utilizar estratos de la muestra.
o Muestreo por conglomerado (MC): trabaja con estratos pero confecciona diferentes muestras
que contengan unidades de análisis de los 2 estratos, siendo cada estrato la unidad de medida.
Siempre se usa este cuando hay más de una variable a tener en cuenta.
 No probabilísticos:
o Muestreo accidental (MA): un ejemplo claro es encuesta que hace un tipo que está en una
esquina cualquiera. La gente que pasa por esa esquina es siempre diferente.
o Muestro intencional (MI): encuesta muy delimitada donde suele dar lo que yo espero que de.
Encuestar a médicos solamente
o Muestreo en cuotas (MC): cubro la cuota de lo que necesito encuestar únicamente.

Teorema del límite central


Cuanto mayor es el tamaño de la muestra más cercano es el valor de la desviación estándar, va a ser más cercano
a la desviación poblacional.

𝜎 𝜎 𝑁−𝑛
𝜎𝑥̅ = ≅ √( )
√𝑛 √𝑛 𝑁−1

Según el libro: Sea X es la media de una muestra aleatoria de tamaño n tomada de una población con media μ y
varianza finita σ2, entonces la forma límite de la distribución de:

̅ −𝝁
𝑿
𝒁= 𝝈
⁄ 𝒏

Conforme n tiende a infinito, es la distribución normal estándar n (z; 0, 1)

Regresión lineal
La relación que se ajusta a un conjunto de datos experimentales se caracteriza por una ecuación de predicción
que se denomina ecuación de regresión.

El tema regresión lineal simple se refiere al caso donde solo hay una variable de regresión “y”.

El termino regresión lineal implica que la media μY|xi se relaciona linealmente con x mediante la ecuación de
regresión de población.

𝝁𝑌|𝑥𝑖 = 𝜶 + 𝜷 𝒙

;donde los coeficientes de regresión α y β son parámetros a estimar a partir de los datos muestrales. De esta
misma fórmula proviene la línea de regresión ajustada, donde μY|xi se convierte en y y los coeficientes en a y b,
respectivamente.

𝑦̂ = 𝑎 + 𝑏 . 𝑥

El símbolo 𝑦̂ se utiliza para distinguir entre valor estimado o predicho dado por la línea de regresión de la
muestra y un valor experimental observado y para algún valor de x.
En la figura siguiente se muestra un diagrama de dispersión de 33 muestras de desechos químicamente
tratados.

Diagrama de dispersion con lineas de


regresión
60
Demanda química de oxígeno y (%)
y = 0.9036x + 3.8296
50 R² = 0.9129
40

30

20

10

0
0 10 20 30 40 50 60
Reducción de sólidos x (%)

El valor R2 es el cociente entre la variación explicada y la variación total.

o Interpretación de R2: En este caso vale 0,9129 lo que quiere decir que la suposición de linealidad entre
las dos variables parece ser razonable.
o Mientras que R2 se acerque más a 1 quiere decir que la línea de tendencia del diagrama de dispersión
tiende a ser un modelo lineal.

La ecuación de regresión se utiliza para predecir o estimar la respuesta media o individual para un valor
específico de la variable independiente x.

Por el método de los mínimos cuadrados: Consiste en generar una función de manera que la sumatoria de las
diferencias entre los valores de “y” y los correspondientes a la recta teórica al cuadrado sean mínimos:

𝑔 = ∑(𝑦𝑖 − 𝑌)2

𝑔 = ∑(𝑦𝑖 − 𝑎𝑥 − 𝑏)2

En Excel cuando graficamos un diagrama de dispersión, nos da la posibilidad de graficar, también, la línea de
tendencia junto con el diagrama.
Además nos da a conocer el valor R2 para mejores interpretaciones.

Correlación
El análisis de correlación intenta medir la fuerza de relación entre dos variables “x” e “y” por medio de un
numero llamado coeficiente de correlación, que vale:

𝜎2 𝜎𝑋 2
𝜌2 = 1 − = 𝛽 2

𝜎𝑌 2 𝜎𝑌 2

La medición ρ de la asociación lineal entre dos variables X e Y se estima mediante el coeficiente de


correlación muestral r, donde:

n  xy    x  y 
r
n x   x   n y   y 
2 2 2 2

Es más bien conocido como coeficiente de correlación de producto-momento de Pearson, la cual es una
medida de la relación lineal entre dos variables aleatorias cuantitativas. Este es independiente de las unidades.

En Excel, los comandos que nos dan a conocer el coeficiente de Pearson es


 r = 1, existe una correlación positiva perfecta
 0 < r < 1, existe una correlación positiva.
 r = 0, no existe relación lineal.
 - 1 < r < 0, existe una correlación negativa.
 r = -1, existe una correlación negativa perfecta.

Este mismo coeficiente de Pearson r, elevado al cuadrado, se denomina coeficiente de determinación muestral.
Este es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros
resultados o probar una hipótesis.

Por ejemplo, si r2=0,8902 podemos decir que aproximadamente 89% de la variación en los valores de Y se
explica por una relación lineal con X.

Algo que nos va a ayudar para darle otra notación es:

̅)𝟐
𝑺𝒙𝒙 = ∑(𝒙𝒊 − 𝒙
𝒊=𝟏

̅)𝟐
𝑺𝒚𝒚 = ∑(𝒚𝒊 − 𝒚
𝒊=𝟏

̅) ∗ (𝒚𝒊 − 𝒚
𝑺𝒙𝒚 = ∑(𝒙𝒊 − 𝒙 ̅)
𝒊=𝟏

Entonces, el coeficiente de correlación muestral de Pearson r es:

𝑺𝒙𝒚 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) ∗ (𝑦𝑖 − 𝑦̅)


𝒓= =
√𝑺𝒙𝒙 ∗ 𝑺𝒚𝒚 √∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∗ ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2

Por lo tanto, el coeficiente de determinación muestral:

2
𝑆𝑥𝑦 2
𝑟 =
𝑆𝑥𝑥 ∗ 𝑆𝑦𝑦
Distribución normal
Es la más importante en el campo de la estadística y su grafica se denomina curva normal, la cual describe
aproximadamente muchos fenómenos que ocurren en la naturaleza, la industria y la investigación.

Los errores en las mediciones científicas se aproximan extremadamente bien mediante una distribución normal.
También es conocida como distribución gaussiana.

La ecuación matemática para la distribución de probabilidad de la variable normal depende de los parámetros μ y
σ, su media y desviación estándar. De aquí, denotamos los valores de la densidad de X con n(x; μ, σ)

La función de densidad de la variable aleatoria normal X, con media μ y varianza σ2, es:

1 1 𝑥−𝜇 2
𝑒 2 𝜎 ]
− ∗[
𝑛(𝑥; 𝜇,𝜎) = ∗
√2𝜋 ∗ 𝜎

Donde x varia en el intervalo [-∞,∞], y π = 3,14159…. y e se refiere al numero euler que vale aproximadamente
2,71828….

Las propiedades de la curva normal son:

 La moda, que es el punto sobre el eje horizontal donde la curva es un máximo, ocurre en x = μ
 La curva es simétrica, alrededor de un eje vertical, a través de la media μ.
 La curva tiene sus puntos de inflexión en x = μ ± σ, es cóncava hacia abajo si:
𝝁−𝝈< 𝑋 < 𝜇+𝜎
; y es cóncava hacia arriba en cualquier otro punto.
 La curva normal se aproxima al eje horizontal de manera asintótica conforme nos alejamos de la media
en cualquier dirección
 El área total bajo la curva y sobre el eje horizontal es igual a 1.

Todas las observaciones de cualquier variable aleatoria normal X se pueden transformar en un conjunto de
observaciones de una variable aleatoria normal z con media cero y varianza 1 mediante la siguiente ecuación:

𝑿−𝝁
𝒁=
𝝈

Ejemplo: Si µ = 200 y σ = 20, hallar P(190 < x < 210)

Estandarizamos:

𝟏𝟗𝟎 − 𝟐𝟎𝟎 𝒙 − µ 𝟐𝟏𝟎 − 𝟐𝟎𝟎


𝑷( < < ) = 𝑃(−0,5 < 𝑧 < 0,5)
𝟐𝟎 𝝈 𝟐𝟎
= 𝐹(0,5) − 𝐹(−0,5)

= 0,69 − 0,308 = 𝟎, 𝟑𝟖𝟐𝟗


En Excel ponemos:

Entonces, 0.38 es la probabilidad de que el valor de la variable oscile entre 190 y 210.

Si por ejemplo se necesitan sacar las siguientes probabilidades con media de 4 y varianza de 1,5:

3−4 𝟐 𝟐
𝑷(𝒙 > 𝟑) = 𝑃 (𝑧 > ) = 𝑷 (− ) = 𝟏 − 𝑭 (− ) = 𝟎, 𝟕𝟒
1,5 𝟑 𝟑
2−4
𝑷(𝒙 < 𝟐) = 𝑃 (𝑧 < ) = 𝟎, 𝟎𝟗𝟏
1,5
En Excel:

Caso invertido sería el de encontrar un valor x a partir de un área o probabilidad conocida. Un ejemplo seria:

Dada una distribución normal con media 40 y varianza 6, encuentre el valor de x que tiene un 45% del area a la
izquierda:

Si llamamos f(x) a la función de distribución normal


de las variables anteriormente dichas, requerimos un
valor z que deja un área de 0,45 a la izquierda. Por
esto se despeja un valor x calculando la integral:

𝑥
∫ 𝑓(𝑥) 𝑑𝑥 = 0,45
−∞

En Excel se calcula por medio del comando:

Y si se pide el 14% a la derecha:

Seguimos con f(x) y como se considera el área total


debajo de la curva 1, correspondiente al 100%,
sacamos la diferencia entre este número y el que se
pide:

1 − 0,14 = 𝟎, 𝟖𝟔
y seguimos el mismo procedimiento con la integral:

𝑥
∫ 𝑓(𝑥) 𝑑𝑥 = 𝟎, 𝟖𝟔
−∞

En Excel:

Intervalo de confianza por distribución de medias

𝑃 (−𝑧𝛼 < 𝑧 < 𝑧𝛼 ) = 1 − 𝛼


2 2

𝑋−µ
𝑃 (−𝑧𝛼 < 𝜎 < 𝑧𝛼2 ) = 1 − 𝛼
2
√𝑛

Intervalo de confianza:

𝜎 𝜎
𝑃 (𝑋 − 𝑧𝛼 ∗ < µ < 𝑋 + 𝑧𝛼 ∗ )
2 √𝑛 2 √𝑛
=1−𝛼

Error máximo
𝜎
𝜀𝑚á𝑥. = 𝑧𝛼 ∗
2 √𝑛

Tamaño muestral:
𝑧𝛼 ∗ 𝜎 2
𝑛=( 2 )
𝜀𝑚á𝑥.

Ejemplo:

Al controlar la vida media de 9 baterías se encontró que dio un promedio de 3,5 años. La fábrica informa que la
desviación estándar de sus baterías es de 6 meses (0,5 años). Determinar un intervalo de confianza de 95% para
media poblacional de dichas baterías.

𝑋 = 3,5 𝑦 𝜎 = 0,5

𝛼
1 − 𝛼 = 0,95 → 𝛼 = 0,05 → = 0,025
2
El valor de z para este valor se saca en Excel de la siguiente manera:

𝑧𝛼/2 = 1,96
0,5 0,5
𝑃 (3,5 − 1,96 ∗ < µ < 3,5 + 1,96 ∗ ) = 1 − 𝛼 = 0,95
√9 √9
𝑃(3,17 < µ < 3,82) = 0,95
Si yo hago 100 muestras en el 95%el intervalo va a estar en ese rango [3.17, 3.82]

Aproximación normal a la binomial


Si X es una variable aleatoria binomial con media μ y varianza σ2, entonces la forma limitante de la distribución
de:

𝑋−µ
𝑍= 𝜎 (𝑡𝑒𝑜𝑟𝑒𝑚𝑎 𝑑𝑒𝑙 𝑙𝑖𝑚𝑖𝑡𝑒 𝑐𝑒𝑛𝑡𝑟𝑎𝑙)
√𝑛
; o según el libro:
𝑋 − 𝑛𝑝
𝑍=
√𝑛𝑝𝑞

Donde:

𝝁 =𝒏∗𝒑 𝑦 𝝈𝟐 = 𝑛 ∗ 𝑝 ∗ (1 − 𝑝) = 𝒏 ∗ 𝒑 ∗ 𝒒

; conforme n tiende a infinito, es la distribución normal estándar n( z ; 0 , 1).

Entonces:
𝑎 − 𝑛𝑝 𝑏 − 𝑛𝑝
𝑝(𝑎 < 𝑥𝑏 < 𝑏) ≅ 𝑝( <𝑧< )
√𝑛 ∗ 𝑝 ∗ 𝑞 √𝑛 ∗ 𝑝 ∗ 𝑞

 Ejemplo:

Sea una función de distribución binomial b( x ; 15 , 0.4) , donde n =15 y p = 0,4 . ¿Cuál es la probabilidad exacta de
que X tome valor 4?

Según la distribución binomial, la probabilidad exacta de que X tome el valor 4 es el área del rectángulo con
base centrada en x = 4. El área de este rectángulo es:

𝑃(𝑥=4) = 𝑏(4 ;15 ,0 .4) = 𝟎. 𝟏𝟐𝟔𝟖

Calculado con Excel:


Este área es aproximadamente igual al área de la región sombreada bajo la curva normal entre las dos ordenadas
x1= 3,5 y x2= 4,5. Al convertir estos valores en z, tenemos:

𝑋1 − 𝑛𝑝 3,5 − (15 ∗ 0,4)


𝒁𝟏 = = = −𝟏, 𝟑𝟐
√𝑛𝑝𝑞 √(15 ∗ 0,4 ∗ 0,6)

4,5 − (15 ∗ 0,4)


𝒁𝟐 = = = −𝟎, 𝟕𝟗
√(15 ∗ 0,4 ∗ 0,6)

Si X es una variable aleatoria binomial y Z una variable normal estándar, entonces:

𝑃(𝑥=4) = 𝑏(4 ;15 ,0 .4) ≅ 𝑃(−1,32 < 𝑧 < −0,79)

= 𝑃( 𝑍 < −0,79) − 𝑃( 𝑍< −1,32)

𝑷(𝒙=𝟒) ≅ 𝑷(−𝟏,𝟑𝟐 < 𝑧 < −0,79) = 0,21348 − 0,0934 = 𝟎, 𝟏𝟐𝟏𝟒

En Excel:

En resumen:

 Utilizamos la aproximación normal para evaluar probabilidades binomiales siempre que la probabilidad
no sea cercana a 0 o a 1.
 La aproximación es excelente cuando n es grande y muy buena para valores pequeños n si la
probabilidad se acerca a 0,5.
 Al calcular np y nq se proporciona una posible guía para determinar cuándo se puede utilizar la
aproximación. Si np y nq son mayores o iguales a 5 la aproximación ser buena.

Distribución chi cuadrada


Es una variante de la distribución gamma, cuando α y β toman los valores:

𝜐
𝛼= ; 𝛽=2
2

; donde υ es un entero positivo. La distribución tiene este solo parámetro y denominado grados de libertad.

La variable aleatoria continua X tiene una distribución chi cuadrada, con υ grados de libertad, si su función de
densidad está dada por:

𝟏 𝝊⁄ −𝟏 −𝒙⁄
𝝊 ∗𝒙 𝟐 ∗𝒆 𝟐 , 𝒙>0
{𝟐 ⁄𝟐 ∗ Г(𝝊⁄𝟐)
0, 𝑒𝑛 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Donde Г se denomina función gamma.

Este tipo de distribución es un componente importante de la prueba de hipótesis y de la estimación estadística.

Los temas que tratan con distribuciones de muestreo, análisis de varianza y estadística no paramétrica implican
el uso extenso de la distribución chi cuadrada.

La media y varianza de la distribución chi cuadrada son:

𝝁=𝝊 𝒚 𝝈𝟐 = 𝟐 𝝊

Ejemplo:

Con 3 grados de libertad, hallar la probabilidad de que x sea a lo sumo 2.


y

0.20

0.15

0.10

0.05

x
2 4 6 8 10

En math se calcula con la acumulada de 2.

En Excel, se calcula de la siguiente manera.

Distribución t
Sea Z una variable aleatoria normal estándar y V una variable aleatoria chi cuadrada con v grados de
libertad. Si Z y V son independiente, entonces la distribución de la variable aleatoria T, donde:

𝑋̅ − 𝜇 𝑍
𝑻= =
𝑆⁄
√𝑛 √𝑉⁄𝑣

; esta dada por:


𝒗+𝟏 𝒗+𝟏

Г[ 𝟐 ] 𝑡2 𝟐
ℎ(𝑡) = 𝒗 ∗ (1 + )
Г (𝟐) ∗ √𝝅 ∗ 𝒗 𝑣

;para t que puede tomar valores dentro del intervalo [-∞,∞]. Como dicho anteriormente Г se conoce como
función gamma.

Esta se conoce como la distribución t con v grados de libertad.

Sean X1, X2,…, Xn variables aleatorias independientes que son todas normales con media μ y desviación estándar
σ. Sea:

𝑛 𝑛
𝑋𝑖 (𝑋𝑖 − 𝑋̅)2
𝑋̅ = ∑ 𝑦 2
𝑠 =∑
𝑛 𝑛−1
𝑖=1 𝑖=1

Entonces la variable aleatoria T tiene una distribución t con v = n - 1 grados de libertad.

Esta distribución es simétrica alrededor de una media cero. Esta tiene forma de campana al igual a la distribución
normal pero la distribución t es mas variable, debido al hecho de que los valores T dependen las fluctuaciones de
dos cantidades, la media y la varianza, mientras que los valores de Z dependen solo de los cambios en la media
de una muestra a otra. Cuando el tamaño de la muestra n tiende a infinito las dos distribuciones serán la misma.

Ejemplo:

El valor de t con v= 14 grados de libertad que deja un área de 0,025 a la izquierda y por lo tanto de 0,975 a la
derecha, es:

You might also like