ADEI Unidad 1

¿Qué es ADEI?
1
¿Qué es ADEI?
1.- Descripción de conjuntos de datos
2.- Ajustar Modelos
3.- Diseño de experimentos
2
¿Qué es ADEI?
Caracterizar en base a indicadores objetivos la dispersión, tendencia y distribución

de un set de datos.
3
¿Qué es ADEI?

de un set de datos.
Poseen el mismo promedio, pero distintos rangos de variación

¿Qué es ADEI?

de un set de datos.
5
Poseen el mismo promedio y rango de variación, sin embargo están distribuidos de
distinta manera.
¿Qué es ADEI?
Describir relación entre variables, definiendo casualidad y causalidad
Volumen de un gas Población humana

CAUSALIDAD CASUALIDAD
Temperatura Precio del petróleo
6
¿Qué es ADEI?
Obtener de manera eficiente y útil los datos sobre los que se concluirá.
8 Mediciones, con algunas redundantes 6 Mediciones, con más información de la dinámica
7
¿Qué es ADEI?
Evitar la confusión: Es poder explicar de buena forma las dependencias.
Se busca estudiar la relación entre

presión y volumen de un gas, es 1era Medición 2da Medición
decir, P(v).
Se realiza un experimento que varía
V y mide P. P1 , V 1
P2 , V 2
La segunda medición, a menor
volumen, también resulta en una T1 T2
menor presión.
EL EXPERIMENTO FRACASA
No se consideró que las temperaturas de las dos
mediciones eran distintas, no se bloqueó dicho efecto.
¿Qué es ADEI?
3.- Ajuste de modelos
Para predecir, explicar y optimizar.
y
¿Cuál es la ecuación que describe los puntos?
x 9
¿Qué es ADEI?
y
¿Es una recta?
y=a*x + b
x
x 10
¿Qué es ADEI?
y
¿Es una cuadrática?
y=ax2+bx + c
11
¿Qué es ADEI?
y
¿Es una cúbica?
Y=ax3+bx2+cx+d
x
12
¿Qué es ADEI?
Supongamos que es una recta

y
¿Es esa recta?
y=a*x + b
x
13
¿Qué es ADEI?

y
¿Es esa recta?
y=a*x + b
x
14
¿Qué es ADEI?

y
¿Es esa recta?
y=a*x + b
x
15
¿Qué es ADEI?
Supongamos que es LA cuadrática

y
¿Cuál es el máximo? ¿Cómo puedo aprovecharlo?
x
16
¿Qué es ADEI?
Para predecir, explicar, optimizar, etc.
Supongamos que es una cúbica

y
¿Representa la fenomenología entre las variables?
x
17
Ejemplos de aplicación
18
Ejemplo de aplicación: Descripción.
Una fábrica de barras de cereal imprime en las etiquetas de sus productos que estos
contienen un 4% de fibra.
Sus maquinarias, que no son perfectas, añaden una cantidad de fibra con una
variabilidad de ±2%. Por lo que está obligada añadir una cantidad de fibra promedio
de 6%, para asegurar que sus productos cumplan con lo indicado en la etiqueta
%Fibra
8%
6%±2%
4% 4%
Tiempo
19
Una fábrica de barras de cereal imprime en las etiquetas de sus productos que estos
contienen un 4% de fibra.
Sus maquinarias, que no son perfectas, añaden una cantidad de fibra con una
variabilidad de ±2%. Por lo que está obligada añadir una cantidad de fibra promedio
de 6%, para asegurar que sus productos cumplan con lo indicado en la etiqueta
Un joven ingeniero, que ponía

atención a su clase de ADEI,
%Fibra logró disminuir la variabilidad del
porcentaje de fibra a la mitad, 1%.
4% a 8%
5% a 7%
6%
4%
Con lo que se pudo disminuir la
fibra promedio por unidad, sin
Tiempo
trasgredir la legislación
20
Suponiendo que cada barra de cereal pesa 100 [g], y que la fábrica solo cuenta con
100 [kg] de fibra por día ¿Cuánto fue posible aumentar la producción de barras de
cereal por día gracias a las mejoras hechas por el joven ingeniero?
100.000 [g]/0,06/100[g]=16.667 unidades
%Fibra 100.000 [g]/0,05/100[g]=20.000 unidades
4% a 8%
4% a 6%
6% AUMENTO DEL 17%
5%
4% EN LA PRODUCCIÓN
Tiempo
21
Ejemplo de aplicación: Optimización
Supongamos que tenemos un proceso químico en donde se sintetiza un valioso producto B.
De acuerdo a la cinética de formación de B, mientras más alta esté la temperatura del
reactor, mayor será la cantidad de producto obtenida (mayores ingresos).
Modelo predictor de cantidad de B
22
Fijándose solo en la producción de B, lo óptimo sería tener la temperatura lo más alta

posible. Sin embargo, calentar el reactor no es gratis, así que se hace un estudio de costos.
Modelo predictor de cantidad de B Modelo predictor de costo de calefacción
23
Fijándose solo en la producción de B, lo óptimo sería tener la temperatura lo más alta

posible. Sin embargo, calentar el reactor no es gratis, así que se hace un estudio de costos.
Considerando ambos hechos, que se mueven a la inversa con la temperatura, se hace

conveniente hallar el óptimo para la utilidad del proceso.
Contraste de ingreso y costo Utilidad del proceso
24
Ejemplo de aplicación: Detección de anomalías.
Es una aplicación de los clasificadores. Supongamos el caso de un motor, el cual mientras a más
RPM se mueve, más vibraciones genera.
Vibración Anomalía, las vibraciones son más

altas de lo normal para esas RPM
Frontera de normalidad
RPM
25
Ejemplo de aplicación: Detección de anomalías.
Es una aplicación de los clasificadores. Supongamos el caso de un motor, el cual mientras a más
RPM se mueve, más vibraciones genera.
Anomalía, las vibraciones son más

Vibración altas de lo normal para esas RPM
Frontera de normalidad
RPM
26
Rol del diseño de experimento
Descriptiva: Resumir, organizar y simplificar.
La estadística como herramienta

Inferencial: Generalización de la población en
base a una muestra REPRESENTATIVA.
Estudio observacional: No se manipulan variables, se analiza lo que hay.

La vía del
Experimento randomizado: Se bloquea y manipula lo de interés.
- Definir una muestra representativa.
- Identificar variables dependientes e independientes.
- Bloquear y segar lo necesario.
- Evitar la confusión.i88
- DEFINIR CAUSALIDAD.
Para Predecir eventos.

Prevenir eventos perjudiciales. Cuando y porqué suceden las cosas!
Promover eventos favorables.
27
Identificar patrones.
Tipos de variables
28
Tipos de variables
Se clasifican según su medición y dependencia.
Cualitativas: Indican cualidad (rojo/verde, casado/soltero).
1.- Nominales: No se pueden ordenar.

* Dicotómicas: Dos valores
* Politópicas: Varios valores
Medición
2.- Ordinales: Se pueden ordenar (grado de satisfacción, etc.)
Cuantitativas: Indican cantidad (variable numérica).
1.- Discreta: Valores enteros (número de hijos, etc.)
2.- Continua: Valores decimales (peso: 62.5, 70.1, 53.6, etc.)
29
Tipos de variables
Se clasifican según su medición, dependencia e influencia.
Dependientes: Toman su valor como función de otras cantidades.
Dependencia
Independientes: No depende de otro valor, el investigador
puede fijarlas arbitrariamente. Ej: reactivo adicionado.
30
Organización de datos
31
Si tenemos una muestra de pocos datos y los graficamos, podemos extraer de forma fácil
información a partir de ellos.
x x x xx x x x x
2 3 4 5 6 7 8
Aquella representación podría ser útil, pero ¿qué pasa si aumenta la cantidad de datos?
Ciertamente los datos se hacen indistinguibles. Es por esto que es necesario generar un
arreglo ordenado de tal forma que muestre de forma simplificada las características
fundamentales de los datos.
1.- Tabla de frecuencia

- Datos cualitativos, cuantitativos discretos y cuantitativos continuos (n>30).
- El gráfico de la tabla de frecuencia se denomina “histograma” y suele ser de barras.
2.- Diagramas de tallo y hoja

- Datos cuantitativos continuos (n<30)
32
1.- Tabla de Frecuencia
• Clase: En datos cualitativos y cuantitativos discretos es la respuesta o medición que se

tiene. Sin embargo en datos continuos se generan intervalos que representan las clases.
• Frecuencia absoluta y relativa: La frecuencia absoluta representa el número de

elementos que pertenecen a una determinada clase. La frecuencia relativa es lo mismo
pero expresado en porcentaje:
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑛𝑖
𝑓𝑖 = =
𝑛º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑛
Donde 𝑛𝑖 es el número de elementos que pertenecen a la clase i-ésmia.
• Frecuencia absoluta y relativa acumulada: Es la suma de la frecuencia absoluta y

acumulada respectivamente.
𝑛
Cuando 𝑘 = 𝑛, 𝑁𝑘 = 𝑛
𝑁𝑘 = ෍ 𝑛𝑘
𝑘=1
𝑛
𝐹𝑖 = ෍ 𝑓𝑖 Cuando 𝑖 = 𝑛, 𝐹𝑖 = 1
33
𝑖=1
Ejemplo: Tabla de frecuencia, datos discretos
=2/34
Frecuencia Fabs_ Frecuencia Frel_
Clase
absoluta acumulada relativa acumulada
1 2 2 0,06 0,06
2 1 3 0,03 0,09
3 3 6 0,09 0,18
4 5 11 0,15 0,32
5 7 18 0,21 0,53
6 6 24 0,18 0,71
7 3 27 0,09 0,79
8 4 31 0,12 0,91
9 2 33 0,06 0,97
10 1 34 0,03 1,00
TOTAL 34 1,00
34
Ejemplo: Tabla de frecuencia, datos continuos
Datos Paso 1: Determinar número de clases
29,57 39,64 50,9
37,77 36,81 32,38 - Regla de Sturges:
36,67 51,21 34,05 𝑘 = 1 + 3,322 log 𝑛
50,73 45,43 42,41
- Regla de Fisher:
37,83 26,99 50,05
38,45 33,16 32,89 𝑘= 𝑛
33,64 41,63 64,68 Para este caso:
35,04 47,17 33 𝑘 = 50 = 7,07~8
33,7 40,56 33,74
63,47 44,95 48,53
60,29 44,48 56,8 Paso 2: Determinar amplitud de la clase
31,34 49,1 36,55 𝑅𝑑 + 𝑙
46,15 41,84 40,09 𝑎=
𝑘
52,49 30,81 45,53 Donde
25,43 30,28 33,9 𝑅𝑑 = 𝑅𝑎𝑛𝑔𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 = 𝑣𝑎𝑙𝑜𝑟 𝑚𝑎𝑦𝑜𝑟 − 𝑣𝑎𝑙𝑜𝑟 𝑚𝑒𝑛𝑜𝑟
33,65 28,99 38,86 𝑙 = 𝑈𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑎𝑑𝑖𝑐𝑖ó𝑛.
34,01 50,86
𝑙 = 1 𝑝𝑎𝑟𝑎 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑜𝑠
𝑙 = 0.1 𝑝𝑎𝑟𝑎 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑜𝑠
En este caso:
𝑎 = 4,9~5
35
Datos Paso 3: Determinar el rango de la tabla y diferencial
29,57 39,64 50,9
37,77 36,81 32,38 𝑅𝑇 = 𝑘 ∙ 𝑎 > 𝑅𝑑
36,67 51,21 34,05
50,73 45,43 42,41
𝐷 = 𝑅𝑇 − 𝑅𝑑 > 0
37,83 26,99 50,05
38,45 33,16 32,89 Para este caso:
33,64 41,63 64,68 𝑅𝑇 = 40
35,04 47,17 33 𝑅𝑑 = 39,25
33,7 40,56 33,74 Y finalmente
63,47 44,95 48,53
𝐷 = 0,75
60,29 44,48 56,8
31,34 49,1 36,55
46,15 41,84 40,09
Paso 4: Construcción de los intervalos de clase
52,49 30,81 45,53
𝐷
25,43 30,28 33,9 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 1 𝐿𝐼1 = 𝑚í𝑛 𝑥𝑖 −
33,65 28,99 38,86 2
34,01 50,86
𝐿í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 1 𝐿𝑆1 = 𝐿𝐼1 + 𝑎
𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 2 𝐿𝐼2 = 𝐿𝑆1
𝐿í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 2 𝐿𝑆2 = 𝐿𝐼2 + 𝑎
36
Datos Paso 4: Construcción de los intervalos de clase
29,57 39,64 50,9
37,77 36,81 32,38
36,67 51,21 34,05 Finalmente el intervalo es,
50,73 45,43 42,41 [𝐿𝐼1 − 𝐿𝑆1 [
37,83 26,99 50,05 [𝐿𝐼2 − 𝐿𝑆2 [
38,45 33,16 32,89 El valor numérico que caracteriza a este intervalo se
33,64 41,63 64,68
denomina marca de clase.
35,04 47,17 33
33,7 40,56 33,74
𝐿𝐼𝑖 + 𝐿𝑆𝑖
𝑚𝑖 =
63,47 44,95 48,53 2
60,29 44,48 56,8
Límite inferior Límite superior Marca de clase Fabs Facc
31,34 49,1 36,55
25,055 30,055 27,56 5 5
46,15 41,84 40,09
30,055 35,055 32,56 14 19
52,49 30,81 45,53
35,055 40,055 37,56 9 28
25,43 30,28 33,9
40,055 45,055 42,56 8 36
33,65 28,99 38,86 45,055 50,055 47,56 5 41
34,01 50,86 50,055 55,055 52,56 5 46
55,055 60,055 57,56 2 48
60,055 65,055 62,56 2 50
TOTAL 50
37
Gráficos de datos
Límite inferior Límite superior Marca de clase Fabs Facc
25,055 30,055 27,56 5 5
30,055 35,055 32,56 14 19
35,055 40,055 37,56 9 28
40,055 45,055 42,56 8 36
45,055 50,055 47,56 5 41
50,055 55,055 52,56 5 46
55,055 60,055 57,56 2 48
60,055 65,055 62,56 2 50
TOTAL 50
38
Descripción de series de datos
39
Índices de localización (posición)
1.- Tendencia central
- Media
- Mediana
- Moda
2.- Cuantiles
Indicadores descriptivos Índices de dispersión (variables cuantitativas)

1.- Rango
2.- Rango inter cuartil
3.- Desviación estándar y varianza
Índices de forma (variables cuantitativas)

1.- Asimetría
2.- Curtosis
40
Índices de localización
1.- Tendencia Central: Busca un representante de lo más común.
- Media o promedio:
𝑛
1 (Datos dispersos)
𝑥ҧ = ෍ 𝑥𝑖
𝑛
𝑖=1
𝑥ҧ = ෍ 𝑓𝑖 ∙ 𝑚𝑖 (Datos agrupados)
𝑖=1
Ventaja: Utiliza el máximo de los datos disponibles.
Desventajas: Sensible a datos extremos.
41
1.- Tendencia Central:
- Mediana (Me): Es el dato que se encuentra justo en el centro de los datos

ordenados de menor a mayor.
𝑛+1 (Datos dispersos, nº impar)

𝑥
2
𝑛 𝑛
Me 𝑥 2 +𝑥 2+1 (Datos dispersos, nº par)
2
𝑛 𝑎𝑖
𝐿𝐼 50% + − 𝑁𝑖−1 ∙ (Datos agrupados)
2 𝑛𝑖
Ventaja: No es sensible a datos extremos.

42
1.- Tendencia Central:
- Moda (Mo): Representa el dato con mayor frecuencia en datos cualitativos o

cuantitativos discretos. Sin embargo en datos continuos es posible representar
el máximo mediante la siguiente relación geométrica.
𝑑1
𝐿𝐼 {𝑚á𝑥 𝑓 } + 𝑎
𝑖 𝑑1 + 𝑑2 𝑖
𝑑1 = 𝑛𝑖 − 𝑛𝑖−1
𝑑2 = 𝑛𝑖 − 𝑛𝑖+1
43
2.- Cuantiles: Buscan un representante en los extremos.
Son puntos tomados a intervalos regulares en el conjunto de datos ordenados de menor a

mayor, tal que entre ellos exista el mismo % de datos. La interpretación del cuantil nos dice
que bajo el cuantil i-ésimo se encuentra el i% de datos.
En general un percentil se define como el porcentaje de observaciones que caen bajo una
observación.
Los cuantiles se dividen en 3 grandes grupos principalmente:
• Cuartiles o percentil 25: se divide el conjunto de datos en 4 grupos.
mín P 25 mediana P 75 máx

El IQR es Q3 menos el Q1. Es decir,
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9 8,2 8,5 el 75%-25% de los datos centrales.
Q1 Q2 Q3 Q4
IQR
Se define el Rango Inter Cuartil (IQR) como el lugar donde habitan el 50% de los datos
centrales. 44
2.- Cuantiles
• Quintiles o percentil 20: se divide el conjunto de datos en 5 grupos.

• Deciles o percentil 10: se divide el conjunto de datos en 10 grupos.
Para un percentil general
𝑗(𝑛 + 1)
𝑃𝑗 = 𝑥 Datos dispersos
100
𝑛∙𝑗 𝑎𝑗
𝑃𝑗 = 𝐿𝐼𝑗 + − 𝑁𝑗−1 Datos agrupados
100 𝑛𝑗
45
Índices de dispersión
1.- Rango
𝑅𝑎𝑛𝑔𝑜 = 𝑚á𝑥 𝑥 − 𝑚í𝑛 𝑥
Ventaja: Fácil y rápido de calcular
Desventaja: Sensible a datos extremos
2.- Rango inter cuartil (IQR): Elimina datos extremos que pueden ser anómalos.
𝐼𝑄𝑅 = 𝑃75% − 𝑃25%
46
Demos un vistazo a los datos a través del tiempo: Datos en el tiempo

9
Datos 5,4 2,9 5,1 4,2 5,4 4,7 7,9 4,8 7,6 3,2
8
7
6
Dato
5
4
3
2
0 1 2 3 4 5 6 7 8 9 10 11
Tiempo
Es razonable considerar una medida de la dispersión de los puntos respecto al centro

calculada según:
El problema surge cuando, al haber valores positivos y negativos , la
𝑑𝑖 = 𝑥𝑖 − 𝑥ҧ
distancia promedio tiene a anularse y acercarse a cero. Lo cual no
representa.
47
Podemos trabajar las distancias como valores absolutos :
𝑑𝑖 = 𝑥𝑖 − 𝑥ҧ Pero es una función compuesta: 𝑥𝑖 − 𝑥ҧ → 𝑥𝑖 > 𝑥ҧ

𝑑𝑖 = 𝑥𝑖 − 𝑥ҧ = ቊ
(computacionalmente costosa) 𝑥𝑖 − 𝑥ҧ → 𝑥𝑖 ≤ 𝑥ҧ
Alternativamente podemos trabajar con los cuadrados de las distancias:
Lo que al promediar, llamamos distancia cuadrática media

𝑑𝑖2 = 𝑥𝑖 − 𝑥ҧ 2
(o simplemente promedio de los cuadrados).
Al promedio de las distancias al cuadrado se le conoce como varianza,
σ 𝑥𝑖 − 𝑥ҧ 2
𝑠𝑥2 = (si se cuenta con pocos datos, la división es por n-1 en vez de n)
𝑛
48
Notaremos que si los datos están, por ejemplo, en metros [m], la varianza está en [m2] .
Definimos a la desviación estándar (típica o esperada) como la raíz de la varianza.
σ 𝑥𝑖 − 𝑥ҧ 2
𝑠𝑥 = 𝑠𝑥2 = (si se cuenta con pocos datos, la división es por n-1 en vez de n)
𝑛
La desviación estándar si tiene las mismas unidades del conjunto de datos, y es una medida
de cual es la distancia estándar (típica o esperada) a la que se encuentra un dato del centro
de la serie.
49
Índices de forma
1.- Asimetría o sesgo: Indica la tendencia que muestran los datos al agruparse.
Frecuencia
Frecuencia
Uniforme Normal
Clase Clase
Frecuencia
Sesgado a Frecuencia Sesgado a

la izquierda la derecha
Clase Clase
Índices de forma
2.- Curtosis: Compara la variabilidad de los datos con la distribución normal.
• Mesocurtica: Variabilidad es muy parecida a la de la distribución normal

• Platicurtica: Variabilidad es mucho mayor a la de la distribución normal
• Leptocurtica: Variabilidad es más pequeña que la de la distribución normal
Boxplot
52
Gráficos de datos: Boxplot.
Una forma alternativa de representar los datos es a través de un gráfico de cajas o Boxplot.
Recordemos el set de datos y los cuartiles analizados:
min P 25 mediana P 75 max
Datos (ord) 2,9 3,2 4,2 4,7 4,8 5,1 5,4 5,4 7,6 7,9 8,2 8,5
Q1 Q2 Q3 Q4
IQR
Q4 max
Q3 P 75
Q2 mediana
Q1 P 25
Q0 min
53
Robustez
La robustez es la medida en que se ve afectado un indicador por una medición “anómala”.
Por ejemplo fijémosnos en los siguiente set de datos, en donde en uno de ellos se digitó
mal la coma de una cierta medición.
Datos promedio mediana var std iqr

5,9 3,6 4,7 5,7 4,8 4,0 4,4 4,1 2,8 4,4 4,4 1,0 1,0 0,8
5,9 3,6 4,7 57 4,8 4,0 4,4 4,1 2,8 10,1 4,6 309,5 17,6 0,8
Vemos que tanto el promedio, como la varianza de la distribución se ven afectadas por el
dato anómalo, perdiendo representatividad, es decir, no son indicadores robustos.
Por otro lado, la mediana e IQR no se vieron afectadas, es decir, si resultan ser robustas.
Frecuencia relativa
Frecuencia relativa
54
Anómalos u outliers
Las mediciones anómalas, fallas o no representativas, pueden ser muy comunes y afectar
significativamente las características del set de datos, así que deben ser descartadas
oportunamente antes de hacer un análisis más acabado.
SI LOS DATOS SON ERRONEOS, LAS CONCLUSIONES SERÁN ERRONEAS
55
Reconocimiento de anómalos
Método 1: Mediante indicadores no robustos
• Se determina un límite superior e inferior de la siguiente forma: 𝐿𝑖𝑚𝑖𝑡𝑒𝑠 = 𝑥ҧ ± 2𝑠
• Todo lo que esté fuera de esos límites se considera anómalo. Consideremos el siguiente
conjunto de datos.
Datos 5,9 3,6 4,7 57 4,8 4,5 4,0 4,4 4,1 2,8
IndicadoresCon
antes:indicadores no robustos, quitar outliersdespués:
Indicadores modifica
Promedio=los10,1límites inferior y superior, los Promedio=
cuales deben
4,4 ser re
Desviación= 17,6 Desviación= 1,0
calculados
Limite inferior = -25,0
y re crear los límites hasta que ya no se
Limite inferior = 2,4
vean= 45,3
Límite superior outliers. Límite superior = 6,4
Con anomalía Sin anomalía

60 7
50 6
40
5
30
4
20
3
10
0 2
1 3 5 7 9 1
-10
-20 0
-30 1 3 5 7 9
56
Reconocimiento de anómalos
Método 2: Mediante indicadores robustos
• Se determina un límite superior e inferior de la siguiente forma:
𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑄1 − 1,5 ∙ 𝐼𝑄𝑅
𝐿í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 𝑄3 + 1,5 ∙ 𝐼𝑄𝑅
• Todo lo que esté fuera de esos límites se considera anómalo. Consideremos el siguiente
conjunto de datos.
Datos 5,9 3,6 4,7 57 4,8 4,5 4,0 4,4 4,1 2,8
Indicadores:
57
Min = 2,8 Hay que notar que el quitar
P25 = 3,8 . los outliers del set de datos
Med = 4,45 . no modifica ni el centro ni la
P75 = 4,75 . dispersión al usar indicadores
Max = 57 6,2
robustos.
IQR = 0,95
4,8
Frontera inferior:
4,4
3,8-1,5*0,95 = 2,375
Frontera superior: 3,8

4,75-1,5*0,95 = 6,175 57
2,4
Aleatoriedad y probabilidad
58
Aleatoriedad
Aleatoriedad
Se dice que una variable es muestreada de manera aleatoria cuando cada elemento
de la población tiene la misma chance de ser seleccionada.
Repetitividad:
Cuando una operación es repetida los resultados observados rara vez son idénticos,
pueden existir fluctuaciones.
Fluctuaciones:
Ruido Errores Variaciones

Medición
Análisis
Muestreo
Cambio de condiciones
Etc… 59
Histograma y PDF
Dado un conjunto de datos obtenidos a partir de un experimento: Qué pasa si aumenta el
número de datos?
60
Error vs número de datos
Media poblacional n % Error % Error
10 9,949 0,324 0,2714 11,3
𝑛 𝑁 100 9,96 0,2097 0,2506 2,77
1 1 500 9,981 0,006 0,2495 2,315
η = lim ෍ 𝑥𝑖 = ෍ 𝑥𝑖
𝑛→∞ 𝑛 𝑁 1000 9,981 0 0,2439 0
𝑛 𝑖=1
Varianza poblacional
𝑁
2
1
𝜎 = ෍(𝑥𝑖 −η)
𝑁
𝑖=1
Se puede observar que a medida

que aumenta el número de datos,
el promedio y la varianza
muestral se asemejan más a la
poblacional.
61
Histograma y PDF
Dado un conjunto de datos obtenidos a partir de un experimento: Qué pasa si aumenta el
número de datos?
𝑛→∞ Población
Función de densidad de
probabilidad (PDF): describe
𝑓𝑖 𝑥 el comportamiento probable
𝐹𝑥 𝑥 =
∆𝑥 de una población (variable
aleatoria continua).
El área bajo la curva

representa la probabilidad
de un cierto evento.
62
Histograma y PDF
Función de densidad de probabilidades para variables continuas:
Función de densidad de probabilidad (PDF): describe el comportamiento probable de

una población. Algunas de sus características para las variables aleatorias continuas son:
𝐹𝑥 𝑥 ≥ 0, ∀ 𝑥 ∈ 𝑆
+∞
Pr 𝑆 = න 𝐹𝑥 𝑥 𝑑𝑥 = 1
−∞
𝑏
Existen distintas
Distribución de
Pr 𝑎 ≤ 𝑥 ≤ 𝑏 = න 𝐹𝑥 𝑥 𝑑𝑥 funciones de densidad
probabilidades
𝑎 de probabilidad.
Media
+∞
η=𝐸 𝑥 =න 𝑥𝐹 𝑥 𝑑𝑥
−∞
Varianza
+∞
σ2 =𝑉 𝑥 =න 𝑥 − η 2 𝐹 𝑥 𝑑𝑥
−∞
63
Probabilidad
La Probabilidad de un evento (Pr(E)) se puede definir como la medida cuantitativa de la
posibilidad de ocurrencia de un determinado evento.
Se le asigna un valor entre 0-1 (y/o entre 0-100%). Cuando su valor se acerca a cero es menos
probable y cuando es cercano a uno es más probable.
Existen distintos modelos de probabilidad:
• Distribución uniforme discreta

Variables aleatorias discretas • Distribución de Bernouilli
• Distribución binomial
• Distribución de Poisson
• Distribución uniforme continua

• Distribución normal
• Distribución normal estandarizada
Variables aleatorias continuas
• Distribución Chi-Cuadrado de Pearson
• Distribución t-Student
• Distribución F-Snedecor 64
Distribución normal
Teorema del límite central:
Siempre que de una población se extraiga una serie de muestras aleatorias, la distribución de
esas muestras será tendiente a una distribución normal cuando n>30. Independiente de la
distribución de la muestra de origen.
La gráfica de la función de densidad para una distribución normal tiene una forma acampanada
y es simétrica respecto a un determinado parámetro estadístico (media, modo y mediana) y su
función de densidad de probabilidad es la siguiente:
1 𝑋−η 2
−
𝐹𝑥 𝑋, η, 𝜎 = 𝑒 2𝜎 2
𝜎𝑥 2𝜋
Función de densidad de probabilidad normal (PDF)
65
Distribución normal
La función de distribución de probabilidad normal (CDF) es :
𝑏 𝑏
1 𝑋−η 2
−
Pr(𝑎 ≤ 𝑥 ≤ 𝑏) = න 𝐹𝑥 𝑋, η, 𝜎 = න 𝑒 2𝜎2
𝑎 𝑎 𝜎𝑥 2𝜋
Propiedades de la distribución normal:

Aproximadamente el 68% de los datos
se encuentran a ±1 o menos
desviación estándar .
19 de cada 20 datos se ubican en el

intervalo de ±2 desviaciones estándar.
En general, se considera un intervalo
suficientemente amplio para hallar la
mayoría de las observaciones.
Si la distribución es similar a una normal, es usual aproximar a que todos los datos se
hallan entre ±3 desviaciones estándar. Es decir, se toma el máximo y mínimo y en base a
aquello se estima la desviación (sobretodo en control de calidad). 66
PDF y CDF normal
PDF
La media determina la ubicación del centro
de la distribución
La varianza determina qué tan largas son las

colas de la distribución. Visto en el
histograma, si los datos están más dispersos,
las clases centrales tienen menos datos y las
extremas tienen más.
CDF
Para una distribución continua, la

frecuencia acumulada (CDF) se
obtiene de la integral de la PDF.
67
CDF normal
Lamentablemente no hay una expresión analítica para calcular de forma exacta el valor de la
integral correspondiente a la CDF. Sin embargo, existen varias formas de calcularla
aproximadamente.
𝑏 𝑏
1 𝑋−η 2
−
Pr(𝑎 ≤ 𝑥 ≤ 𝑏) = න 𝐹𝑥 𝑋, η, 𝜎 = න 𝑒 2𝜎2
𝑎 𝑎 𝜎𝑥 2𝜋
Aproximación por sumatoria Tablas tipificadas A través de software
Utilizar la aproximación numérica del En el pasado, otros estadísticos Obtener el valor de alguna
área bajo la curva a una serie de tabularon el valor de la integral aplicación como Excel, Matlab o
tetraedros (es una curva suave). para límites conocidos. webapp.
68
Distribución normal tipificada
Tablas tipificadas
Datos tabulados: Una sola tabla: Distribución normal

Una tabla para Adimensionalizar!! tipificada o
cada η y σ estandarizada: N(0,1)
Distribución normal tipificada o estandarizada:

Es un caso particular de una variable aleatoria continua X que se distribuye como una
normal, con media cero y desviación estándar 1 (N(0,1))
1 𝑋2
−2
𝐹𝑥 𝑋, η, 𝜎 = 𝑒
𝜎𝑥 2𝜋
La importancia de la distribución normal tipificada es que tiene la ventaja, de que las

probabilidades para cada valor de la curva se encuentran en una tabla.
69
Distribución normal tipificada
Para utilizar las tablas es necesario transformar cualquier variable que se distribuya como
una normal en una normal tipificada. Para hacer este cambio, se crea una nueva variable Z
que será igual a la anterior X menos su media y dividida por su desviación estándar.
𝑋−η
𝑋 → 𝑁(η, 𝜎) 𝑍= → 𝑁(0,1)
𝜎
𝑋−η 𝑎−η
Pr 𝑋 ≤ 𝑎 = Pr ≤ = Pr 𝑍 ≤ 𝑧𝑎
𝜎 𝜎
Mediante esta transformación

es posible utilizar una sola
tabla para cualquier variable
aleatoria normal
70
Tabla de probabilidad normal
Las tablas pueden informar tanto la

acumulada como el resto.
71
Ejemplos
1) Pr 𝑍 < −0,86 = ?
2) Pr 𝑍 > 1,26 = ?
3) Pr 𝑍 > −1,37 = ?
4) Pr −1,25 < 𝑍 > 0,37 = ?
72
Ejemplos
1) Pr 𝑍 < −0,86 = ?
Para obtener la probabilidad que Z<-0.86 se

identifica el valor de -0.86 en la Tabla y se
extrae el valor de las probabilidades
73
Ejemplos
2) Pr 𝑍 > 1,26 = ?
Para obtener la probabilidad que Z>1.26

primero es necesario identificar el valor de
Z=1.26. La probabilidad que entrega la
Tabla será P(Z<1.26)=0.8962
74
Ejemplos
1) Pr 𝑍 > 1,26 = ?
Luego, utilizando la propiedad de las

probabilidades:
+∞
Pr 𝑆 = න 𝐹𝑥 𝑥 𝑑𝑥 = 1
−∞
Se sabe que la probabilidad del

complemento del evento debe ser igual a
1-0,18962
Pr 𝑍 > 1.26 = 0.1038
75
Ejemplos
3) Pr 𝑍 > −1,37 = ?
Gráficamente lo que se pide es:
Utilizando la idea de simetría con respecto

a cero, lo anterior es equivalente a:
76
Ejemplos
4) Pr −1,25 < 𝑍 < 0,37 = ?
Gráficamente, se desea obtener:
Aplicando la idea de que la integral debe ser igual a 1 para Z Є [−∞, ∞], el área bajo la
curva se puede obtener como:
77
Ejemplos
78
Ejercicios de estadística
1) Determinar la conductividad eléctrica promedio y su desviación estándar para la
producción de cobre utilizando los datos registrados cada 2 horas.
Conductividad (S/mx10^7)
Respuesta
6,229
= 𝟔, 𝟗
6,877
= 𝟎, 𝟗𝟑𝟕
4,831
6,391
5,306
5,743
6,131
7,749
7,345
79
2) La tabla de frecuencias exhibe las edades de una muestra de 36 personas que asistieron
a una película:
Años Frecuencia
8-13 2 a. Hallar el promedio
14-19 7
b. Hallar la varianza
20-25 13
26-31 5 c. Hallar la desviación estándar
32-37 9
Respuesta
a) = 𝟒, 𝟓
b) = 𝟓 𝒂ñ𝒐
c) = 𝟕, [𝒂𝒏𝒐 ]
80
3) La tabla muestra una distribución de frecuencias de la duración de 400 tubos de radio
comprados en la L & M Tube Company
a. Límite superior de la quinta clase

Duración [h] N° de tubos (N=400) b. Límite inferior de la octava clase
c. Marca de clase de la séptima clase
300-400 14 d. Tamaño de intervalo de clase
400-500 46 e. Frecuencia de la cuarta clase
500-600 58 f. Frecuencia relativa de la sexta clase
600-700 76 g. % de tubos con duración menor a 600 hrs
h. % de tubos con duración mayor a 900 hrs
700-800 68
i. % de tubos con duración entre 500 y 1000 hrs
800-900 62 j. Construir el histograma de frecuencia
900-1000 48 k. Construir el histograma de frecuencia relativa
1000-1100 22 l. Construir un gráfico de porcentaje acumulado
1100-1200 6 m. % de tubos con duración menor a 560 hrs
n. % de tubos con duración mayor a 970 hrs
o. % de tubos con duración entre 620 y 890 hrs
81
3) La tabla muestra una distribución de frecuencias de la duración de 400 tubos de radio
comprados en la L & M Tube Company
Respuesta
a. 800
Duración [h] N° de tubos (N=400) b. 1000
300-400 14 c. 950
400-500 46 d. 100
500-600 58 e. 76
f. 0,1555
600-700 76
g. 29,5%
700-800 68 h. 19%
800-900 62 i. 78%
900-1000 48 j. _
1000-1100 22 k. _
l. _
1100-1200 6
m. 23,7%
n. 10,6%
o. 46,15%
82
83
4) Si x es una variable aleatoria de distribución normar N(,) hallar:
𝑃(η − 𝑎𝜎 ≤ 𝑥 ≤ η + 𝑎𝜎)
Respuesta
La distribución es simétrica
   a      a     y es común que las tablas
p z  solo informen valores
    positivos.
p(a  z  a)  p( z  a)  p( z  a) 1  p( z  a)
84
5) Si x es una variable aleatoria de distribución normar N(,) hallar:
𝑃(η − 3𝜎 ≤ 𝑥 ≤ η + 3𝜎)
Respuesta: 99,74%
6) En una distribución normal de media 4 y desviación típica 2, calcular el valor de a para

que:
𝑃 η − 𝑎 ≤ 𝑥 ≤ η + 𝑎 = 0,5934
Respuesta: 1,66
7) En una ciudad se estima que la temperatura máxima en el mes de junio sigue una
distribución normal, con media 23° y desviación típica 5°. Calcular el número de días del
mes en los que se espera alcanzar máximas entre 21° y 27°.
Respuesta: 13 días
85
Inferencia Estadística
86
Inferencia estadística
El objetivo de la inferencia estadística es obtener conclusiones relativas a la población a
partir de los datos muestrales.
Conclusiones
Población Datos Muestra Inferencia respecto a la
población!
A partir de la inferencia estadística se puede:
• Determinar el valor de las variables estadísticas de la población (estimación de

parámetros)
• Tener una hipótesis respecto a los parámetros de la población y decidir si es correcta o no

mediante una muestra (test de hipótesis)
87
Inferencia estadística
Para que la inferencia estadística sea válida la toma de muestras debe ser adecuada para
que sea representativa.
Existen variados desaciertos que pueden invalidar el resultado de nuestro análisis. Por
ejemplo:
• Efectuar un muestreo que no sea aleatorio
• Definir una independencia estadística donde no la hay
• Datos poco representativos.
Para combatir esas y otras deficiencias nacen las 3 herramientas fundamentales del diseño
de experimento:
1. Bloqueo
2. Randomizado
3. Réplicas
88
Estimación de parámetros
Población Datos Muestra
η
𝝈
Estimadores
¿Qué ocurre con los estimadores muestrales cuando aumentamos el número

de datos tomados de la población?
89
Media poblacional n % Error % Error
10 9,949 0,324 0,2714 11,3
𝑛 𝑁 100 9,96 0,2097 0,2506 2,77
1 1 500 9,981 0,006 0,2495 2,315
η = lim ෍ 𝑥𝑖 = ෍ 𝑥𝑖
𝑛→∞ 𝑛 𝑁 1000 9,981 0 0,2439 0
𝑛 𝑖=1
Varianza poblacional
𝑁
2
1
𝜎 = ෍(𝑥𝑖 −η)
𝑁
𝑖=1
Se puede observar que a medida

que aumenta el número de
datos, el promedio y la varianza
muestral se asemejan más a la
poblacional.
90
Al ser el parámetro poblacional un estimador muestral de una variable que es aleatoria, el
mismo también se convertirá en una variable aleatoria.
Muestra 𝑥ҧ1
aleatoria
Muestra Variables Según TLC:

Población Datos 𝑥ҧ2 aleatorias Distribución
aleatoria
normal
Muestra
𝑥ҧ3
aleatoria
91
Dispersión de los promedios poblacionales:
Recordamos que la varianza de los datos de una población se puede calcular por:
V ( xa )   2
Sin embargo si en vez de todos los datos consideramos solo los promedios de ciertos
intervalos tenemos que:
2
 x2  V ( xa )  Donde na representa el numero de elementos en cada intervalo.
a
na
Evidentemente la variabilidad de los promedios será menor o igual a la variabilidad del set de
datos completo.
Y la desviación estándar queda:
1
x  Error estándar de la media poblacional
a
na
92
Si no se conoce  ? Se puede estimar la dispersión de los promedios muestrales a partir
de la varianza muestral, de la siguiente manera.
𝑠
𝑠𝑥ҧ 𝑎 = Error estándar de la media muestral
𝑛𝑎
Ejemplo: Un artículo describe un nuevo método para medir conductividades térmicas de
un determinado acero, utilizando como método experimental un fluido a 100[°F] y una
fuente de poder de 550[W]. Los datos obtenidos se presentan a continuación. Indicar el
estimador de la media poblacional y su error estándar.
Datos
41,6
41,48 𝑥ҧ10 = 41,924
42,34
41,95 𝑠 0,2841
41,86 𝑠𝑥ҧ 𝑎 = = = 0,0898
𝑛𝑎 10
42,18
41,72
42,26
41,81
42,04 93
n=50
η =?
= 𝟏𝟎, 𝟓
𝝈 =?
s= 𝟎, 𝟓
Puedo asegurar que la media poblacional es igual a la media muestral?

Respuesta: No se puede asegurar con certeza que esto sea así.
94
n=50
η =?
= 𝟏𝟎, 𝟓
𝝈 =?
s= 𝟎, 𝟓
Si considero que la variable es aleatoria y sigue una distribución normal.

¿Entre qué rangos voy a encontrar la mayoría del tiempo la media poblacional?
95
¿Entre qué rangos voy a encontrar la mayoría del tiempo el promedio?
Es comúnmente aceptado que un valor para la expresión “mayoría del tiempo”

corresponde a un 95% del tiempo, llamado también un nivel de confianza del 95%
Se puede re-hacer la pregunta ¿Entre que valores oscila el promedio poblacional
con un 95% de confianza o certeza?
Si nos vamos a la función de densidad de probabilidades de la distribución normal:
96
Podemos decir con certeza

que el 95% de los datos se
encuentran entre: 𝑥ҧ ± 1,96 ∙ 𝜎
Para encontrar el rango donde se encuentra el promedio es necesario estimar la

dispersión del mismo de la forma antes vista.
𝜎 𝑠
𝜎𝑥ҧ 𝑎 = 𝑠𝑥ҧ 𝑎 =
𝑛𝑎 𝑛𝑎
Caso 1: Si se conoce σ, el rango del promedio muestral con un 95% de certeza es:
𝜎
𝑥ҧ ± 1,96 ∙ Error de estimación
𝑛 97
Si se conoce σ , el rango es:

valor de la variable estándar Z
𝜎 𝜎 𝜎
𝐼95% 𝐶(𝜇) = 𝑥ҧ ± 1,96 ∙ = [𝑥ҧ − 1,96 ; 𝑥ҧ + 1,96 ]
𝑛 𝑛 𝑛
Intervalo de confianza
Se abrevia: 𝑰𝟗𝟓% 𝑪
Escrito de forma más general para cualquier nivel de confianza, el intervalo para la
media poblacional cuando se conoce σ, es:
𝜎
𝐼𝛾% 𝐶(𝜇) = 𝑥ҧ ± 𝑍1−𝛼 ∙
2 𝑛
98
Por qué?
Demostración de cómo se obtiene dicho intervalo:
Queremos encontrar los valores entre los que se mueve la media (T1 y T2) con un
𝛾% de confianza, escrito de otra forma :
Pr 𝑇1 ≤ 𝜇 ≤ 𝑇2 = 𝛾
Estandarizando:
𝜇 − 𝑥ҧ
Pr 𝑞1 ≤ 𝜎 ≤ 𝑞2 = 𝛾 = 1 − 𝛼 (∗)
𝑛
Siendo q1 y q2 la variable estandarizada de T1 y T2 respectivamente.
99
Para encontrar q1 y q2, suponga la campana de gauss:
𝑞1 = 𝑍𝛼 y 𝑞2 = 𝑍𝛾+𝛼
2 2
Considerando 𝛾 =1−𝛼
α/2 % Ƴ% α/2 %
𝑞2 = 𝑍1−𝛼 Por simetría:
2
𝑞1 = −𝑞2 𝑞1 = −𝑍1−𝛼
2
q1 q2
Reemplazando q1 y q2 y despejando 𝜇 de (*) :
𝜎 𝜎
Pr 𝑥ҧ − 𝑍1−𝛼 ∙ ≤ 𝜇 ≤ 𝑥ҧ + 𝑍1−𝛼 ∙ =𝛾 =1−𝛼
2 𝑛 2 𝑛
Finalmente el intervalo de confianza para la media poblacional cuando 𝜎 es conocido:
𝜎
𝐼𝛾% 𝐶 = 𝑥ҧ ± 𝑍1−𝛼 ∙ Error de estimación
2 𝑛
100
Caso 2: Si no se conoce σ, el rango de la media poblacional debería ser algo así:
𝑠
𝜇 = 𝑥ҧ ± ? ∙
𝑛
El rango o la amplitud del error ya no es el mismo.
¿Cómo será el error de estimación, mayor o menor a cuando se conoce la varianza
poblacional?
Respuesta: El error de estimación será mayor, debido a que tengo menor certeza de
asegurar que el promedio se encuentre dentro de ese rango, por ende el ancho del
intervalo de confianza será mayor.
La pregunta ahora es ¿Qué tanto mayor?

NOTA: Si aumento el número de datos de la muestra, el rango del intervalo debería
disminuir, tengo más confianza en predecir un cierto valor…mientras que si el
número de datos es menor, tengo menor certeza de asegurar que el promedio
muestral (en este caso) sea parecido al poblacional. 101
La pregunta ahora es ¿Qué tanto mayor?
Respuesta: Para describir el caso donde no se conocen la varianza poblacional, sólo

la muestral, surge una nueva distribución de densidad de probabilidades llamada: t-
student
𝑠
𝜇 = 𝑥ҧ ± 𝑡1−𝛾%,𝑣
𝑛
T-student
102
T-Student
Distribución t-student:
Es una función de densidad de probabilidad cuya función es:
Sus principales propiedades son:
• Es simétrica equivalente a la normal

y está centrada en el punto (0,0)
• Sus colas son menos pesadas que la
distribución normal (posee una
desviación estándar mayor a 1).
• Cuando el número de variables
aleatorias es muy grande, la
distribución se asemeja a la normal.
103
T-Student
Como ya sabemos para obtener la función de distribución de probabilidades es necesario
integrar la función de densidad de probabilidad.
Lamentablemente no hay una expresión analítica para calcular de forma exacta el valor de la
integral correspondiente a la CDF. Sin embargo, existen varias formas de calcularla
aproximadamente.
Aproximación por sumatoria Tablas tipificadas A través de software
Utilizar la aproximación numérica del En el pasado, otros estadísticos Obtener el valor de alguna
área bajo la curva a una serie de tabularon el valor de la integral aplicación como Excel, Matlab o
tetraedros (es una curva suave). para límites conocidos. webapp.
104
T-Student
Tablas tipificadas
Datos tabulados: Una sola tabla:
Una tabla para Distribución t-student
Adimensionalizar!!
cada y s
Para utilizar las tablas es necesario transformar cualquier variable que se distribuya como
una t-student en una variable estándar. Para hacer este cambio, se crea una nueva variable
“t” que será igual a la anterior X menos su media y dividida por su desviación estándar
muestral.
𝑥−𝜇
𝑋 → 𝑡(𝜇, 𝑠) 𝑡 =
𝑠
Mediante esta
𝑋 − 𝜇ҧ 𝑎 − 𝜇 transformación es posible
Pr 𝑋 ≤ 𝑎 = Pr ≤ = Pr 𝑡 ≤ 𝑡𝑎
𝑠 𝑠 utilizar una sola tabla.
La variable estandarizada se conoce como t-student. y depende del número de datos de la

muestra o grados de libertad.
Se definen los grados de libertad como: 𝑣 =𝑛−1 105

T-Student
Si se desea estimar la t de student para un cierto promedio muestral:
𝑥ҧ − 𝜇
μ→ 𝑡(𝜇, 𝑠) 𝑡= 𝑠
𝑛
𝑥ҧ − 𝜇 𝑎 − 𝜇
Pr 𝑥ҧ ≤ 𝑎 = Pr 𝑠 ≤ 𝑠 = Pr 𝑡 ≤ 𝑡𝑎
𝑛 𝑛
Generalmente en las industrias químicas no se tiene conocimiento de los índices

estadísticos de la población, es decir sólo se poseen estimadores muestrales de los
mismos, por lo que nos encontraremos generalmente bajo la necesidad de utilizar la
distribución t-student para la estimación de la media poblacional.
El intervalo de confianza para la media poblacional es:

𝑠
𝐼𝛾% 𝐶(𝜇) = 𝑥ҧ ± 𝑡1−𝛼, ∙ Error de
𝑣 𝑛
2 estimación
106
Intervalo de confianza de una media
La distribución t-student tiene dos
usos principales. El primero es
determinar la probabilidad de un
suceso, en función de los grados de
libertad. (El segundo es conocer el
intervalo de confianza de un valor,
dados un grado de confianza
determinada).
El modo de usar la tabla es indicando

en el eje Y el número de grados de
libertad, y calcular el valor de t0
dentro de la tabla. Ubicado el punto
se localiza en el eje X la probabilidad
que ocurra el suceso.
v= 1 => Pr(t > 2) = 0,148

v= 9 => Pr(t > 2) = 0,038
v= infinito => Pr(t > 2) = 0,023
107
Ejemplo: Comparación entre dos muestras
Ejemplo de aplicación:
El departamento de zoología llevó a cabo un estudio para estimar la cantidad de fósforo

químico medido en dos estaciones sobre el río Arce. En la estación 1 la historia a mostrado
que la desviación estándar alcanza los 1.49[mg/lt]. En una muestra de 15[lt] se obtuvo un
contenido promedio de 3,84[mg/lt]. En la estación de trabajo 2 en una muestra de 12 [lt] se
obtuvo un contenido promedio de 2,94[mg/lt] con una desviación estándar de 1,23[mg/lt].
Sobre la base de un intervalo del 95% de confianza ¿Estaría inclinado a sostener que los
contenidos promedios de fósforo de las estaciones son significativamente distintos?.
Respuesta: No se puede sostener que las estaciones sean significativamente distintas.
108
Ejemplo: Comparación de dos tratamientos
EXPERIMENTO MÉTODO RESULTADO
Ejemplo industrial: 1 A 89,7
2 A 81,4
En una planta química el porcentaje de conversión 3 A 84,5
de cierto elemento depende de las condiciones de 4 A 84,8
reacción. El método habitual es el llevado a cabo 5 A 87,3
con las condiciones A. Sin embargo se ha propuesto 6 A 79,7
un nuevo método según un conjunto de 7 A 85,1
condiciones B. Los resultados obtenidos son los 8 A 81,7
siguientes: 9 A 83,7
10 A 84,5
11 B 84,7
12 B 86,1
¿Es el método modificado mejor 13 B 83,2
14 B 91,9
que el método oficial? 15 B 86,3
16 B 79,3
17 B 82,6
18 B 89,1
19 B 83,7
109
20 B 88,5
Aplicación: Comparación de dos tratamientos
EXPERIMENTO MÉTODO RESULTADO Indicadores:
1 A 89,7 Promedio del método A: 84,24
2 A 81,4 Promedio del método B: 85,54
3 A 84,5
4 A 84,8 Gráficamente:
5 A 87,3
6 A 79,7 Comparación de dos tratamientos
7 A 85,1 Método A Método B
94
8 A 81,7
92
9 A 83,7 90
10 A 84,5
Conversión
88
11 B 84,7 86
12 B 86,1 84
13 B 83,2 82
14 B 91,9 80
78
15 B 86,3 0 5 10 15 20
16 B 79,3 Número de experimento
17 B 82,6
18 B 89,1 ¿Es el método modificado mejor que el
19 B 83,7 110
20 B 88,5 método oficial?
Aplicación: Comparación de dos tratamientos
Haciendo un acercamiento podemos notar que a instantes el promedio de la muestra
puede variar considerablemente dentro de un intervalo de tiempo preestablecido. Entonces
Comparación de dos tratamientos
¿como estamos seguros que el promedio obtenido por el método B realmente representa una
mejora en el proceso? Método A Método B
94 Comparación de dos tratamientos
92 Método A Método B
94
90
92
Conversión
88 90
Conversión
86 88
86
84
84
82 82
80 80
78
78
0 5 10 15 20
0 2 4 6 8 10 12 14 16 18 20
Número de experimento
Número de experimento
Buscaremos diferencias “ESTADÍSTICAMENTE SIGNIFICATIVAS”.

111
Intervalo de confianza de un promedio
Desarrollando para el caso de la planta: EXPERIMENTO MÉTODO RESULTADO
x A  84,2 s A  2,9 s A2  8,4 1 A 89,7
2 A 81,4
xB  85,5 s B  3,7 sB2  13,3 3 A 84,5
4 A 84,8
xA  t95%,101 * s A2 nA  84,2  2,2 8,4 / 10 5 A 87,3
6 A 79,7
x A  84,2  2,0  82,4 86,4 7 A 85,1
8 A 81,7
9 A 83,7
xB  t95%, 9 * sB2 nB  85,5  2,2 13,3 / 10 10 A 84,5
xB  85,5  2,5  83,0 88,0 11 B 84,7
12 B 86,1
13 B 83,2
Entonces es posible que tengamos algunos días: 14 B 91,9
A B
15 B 86,3
85 84 (mejor A)
83 88 (mejor B) 16 B 79,3
86 86 (iguales) 17 B 82,6
18 B 89,1
Concluimos que no hay diferencia significativa entre ambos
19 B 83,7
(al 95% de conf.). No hay uno mejor y las diferencias que 112
observamos son producto de la variabilidad natural aleatoria.
20 B 88,5
Intervalo de confianza de un promedio
Si en cambio hubiéramos obtenido: EXPERIMENTO MÉTODO RESULTADO
1 A 89,7
2 A 81,4
x A  84,2  0,2  84,0 84,4 3 A 84,5
4 A 84,8
y 5 A 87,3
xB  85,5  0,5  85,0 86,0
6 A 79,7
7 A 85,1
8 A 81,7
Diríamos que en el caso más extremo, A obtiene 84,4 y B 9 A 83,7
obtiene 85,0. Es decir, B siempre es mejor. 10 A 84,5
11 B 84,7
Concluimos que con un nivel de confianza del 95%, existe 12 B 86,1
diferencia estadísticamente significativa entre ambos, y B es 13 B 83,2
mejor. 14 B 91,9
15 B 86,3
16 B 79,3
17 B 82,6
18 B 89,1
19 B 83,7
113
20 B 88,5
Intervalo de confianza de promedios
Alternativamente podemos calcular el intervalo de confianza de EXP. MÉTODO RESULTADO
una diferencia de promedios. En ese caso consideramos: 1 A 89,7
2 A 81,4
Estadígrafo: diferencia de promedios. 
 x  x A  xB  3
4
A
A
84,5
84,8
5 A 87,3
Grados de libertad: del conjunto.   (nA 1)  (nB 1) 6 A 79,7
Error estándar: a pesar que no es exacto, se puede aproximar por: 7 A 85,1
8 A 81,7
9 A 83,7
 A s A2  B sB2 1 1 10 A 84,5
SE  *  11 B 84,7
 A  B n A nB 12 B 86,1
13 B 83,2
Es la raíz de la varianza ponderada con 14 B 91,9
los grados de libertad. 15 B 86,3
16 B 79,3
17 B 82,6
 A s A2  B sB2 1 1
 x  t95%, v A  vB * *  18 B 89,1
 A  B n A nB 19
20
B
B
83,7
114
88,5
Considerando los números: EXP. MÉTODO RESULTADO
1 A 89,7
x A  84,2 s A  2,9 s  8,4
2
A n A  10 2 A 81,4
xB  85,5 s B  3,7 sB2  13,3 nB  10 3 A 84,5
4 A 84,8
5 A 87,3
 A s A2  B sB2 1 1 6 A 79,7
 x  t95%, v A  vB * *  7 A 85,1
 A  B n A nB 8 A 81,7
9 A 83,7
10 A 84,5
11 B 84,7
9 * 8,4  9 *13,3
85,5  84,2  2,1* *
1 1
 12 B 86,1
99 10 10 13 B 83,2
14 B 91,9
15 B 86,3
1,3  2,1* 3,3* 0,4  1,3  3,1  1,8 4,4 16
17
B
B
79,3
82,6
18 B 89,1
Es decir, a veces es mayor A y a veces mayor B. Llegamos igualmente 19 B 83,7
que no hay diferencia significativa entre ambos métodos. 20 B 115
88,5
Sería distinto el caso en que el intervalo de confianza fuese EXP. MÉTODO RESULTADO
siempre positivo o siempre negativo. Es decir, que no pasara por 1 A 89,7
cero. 2 A 81,4
3 A 84,5
Supongamos: 1,3  0,7  0,6 2,0 4
5
A
A
84,8
87,3
6 A 79,7
Recordemos que habíamos definido la diferencia de promedios 7 A 85,1
como A - B. En aquel caso, donde el margen de error es de menor 8 A 81,7
en magnitud a la diferencia de las medias, vemos que siempre A 9 A 83,7
será mayor que B. 10 A 84,5
11 B 84,7
12 B 86,1
13 B 83,2
14 B 91,9
15 B 86,3
Llegamos a la misma conclusión anterior. Existe evidencia 16 B 79,3
suficiente para declarar que A tiene un promedio mayor que B y 17 B 82,6
aquella diferencia es estadísticamente significativa. 18 B 89,1
19 B 83,7
20 B 116
88,5
Cabe hacer la salvedad que, implícitamente, hemos supuesto que EXP. MÉTODO RESULTADO
las varianzas de ambas muestras son comparables. De existir 1 A 89,7
evidencia suficiente de diferencia sustancial en las varianzas, 2 A 81,4
debemos modificar algo el estadístico de prueba: 3 A 84,5
4 A 84,8
y2  y1 5 A 87,3
t 6 A 79,7
sa2 sb2 7 A 85,1
 8 A 81,7
n A nB 9 A 83,7
Utilizando como grados de libertad: 10 A 84,5
2
11 B 84,7
s 2
s  2 12 B 86,1
  A B
13 B 83,2
v  n A nB  14 B 91,9

2
s A / nA
2
 

2
s B / nB
2
 15
16
B
B
86,3
79,3
nA  1 nB  1 17 B 82,6
18 B 89,1
A pesar que esa es la formalidad, lo que hemos utilizado es una 19 B 83,7
20 B 117
88,5
buena aproximación trabajando con datos imperfectos reales.
Intervalo de confianza de la varianza
Hasta el momento nos hemos centrado en comparar estadísticamente los promedios de los
datos muestreados, para comparar los rendimientos medios de alternativas de tratamientos o
métodos.
Algunas veces es de vital importancia el grado de variación de los datos. Tal es el caso de las
variables que indican cierto nivel de calidad, plantas que no pueden exceder cierto nivel de
emisiones, equipos con control de temperatura, acidez, o similares donde una variación excesiva
de alguna propiedad puede afectar los equipos, el medio ambiente o elevar los costos de
producción.
Supongamos que Z1, Z2,… Zv son un conjunto de observaciones independientes entre si, con
distribución N(0,1), luego:
D
Tiene una distribución 2, donde  es el número de
 u
Z 2
u 1
grados de libertad.
118
Distribución Chi2 (2)
Variable aleatoria de Chi2 de Pearson: Se llama así a la variable aleatoria resultante de

sumar los cuadrados de u variables aleatorias independientes con distribución N(0,1) (normal
tipificada). Los grados de libertad son directamente u (para u > 0), denominando Z a la variable
aleatoria con distribución u2.Su función de densidad es:
u u Z
Para todo x > 0. ( representa una función gamma)
21
2 2
* Z *e 2
f (Z , u) 
u 2 
Cuando u=k  , 2  N (v>50)
Su media es: u
Y su varianza es: 2*u
119
Anteriormente hemos trabajado transformando cualquier set de datos muestreado al

azar según:
y0     y  
2
  y  
2
n
Z0 
 Z  
2 0
2 Z  2 0
2
*
n
Con el fin de contar con un set de datos tipificado, centrados en cero y con desviación
estándar iguala la unidad. Con lo cual tenemos que:
y0   y 0  
2
Z0 

 N (0,1) Y  2
  n2
Factor común
120
Anteriormente hemos trabajado transformando cualquier set de datos muestreado al

azar según:
y0     y  
2
  y  
2
n
Z0 
 Z  
2 0
2 Z   2 0
2
*
n
Con el fin de contar con un set de datos tipificado, centrados en cero y con desviación
estándar iguala la unidad. Con lo cual tenemos que:
y0   y 0  
2
Z0 

 N (0,1) Y  2
  n2
Si la media es conocida, entonces: Factor común
s*2 
  y 0  
2
ns*2
 2 s*2

 v2 (escalada)
 
2 n 2
n v
121
Lo más común es que la media sea desconocido, con lo que:
s 2

  y u y 2
o  y u y 
2
  n21
n 1 2
s2 2
(n  1) *  2
n 1
o s 
2
*  n21
2 n 1
En valor de Chi2 se encuentra

tabulado, de manera similar a las
demás distribuciones que hemos
visto.
El eje X representa la probabilidad y

el eje Y representa los grados de
libertad. Los valores tabulados
122
representan el estadígrafo Chi2.
Considere un ejemplo con 10 repeticiones
y s2 = 15
123
124
 n  1  s 2 n  1   s 2 
P 2 2  2   1
  / 2, n 1  
 1 / 2 , n 1 
125
Test de hipótesis
126
Prueba de Hipótesis
Definiciones generales
Hipótesis estadística: Es una conjetura o suposición que se realiza respecto a una población,
más específicamente, a un parámetro de la población (media, varianza, asimetría...etc).
En una investigación se plantean generalmente dos hipótesis mutuamente excluyente, en
esta metodología se definen como hipótesis nula e hipótesis alternativa.
Hipótesis Estadística
Hipótesis Nula Hipótesis Alternativa

H0 H1
• Afirmación respecto al parámetro • Creencia respecto al parámetro

• Especificaciones del parámetro • Cambios respecto a lo actual
127
Definiciones generales
Hipótesis nula (Ho):
Es una aseveración en el sentido de que un parámetro poblacional tiene un valor específico.
Es el punto de partida de la investigación.
Hipótesis alternativa o del investigador (H1):

Es cualquier hipótesis que difiera de la hipótesis nula.
Según esto podemos encontrar los siguientes casos:
Caso 1 Caso 2 Caso 3
𝐻𝑜 : 𝜇 = 𝑎 𝐻𝑜 : 𝜇 = 𝑎 𝐻𝑜 : 𝜇 = 𝑎
𝐻1 : 𝜇 ≠ 𝑎 𝐻1 : 𝜇 < 𝑎 𝐻1 : 𝜇 > 𝑎
128
Que decisión tomo?
Test de Hipótesis
Hipótesis Nula Hipótesis Alternativa
Toma de decisión:
¿Acepto o rechazo
la hipótesis nula?
129
𝑯𝟎 𝑯𝟏
Toma de decisión:
¿Acepto o rechazo la hipótesis nula?
Población Muestra Estimador

෡
𝜽
Dentro de la región Dentro de la

de aceptación región de rechazo
Acepto 𝑯𝟎 Rechazo 𝑯𝟎 130

¿Cómo definimos la zona de aceptación o rechazo?
Región de aceptación: Son los valores de los estadísticos que son compatibles con la
hipótesis nula. Generalmente corresponde a la región donde la probabilidad de
encontrar un cierto parámetro estadístico sea mayor a 𝛼%.
Región de rechazo: Son los valores de los estadísticos que son incompatibles con la
hipótesis nula. Generalmente corresponde a la región donde la probabilidad de
encontrar la un cierto parámetro estadístico sea menor a un 𝛼%.
131
Valor crítico: Es el valor del estadístico de prueba en su correspondiente distribución (Z,
T…etc.) que divide dicha distribución en dos regiones: una de aceptación y otra de rechazo.
Posibles riesgos en la toma de decisiones
El hecho de utilizar estadísticos muestrales en la toma de decisiones sobre parámetros

poblacionales, incide en el hecho de correr riesgos al establecer conclusiones incorrectas.
Dichas decisiones incorrectas reciben el nombre de error tipo I y error tipo II.
Error tipo I: ocurre cuando la hipótesis nula es rechazada cuando realmente es cierta. La
probabilidad máxima de que ocurra un error tipo I es 𝛼%.
Error tipo II: ocurre cuando la hipótesis nula es aceptada cuando realmente no es falsa. La
probabilidad máxima de que ocurra un error tipo II es 𝛽%.
Decisión Ho es verdadera Ho es falsa
Acepto Ho No hay error Error tipo II
Rechazo Ho Error tipo I No hay error 132

Otras definiciones
α-valor o nivel de significancia:
Se define como la probabilidad máxima de cometer un error tipo I en una prueba
estadística. Se debe especificar antes de realizar la prueba de hipótesis y queda bajo el
criterio del investigador. Generalmente se asumen valores de 5% y 1%. En sí, es la
probabilidad de rechazar la hipótesis nula.
1-α o coeficiente de confianza:
Se define como la probabilidad de aceptar la hipótesis nula cuando esta es verdadera. Es
el complemento del nivel de significancia.
133
Pasos para realizar un test de hipótesis:
Paso 1: Planteamiento de la hipótesis nula y alternativa
Paso 2: Elegir el nivel de significancia α% (si es que no lo dan).
Paso 3: Determinación de la región de aceptación y rechazo de la hipótesis nula.

Si H1: μ≠ a : Considerar ambas colas de la distribución
Si H1: μ > o < a : Considerar solo el lado pertinente de la distribución.
Paso 4: Determinación y cálculo de la función pivotal (Z, T..etc.)  Punto a evaluar
Paso 5: Ubicar el valor obtenido de la función pivotal en la distribución de probabilidad.
Paso 6: Toma de decisión: Rechazo o no la hipótesis nula
134
Ejemplo Caso 1:
Un reactor químico fue diseñado para que bajo ciertas condiciones de operación la
conversión promedio de éste sea de un 90%. Un grupo de ingenieros sospechan que debido
al desgaste que ha sufrido el reactor y el cambio en las condiciones de operación, la
conversión debe haber cambiado. Para comprobar esta suposición toman 10 muestras del
producto de reacción y obtienen que la conversión promedio es de un 85% y la desviación
estándar del set de datos es de 2%. Usted aceptaría o rechazaría la hipótesis propuesta por
los ingenieros?
Paso 1: Definir hipótesis nula y alternativa

𝐻0 : 𝜇 = 90%
𝐻1 : 𝜇 ≠ 90%
Paso 2: Definir nivel de significancia
𝛼 = 0,05
135
Paso 3: Definir región de aceptación y rechazo
Como n<30 y se desconoce la desviación estándar poblacional, el estadístico a utilizar es:
𝑥ҧ − 𝜇
𝑡= 𝑠
𝑛
Pr 𝑡 < 𝑡𝑎 = 95% 𝑡𝑎 = 2,262

-2,262 2,262
Paso 4: Definición y cálculo de la función pivotal
𝑥ҧ − 𝜇 85 − 90
𝑡= 𝑠 = = −7,905
2
𝑛 10
Paso 5: Ubicar valor obtenido de la función pivotal en la función de probabilidad
-7,905 -2,262 2,262
Se rechaza la hipótesis nula, por lo tanto se establece que el promedio de la conversión es

distinto a 90%.
Ejemplo Caso 2:
Un reactor químico fue diseñado para que bajo ciertas condiciones de operación la
conversión promedio de éste sea de un 90%. Un grupo de ingenieros sospechan que debido
al desgaste que ha sufrido el reactor la conversión debe haber disminuido. Para comprobar
esta suposición toman 10 muestras del producto de reacción y obtienen que la conversión
promedio es de un 85% y la desviación estándar es de 2%. Usted aceptaría o rechazaría la
hipótesis propuesta por los ingenieros?
Paso 1: Definir hipótesis nula y alternativa

𝐻0 : 𝜇 = 90%
𝐻1 : 𝜇 < 90%
Paso 2: Definir nivel de significancia
𝛼 = 0,05
138
Paso 3: Definir región de aceptación y rechazo
Como n<30 y se desconoce la desviación estándar poblacional, el estadístico a utilizar es:
𝑥ҧ − 𝜇
𝑡= 𝑠
𝑛 Región de rechazo
α
1- α
Pr 𝑡 < 𝑡𝑎 = 90% 𝑡𝛼 = ±1,833

2
-1,833
Paso 4: Definición y cálculo de la función pivotal
𝑥ҧ − 𝜇 85 − 90
𝑡= 𝑠 = = −7,905
2
𝑛 10
Paso 5: Ubicar valor obtenido de la función pivotal en la función de probabilidad
Región de rechazo
α
1- α
-7.905 -1.833
Se rechaza la hipótesis nula, por lo tanto se establece que el promedio de la conversión es

menor a 90%.
Ejercicio: Comparación entre dos tratamiento EXPERIMENTO MÉTODO RESULTADO
1 A 89,7
Ejemplo industrial: 2 A 81,4
3 A 84,5
En una planta química el porcentaje de conversión 4 A 84,8
de cierto elemento depende de las condiciones de 5 A 87,3
reacción. El método habitual es el llevado a cabo 6 A 79,7
con las condiciones A. Sin embargo se ha propuesto 7 A 85,1
un nuevo método según un conjunto de 8 A 81,7
condiciones B. Los resultados obtenidos son los 9 A 83,7
siguientes: 10 A 84,5
11 B 84,7
12 B 86,1
13 B 83,2
14 B 91,9
¿Es el método modificado mejor 15 B 86,3
que el método oficial? 16 B 79,3
17 B 82,6
18 B 89,1
Utilizar test de hipótesis para diferencia de medias. 19 B 83,7 141
20 B 88,5

ADEI Unidad 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ADEI Unidad 1

Uploaded by

Copyright:

Available Formats

¿Qué es ADEI?

1.- Descripción de conjuntos de datos

2.- Ajustar Modelos

3.- Diseño de experimentos

Caracterizar en base a indicadores objetivos la dispersión, tendencia y distribución

Caracterizar en base a indicadores objetivos la dispersión, tendencia y distribución

Poseen el mismo promedio, pero distintos rangos de variación

Caracterizar en base a indicadores objetivos la dispersión, tendencia y distribución

Describir relación entre variables, definiendo casualidad y causalidad

Volumen de un gas Población humana

Temperatura Precio del petróleo

8 Mediciones, con algunas redundantes 6 Mediciones, con más información de la dinámica

Evitar la confusión: Es poder explicar de buena forma las dependencias.

Se busca estudiar la relación entre

Para predecir, explicar y optimizar.

Para predecir, explicar y optimizar.

Para predecir, explicar y optimizar.

Para predecir, explicar y optimizar.

Para predecir, explicar y optimizar.

Supongamos que es una recta

Para predecir, explicar y optimizar.

Supongamos que es una recta

Para predecir, explicar y optimizar.

Supongamos que es una recta

Para predecir, explicar y optimizar.

Supongamos que es LA cuadrática

Para predecir, explicar, optimizar, etc.

Supongamos que es una cúbica

Un joven ingeniero, que ponía

100.000 [g]/0,06/100[g]=16.667 unidades

%Fibra 100.000 [g]/0,05/100[g]=20.000 unidades

Modelo predictor de cantidad de B

Fijándose solo en la producción de B, lo óptimo sería tener la temperatura lo más alta

Modelo predictor de cantidad de B Modelo predictor de costo de calefacción

Fijándose solo en la producción de B, lo óptimo sería tener la temperatura lo más alta

Considerando ambos hechos, que se mueven a la inversa con la temperatura, se hace

Vibración Anomalía, las vibraciones son más

Anomalía, las vibraciones son más

La estadística como herramienta

Estudio observacional: No se manipulan variables, se analiza lo que hay.

Para Predecir eventos.

Cualitativas: Indican cualidad (rojo/verde, casado/soltero).

1.- Nominales: No se pueden ordenar.

Cuantitativas: Indican cantidad (variable numérica).

1.- Discreta: Valores enteros (número de hijos, etc.)

2.- Continua: Valores decimales (peso: 62.5, 70.1, 53.6, etc.)

Dependientes: Toman su valor como función de otras cantidades.

1.- Tabla de frecuencia

2.- Diagramas de tallo y hoja

• Clase: En datos cualitativos y cuantitativos discretos es la respuesta o medición que se

• Frecuencia absoluta y relativa: La frecuencia absoluta representa el número de

Donde 𝑛𝑖 es el número de elementos que pertenecen a la clase i-ésmia.

• Frecuencia absoluta y relativa acumulada: Es la suma de la frecuencia absoluta y

Indicadores descriptivos Índices de dispersión (variables cuantitativas)

Índices de forma (variables cuantitativas)

Ventaja: Utiliza el máximo de los datos disponibles.

Desventajas: Sensible a datos extremos.

- Mediana (Me): Es el dato que se encuentra justo en el centro de los datos

𝑛+1 (Datos dispersos, nº impar)

Ventaja: No es sensible a datos extremos.

- Moda (Mo): Representa el dato con mayor frecuencia en datos cualitativos o

Son puntos tomados a intervalos regulares en el conjunto de datos ordenados de menor a

• Cuartiles o percentil 25: se divide el conjunto de datos en 4 grupos.