Professional Documents
Culture Documents
Índice
1.- Introducción………………………………………………………………………1
2.- MINITAB……………………………………………………………………………1
3.- Correlación………………………………………………………………………..2
4.- Series de Tiempo……………………………………………………………….17
5.- Distribución Normal……………………………………………………………42
6.- ANOVA……………………………………………………………………………54
7.- Bibliografía………………………………………………………………………75
1. Introducción.
2.- MINITAB
Minitab pone a tu disposición las herramientas necesarias para analizar tus datos y tomar
decisiones con dichos datos para mejorar tus negocios. Minitab es una herramienta poderosa y
fácil de usar, enfocada al análisis de datos complejos y a la identificación y resolución de
problemas relativos a procesos, por ello Minitab se ha convertido en un instrumento fundamental
para todas aquellas compañías con procesos productivos que requieren de un software de
análisis para poder controlar fácilmente esos procesos o mejorar el rendimiento de sus cadenas
de producción.
Minitab Statistical incluye cerca de 50 nuevas características con cambios mínimos en el interfaz,
haciendo que el programa siga siendo igual de fácil de usar que en versiones anteriores.
1
3.- Correlación.
Correlación.
El objetivo de esta sesión es analizar el grado de la relación existente entre variables utilizando
modelos matemáticos y representaciones gráficas. Así pues, para representar la relación entre
dos o más variables desarrollaremos una ecuación que permitirá estimar una variable en función
de la otra.
Por ejemplo:
• ¿En qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de
un determinado producto?
• ¿Cómo representamos que la bajada de temperaturas implica un aumento del consumo
de la calefacción?
A continuación, estudiaremos dicho grado de relación entre dos variables en lo que llamaremos
análisis de correlación.
Los estadísticos han desarrollado dos medidas para describir la correlación entre 2 variables:
a) El coeficiente de determinación.
b) El coeficiente de correlación.
Es la principal forma en que podemos medir la extensión o fuerza de la asociación que existe
entre 2 variables, X y Y.
Como hemos usado una muestra de puntos para desarrollar líneas de regresión, nos
referiremos a esta medida como el coeficiente de determinación de muestra.
2
3.3 Una interpretación intuitiva de r²
Revisaremos las 2 formas extremas en las que las variables X y Y pueden relacionarse. En este
ejemplo cada valor observado de Y cae en la línea de estimación, como se ve en la tabla esta
es una correlación perfecta.
La ecuación de estimación apropiada para este caso es fácil de determinar. Puesto que la línea
de regresión pasa a través del origen, sabemos que la intersección Y es cero; y puesto que Y
se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4.
3
Sustituimos los valores en la fórmula encontramos que el coeficiente de determinación de
muestra es igual a + 1
Una segunda forma extrema en la que las variables X y Y pueden relacionarse es aquella en
que los puntos podrían caer a distancias iguales en ambos lados de una línea de regresión
horizontal. A continuación mostramos la gráfica:
4
Sustituimos los valores en la fórmula encontramos que el coeficiente de determinación de
muestra es igual a 0
5
Se debe subrayar fuertemente que r² mide solo la fuerza de una relación lineal entre 2
variables. Por ejemplo, si tuviéramos muchos puntos X y Y y todos cayeran en la circunferencia
de un círculo, aunque dispersos aleatoriamente, claramente habría una relación entre estos
puntos. (todos caen en el mismo círculo),
Pero si calculamos r² resultaría estar cerca de 0, porque los puntos no tienen una relación lineal
entre sí.
Para evitar estos cálculos, los estadísticos han desarrollado una versión de atajo, usando los
valores que habríamos determinado de antemano en el análisis de regresión. La fórmula es:
Para ver que esta fórmula es un atajo, la aplicaremos a nuestra anterior regresión que relaciona
los gastos de inversión y desarrollo con las ganancias. Recuerde que cuando encontramos los
valores para a y b la línea de regresión para este problema es:
6
3,600 + 2,000 – 5,400
= -------------------------------
5,642 – 5,400
200
= ------ = 0.826 Coeficiente de determinación de muestra
242
Por tanto, podemos concluir que la variación en los gastos de investigación y desarrollo
(la variable independiente X) explica 82.6 % de la variación en las ganancias anuales (la
variable dependiente Y)
7
En el problema anterior encontramos que el Coeficiente de determinación de muestra es
r² = 0.826, para encontrar r sustituimos este valor en la ecuación:
r = √r²
= √0.826
= 0.909 Coeficiente de correlación de muestra
La relación entre las dos variables es directa y la pendiente es positiva, por tanto el signo
de r es positivo.
Supongamos que la cantidad gastada en boletos de cine correlaciona 0.6 con el ingreso familiar.
A primera vista, 0.6 parece ser una correlación bastante fuerte ya que esta más cerca de 1 que
de 0. Pero esto explica sólo el 36% (0.6 x 0.6 = 0.36) de la variación en la cantidad de dinero
que las familias gastan en películas. Esto sugiere que una estrategia de comercialización
diseñada para atraer familias con altos ingresos pasaría por alto una gran cantidad de clientes
potenciales.
8
3.- Colocarse en el siguiente Menú y opción:
9
4.- Seleccionar las variables a correlacionar:
Gastos y Ganancias dando clic en cada una hasta que aparezcan en el recuadro de
variables, posteriormente dar clic en el botón OK.
10
3.6 DIAGRAMA DE DISPERSION.
1. Para generar el diagrama de dispersión:
Colocarse en el siguiente Menú y opción:
Graph Scatterplot
11
3. Seleccionar las variables de Gastos y Ganancias con un clic.
12
3.7 LINEA DE REGRESION Y ECUACION DE REGRESION.
1.- Para generar el diagrama de dispersión con la línea de regresión y la ecuación de
regresión: Colocarse en el siguiente Menú y opción:
Stat Regression Fitted Line Plot…
13
2.- Seleccionar las variables Y y X y clic OK.
14
3.8 Desarrollo de un Caso.
Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto
destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes
datos. Realice los análisis respectivos.
ANÁLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad
2.- Comisión de vendedores
Variable dependiente:
- Ventas
La variable que más relación tiene con las ventas es la variable Gastos de Publicidad.
15
- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relación
relevante con las Ventas:
16
4.- Series de Tiempo en Minitab.
4.1 INTRODUCCIÓN
Toda institución, ya sea la familia, la empresa o el gobierno, tiene que hacer planes para el futuro
si ha de sobrevivir y progresar. Hoy en día diversas instituciones requieren conocer el
comportamiento futuro de ciertos fenómenos con el fin de planificar, prever o prevenir.
La planificación racional exige prever los sucesos del futuro que probablemente vayan a ocurrir.
La previsión, a su vez, se suele basar en lo que ha ocurrido en el pasado. Se tiene pues un
nuevo tipo de inferencia estadística que se hace acerca del futuro de alguna variable o
compuesto de variables basándose en sucesos pasados. La técnica más importante para hacer
inferencias sobre el futuro con base en lo ocurrido en el pasado, es el análisis de series de
tiempo.
Son innumerables las aplicaciones que se pueden citar, en distintas áreas del conocimiento,
tales como, en economía, física, geofísica, química, electricidad, en demografía, en marketing,
en telecomunicaciones, en transporte, etc.
Uno de los problemas que intenta resolver las series de tiempo es el de predicción. Esto es
dado una serie {x(t1),...,x(tn)} nuestros objetivos de interés son describir el comportamiento de la
serie, investigar el mecanismo generador de la serie temporal, buscar posibles patrones
temporales que permitan sobrepasar la incertidumbre del futuro.
17
temperatura en un proceso, caudal de un río, concentración en la atmósfera de un agente
contaminante), o social (número de nacimientos, matrimonios, defunciones, o votos a un partido
político).
En muchas áreas del conocimiento las observaciones de interés son obtenidas en instantes
sucesivos del tiempo, por ejemplo, a cada hora, durante 24 horas, mensuales, trimestrales,
semestrales o bien registradas por algún equipo en forma continua.
Hay cuatro tipos de cambio o variación implicados en el análisis de series temporales, estos son:
1. Tendencia Secular.
2. Fluctuación Cíclica.
3. Variación temporal o estacional.
4. Variación irregular.
Tendencia Secular:
El valor de la variable tiende a aumentar o disminuir en un periodo muy largo. El incremento
estable en los costos de vida registrados en el Indice de Precios al Consumidor (IPC) es un
ejemplo de tendencia secular.
Fluctuación Cíclica:
El ejemplo más común de fluctuación cíclica es el ciclo de negocios. A través del tiempo, hay
años en que el ciclo de negocios llega a un pico por encima de la línea de tendencia. En otros
tiempos, la actividad de los negocios parece caer, llegando a un punto bajo la línea de
tendencia. El tiempo que transcurre entre picos o puntos bajos es de al menos 1 año y puede
llegar a durar hasta 15 o 20 años. (Automóviles, celulares)
18
Variación temporal:
Este tipo de variación implica patrones de cambio en el lapso de un año que tienden a repetirse
anualmente. Ejemplo, la gripa en invierno, la fiebre en verano.
Variación Irregular:
El valor de una variable puede ser completamente impredecible, es decir, cambia de manera
aleatoria. Ejemplo: Conflictos a nivel mundial, como los efectos del conflicto en el Medio Oriente
en 1973, la situación en Irán en 1979-1981, el colapso de la OPEP en 1986 y la situación en
Irak en 1990 sobre los precios de la gasolina en Estados Unidos son ejemplos de variación
irregular.
19
4.3 PRIMER PASO AL ANALIZAR CUALQUIER SERIE DE TIEMPO
El primer paso en el análisis de series de tiempo, consiste en graficar la serie. Esto nos permite
detectar las componentes esenciales de la serie.
Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se
debe omitir o reemplazar por otro valor antes de analizar la serie.
Figura 1.1
Los dos puntos enmarcados en un círculo parecen corresponder a un comportamiento anormal
de la serie. Al investigar estos dos puntos se vio que correspondían a dos días de paro, lo que
naturalmente afectó la producción en esos días. El problema fue solucionado eliminando las
observaciones e interpolando.
Figura 1.2
Las principales fuerzas que causan una variación estacional son las condiciones del tiempo,
como por ejemplo:
20
1) en invierno las ventas de helado
2) en verano la venta de lana
3) exportación de fruta en marzo.
Todos estos fenómenos presentan un comportamiento estacional (anual, semanal, etc.)
Figura 1.3
d) Variaciones irregulares (componente aleatoria): los movimientos irregulares (al azar)
representan todos los tipos de movimientos de una serie de tiempo que no sea tendencia,
variaciones estacionales y fluctuaciones cíclicas.
Ejemplo:
A continuación presentamos los datos que describen el índice de contaminación del aire (en
partículas por millón en el aire) de una ciudad de occidente.
Año 1997 1982 1987 1992
Indice de contaminación 220 350 800 2450
21
3.- Seleccionar: Stat Time Series Time Series Plot
22
Clic OK
5.- Con un clic seleccionamos la columna con los datos de la serie de tiempo.
(El Índice de contaminación)
Iniciamos en el año 1977 con incrementos de 5 años, por eso introducimos 5 en Data Increment.
Clic OK
23
7.- Minitab despliega la serie de tiempo del Índice de contaminación.
24
Para obtener la gráfica de tendencia y la ecuación lineal favor de seguir los siguientes
pasos:
1.- Seleccionar: Stat Time Series Trend Analysis.
2.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type
como Linear
25
3.- Clic en Time para ajustar la escala de tiempo
Clic OK
4.- Clic Ok en la ventana Trend Analysis para obtener la gráfica de tendencia y el modelo
de tendencia lineal.
26
5.- Para generar pronósticos, Clic en Generate forecast.
En este caso buscamos 2 pronósticos, teclear 2 en Number of forecast.
Clic OK
6.- Minitab despliega la gráfica de la tendencia incluyendo los pronósticos.
27
4.5. MODELOS CLASICOS DE SERIES DE TIEMPO
4.5.1 MODELOS DE DESCOMPOSICIÓN
Un modelo clásico para una serie de tiempo, supone que una serie x(1), ..., x(n) puede ser
expresada como suma o producto de tres componentes: tendencia, estacionalidad y un término
de error aleatorio.
Existen tres modelos de series de tiempos, que generalmente se aceptan como buenas
aproximaciones a las verdaderas relaciones, entre los componentes de los datos observados.
Estos son:
Donde:
X(t) serie observada en instante t
Una suposición usual es que A(t) sea una componente aleatoria o ruido blanco con media cero y
varianza constante.
Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depende de otras
componentes, como T(t), sí por el contrario la estacionalidad varía con la tendencia, el modelo
más adecuado es un modelo multiplicativo (2). Es claro que el modelo 2 puede ser transformado
en aditivo, tomando logaritmos. El problema que se presenta, es modelar adecuadamente las
componentes de la serie.
La figura 2.1 ilustra posibles patrones que podrían seguir series representadas por los modelos
(1), (2) y (3).
Figura 2.1
Hay varios métodos para estimar T(t). Los más utilizados consisten en:
28
1) 1) Ajustar una función del tiempo, como un polinomio, una exponencial u otra función
suave de t.
2) 2) Suavizar (o filtrar) los valores de la serie.
3) 3) Utilizar diferencias.
3. T(t) = a + b ebt
bt
1.T(t) = a + bt (Lineal) 2.T(t) = a e (Exponencial) (Exponencial modificada)
Nota:
i. La curva de tendencia debe cubrir un periodo relativamente largo para ser una buena
representación de la tendencia a largo plazo.
ii. La tendencia rectilínea y exponencial son aplicable a corto plazo, puesto que una curva S a
largo plazo puede parecer una recta en un período restringido de tiempo (por ejemplo).
Figura 2.2
En la figura 2.2 ambas curvas (recta y Gompertz) ajustan bien pero las proyecciones divergen
enormemente a largo plazo.
29
Ejemplo 1: En la tabla 2.1 se presentan los datos trimestrales de unidades habitacionales
iniciadas en los Estados Unidos desde el tercer trimestre de 1964 hasta el segundo trimestre de
1972 [1]. (Es necesario advertir que para el análisis de tendencia el periodo que se considera
debería ser más largo. Sin embargo, ya que el propósito principal es el de ilustrar el método de
descomposición y las técnicas para inferir partiendo de los elementos así descompuestos, la
insuficiencia de los datos no tiene por qué interesar.)
Tabla 2.1: Nuevas unidades habitacionales comenzadas en los Estados Unidos del tercer
trimestre de 1964 al segundo trimestre de 1972 (en miles de unidades).
Sea t cada uno de los 32 trimestres que van de 1964 a 1972, o sea que t = 1 para el tercer
trimestre de 1964, t = 2 para el cuarto trimestre, y así sucesivamente. Así que el dominio de
definición de t es el conjunto de los enteros de 1 a 32 inclusive. Sea T(t) las iniciaciones de
viviendas trimestralmente. Los valores de t y T(t) se dan en la tabla 2.2. Para calcular los
valores de a y de b en la recta de tendencia: T(t) = a + bt
30
1969: 1 19 336 405,85
2 20 468 412,19
3 21 387 418,53
4 22 309 424,87
1970: 1 23 264 431,21
2 24 399 437,55
3 25 408 443,89
4 26 396 450,23
1971: 1 27 389 456,57
2 28 604 462,91
3 29 579 469,25
4 30 513 475,59
1972: 1 31 510 481,93
2 32 661 488,27
La figura 2.3 muestra gráficamente la recta de tendencia ajustada a los datos trimestrales de la
tabla 2.2. La recta de trazos después de 1972 representa proyecciones (ver sección 3
Predicciones).
Figura 2.3
31
3.- Seleccionar: Stat Time Series Trend Analysis.
4.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type
como Linear y clic OK
32
5. Minitab despliega la siguiente gráfica, que como podemos observar es similar a la presentada
en el desarrollo del ejercicio.
33
Clic en Four in one.
Clic OK
34
4.8 SUAVIZAMIENTO. FILTROS LINEALES
Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La idea central es
definir a partir de la serie observada un nueva serie que suaviza los efectos ajenos a la tendencia
(estacionalidad, efectos aleatorios), de manera que podamos determinar la dirección de la
tendencia (ver figura 2.4).
Figura 2.4
Lo que hacemos es usar una expresión lineal que transforma la serie X(t) en una serie suavizada
Z(t): Z(t) = F(X(t)), t = 1,...,n
F
X(t) Z(t)
de tal modo que F(X(t)) = T(t). La función F se denomina Filtro Lineal. El filtro lineal más usado
es el promedio móvil.
2.2.2.1 PROMEDIOS MÓVILES
El objetivo es eliminar de la serie las componentes estacionales y accidentales. Para una serie
mensual con estacionalidad anual (s = 12), la serie suavizada se obtiene,
1 Z ( k − 6) + Z ( k − 5) + Κ + Z (k + 5) + 1 2 Z ( k + 6)
Z (k ) = 2
, 7≤ k ≤ n−6
12 (1)
Para una serie trimestral, con estacionalidad anual (s = 4), la serie suavizada está dada por
1 Z ( k − 2) + Z ( k − 1) + Z ( k ) + Z ( k + 1) + 1 2 Z ( k + 2)
Z (k ) = 2
, 3≤ k ≤ n−2
4 (2)
35
Ejemplo 2: A partir de los datos del ejemplo1, se calcula un promedio móvil sumando los valores
para un cierto número de periodos sucesivos y dividiendo luego la suma así obtenida por el
número de períodos abarcados. En este caso se trata de una serie trimestral y para ello se
ocupa la fórmula (2).
Tabla 2.3: Cálculo del Promedio Móvil centrado de cuatro trimestres de las iniciaciones de
viviendas en los EEUU, tercer trimestre 1964 a segundo trimestre de 1972 (en miles de
unidades)
Promedio Móvil
Año por Datos Total Móvil en Promedio Móvil de Centrado de cuatro
trimestre Originales Y cuatro trimestres cuatro trimestres trimestres
(1) (2) (3) (4) (5)
1964: 3 398
4 352
1965: 1 283 1.487 372 371
2 454 1.481 370 369
3 392 1.474 369 367
4 345 1.465 366 359
1966: 1 274 1.403 351 338
2 392 1.301 325 308
3 290 1.166 292 285
4 210 1.110 278 276
1967: 1 218 1.100 275 287
2 382 1.192 298 314
3 382 1.322 331 341
4 340 1.402 351 359
1968: 1 298 1.472 368 373
2 452 1.513 378 382
3 423 1.545 386 391
4 372 1.583 396 398
1969: 1 336 1.599 400 395
2 468 1.563 391 383
3 387 1.500 375 366
4 309 1.428 357 348
1970: 1 264 1.359 340 342
2 399 1.380 345 356
3 408 1.467 367 382
4 396 1.592 398 424
1971: 1 389 1.797 449 471
2 604 1.968 492 507
3 579 2.085 521 536
4 513 2.206 552 559
1972: 1 510 2.263 566
2 661
En la tabla 2.3, por ejemplo, el promedio móvil de cuatro trimestres para el primer trimestre de
1965 se obtiene sumando los valores del tercer y cuarto trimestres de 1964 y el primero y
segundo trimestres de 1965 y dividiendo luego la suma por 4. El promedio para el segundo
trimestre de 1965 se obtiene sumando los valores del cuarto trimestre de 1964 con los del
primero, segundo y tercer trimestres de 1965 y luego dividiendo la suma por 4. Así pues, para
cada promedio sucesivo, se resta el trimestre que viene primero y se suma el último siguiente.
36
La columna 4 de la tabla 2.3 muestra los promedios móviles de cuatro trimestres obtenidos,
partiendo de los datos iniciaciones de viviendas para el 1964 a 1972. El promedio móvil no
elimina las fluctuaciones muy acentuadas de la serie, pero reduce sustancialmente la amplitud
de las variaciones de los datos originales.
Si en el cálculo de un promedio móvil entra un número impar de períodos, el proceso será más
sencillo puesto que el número de períodos antes y después del período para el cual se calcula el
promedio son iguales. Si el número de periodos es par, como en este ejemplo, no se puede
utilizar el mismo número de períodos antes y después de un periodo especificado. Por tanto, el
promedio móvil ha de quedar a mitad de camino entre los valores de dos períodos consecutivos
y no se relaciona con ningún período. Este problema se puede resolver calculando un promedio
móvil centrado en la serie, lo cual se logra obteniendo primero un promedio móvil centrado de
dos trimestres de los promedios móviles ya obtenidos. El primer promedio móvil centrado es la
media de los dos primeros promedios móviles de cuatro trimestres, el segundo promedio móvil
centrado es la media de los promedios móviles de cuatro trimestres segundo y tercero, etc. De
esta manera, habrá un número igual de períodos después y antes del periodo especificado para
el cual se está calculando el promedio móvil centrado. Los promedios móviles centrados se ven
en la columna 5 de la tabla 2.3.
2
398 + 2 * (352 + 283 + 454) + 392
Z (3) =
4 * ( 2)
4
398
+ 352 + 283 + 454 + 392
Z (3) = 2 2
= 371
4
Este valor corresponde al Promedio Móvil Centrado que se muestra en la columna 5.
La figura 2.5 muestra gráficamente el ajuste por a través del promedio móvil, según tabla 2.3,
donde el segmento negro representa la serie original y el segmento azul la serie suavizada.
Figura 2.5
37
4.9 Desarrollo en Minitab: PROMEDIOS MOVILES.
1.- Abrir Minitab.
38
3.- Seleccionar: Stat Time Series Moving Average...
39
4.- Seleccionar con un clic la variable con las series de tiempo y colocar la MA length.
En este caso es igual a 4 (4 trimestres por año). Clic OK
40
4.10 Resumen
Se llama Serie de Tiempo, a un conjunto de mediciones de cierto fenómeno o experimento
registradas secuencialmente en el tiempo, por ejemplo a cada hora, mensualmente,
trimestralmente, semestralmente, etc.. En este apunte se trabajó con series de tiempo discreto,
equiespaciadas en cuyo caso se asume que: : {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Debido
al carácter introductorio se restringió al caso de series de tiempo univariadas.
Al analizar una serie de tiempo, lo primero que se debe hacer es graficar la serie. Esto nos
permite detectar las componentes esenciales de la serie. El gráfico de la serie permitirá: detectar
Outlier, detectar tendencias, variación estacional, variaciones irregulares (o componente
aleatoria).
Un modelo clásico para una serie de tiempo, puede ser expresada como suma o producto de
tres componentes: tendencia, estacional y un término de error aleatorio. Existen tres modelos de
series de tiempos. Estos son:
Los métodos revisados en este apunte son de naturaleza descriptiva, por lo que el juicio y el
conocimiento del fenómeno juegan un rol importante en la selección del modelo.
Los métodos clásicos tienen la desventaja que se adaptan a través del tiempo, lo que implica
que el proceso de estimación debe volver a iniciarse frente al conocimiento de un nuevo dato.
41
5.- Distribución Normal.
1.- Tiene algunas propiedades que la hacen aplicable un gran número de situaciones en las que
es necesario hacer inferencias mediante la toma de muestras.
2.- La distribución normal casi se ajusta a las distribuciones de frecuencia reales observadas en
muchos fenómenos, incluyendo características humanas (pesos, altura, IQ, etc.), resultados de
procesos físicos (dimensiones y rendimientos) y muchas otras medidas de interés para los
administradores, tanto en el sector público como en el privado.
5.1 Características:
1.- La curva tiene un solo pico, por lo tanto se dice que es unimodal.
2.- La media, la mediana y la moda de los datos se encuentran en el centro de la curva y tienen
el mismo valor.
Nota:
42
EN RESUMEN: LA CURVA DE DISTRIBUCION NORMAL:
1. ES UNIMODAL.
2. LA MAYOR CANTIDAD DE DATOS DE LA DISTRIBUCION CAE EN EL
CENTRO DE LA CURVA.
3. LA MEDIA, LA MEDIANA Y LA MODA SE ENCUENTRAN EN EL MISMO
PUNTO.
4. LOS DOS EXTREMOS DE LA DISTRIBUCION SE EXTIENDEN
INDEFINIDAMENTE.
Para definir, entender y aplicar una distribución normal de probabilidad es necesario conocer dos
parámetros:
• La media ( µ ): Es la suma de los datos divididos entre el número de datos.
• La desviación estándar(σ σ): Es la variación de los datos con respecto a la media (µ):
No importa cuales sean los valores de µ y s para una distribución de probabilidad normal, el
área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si
fueran probabilidades.
43
En resumen: entre más grande es el valor de sigma (σ) el nivel de defectos permitido es menor.
5.3 EJEMPLO:
Existe un programa de entrenamiento diseñado para mejorar la calidad de las habilidades de
supervisión de los supervisores de la línea de producción. Debido a que el programa es
autoadministrado, los supervisores requieren un número diferente de horas para terminarlo. Un
estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el
programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una
desviación estándar de 100 horas.
44
¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para
completar el programa?
Respuesta:
La mitad del área bajo la curva
está localizada a ambos lados de
la media de 500 horas. Si la
probabilidad máxima de que un
evento ocurra es 1 y en este caso
nuestra media esta en 500 y ocupa
exactamente la mitad de nuestra
curva entonces la probabilidad
es la mitad de el área de la
curva, o sea 0.5
¿Cuál es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas
para completar el programa de entrenamiento?
x = Valor de la variable
aleatoria que nos preocupa.
µ = Media de la distribución de
la variable aleatoria.
σ = Desviación estándar de la
distribución.
z = Número de desviaciones
estándar que hay desde x a la
media de la distribución.
Buscando en la tabla para distribuciones normales de probabilidad encontramos que para z = 1.5
la probabilidad es = 0.4332
45
5.4 Desarrollo en Minitab: DISTRIBUCION NORMAL
46
Clic OK
47
Introducir los valores de la Media (Mean) y la Desviación Estándar (Standard deviation)
48
Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2
Clic OK
49
5.5 Desarrollo de un Caso.
Una empresa eléctrica fabrica focos que tienen una duración antes de fundirse, que se
distribuye normalmente con media igual a 820 horas y una desviación estándar de 42 horas.
Encuentre lo siguiente:
c) Que probabilidad hay de que un foco dure entre 710 y 760 horas
50
1.- Abrir el Minitab.
2.- Colocarse en el siguiente Menú y opción: Graph Probability Distribution Plot
3.- Clic en View Probability
4.- Seleccionar Distribución Normal.
Introducir la Media (Mean) y la Desviación Estándar (Standard deviation)
Clic OK
51
7. Minitab despliega la gráfica de la distribución normal con el valor de la probabilidad
sombreado 0.424 ó 42.4 % el mismo resultado que haciendo el ejercicio de forma manual.
52
Seleccionar Shaded Area y X Value y proporcionar los valores de X1 y X2
53
6. Análisis de varianza
El análisis de varianza será útil en situaciones tales como la comparación del kilometraje
logrado por cinco clases diferentes de gasolina; la prueba de cuál de cuatro métodos de
capacitación produce el aprendizaje más rápido; o en la comparación de los ingresos del primer
año de los graduados de una media docena de escuelas de administración. En cada caso, se
pueden comparar las medias de más de dos muestras.
54
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of
squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo,
mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles.
(Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis
de regresión lineal)
El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la
forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.
Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias
incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la
media desconocida de una población compuesta de individuos diferentes y en el que esas
diferencias se mezclan con los errores del instrumento de medición.
Grados de libertad
Pruebas de significación
55
6.4 Ejemplo 1 de análisis de varianza:
Quince aprendices en un curso técnico son aleatoriamente asignados a tres diferentes tipos de
métodos de instrucción, todos los cuales persiguen el desarrollo de un nivel específico de
habilidad en diseño asistido por computadora. Las calificaciones de aprovechamiento al término
de la unidad de instrucción se muestran en la siguiente tabla. Use el procedimiento de análisis
de varianza para probar la hipótesis nula de que las medias muestrales se obtuvieron de la
misma población, con un nivel de significancia del 5%.
Tabla de resumen
F requerido
Fuente de Grados de Suma de
Cuadrado medio F Observado
variación libertad cuadrados
5% 1%
= 125/37.33 =
Tratamientos 2 250 = 250/2 = 125 3.35 3.88 6.93
Total 14 698
Los valores del F requerido se obtienen de la tabla para distribuciones F con un 0.05 del área en
el extremo derecho y de la tabla para distribuciones F con un 0.01 del área en el extremo
derecho.
Conclusión: Dado que la F observada es menor que la F requerida al nivel de significancia del
5% se concluye que no existe ningún efecto asociado con los métodos de instrucción y por lo
tanto que las diferencias entre la medias no son significativas al nivel del 5%.
56
6.5 Desarrollo en Minitab del ejemplo 1.
57
4.- Minitab despliega la ventana One-Way Analysis of Variance
Seleccione con un clic las respuestas en columnas separadas.
El nivel de confianza es del 95 %
58
6.- Minitab despliega el análisis de varianza:
El análisis de varianza
La primera fila en la tabla del análisis de varianza contiene todas las estadísticas asociadas con
el factor. La siguiente fila contiene todas las estadísticas asociadas con el error aleatorio (error).
Los grados de libertad
Los grados de libertad (DF) se refieren al número de valores usados para calcular la suma de
los cuadrados (SS) para cada fuente.
La suma de cuadrados
La suma de cuadrados (SS) es la medida de la cantidad de variabilidad que cada fuente
contribuye a los datos. Observe que el total de variabilidad en los datos (SS suman 698) es igual
al SS para el factor (250) más el SS para el Error (448).
Media cuadrada
(MS) para cada fuente es igual al SS dividió por el DF.
• El MS para el factor es una estimación del promedio de la media junto con el grupo de
variabilidad.
• El MS para el error es una estimación del promedio dentro del grupo.
F-estadística
Es calculado como el MS para el factor dividido por el MS para el error.
Cuando las diferencias entre el nivel de factor de la media es similar a las diferencias entre las
observaciones de cada nivel. F será cerrado a 1.
Si la variabilidad entre el nivel de factor de la media es más larga que la variabilidad entre las
observaciones dentro del factor, F será mayor que 1.
El P-value:
Si el valor de p (p-value) de una prueba estadística es menor que tu alfa, entonces se debe
rechazar la hipótesis nula.
59
Conclusión:
Dado que el P value es mayor que el alfa de 5% se acepta la hipótesis nula y se concluye que
no existe ningún efecto asociado con los métodos de instrucción y por lo tanto que las
diferencias entre la medias no son significativas al nivel del 5%.
Para cada nivelado de tu factor MINITAB despliega el intervalo de confianza., Así como lo
siguiente las estadísticas:
• N--------- Número de observaciones.
• Mean--- Media de las observaciones.
• StDev--- Desviación estándar de las observaciones
Residual
Percent
0
50
-5
10
-10
1
-10 -5 0 5 10 75.0 77.5 80.0 82.5 85.0
Residual Fitted Value
Histogram
3
Frequency
0
-8 -4 0 4 8
Residual
• Si la residual viene de la distribución normal, los puntos seguirán una línea recta.
• Si la residual no viene de la distribución normal, los puntos no seguirán una línea recta.
Basado en esta grafica, es razonable asumir que la residual de los datos no está desviada
sustancialmente de la distribución normal.
60
Interpretando los resultados
Residuales contra fits.
Use la grafica de la residual versus las fits para verificar que las siguientes suposiciones han sido
encontradas:
• Variaciones constantes a través de la combinación de todos los factores.
• No están fuera de línea los datos.
Si tú ves cualquier tipo de patrón en la grafica, una de estas suposiciones encontradas ha sido
violada. La siguiente tabla indica los tipos de patrones que puedes ver
Alternativas
Se puede usar un histograma de la residual para evaluar la normalidad. Sin embargo la grafica
de probabilidad normal es generalmente fácil de interpretar, especialmente para muestras
pequeñas.
61
6.6 Ejemplo 2 de análisis de varianza:
A la vista de estos datos, ¿puede inferirse que existen diferencias significativas entre los
tres fertilizantes a nivel alfa = 0.05?
Como en todos los contrastes de este tipo, lo primero que debemos determinar es la
tabla de ANOVA , la cual es:
Para calcular la suma de cuadrados SSTi, partiendo de la tabla de datos del enunciado,
calculamos, en una última columna, los totales de cada tratamiento (totales por filas)
62
El número de observaciones realizadas de cada tratamiento es ni = 5, i = 1,2,3, y el
número total de observaciones es
Sus grados de libertad son igual al número de tratamientos menos uno, n–1 = 15-1 = 14
Por último la suma residual de cuadrados se calcula como diferencia de las otras dos sumas de
cuadrados antes calculadas:
63
= 208.933 – 22.533 = 186.4
Sus grados de libertad se calculan también como diferencia de los grados de libertad de
las otras dos sumas de cuadrados que sirvieron para obtener SSE; es decir, (n-1)–(r-1)=14-2= 12
De esta forma, determinamos las sumas de cuadrados y los grados de libertad de las
tres fuentes de variación que forman la tabla de Análisis de Varianza. Los cuadrados medios
correspondientes a cada fuente de varianza se determinan ahora, simplemente, dividiendo cada
suma de cuadrados por sus grados de libertad:
Cuadrado medio correspondiente a los fertilizantes:
SSTi 22.533
------- = ----------- = 11.266
r- 1 2
SSE = 186.4
------- -------- = 15.333
n- r 12
64
6.7 Desarrollo en Minitab del ejemplo 2.
65
4.- Minitab despliega la ventana One-Way Analysis of Variance
Seleccione con un clic las respuestas en columnas separadas.
El nivel de confianza es del 95 %
66
6.- Minitab despliega el análisis de varianza:
50 0.0
-2.5
10
-5.0
1
-10 -5 0 5 10 33 34 35 36
Residual Fitted Value
Histogram
3
Frequency
0
-6 -4 -2 0 2 4 6
Residual
67
Conclusión:
Dado que el P-value es mayor que el alfa de 5% se acepta la hipótesis nula concluyendo con la
no existencia de diferencias significativas entre los tres fertilizantes.
El estadístico F tiene, si es cierta la hipótesis nula de igualdad de los efectos medios de los tres
fertilizantes, una distribución F de Snedecor con grados de libertad igual al par formado por los
grados de libertad correspondientes a las fuentes de variación de los Fertilizantes y Residual,
antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crítico, a un nivel de
significación alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 =
3.8853. Al ser F = 0.73 menor que dicho punto crítico, se acepta Ho concluyendo con la no
existencia de diferencias significativas entre los tres fertilizantes.
Un diseñador de la ropa quiere determinar si el porcentaje de algodón en una fibra sintética tiene
un efecto en la tensión de la fibra. Se sabe que el porcentaje de algodón debe estar entre el 10%
y el 40% para que la tela mantenga otras propiedades deseables. Al incrementar la tensión se
hace la tela más durable.
Para asegurar que no hay influencias debido a variables escondidas, el orden de las pruebas
será en forma aleatoria, 25 corridas en total.
68
Note que hay 2 diferentes formas en las que se pueden capturar los datos en MINITAB:
1. Unstacked: (No apilados) Cada muestra está en su propia columna. (C1 a C5)
2. Stacked: (Apilados) Los datos de las muestras están en una columna y los del factor en otra
columna. (C6 - C7)
Nota:
El método apilado es preferido porque se puede preservar el orden de observación de los datos.
69
Seleccionar la Tensión como Response y el % de Algodón como Factor, dejar el nivel de
confianza al 95%
Clic en Graphs.
70
Clic en Boxplots of data
Clic OK
Boxplot of Tensión
25
20
Tensión
15
10
5
15 20 25 30 35
% de Algodón
71
Paso 11 - Construir la tabla ANOVA.
Source DF SS MS F P
% de Algodón 4 475.76 118.94 14.76 0.000
Error 20 161.20 8.06
Total 24 636.96
• Prueba estadística:
Cuadrados de la media del % de algodón 118.94
F = ----------------------------------- = ------ = 14.76
Cuadrados de la media del error 8.06
72
Seleccionar Four en 1 (4 en 1) para revisar Normalidad, Varianzas iguales e
Independencia.
Clic OK
50 0.0
10 -2.5
1 -5.0
-5.0 -2.5 0.0 2.5 5.0 10.0 12.5 15.0 17.5 20.0
Residual Fitted Value
4.5 2.5
Frequency
Residual
3.0 0.0
1.5 -2.5
0.0 -5.0
-4 -2 0 2 4 2 4 6 8 10 12 14 16 18 20 22 24
Residual Observation Order
73
Paso 15 - Si Ho fue rechazada, determinar cual(es) media(s) son diferentes.
Stat ANOVA One-Way…
O
Stat ANOVA One-Way (Unstacked)
Selecciona Comparisons…
% de
Algodón Lower Center Upper --------+---------+---------+---------+-
20 1.855 5.600 9.345 (----*----)
25 4.055 7.800 11.545 (----*---)
30 8.055 11.800 15.545 (----*---)
35 -2.745 1.000 4.745 (---*----)
--------+---------+---------+---------+-
-8.0 0.0 8.0 16.0
% de
Algodón Lower Center Upper --------+---------+---------+---------+-
25 -1.545 2.200 5.945 (----*---)
30 2.455 6.200 9.945 (----*---)
35 -8.345 -4.600 -0.855 (---*----)
--------+---------+---------+---------+-
-8.0 0.0 8.0 16.0
74
% de Algodón = 25 subtracted from:
% de
Algodón Lower Center Upper --------+---------+---------+---------+-
30 0.255 4.000 7.745 (----*----)
35 -10.545 -6.800 -3.055 (----*---)
--------+---------+---------+---------+-
-8.0 0.0 8.0 16.0
% de
Algodón Lower Center Upper --------+---------+---------+---------+-
35 -14.545 -10.800 -7.055 (----*---)
--------+---------+---------+---------+-
-8.0 0.0 8.0 16.0
• Conclusión estadística:
Existe una diferencia significante entre las medias poblacionales. La media
poblacional para el contenido de algodón de 30% es significativamente
mayor que las medias poblacionales de los otros niveles de contenido de
algodón.
• Solución práctica:
Usaremos el 30% de contendido de algodón para la fibra sintética, lo cual
proporcionará la máxima tensión, manteniendo al mismo tiempo las otras
propiedades deseables.
7.- Bibliografía:
75