You are on page 1of 31

ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA

P. Reyes / Sept. 2007

ANÁLISIS DE VARIANZA
ANOVA DE UNA VÍA

Elaboró: Dr. Primitivo Reyes Aguilar


Septiembre de 2007

Mail: primitivo_reyes@yahoo.com
Tel. 58 83 41 67 / Cel. 044 55 52 17 49 12

Página 1 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Página 2 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

CONTENIDO

1. ANOVA

2. Ejercicios

3. Teoría de experimentos de un solo factor

Página 3 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

ANALISIS DE VARIANZA DE UN FACTOR


(ANOVA 1 VIA)
El análisis de la varianza de un factor (ANOVA) es una metodología
para analizar la variación entre muestras y la variación al interior de
las mismas mediante la determinación de varianzas. Es llamado de
una vía porque analiza un variable independiente o Factor ej:
Velocidad. Como tal, es un método estadístico útil para comparar dos
o más medias poblacionales. El ANOVA de un criterio nos permite
poner a prueba hipótesis tales como:

H 0 = µ1 = µ 2 = µ3 = .... = µ k

H 1 : Al menos dos medias poblaciona les son diferentes .

Los supuestos en que se basa la prueba t de dos muestras que


utiliza muestras independientes son:

1. Ambas poblaciones son normales.


2. Las varianzas poblacionales son iguales, esto es, σ 12 = σ 22 .
El estadístico tiene una distribución muestral resultando:

sb2
Fc =
sw2

El valor crítico para la prueba F es:

Fα ( k −1, k ( n −1))

Donde el número de grados de libertad para el numerador es k-1 y


para el denominador es k(n-1), siendo α el nivel de significancia.

k = número de muestras.

Página 4 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Por ejemplo:

Ejemplo: Se tienen 14 empleados seleccionados al azar que se


someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2
y Programa 3.
Como los empleados se seleccionan aleatoriamente para cada
programa
el diseño se denomina DISEÑO COMPLETAMENTE
ALEATORIZADO
Se observa el aprovechamiento de los empleados en los
programas:

TRATAMIENTOS

I c=1 c=2 c=3 J


Programa
Programa 1 2 Programa 3
r=1 85 80 82
r=2 72 84 80
r=3 83 81 85
r=4 80 78 90
r=5 ** 82 88
Medias 80.00 81.00 85.00 Xj
Media de medias o media
total 82.14

TIPOS DE VARIACIÓN Y SUMAS DE CUADRADOS

1. Variación total entre los 14 empleados, su puntuación no fue


igual con todos
VARIACIÓN TOTAL RESPECTO A LA MEDIA GENERAL

r c 2

SCT = ∑ ∑( Xij − X )
i =1 j =1

Página 5 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

SCT = (85-82.14)2 + (72-82.14)2+(83-82.14)2+.....+(88-82.14)2

SCT = 251.7

2. Variación entre los diferentes tratamientos o Variación entre


muestras o variación entre programa 1, programa 2 y programa 3

EFECTO DE LA MEDIA DE CADA TRATAMIENTO RESPECTO A LA MEDIA


GENERAL

r
SCTR = ∑rj ( X j − X ) 2
j =1

SCTR = 4(79.5 - 81.3333)2 + 5(81 - 81.3333)2 + 5(85 - 81.333)2

SCTR = 65.71

3. Variación dentro de un tratamiento o muestra o programa


dado que no todos los empleados dentro de un mismo programa
obtuvieron los mismos puntajes. Se denomina Variación dentro de los
tratamientos.

VARIACIÓN DENTRO DEL TRATAMIENTO O VARIACIÓN DEL ERROR


CADA VALOR RESPECTO A LA MEDIA DE SU TRATAMIENTO

r c
SCE = ∑ ∑( X ij − X j )2
i =1 j =1

SCE = SCT - SCTR = 186

4. GRADOS DE LIBERTAD

Página 6 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Grados de libertad totales = n - 1 = 14-1 = 13


Grados de libertad de los tratamientos = c - 1 = 3 - 1 = 2

Grados de libertad del error = gl. Totales - gl. Tratamientos = 13 - 2 =


11
gl SCT = gl SCTR + gl SCE
gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n -c

5. CUADRADOS MEDIOS (Suma Cuadrados/ Grados libertad)


CMT = Cuadrado medio total = SCT / (n-1) = 19.4
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) = 32.9
CME = Cuadrado medio del error = SCE/ gle.= 16.9

6. ESTADÍSTICO DE PRUEBA Fc Y ESTADÍSTICO F CRÍTICO DE


ALFA

Fc = CMTR / CME= 1.946745562

Falfa , gl . numerador , gl . deno min ador =Fα,c −1, n −c

Cálculo de F con Excel


=DISTR.F.INV(ALFA, GL. TR, GL. ERR) =DISTR.F.INV(0.05, 2, 11) =
3.982297957

ZONA DE
NO RECHAZAR RECHAZO

Distr. F

Como Fc es menor a Falfa no se rechaza Ho y las medias son iguales.

Página 7 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

7. VALOR P DE Fc

P = distr.f(Fc, gl. SCTr, gl. SCE) = distr.f(1.946, 2, 11) = 0.18898099


Como P es mayor a alfa no se rechaza Ho

CONCLUSION: NO HAY SUFICIENTE EVIDENCIA PARA RECHAZAR HO,


LAS MEDIAS DE LOS TRATAMIENTOS SON IGUALES

Página 8 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

TABLA DE ANOVA

FUENTE DE VARIACIÓN SUMA DE GRADOS DE


CUADRADO
CUADRADOS LIBERTAD MEDIO
VALOR F
Entre muestras (tratam.) SCTR c-1 CMTR
CMTR/CME
Dentro de muestras (err.) SCE n-c CME
Variación total SCT n-1 CMT

Regla: No rechazar si la F de la muestra es menor que la F de Excel


para una cierta alfa
USO DE EXCEL:

 En el menú herramientas seleccione la opción Análisis de


datos, en funciones para análisis seleccione Análisis de
varianza de un factor.
 En Rango de entrada seleccionar la matriz de datos (todas las
columnas a la vez).
 Alfa = 0.05
 En Rango de salida indicar la celda donde se iniciará la
presentación de resultados.

RESUMEN Análisis de varianza de un factor


Grupos Cuenta Suma Promedio Varianza
Programa 1 4 320 80 32.666667
Programa 2 5 405 81 5
Programa 3 5 425 85 17

Grados
ANÁLISIS DE VARIANZA de Promedio de
Suma Probabilida
Variaciones cuadrados libertad Cuadrados Fc d F crítica
Entre grupos 65.71428571 2 32.85714286 1.9431644 0.18937731 3.98229796
Dentro de 186 11 16.90909091

Página 9 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

grupos
Total 251.7142857 13

USO DE MINITAB
 Stat > ANOVA > One Way (Unstacked)
 en Responses in separate columns Indicar las columnas de
datos
 En Confidence Level 95%
 Seleccionar Comparisons Tukey 5%
 OK

One-way ANOVA: Programa 1, Programa 2, Programa 3


Source DF SS MS F P
Factor 2 65.7 32.9 1.94 0.189
Error 11 186.0 16.9
Total 13 251.7

S = 4.112 R-Sq = 26.11% R-Sq(adj) = 12.67%

Individual 95% CIs For Mean Based on


Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----


Programa 1 4 80.000 5.715 (------------*------------)
Programa 2 5 81.000 2.236 (----------*-----------)
Programa 3 5 85.000 4.123 (-----------*----------)
----+---------+---------+---------+-----
77.0 80.5 84.0 87.5
Pooled StDev = 4.112

NOTA: Si los Intervalos de confianza se traslapan, las medias son


iguales estadísticamente

Tukey 95% Simultaneous Confidence Intervals


All Pairwise Comparisons

Individual confidence level = 97.94%

Programa 1 subtracted from:

Lower Center Upper --------+---------+---------+---------+-


Programa 2 -6.451 1.000 8.451 (------------*-----------)
Programa 3 -2.451 5.000 12.451 (-----------*------------)
--------+---------+---------+---------+-
-6.0 0.0 6.0 12.0

Programa 2 subtracted from:

Lower Center Upper --------+---------+---------+---------+-

Página 10 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Programa 3 -3.025 4.000 11.025 (-----------*----------)


--------+---------+---------+---------+-
-6.0 0.0 6.0 12.0

NOTA: Si el cero se encuentra en el intervalo de confianza de la


diferencia entre medias, este par de medias no son diferentes.

Página 11 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

2. EJERCICIOS:

1. Cuatro catalizadores que pueden afectar la concentración de un


componente en una mezcla líquida de tres componentes están siendo
investigado.
Se obtienen las siguientes concentraciones:

Cataliz
ador
A B C D
58.2 56.3 50.1 52.9
57.2 54.5 54.2 49.9
58.4 57 55.4 50
55.8 55.3 51.7
54.9

2. Para determinar si existe diferencia significativa en el nivel de


Matemáticas de 4 grupos de estudiantes de Ingeniería se realizó un
examen aleatorio a 6 individuos por grupo. Determine cuales son los
grupos en los cuales existen diferencias a un 95% de nivel de
confianza.

A B C D
75 78 55 64
93 91 66 72
78 97 49 68
71 82 64 77
63 85 70 56
76 77 68 95

3. Las calificaciones en el examen a 18 empleados de tres unidades


de negocio
Se muestran a continuación:
Probar si no hay diferencia entre las unidades a un 5% de nivel de
significancia.

A B C
85 71 59
75 75 64

Página 12 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

82 73 62
76 74 69
71 69 75
85 82 67

4. Probar si hay diferencia en los tiempos de servicio de 4 unidades


de negocio para el mismo servicio a un nivel de significancia del 5%.

A B C D
11.
5.4 8.7 1 9.9
10.
7.8 7.4 3 12.8
5.3 9.4 9.7 12.1
10.
7.4 10.1 3 10.8
8.4 9.2 9.2 11.3
7.3 9.8 8.8 11.5

Página 13 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

3. TEORÍA DE EXPERIMENTOS DE UN SOLO


FACTOR

E n esta parte se analiza el caso en que se desea conocer el efecto


de un solo factor o variable independiente sobre la característica
de calidad que sé esta analizando. Esto implica que a fin de poder
detectar su efecto, este factor se debe de variar manteniendo el resto
de los factores en un valor fijo.

Experimentos sin restricciones en la aleatoriedad.

C uando se desea analizar el efecto de un factor sobre una variable


dependiente o característica de calidad es necesario el variar el
"nivel” valor de ese factor. A cada diferente nivel al cual se realiza el
experimento se le conoce como tratamiento. Por ejemplo si el factor
es el proveedor los diferentes niveles o serian proveedor A, proveedor
B, proveedor C, etc. , si el factor es el tipo de proceso los
tratamientos serian proceso 1, proceso 2. Si el factor es temperatura
los diferentes niveles serian por ejemplo 10, 20, 30 y 40 °C,etc.

Por otro lado en cada nivel del factor se efectúan una serie de
pruebas, a cada una de estas pruebas se les conoce como
replicaciones. EL factor se considera fijo.

Ejemplo 1: Suponga que se desea saber si los ejes que surten cuatro
proveedores tienen diferente resistencia a la tracción. Para ello se
decide llevar a cabo un experimento de un solo factor donde la
variable dependiente es la resistencia a la tracción del eje medida en
Kgs/cm2 y el factor es el proveedor. El factor tiene cuatro niveles o
tratamientos diferentes. Uno para cada proveedor (llámelos I, II, III,
IV) se decide probar 5 ejes de cada proveedor haciendo un total de 20
pruebas ejecutadas en la misma maquina de prueba y con él mismo

Página 14 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

operario (recuerde que el resto de los factores se deben de mantener


a un nivel fijo).

Para que el experimento sea aleatorio se numeran los ejes del 1 al 20


y se selecciona al azar un número entre 1 y 20. Según él numero
seleccionado es el siguiente eje que se prueba. De esta manera, el
siguiente eje a probar es seleccionado sin ninguna restricción.
Suponga. que los resultados de experimento se muestran en la tabla
siguiente:

Proveedo
r
I II II I
I V
5 6 4 4
6 4 5 2
5 6 4 3
5 1 6 9
6 5 4 4
2 0 5 5
5 5 3 4
9 5 9 3
6 5 4 4
0 6 3 1
El proveedor = factor
Tratamiento = I, II, III, IV
Con cinco replicaciones en cada tratamiento.

Observando la tabla se "ve" que existen evidentemente diferencias


entre la resistencia de los ejes de un proveedor a otro. Pero también
existen entre los ejes de un mismo proveedor, entonces, ¿la
diferencia detectada entre, los ejes de un proveedor y otro existe
realmente? O ¿la diferencia es debida al azar?, La herramienta
estadística conocida como análisis de varianza (ANOVA) puede
ayudar a despejar esta duda.

Página 15 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Para esto suponga un caso general como sigue: Si define Yij como
el valor correspondiente de la variable dependiente o característica
de calidad de la i-ésima observación o replicación bajo el
tratamiento j, los resultados de un experimento de un solo factor
con k tratamientos y n replicas u observaciones por tratamiento
seria:

Tratami Observaciones Total Prome


ento es dios

(nivel)
1 Y1 Y1 .. Y1 Y1. Y..

1 2 . n

2 Y2 Y2 .. Y2 Y2. Y 2.

1 2 . n

3 Y3 Y3 .. Y3 Y3. Y 3.

1 2 . n

... ... ... .. ... ... ...


.
K Yk Yk .. Yk Yk. Yk.

1 2 . n

Este caso se puede representar mediante el modelo estadístico lineal:


Yij =μ + τj + εij

Donde µ representa la media general, τ j representa el efecto del


tratamiento j, y ε ij es el error aleatorio al hacer la observación ij.

Esto es, se supone que todos los datos en general pertenecen a


una misma población con media µ excepto que existan
desviaciones para diferentes tratamientos del mismo factor. Por su

Página 16 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

parte ε ij representa el error aleatorio o medida de la variabilidad


natural dentro de cada tratamiento.

Generalmente se supone que:

∑τ
j =1
j = 0;

Y que el error aleatorio sigue una distribución normal con media cero
y varianza σ 2, esto denota:

εij ≈ N(0, σ 2 )

Sean Yi. El total de las observaciones bajo el i-esimo tratamiento, y


Yi. el promedio de las observaciones bajo el i-esimo tratamiento.
Similarmente sean Y.. La suma de todas las observaciones y Y.. la
media general de todas las observaciones.

Expresado matemáticamente esto es:


n
Yi. = ∑Yij
i =1

Yi. = Yi./n con i =1,2,..., n


n k
Y.. = ∑∑Yij
i =1 j =1

Y.. = Y../n

N = kn es él numero total de observaciones

Las hipótesis en este caso son:


Ho: τ j = 0; para todo valor de j.
H1: τ j ≠ 0; para al menos un valor de j.

Ho significa que el factor (los niveles bajo estudio) no tiene efecto


sobre la variable dependiente y H1 que si lo tiene, esto es que existe

Página 17 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

diferencia, estadística. Recuerde también que la hipótesis nula se


asume como cierta a menos que los datos indiquen lo contrario.

Descomposición de la suma total de cuadrados

L a denominación de análisis de varianza resulta de descomponer


la variabilidad total de los datos en sus partes componentes. La
suma total de cuadrados corregida es:

∑∑(Yij − Y.. ) ( )
k n 2 k 2 k n 2
= n∑ Yi. − Y.. + ∑∑  Yij − Yi. 

j =1 i =1 j =1 j =1 i =1  
SS T = SStr + SS E

Donde:
La ecuación anterior muestra la variabilidad total de los datos,
medida por la suma total corregida de los cuadrados. SStr se
denomina suma de cuadrados debida a los tratamientos (es decir,
entre tratamientos), SSE es la suma de cuadrados debido al error (es
decir, dentro de los tratamientos)

SST = Suma de cuadrados total: con N -1 grados de libertad


SStr = Suma de cuadrados debido a los tratamientos, con k - 1 grados
de libertad.

SSE = Suma de cuadrados debido al error aleatorio k grados de


libertad.
Para simplificar los cálculos:
k n
Y.. 2
SS T = ∑∑(Y ij 2 − Y.. 2 )
j =1 i =1 n
k
 Yi. 2 Y.. 2 
SStr = ∑  − 

j =1  n N 
SS E = SS T − SStr

El análisis de varianza será:

Página 18 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Fuente G.L
De error SS . MS F0
Variación
SS k– MS MStr/M
entre
tr 1 tr SE
tratamientos
Variación
dentro de SS N – MS
Tratamientos E k E
o error
SS N –
Total
T 1

Si F0 > Fα ,k-1,N-k, H0 debe ser rechazada. Donde Fα , k-1,N-k es el


valor de la variable F con un nivel de significancia (error tipo I), k-1
grados de libertad en el numerador y N-k grados de libertad en el
denominador. Bajo la hipótesis nula la relación MStr/MSE sigue una
función de densidad F, por lo tanto si F0 es mayor que Fα , k-1,N-k existirá
una diferencia significativa y el factor afecta la respuesta de la
característica de calidad en los niveles bajo estudio.

Si Ho no puede ser rechazada la conclusión es por lo tanto que el


factor bajo estudio no afecta la respuesta. Sin embargo, si Ho es
rechazada y existe diferencia significativa entre los diferentes
tratamientos de un solo factor el siguiente paso es el analizar en
detalle cual de los tratamientos es el mejor y cuales son iguales.

Aplicando el ANOVA a los datos del ejemplo 2.2 se tiene:

Página 19 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

4 5

∑∑ Yij
j =1 i = 1
2
= 562 + 552 + ... + 412 = 51940

Entonces, calculando las sumas de cuadrados tenemos que:

SST = 51,940 – (10062)/20 = 1338.2

SStr = 2922/5 + 2862/5 + 2182/5 + 2102/5 –10062/20 = 1,135.0

SSE = SST – SStr = 1338.2 – 1135.0 = 203.2

MStr = SStr/(k-1) = 1135.0/(3 - 1) = 378.2

MSE = SSE/(n-k) = 203.2/(20-4) = 12.70

Esto se resume en la siguiente tabla:

Fuente
De error SS G.L. MS F0
MStr/M
Factor o SStr=11 k–1= MStr SE
tratamientos 35 3 =378.3 =
29.79
SSE=203 N – k = MSE=12.
Error
.2 16 7
SST=133 N – 1 =
Total
8.2 19

Donde F0= MStr/MSE = 378.3/12.70=29.79 con 3 grados de libertad


en el numerador y 16 grados de libertad en el denominador.

Página 20 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Si el nivel de aceptación (error tipo I) lo fijamos en 5%, esto es, α =


0.05, de la tabla de la función F se tiene que:

Fα ,3,16 = 3.24

Dado que F0 = 29.79 > 3.24= F0.05,3,16


Se concluye que Ho se rechaza y el factor proveedor afecta la
variable resistencia a la tracción.

Experimentos con un solo factor y diferente número de


lecturas por tratamiento (o caso desbalanceado)

C uando por alguna razón él numero de lecturas que se tienen bajo


cada tratamiento es diferente, digamos Zi observaciones en el
tratamiento j, el análisis se puede llevar a cabo de una manera
similar con las siguientes formulas para k tratamientos:

k n
SS T = ∑∑ Yij 2 - Y.. ; con N - 1 grados de libertad
2

j =1 i =1 N
k
Yi. 2 Y .. 2
SS tr = ∑ − ; con k - 1 grados de libertad
j =1 ni N
SS E = SST - SStr; con N - k grados de libertad

Es, sin embargo, deseable que él numero de muestras sea igual bajo
cada tratamiento, puesto que el poder de la prueba se maximiza
cuando él numero de muestras es igual.

Ejemplo 2: El tiempo de respuesta en milisegundos fue determinado


para tres tipos diferentes de circuitos y los resultados son:

Página 21 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Con un nivel de significación de α = 0.05. ¿Tiene los circuitos


diferente tiempo de respuesta?

k = 3; n1 = 6; n2 = 3; n3 = 4; N = 6 + 3 + 4 = 13
k n
SST = ∑∑(Yij2 − Y..2 /N) =
j =1 i =1

175 2
9 2 + 12 2 + ... + 8 2 + 16 2 −
=
13
2993 − 2355.76 = 637.24
k
SStr = ∑ (Yi.2 /ni − Y..2 /N) =
j =1
2
67 73 2 35 2 175 2
+ + − = 474.98
6 3 4 13
SSE = SS T - SS tr = 637.24 - 474.98 = 162.29

La tabla ANOVA es:

Fuente
SS G.L. MS
De error F0
MStr/M
Factor o SStr=47 k–1= MStr SE
tratamientos 4.98 2 =237.49 =
14.64
SSE=162 N – k = MSE=16.
Error
.29 10 22
SST=637 N – 1 =
Total
.24 12

Dado que F.05,2,10 = 4.10, se concluye que los circuitos muestran


diferentes tiempos de respuesta.

Página 22 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Estimación de parámetros del modelo

A continuación, se desarrollan estimadores para los parámetros


del modelo de clasificación en un sentido:

Yij =μ +τi +εij

Usando el método de los mínimos cuadrados, las soluciones de las


ecuaciones normales son:

μ̂ =Y..
τ̂i =Yi. −Y..
con i =1,2,3,..., k

Y es posible determinar fácilmente un intervalo de confianza para


estimar la media del i-ésimo tratamiento. Dicha i-ésimo media es:

µ i=µ +τ i

Un estimador puntual para µ i podría ser μ̂i =μ̂ +τ̂i =Yi. ahora si se
supone que los errores están distribuidos normalmente, las Yi. son
NID(0,σ 2/n), entonces podría usarse la distribución normal para
definir el intervalo de confianza buscado si se conoce σ . Al usar MSE
como estimación de, σ 2, el intervalo de confianza se debe basar en la
distribución t., por tanto, un intervalo de confianza de (1-α )100%
para la media del i-ésimo tratamiento, µ es:

 MS E 
Yi. ±tα / 2, N −k 
 n 

un intervalo de confianza del (1-α )100% para la diferencia de las


medias de dos tratamientos cualesquiera, por ejemplo µ i-µ j, será:

Página 23 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

 2MS E 
Yi. −Yj. ±tα / 2, N −k .
 n 

Ejemplo 3: Al usar los datos del ejemplo 2.3, las estimaciones de la


media general y de los efectos de los tratamientos son
μ̂ = 376 25 =15 .04 ; y

τ̂1 = Y1. −Y.. =9.80 −15 .04 = −5.24


τ̂ 2 = Y 2. −Y.. =15 .40 −15 .04 = +0.36
τ̂ 3 = Y 3. −Y.. =17 .60 −15 .04 = −2.56
τ̂ 4 = Y 4. −Y.. = 21 .60 −15 .04 = +6.56
τ̂ 5 = Y 5. −Y.. =10 .80 −15 .04 = −4.24

usando la formula para calcular el intervalo de confianza del 95%


para la media del tratamiento 4 es:
 MS E  8.06
Y i. ± tα / 2, N −k  = 21 .60 ± ( 2.086 )
 n  5
o, bien .
[ 21 .60 ± 2.65 ]

por tanto, el intervalo deseado es 18.95 ≤ µ ≤ 24.25

Estimación de la variable de respuesta

L a descomposición de la variabilidad en las observaciones por


medio del análisis de variancia, es una relación puramente
algebraica.

Yij =μ +τi +εij

El residuo de la observación i del tratamiento j se define mediante:

eij = Yij − Ŷ
 ij

Página 24 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

en donde Ŷij es una estimación de la observación Yij correspondiente


calculada por:

Ŷij =μ̂i +τ̂i


Ŷij =Y.. +( Yi. −Y..)
Ŷij =Yi.

La ecuación anterior muestra un resultado que se intuye fácilmente,


ya que la estimación de cualquier observación del i-ésimo tratamiento
es igual al promedio del tratamiento correspondiente. El examen de
los residuos debe ser automático en el análisis de variancia. Si el
modelo es adecuado, los residuos no deben tener estructura.

Comparación de medias de tratamientos individuales

S upongamos que al efectuar un análisis de variancia para un


modelo de efectos fijos la: hipótesis nula es rechazada. Se
concluye que existe diferencia entre las medias, aunque no se
especifique exactamente cual de ellas es diferente. En esta situación
puede ser útil realizar comparaciones adicionales entre grupos de
medias de los tratamientos. La media del i-ésimo tratamiento se
define mediante µ i = µ + τ i y su estimación es Yi. . Las
comparaciones entre medias de tratamientos se realizan en términos
de los totales de tratamientos Yi. O de los promedios de tratamientos
Yi. . Los procedimientos para efectuar estas comparaciones se
conocen como métodos de comparación múltiple.

Método de la Mínima Diferencia Significativa (LSD, del inglés


least significant difference)

Página 25 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

S upongamos que después de haber rechazado la hipótesis nula,


con base en una prueba F de análisis de variancia, se desea
probar Ho: µ i = µ j para toda i ≠ j. Esto puede hacerse empleando la
estadística t:
Yi. −Y j.
to =
1 1
MS E + 
 n i n j

Suponiendo una hipótesis alterna bilateral, la pareja de medias µ i, µ j


se consideran diferentes

Sí Yi. −Yj. >tα / 2, N −k MS (1/ ni +1/ nj


E
La cantidad:

1 1
LSD =tα/2, N −k MS E  + 
ni nj 

Se denomina mínima diferencia significativa. Si el diseño es


balanceado, entonces n1 = n2 = nk = n.

Para usar el procedimiento de la LSD, simplemente se comparan las


diferencias observadas entre cada par de promedios con el valor
correspondiente de la LSD. Si, se concluye que las medias
poblacionales µ i = µ j son diferentes.

Ejemplo 4: Para ilustrar este procedimiento, si se usan los datos del


Ejemplo 2.3 el valor de la LSD con α = .05 es:

1 1
LSD = tα/2, N −k MS E +  =
 ni nj 
2(8.06)
2.086 = 3.75
5

Por tanto, una pareja de medias difieren significativamente si el


valor absoluto de la diferencia de promedios en los tratamientos

Página 26 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

correspondientes es mayor que 3.75. Los cinco promedios de


tratamiento son:

Y1. = 9.8 Y2. =15.4 Y3. =16.6


Y 4. =21.6 Y5. =10.8

Y las diferencias de los promedios son:


Y1. −Y 2. =9.8 −15 .4 =−5.6 *
Y1. −Y 3. =9.8 −17 .60 −7.8 *
Y1. −Y 4. =9.8 −21 .6 =−11 .8 *
Y1. −Y 5. =9.8 −10 .8 =−1.0
Y 2. −Y 3. =15 .4 −17 .6 =−2.2
Y 2. −Y 4. =15 .4 −21 .6 =−6.2 *
Y 2. −Y 5. =15 .4 −10 .8 =4.6 *
Y 3. −Y 4. =17 .6 −21 .6 =−4.0 *
Y 3. −Y 5. =17 .6 −10 .8 =6.8 *
Y 4. −Y 5. =21 .6 −10 .8 =10 .8 *

Los valores marcados con asterisco indican parejas de medias que


son significativamente diferentes. Resulta útil graficar los datos como
se muestra en la Fig. 4, subrayando las parejas de medias que no
difieren en forma significativa. Claramente los únicos pares que no
difieren significativamente son 1 y 5, y 2 y 3. El tratamiento 4
produce una resistencia a la tensión de manera significativamente
mayor que los otros tratamientos.

Y1 . Y 5 . Y 2. Y 3. Y 4.
9.8 10.8 15.4 17.6 21.6

Figura 4. Resul tados del procedi mineto LSD


Fig. 4

Comparación de Tratamientos con un Control

Página 27 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

En muchos experimentos, uno de los tratamientos es un control, y al


analista puede interesarle su comparación con las k -1 medias de
tratamiento con el control. Por tanto, sólo deben realizarse k -1
comparaciones. Un procedimiento para hacerlas fue desarrollado por
Dunnett (1964). Supongamos que el tratamiento k es el control. Se
desean probar las hipótesis:

Ho : μi =μk
H1 : μi ≠μk

Para i = 1, 2,..., k -1. El procedimiento de Dunnett es una modificación


de la prueba t. Para cada hipótesis se calculan las diferencias que se
observan en las medias muéstrales:

Yi. −Yk
. con i =1,2
,..., k -1

La hipótesis nula Ho: µ i = µ k es rechazada con un nivel de error tipo


I según alfa sí:

1 1 
Yi. −Yk. >dα(k −1, f) MS E  + 
ni nk 

En donde la constante dα (k -1, f) se encuentra en la Tabla IX del


Apéndice del texto de Diseño y Análisis de Experimentos de Douglas
C. Montgomery (son posibles tanto pruebas unilaterales como
bilaterales). Hay que notar que alfa constituye el nivel de significación
conjunto asociado a las k -1 pruebas.

Ejemplo 5: Para ilustrar la prueba de Dunnett, considérense los


datos del Ejemplo 3, y su póngase que el tratamiento 5 es el control.
En este ejemplo, k = 5, k -1 = 4, f = 20, ni = n = 5, y con un nivel del
5% se encuentra en la Tabla IX del Apéndice que d 0.05 (4,20) = 2.65.
Por tanto, la diferencia crítica es:

Página 28 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

2MSE 2(8.06)
d.05(4,20) = 2.65 = 4.76
n 5

(Hay que notar que esta es una simplificación de la Ecuación anterior


y que resulta de un diseño balanceado.) En consecuencia, un
tratamiento debe considerarse significativamente diferente del
control si la diferencia es mayor que 4.76. Las diferencias observadas
son:

1 vs 5; Y1. −Y 5. =9.8 −10.8 =−1.0


2 vs 5; Y 2. −Y 5. =15.4 −10.8 =4.6
3 vs 5; Y 3. −Y 5. =17.6 −10.8 =6.8
4 vs 5; Y 4. −Y 5. =21.6 −10.8 =10.8

Sólo las diferencias Y 3. −Y 5.; Y 4. −Y 5. indican una diferencia


significativa al ser comparadas con el control; por tanto, se concluye
que µ 3 =µ 5 yµ 4 = µ 5. Es conveniente usar más observaciones para
el tratamiento de control (es decir, nk) que para los otros tratamientos
(o sea, n, suponiendo el mismo número de observaciones en los otros
k -1 tratamientos) cuando se comparan tratamientos con un control.
Debe elegirse la razón nk / n aproximadamente igual a la raíz
cuadrada del número total de tratamientos. En otras palabras, se
elige nk/n = k

Suposiciones del análisis de varianza

A l aplicar un análisis de varianza se hacen las siguientes


suposiciones siguientes:

1. El proceso esta en control estadístico (estable). Esto es, se


pueden repetir y las causas de variación se han eliminado.
2. La distribución de la población que se muestra es normal.
3. La varianza de los errores dentro de los k niveles del factor es la
misma: esto es, la variabilidad natural dentro de cada
tratamiento es la misma de un tratamiento a otro.

Página 29 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Grafica de residuos contra el valor ajustado de ŷij

S i el modelo es correcto y las suposiciones se satisfacen, los


residuos no deben tener algún patrón, ni deben estar
relacionados con alguna variable, incluyendo la respuesta Yij. Una
comprobación sencilla consiste en graficar los residuos contra los
valores ajustados ŷij (debe recordarse que para el modelo en un
sentido ŷij - yi. , el promedio del tratamiento i-ésimo). En esta grafica
no debe revelarse ningún patrón obvio en la siguiente figura se
grafican los residuos contra los valores ajustados de los datos de la
resistencia a la tensión del ejemplo 2.3 Ningún patrón inusual es
evidente.

Grafica de residuos contra valores ajustados

Un efecto que en ocasiones revela la grafica es el de una varianza


variable. Algunas veces la varianza de las observaciones lo hace. Esto
resulta cuando el error es proporcional a la magnitud de la
observación (comúnmente esto sucede en instrumentos de medición
– el error es proporcional a la escala de la lectura). Si este es el caso,
los residuos aumenta a medida que Yij lo hace, y la grafica de los
residuos contra Yij parecerá un embudo que se ensancha o un
altavoz. La varianza variable también ocurre en casos cuyos datos no
tienen distribución normal y están sesgados, porque en las
distribuciones sesgadas la varianza tiende a ser función de la media.

Página 30 de 31
ANÁLISIS DE VARIANZA – ANOVA DE UNA VÍA
P. Reyes / Sept. 2007

Página 31 de 31

You might also like