You are on page 1of 31

CAPITULO V.

INTRODUCCIÓN AL DISEÑO ESTADISTICO DE EXPERIMENTOS


MULTIVARIADO. MANOVA.

El Diseño Estadístico de Experimentos es un apoyo en ciertos estudios para resolver


problemas como las presentadas en las siguientes situaciones del tipo univariado:

Ejemplo 1:
El Ingeniero Civil, investiga los efectos de los distintos métodos de curado sobre la
resistencia a la compresión del concreto.
El método de curado se denominan factor, y las diferentes alternativas del método son
niveles del factor, ó tratamientos. La variable respuesta es la resistencia a la
compresión, ó variable dependiente (de los niveles del factor), la cual se conoce como
independiente, y las distintas mediciones son replicas. Los cilindros elaborados con el
concreto fabricado constituyen las unidades experimentales.

Ejemplo 2:
Puede ser de interés estudiar la resistencia del papel usado en la fabricación de bolsas
para caramelos. El factor es la concentración de madera dura en la pulpa, cuyos niveles
a tener en cuenta son las concentraciones al 5%, 10%, 15%, y 20% , llamados también
tratamientos; en cada uno de los cuales se hacen 6 replicas, se mide la variable
respuesta resistencia a la compresión. La aleatorización es importante puesto que el
material se coloca en un horno que puede tener un efecto de calentamiento sobre la
resistencia, de ahí que de cada horno se seleccionan, aleatoriamente, las muestras; ó
bien se elige un horno en forma aleatoria cada vez que se va tomar una muestra. Cada
unidad (bolsa) en la que se mide la resistencia es una unidad experimental.

Ejemplo 3:
El jefe de producción debe comparar tres diferentes tipos de maquinas (niveles del
factor maquinas) que hacen la misma tarea, para decidir cual adquirir. Las maquinas se
van a ensayar siendo el indicador a tener en cuenta el número de piezas fabricadas por
turno (respuesta). Siendo el turno de trabajo la unidad experimental. Se asignan
aleatoriamente tres operarios para cada maquina (replicas) para evitar el efecto que
pueda ejercer el obrero manipulando solo una maquina.

Ejemplo 4:
El gerente del supermercado esta interesado en que sus clientes sean atendidos más
rápidamente, lo cual depende del número de empleados, Factor. El administrativo
plantea experimentar cuadros de 3, 4 y 5 empleados, niveles, que va a seleccionar
aleatoriamente, rotándolos en turnos de 6 horas diarias cada vez. Los días serán
considerados como tratamientos de un segundo factor, puesto que la afluencia de
consumidores varía de un día a otro. Se evaluaran los cuadros de empleados de acuerdo
al tiempo medio de permanencia, variable respuesta, del cliente, unidad experimental,
desde que entra hasta cuando sale del supermercado.

NOTA.
En algunos procesos se presentan variables que podrían incidir en la variable respuesta
pero que son controladas por el investigador, tales como temperatura, presión, tasa de
abastecimiento, lugar. Si no se efectúa el control se estará dando lugar a un diseño
multivariado, etc.
1. Diseño Estadístico de Experimentos.
Consiste en la planeación de un experimento de tal forma que se obtengan los datos
adecuados que puedan analizarse con métodos estadísticos que llevarán a conclusiones
validas, objetivas, y significativas. Tiene por objeto estudiar el efecto que sobre la
variable respuesta tiene un conjunto de otras variables llamadas factores.

Un problema experimental incluye dos aspectos estrechamente relacionados: el diseño


experimental y el método de análisis estadístico de los datos, el cual se concibe dentro
de cada diseño empleado.

El diseño incluye los siguientes principios básicos:


- La realización de replicas, repeticiones del experimento.
o Permite al experimentador obtener una estimación del error experimental, éste
es una unidad de medición básica para identificar si las diferencias observadas
entre los datos son estadísticamente diferentes (el error experimental incluye las
variables no controladas por el experimentador) ó son debidas a la aleatoriedad.
o Lograr mayor precisión del indicador (como puede ser el caso de la media)
usado para estimar el efecto de un factor.

- La aleatorización,
La asignación del material experimental, como el orden en que se realizan las
corridas o ensayos individuales del experimento, se determinan aleatoriamente, esto
origina que las variables sean aleatorias.
Este aspecto ayuda a eliminar efectos extraños que pudieran hacerse presentes
invalidando los resultados. De ahí, el experimentador debe hacer asignaciones por
algún sistema aleatorio, de material, operadores, instrumentos de medición, etc., que
se van a usar en el experimento,

- La formación de bloques.
Puede considerarse como una estrategia que mejora la precisión de las
comparaciones que se hacen entre los factores de interés. También ayuda a eliminar
ruido que contamina el experimento y ocasiona distorsión de los resultados, por
ejemplo las diferencias de variabilidad en lotes de materia prima de diferentes
proveedores. Entonces el lote elimina tal variabilidad, es decir homogeniza las
condiciones experimentales.

El método de análisis estadístico de los datos, debe ser adecuadamente elegido, a


continuación se presenta una lista parcial de diseños:
- Completamente aleatorios,
- De bloques completamente aleatorios,
- Factorial,
- Cuadrado latino,
- Cuadrado grecolatino,
- Parcelas divididas
- Otros.

NOTA
Usualmente se habla de los diseños de experimentos con base en modelos, así cuando
los tratamientos del factor son determinados por el investigador se habla de modelo de
efectos fijos, pero si se seleccionan aleatoriamente de un conjunto de tratamientos se
habla de modelo de efectos aleatorios.
Si las unidades experimentales son asignadas a los tratamientos y el orden en que se
realizan los ensayos se determinan por algún método aleatorio, se dice que el modelo es
completamente aleatorizado.
Cuando las observaciones por tratamiento varían se señala que el diseño es
desbalanceado. Esto sucede cuando algunas unidades se destruyen (tubos de ensayo,
animales que mueren, alguna maquina se daña, medidas que no fueron bien leídas, etc.).
Aunque indudablemente es deseable tener igual número de observaciones por grupo.

2. Etapas a tener en cuenta en la planeación de un diseño estadístico de


experimentos.
i. Diseñar un experimento con una estructura lo más adecuada posible a la situación
que se desea estudiar y a los medios disponibles.
a. Planteamiento general del problema y de los objetivos que se persiguen.
b. Selección y definición de la variable respuesta.
c. Elección de los factores y niveles que han de intervenir en el experimento.
d. Determinación del conjunto de unidades experimentales incluidas en el estudio.
e. Establecimiento de los procedimientos por los cuales los tratamientos se asignan
a las unidades experimentales.
ii. Realizar la experimentación de acuerdo con el plan previamente establecido en el
diseño.
iii. Analizar estadísticamente los resultados obtenidos y comprobar si las hipótesis
establecidas y el modelo de diseño elegido se adecuan a la situación estudiada.
iv. Realizar las modificaciones oportunas para ampliar o modificar el diseño.
v. Obtener las conclusiones apropiadas.

3. DISEÑO ESTADÍSTICO DE UN EXPERIMENTO COMPLETAMENTE


ALEATORIZADO DE UN FACTOR (DE UNA VIA)
Suponga un experimento con un factor el cual tiene k niveles, seleccionados aleatoriamente de
un conjunto determinado, en cada uno de los cuales se puede medir la variable respuesta, Y. Se
realizan nk mediciones en cada nivel. Con base en tales mediciones, se pretende verificar que los
niveles del factor difieren con respecto al promedio de Y.
Si se considera:
Yij: el valor i-ésimo de la variable aleatoria Y en el nivel j-ésimo del factor,
i=1, 2, …, nj; j=1, 2,…, k
Tal que
Yij  n(j; 2) ij Se supone que 12  22  ....  k2   2

Se plantea el modelo:
Yij    j  ij
con ij  n(0;  2 ) error aleatorio;   E(Y);
 j: efecto del nivel j sobre la variable respuesta.
Haciendo j    j  Yij  j  ij; j  E(Yj)

Ejemplo 5:
Un profesor que enseña en varios grupos de alumnos, en los que explica la misma
materia pero siguiendo distintos métodos de enseñanza, desea comprobar si el método
de enseñanza utilizado influye en las calificaciones de los alumnos.
Aquí dentro del componente error experimental pueden considerarse otros factores que
por alguna razón se desestima en algún grado su influencia, como el género, el nivel
cultural del alumno, el grado de atención e interés del alumno, entre otros.

Ejemplo 6:
Una compañía algodonera que emplea diversos fertilizantes desea comprobar si éstos
tienen efectos diferentes sobre el rendimiento de la semilla de algodón.

Variaciones como la cantidad de riego, la pureza de los insecticidas, etc., hacen el error
experimental.

3.1 Efectos fijos ó aleatorios ó mixtos


Los k tratamientos pueden ser elegidos por el experimentador aleatoriamente del
conjunto de niveles del factor, caso en el cual se habla de efectos aleatorios;
evidentemente se utilizan estos factores cuando tienen un número muy grande de
niveles y no es razonable o posible trabajar con todos ellos. En este caso se está
interesado en examinar la variabilidad de la respuesta debida a la población entera de
niveles del factor.

Ejemplo 7:
Un empresario está interesado en comparar el rendimiento de tres máquinas del mismo
tipo que tiene en su empresa. Como ha elegido de forma determinística las máquinas,
posiblemente de varias alternativas posibles, por esto los efectos que puedan influenciar
el rendimiento a experimentar se dice que son efectos fijos, los cuales son apropiados
cuando el interés se centra en comparar el efecto sobre la respuesta de esos niveles
específicos.

Ejemplo 8:
Una cadena de hipermercados que tiene en plantilla muchos trabajadores operando las
cajas registradoras, está interesada en estudiar la influencia del factor trabajador en la
variable “tiempo en el cobro a un cliente”. Si se realiza una selección aleatoria de
trabajadores y se rotan, también aleatoriamente, en la operación de las máquinas, se dirá
que los efectos son aleatorios.

Los efectos mixtos se deben a la presencia de unos factores de efectos fijos y de otros
factores de efectos aleatorios.

Para la situación de efectos fijos interesa estimar y/ó verificar los parámetros μ, μj y τj.

Se plantean las hipótesis que responden al objetivo si hay o no tratamientos que


producen algún efecto:
H0 : 1  2  ...  k   H0 : 1   2  ...   k  0
  
H1 : Algún h  j; h  j  H1 : Algún i  0

- Cuando los efectos son fijos, implica que  kj  1 njj  0 .


2
- Cuando los efectos son aleatorios,  j  n(0; j )  interesa el planteamiento
H0 : 2  0
H1 : 2  0
y conocer que cantidad de la varianza de las observaciones se da por la variación real
de las variaciones dentro de grupos, y, cuanta es debida a las diferencias entre
tratamientos.

3.2 Medida de discrepancia ó Estadística de Trabajo.


Una muestra aleatoria de mediciones de cada nivel j, permite verificar bajo Ho, que
Yij  n(j;  2) ij y se pueden obtener dos estimadores de σ2,

Es posible comprobar a partir de:


Yij    j  ij  Yij    (j  )  (Yij  i)
n 2 n
ij 1(Yij  )  ij 1[(j  ) (Yij  i)]2 =
2
= inj 1(j  )2  inj 1(Yij  i) + 2inj 1(j  )
(Yij  i)
n 2 2 n 2
ij 1(Yij  )  ink 1(j  )  ij 1(Yij  i)
n 2 2 n 2
 kj 1 ij 1(Yij  )   kj 1 nj(j  )  kj  1 ij 1(Yij  i)
SCT  SCTr  SCR
SCT  SCB  SCW
SCT  SCTratamientos  SC Re siduales

Los estimadores correspondientes son:


Y.. estima  : Promedio total; Y j. estima j : promedio del grupo j
(Y..- Yj.) estima j
ˆ12  f(Sj2) 2
2  la combinación de las funciones es el estimador de 
ˆ2  f(Y j)
1 k
ˆ12  V()  ˆ2   Sj2 (promedio de varianzas)
k j 1
1 k n (Yij  Y j)2
 j  1 ij 1  ˆR2 : varianza dentro de grupos
k nj  1
1
ˆ22  V(Y)  ˆY2  2 2 2
k nj(Y j.  Y..) =ˆE =ˆTr (varianza entre promedios)
k  1 j1

ˆ2  ˆTr
2
 ˆR2 = ˆB2  ˆW2 :varianza total

NOTA
- La letra B de MCB es por la palabra en inglés entre.
- La letra W de MCW es la letra correspondiente a la palabra en inglés dentro, la
variabilidad dentro de un grupo, el cual se ha homogenizado, es considerada un
error respecto a la representatividad del promedio.

NOTA
2 2 2 2 2
- ˆR =SR estima directamente a  , puesto que se verifica E(SR )=
2 2
- ˆ y n ˆY son independientes.

Finalmente, para la hipótesis de comparación de las k medias,


nSY2 SR2
Se puede comprobar que: 2  [2k  1] 2
 [( n  k)]
 2
nS2 / (k  1)
 F  2 Y  F [k  1;n  k]
SR / [(n  k)]

Media de cuadrados debidos a las diferencias entre medias


F 
Media de cuadrados debidos a la variabilidad dentro de niveles
MCTr

MCR
Entonces se decide:
- Si F > F[k-1; (n-k); 1-α] se rechaza Ho
- En otro caso se acepta Ho.

NOTA
Otro indicador a tener en cuenta es el coeficiente de determinación para expresar la
proporción de la variabilidad total explicada por el modelo completamente aleatorio, es
decir debido a la presencia de los tratamientos, el cual se obtiene como:
SCTr
R2 
SCT
3.2.1 ANÁLISIS DE VARIANZA
Para tener más control sobre el procesamiento de los datos, sobre todo cuando hay mas
de dos niveles ó tratamientos, se utiliza la técnica de Análisis de varianza, y con tal
soporte concluir produciendo la decisión sobre la prueba de las hipótesis del diseño
experimental; más conocida por la sigla ANOVA obtenida de ANALYSIS OF
VARIANCE; cada diseño de experimentos presenta su propio ANOVA.

Considérese la tabla de datos siguiente:

Tratamientos Observación
Total Media Varianza
(Niveles) 1 2 … nj
1 Y11 Y12 … Y1j Y1. Y 1. S21
… … … … … …
i Yi1 Yi2 … Yij Yi. Yi. S2i
… … … … … …
k Yk1 Yk2 … Ykj Yk. Y k. S2k

Con los valores e indicadores calculados se procede a construir la Tabla de Análisis de


varianza como se muestra enseguida:

ANOVA. Modelo de un Factor con efectos fijos


Fuente de Variación Suma de Grados de Cuadrado Estadística
debida a Cuadrados libertad Medio De Trabajo
Tratamientos SCTr k-1 MCTr MCTr
Error F 
SCR n-k MCR MCR
Total SCT n-1

MCTr= SCTr/ k-1 MCR= SCR/ n-k


NOTA
Previa a la solución de cualquier problema se deben cumplir los supuestos:
i. Independencia de los residuos. Un gráfico de los residuos en función del tiempo
debe generar una nube de puntos sin patrones.
ii. Normalidad de los residuos. Ya se han visto alternativas para probar este supuesto.
iii. Homocedasticidad. La varianza es constante. Se verifica con un gráfico de los
residuos y los valores estimados por el modelo, no se debe observar ningún patrón.
También se pueden practicar los contrastes de Bartlett, Cochran, Hartley y Levene,
para verificar que las varianzas son iguales.

Ejemplo 9:
Se desea comparar los sistemas de aislamiento térmico colocados en residencias
familiares, con el fin de seleccionar cual de ellos es el más eficiente y realizar su
adquisición. Se decide ensayar 5 niveles de aislamiento térmico (en pulgadas), se midió
la cantidad de los kilovatios hora empleados por los sistemas de calentamiento en casas
similares, durante un mes. ¿Al nivel de significación del 1%, se puede decir que los
niveles de aislamiento difieren?
Los datos de la variable aleatoria, calor empleado, en cientos de kilowatios-hora, se
muestran a continuación. (Se asume normalidad).

Observ Espesor del aislamiento (pulgadas)


aciones
4 6 8 10 12
1 14.4 14.5 13.8 13.0 13.1
2 14.8 14.1 14.1 13.4 12.8
3 15.2 14.6 13.7 13.2 12.9
4 14.3 14.2 13.6 13.2
5 14.6 14.0 13.3
6 12.7
nj 5 4 5 3 6
Total 73.3 57.4 69.2 39.6 78.0

Solución
Hay un factor que es el sistema de aislamiento térmico, con 5 niveles, los cuales se han
observado con entre 3 y 6 repeticiones. El modelo es completamente aleatorio de
efectos fijos.
Se pretende verificar.
H0 : 1  2  ...  5   H0 : 1   2  ...   5  0
  
H1 : Algún h  j; h  j  H1 : Algún i  0

Y.. =317.5

ANOVA.
F. V. SC GL CM E.T.
Tratamientos 9.836 4 2.459
F=36.48
Error 1.214 18 0.0674
Total 11.05 22

Decisión
Como F  36.48  F [4,18;0.99]  4.58 por lo tanto se rechaza la hipótesis nula.

Esto indica que los cinco niveles de espesor del aislamiento generan diferentes
promedios en los sistemas de calentamiento de las casa, al nivel de significación del 1%.

Ejercicio 10:
Se asignan en forma aleatoria 15 participantes de un programa técnico a tres tipos
diferentes de métodos de instrucción, todos pretendiendo adquirir un determinado grado
de habilidad para desempeñarse en un cargo especial. Las calificaciones obtenidas
después de la capacitación fueron:

Calificaciones según el método


Participantes
Mét. A Mét. B Mét. C
1 86 90 82
2 79 76 68
3 81 88 73
4 70 82 71
5 84 89 81
Promedio 80 85 75
nj 5 5 5

i. Identifique el factor y la variable respuesta.


ii. ¿Cuántos niveles tiene el factor y cuantas observaciones tiene cada uno?
iii. Pruebe al nivel de significación del 5% que no hay diferencias entre los tres métodos
de instrucción. Plantee las hipótesis, según la tabla ANOVA y el valor critico ¿que
decisión se puede tomar?

ANOVA.
F. V. SC GL CM E.T .F
Tratamientos 250 2 125
3.35 F(2,12;0.05)=3.88
Error 448 12 37.33
Total 698 14

Decisión
No se rechaza Ho, los .métodos de enseñanza no difieren significativamente.

4. Procedimientos de comparaciones múltiples.


Permiten comparar un conjunto de medias de tratamientos para reconocer cuales no son
iguales y en cuanto oscila el valor de esa diferencia.
Hay una gran cantidad de métodos ideados para resolver el problema entre los cuales
están:

o Método LSD
o Método de Bonferroni
o Método de Tukey o método HSD
o Método de rango múltiple de Duncan
o Test de Newman-Keuls
o Método Scheffé
o Método de Dunnett
4.1 Método de intervalos simultáneos de Bonferroni
De acuerdo al trabajo realizado en el capitulo anterior se tiene:
si se debe estimar la diferencia del promedio del tratamiento h y el promedio del nivel g,
se usa el intervalo simultáneo

(h  g )  [(Yh  Yg )  {SR[2 / n  k]1 / 2]t[(n  k);1   / 4)}]

4.2 Método de Scheffé


(h  g )  [(Yh  Yg )  {SR[1 / nh  1 / ng ]]F[(k  1,n  k);1   )}1 / 2]

4.3 Método de Tukey


(h  g )  [(Yh  Yg )  {SR[1 / nh  1 / ng ]1 / 2]q[ ,(k,n  k)] / 2]
donde q es el rango estudentizado a leer en la tabla de Tukey.

4.4 Rango múltiple de Duncan


A partir de
MCR
SYi.  con nh  k k
nh i  1 1 / ni
De la Tabla de Duncan de rangos significativos se leen los valores
r(p, n  k) p  2,3,.., k
Los anteriores rangos se transforman en otros rangos llamados
Rp  r(p, n  k)SYi. p  2,3,.., k
Se comparan todas las parejas de medias posibles, habiéndolas ordenado previamente, y
empezando de la mayor media con cada una de las demás empezando por la menor, y
así sucesivamente hasta que se realicen todas las comparaciones.
Si una diferencia es mayor que el rango de significación mínima correspondiente, se
concluye que el par de medias en cuestión es significativamente diferente al nivel α.

Ejemplo 11:
Al ingeniero de desarrollo de productos le interesa determinar si el peso porcentual del
algodón en una fibra sintética afecta la resistencia a la tensión. Considera el
experimento con 5 niveles del peso y mide la resistencia a la tensión en cinco replicas
réplicas de cada tratamiento los resultados fueron:

Peso Promedio S2ic


15 9.8 11.2
20 15.4 9.8
25 17.6 4.3
30 21.6 6.8
35 10.8 8.2
Total 15.04 8.06

ANOVA
F.V SC G.L MC F p-valor
Tr 475.76 4 118.96 14.76 <0.01
R 161.2 20 8.06
Total 636.96 24
Por lo tanto, se rechaza Ho.

Para identificar las diferencias de medias que afectan el rechazo, entonces se aplican
algunos métodos de construcción de intervalos simultáneos de confianza.

- Según Bonferroni
(h  g )  [(Yh  Yg )  {8.06 * [2 / 20]1/2]t[(20);1  0.05/4)}]
(h  g )  [(Yh  Yg )  0.898 * 2.74]  [(Yh  Yg )  2.46]
(1  2)  [(9.8  15.4)  2.46]  [ 8.06;  3.13]
(1  3)  [(9.8  17.6)  2.46]  [ 10.26;  5.33]
1  4 )  [(9 .8  21 .6)  2. 46]  [ 1 4. 2 6;  9. 34]
( 1  5 )  [ (9 . 8  1 0 . 8)  2 . 4 6]  [  3 . 4 6; 1 . 4 6]
( 2  3)  [(15.4  1 7.6)  2.46]  [ 4.66; 0. 26]
(2  4 )  [(15.4  21.6)  2.46]  [ 8.66;  3.73]
( 2  5 )  [(15.4  10 .8)  2 .46]  [2.1 3; 7.0 6]
( 3  4 )  [ (17 .6  21. 6)  2.46]  [ 6. 46;  1.5 3]
(3  5 )  [(17.6  10.8)  2.4 6]  [4.33; 9. 26]
(4  5 )  [(21.6  10.8)  2.46]  [8.34; 13.26]

Por lo tanto se concluye: μ1= μ5; μ2= μ3; μ2= μ5; μ3= μ4

- Según Sheffe
 1  4   (9.8  21.6)  8.06 * 2 / 5 * 4F[4,20;(1  0.01)] 
 1  4    11.8  1.8 * 2 * 4.43   (11.8  7.58)  (19.38; 4.22)

- Según Tukey
Q[0.05;(5,20)]=4.23 de la tabla
 h  k   (Xh  Xk )  4.23 8.06 / 5   (Xh  Xk )  5.37
 1  2   (9.8  15.4)  4.23 8.06 / 5    10.97; 0.23
 1  3   (9.8  17.6)  4.23 8.06 / 5    13.17; 2.43
 1  4   (9.8  21.6)  4.23 8.06 / 5    17.17; 6.43
 1  5   (9.8  10.8)  4.23 8.06 / 5    6.37;4.37
 2  3   (15.4  17.6)  4.23 8.06 / 5    7.57; 3.17
 2  4   (15.4  21.6)  4.23 8.06 / 5    11.57; 0.83
 2  5   (15.4  10.8)  4.23 8.06 / 5    0,77;9.97
 3  4   (17.6  21.6)  4.23 8.06 / 5    9,37;1.37
 3  5   (17.6  10.8)  4.23 8.06 / 5   1.43;12.17
 4  5   (17.6  10.8)  4.23 8.06 / 5   5.43;16.17

Por lo tanto se concluye: μ1= μ5; μ2= μ3; μ2= μ5; μ3= μ4

Para presentar los resultados también se puede usar el esquema


1  5 2  3 4
______ ______

El subrayado implica la igualdad de medias.


4. DISEÑO ESTADÍSTICO DE UN EXPERIMENTO COMPLETAMENTE
ALEATORIZADO DE UN FACTOR (Ó DE UNA VIA) MULTIVARIADO.
MANOVA.

Es la extensión del diseño de una vía con una variable respuesta a un diseño en el
cual hay que considerar p variables métricas con algún grado de dependencia, con
las cuales, de forma simultánea, se deben buscar las diferencias entre varios grupos
definidos en presencia de al menos una variable cualitativa, no métrica, que actúan
como predictores. Se asume que combinaciones de las p variables dependientes
pueden proporcionar mayores evidencias sobre las diferencias entre grupos.
Una forma sencilla de representación es:

Y1 + Y2 +……..+ YP = X1 + X2 +…….+ XH
METRICAS (DEPENDIENTES) NO METRICAS (INDEPENDIENTES)

Para resolver tal propósito, la técnica de análisis de varianza unidimensional,


ANOVA, también se amplifica a un análisis de varianza multivariado reconocido
por la sigla MANOVA.

5.1 MODELO CON UN FACTOR


Suponga el esquema sobre k subpoblaciones, de cada una de las cuales se toma una
muestra aleatoria, y se observan las p variables de interés, X, tal que se asume que:
 X  np(; )
 Se asume que las observaciones de las muestras observadas son independientes,
y distribuidas como normales p variadas de parámetros μi y Σi,
 1  2  ....  k  
 Se define el modelo lineal
Yij  i  ij    i  ij ij  np(0; )  nii  0
i
i =1, 2 , ....., k j = 1, 2, ....., ni

Donde
o  i vector de medias en el grupo i, de orden p*1
o  vector de medias general, de orden p*k
o  i  i   vector de efectos del tratamiento en el grupo i, de orden k*1
o  ij  Y ij   i vector de errores aleatorios independientes en el grupo i
observación j.

Planteamiento
En este modelo se plantean las siguientes hipótesis, considerando k grupos (ó
niveles de un factor ó de interacciones de factores) en cada uno de los cuales se ha
tomado una muestra aleatoria de ni observaciones:

Ho: μ1 = μ2 = ….= μK; equivalente a Ho :  1  2  .....   k


H1 : Algún μh ≠ μm´ H1 : Algún  h  m

Medida de discrepancia.
Las observaciones se pueden organizar como en la siguiente tabla:

Grupo Variables Indicadores


i 1 2 ……. j …… p Media Matriz de covar.
1 Y111 Y121 Y1j1 Y1p1 Y 1. S1
2 Y212 Y222 Y2j2 Y2p2 Y 2. S2
… … … … … … … … …
i Yi1n1 Yi2n2 Yijni Yipnk Y k. Si
… … … … … … … … …
k Yk1n1 Yk2n2 Ykjni Ykpnk Y k. Sk
Total Y.1 Y.2 Y.j Y.p. Y ..
Media Y.1 Y.2 Y.j Y.p Y ..

El modelo en términos de las p variables en el grupo i, y de las ni observaciones se


puede ver como:
 Yi1r   1   1   i1r   i1   i1r 
Y           
i2r 2 2 i2r i2
                i2r 
                 
           
Yipr   p   p   ipr   ip   ipr 
Un estimador del modelo se escribe como:
Yijr  Y  (Yij  Y )  (Yijr  Yij)  Yij  (Yijr  Yij)
i  1,2,..., k j  1,2,..., p r  1,2,..., ni

La estadística de trabajo se puede obtener como:

1. A partir de la función de verosimilitud bajo el supuesto Ho se tiene:


L (  ,  /Y )   n2 ln   21  (Y i   )T  1 (Y i   )
i
Después de algunas transformaciones

L(  ,  /Y )   n2 ln   n2 traza (  1 S )  n2 (Y   )T  1 (Y   )
np
L( Ho)   n2 ln S  2

Bajo H1, la función de verosimilitud es:

L ( /Y )  n2 ln  1  n2 traza ( 1 W / n)

np
L( H1 )   n2 ln S w  2 donde
SCW  W    (Yij  Yi .)(Yij  Yi .)T  n1 S 1  n2 S 2  ....  nk S k   i ni S i
i j

ó   i ( ni  1) S i si las covarianzas y varianzas son corregidas.

SCW es la matriz de la suma de cuadrados dentro de grupos.

La diferencia de funciones de verosimilitud lleva a

S
  n ln Sw
  p2 ( k 1)

NOTA 1. Para el caso de muestras pequeñas se propone la expresión corregida


S
  ( n  1)  ( p  k ) / 2  ln Sw
  2p ( k 1)

NOTA 2. Desagregación de la variabilidad total


S C T    (Y ij  Y ..)(Y ij  Y ..) T  T S u m a d e C uadrado s T o tal
i j

SCB =  ni (Y i .  Y ..)(Y i .  Y ..) T  B Suma de Cuadrados Entre grupos


i

SC W    (Y ij  Y . j )(Y ij  Y . j )T  W Suma de Cuadrados Dentro de grupos


i j

SCT = SCB + SCW; equivalente a: T = B + W

VARIACION TOTAL = VARIACION ENTRE GRUPOS + VARIACIÓN DENTRO DE GRUPOS

En términos matriciales:
SCW11 SCW12  SCW1 p 
  SCW22  SCW2p  SCWjj  i j(Yijr  Yi.)2
W   
      SCWhm  i r (Yihr  Y.)(
h Yimr  Y.m)
 
    SCW pp 

SCB11 SCB12  SCB1p 


  SCB22  SCB2p  SCBhh  i ni(Yih  Y.h)2
B   
      SCBhm  i ni(Yih  Y.h)(Yim  Y.m)
 
    SCBpp 

T
Con Yi.  (Yi1, Yi 2,..., Yip )
Un estimador de Σ es Spl  W / [(n  1)* k]

2. Wilks encontró la distribución de  en función de los valores propios de W-1 B de


la siguiente manera:
SCT
  ( n  1)  ( p  k ) / 2 ln SCW

1
 ( n  1)  ( p  k ) / 2  ln I  W B 
 ( n  1)  ( p  k ) / 2  ln(1   i )   p2 ( k 1)
i

3. Adicionalmente Wilks propone la estadística deducida de hacer la diferencia entre


las verosimilitudes L(H1) y L(Ho) al contrario de lo realizado arriba y considerando
la característica más la mantisa del logaritmo la cual toma valores entre cero y uno,
así se tiene una medida de discrepancia con la distribución probabilística de Wilks
dada como:
W
   ( p, vB , vW ) ó también
W B
-1
   11 i con  1,  2,... p valores propios de W B.
i

Se suelen organizar los resultados de los cálculos en la siguiente tabla llamada


MANOVA cuya forma general para este diseño es:

MANOVA
Fuente de variación SC G.L 
W W
Tratamientos B k-1 
B W T
Error W  n k
i i

Total T  n 1
i i

Decisión
1. Según la primera alternativa
2
i. Si    . Se rechaza Ho.
[(1 ); p ( k 1)]
ii. En otro caso se acepta Ho.

2. De acuerdo a la segunda alternativa


i. Si    ( ; p, v B , vW ) Rechazar Ho.
ii. En otro caso se acepta Ho.

Téngase en cuenta que para cualquier modelo MANOVA vB =k-1 y vW =k(n-1).

Obsérvese que la decisión en la segunda alternativa es diferente a cualquier otra, esto


debido a la construcción de la estadística, sí la suma de cuadrados de los errores en
valor absoluto es pequeña, esto implica que en la suma de cuadrados total tenga mayor
peso que la variabilidad entre grupos (entre tratamientos), dando lugar a la no
aceptación de Ho.
Ejemplo 12:
La anterior representación puede considerarse suponiendo tres poblaciones (ó niveles
del factor) de las cuales se realizan cierta cantidad de observaciones sobre tres variables,
como sigue:

Población i ni Yi1r Yi1 Yi2r Yi2


1 3 9, 6, 9 8 3, 2, 7 4
2 2 0, 2 1 4, 0 2
3 3 3, 1, 2 2 8, 9, 7 8
Total 8 32 40
Media Y.1 =4 Y.2 =5

Y ij  ˆ i   ij  ˆ  ˆi  ˆ ij i=1, 2, 3 j=1, 2, r=1, 2,.., ni

Para la primera variable Y1 se tiene:


8  4
ˆi1  Y i1  Y .1   1   4   3  y  ijr  Yijr  Y ..  Y . j
 
 2  2 
   

9 6 9  4 4 4   4 4 4   1 2 1 
       
0 2   4 4    3 3    1 1 
 3 1 2  4 4 4   2 2 2   1 1 0 
     
observaciones media efectos error
Yijr  Y  (Yij  Y )  (Yijr  Yij)
i  1,2,3 j  1,2 r  1,2,..., ni

Para la segunda variable Y2 se tiene:

 3 2 7   5 5 5   1 1 1   1 2 3 
4 0    5 5    3 3    2 2 
       
 8 9 7   5 5 5   3 3 3   0 1 1 
     
observaciones media efectos error

3 2 ni 3 ni
SCWjj     (Yijr  Yi.)2 y SCWhm    (Yihr  Y.h)(Yimr  Y.m ) 
i 1 j1 r 1 i 1 r 1

SCW11  (9  8)2  (6  8)2  (9  8)2  (0  1)2 


 (2  1)2  (3  2)2  (1  2)2  (2  2)2  10
SCW22  (3  4)2  ..  (4  2)2  ..  ..  (7  8)2  24
SCW12  (9  8)(3  4)  .......  (2  2)(7  8)  1

 10 1  3 6 6   2 4   2 1 
 W      (ni  1)Si         
 1 24 i 1 6 14   4 8   1 2 
SCBhh  i ni(Yih  Y.h)2 SCBhm  i ni(Yih  Y.h)(Yim  Y.m )
3
SCB11   ni(Yi.  Y )2  3 * 42  2 * (3)2  3 * (2)2  78
i 1

SCB22  3 * (1)2  2 * (3)2  3 * (3)2  48


SCB12  3 * 4 * (1)  2 * (3)(3)  3 * (2) * 3  12

 B  78 12
12 48 
5 2
2 3
 54 2
1  88 11

  
T   93 62 97 04 20 83 19 27  45  
 2
1

5 11 72
3

 3 4
2 2 

MANOVA
Fuente de variación SC G .L 
 78  12  239
T ratam ientos   2  0.0385
  12 48  6215
 10 1 
Error   5
 1 24 
 88  11 
T otal   7
  11 24 

Para verificar el planteamiento


Ho :  1   2   3
H1 : Al menos un  i  0
Se tienen las alternativas enunciadas arriba.
Estadística de trabajo
1.
S
  ( n  1)  ( p  k ) / 2  ln Sw
  p2 ( k 1)
  ( n  1)  ( p  k ) / 2  ln 1   p2 ( k 1)
   (7)  (2  3) / 2 ln 6215
239  14.65
2
Como  2(31)  4;0.05  9.48 , entonces no se acepta Ho, hay efectos de los tratamientos
sobre las variables respuesta.

2. Como
  0.038   (0.05; 2, 2,21)  0.629* se rechaza Ho.
* (Leída en la Tabla A.9 del libro de Rencher)

NOTA
Las siguientes tablas muestran expresiones correspondientes a transformaciones del 
de Wilks con distribución exacta a la distribución F.
Con vH = vB y vE = vW los grados de libertad, g=k: número de grupos.

W /W B
p Grupos, g Aproximación a la F
 nl  g 1  F
1 ≥2 g 1  [ g 1; nl  g ]

 nl  g 1 1   F
2 ≥2 g 1  [2( g 1);2(  nl  g 1)]

 nl  p 1 1  F
≥1 2 p  [ p;  nl  p 1]
 nl  p  2 1 
 F[ 2 p ;2(
≥1 3 p   nl  p 2)]

W /W B
p vH Aproximación a la F
v  p 1 1
cualquiera 1 p   F[ p ;v  p 1]
v  p 1 1 
cualquiera 2 p 
 F[2 p ;2( v  p 1]
v 1
1 cualquiera vH   F[ vH ;v ]
v 1 1 
2 cualquiera vH 
 F[2 vH ;2( v 1)]
vH = k-1 vE = n-k-1

Ejemplo 13:
Continuando con el Ejercicio pasado, siendo p=2 y k=3 y según la tabla anterior se tiene
la estadística ,

1  * n  k  1
F  F[ 2( k 1),2( n k 1)]
* k 1

 1  0.0385   8  3  1 
F       8.19 F[2(31) 4,2(831)8;0.01]  7.01
 0.0385   3  1 

Decidiendo el rechazo de Ho.

Otras estadísticas propuestas para resolver el mismo planteamiento son:

1. TEST DE ROY
Llamado de mayor raíz característica dado por:
   1   s, m, n (Pearson - Harley - Pillai)
1  1
1 : mayor raiz característica
( vB  p 1)
S= min(vB ,p) m 2 n=( vw –p-1)/2
Se rechaza Ho si   
( ;s,m, N )
vH = vB vE = vW

Los valores críticos se leen en la Tabla A-10 del libro de Rencher.

Este test es más potente que los demás cuando se observa la existencia de
colinealidad entre las variables. También es indicado cuando los vectores de medias
están aproximadamente alineados, esto hace crecer el primer valor propio de B y
de W—1B.

2. TEST DE PILLAI – LAULEY - HOTELLING.


Dado por:
V ( s )    i  ( s ) (Shurmann)
V
i 1  i
i : valores propios de W 1B
(s)
Se rechaza Ho si V  V ( s )
Los valores críticos se leen en la Tabla A-11 del libro de Rencher.

V(s) es superior a otros test cuando hay heterogeneidad de las matrices de


covarianzas, pero no existe colinealidad.

Una aproximación puede darse en términos de la distribución de la variable F1


(2 N  s 1)V ( s )
F1  (2 m  s 1)( s V ( s ) )
 F[ s (2 m  s 1),s (2 N  s 1)]

O también las estadísticas

s ( v   v H  s )V ( s )
F2  pv H ( s V ( s ) )
 F[ pvH ,s ( v  vH  s )]

( v  p  s )V ( s )
F3  d ( s V ( s ) )
 F[ sd ,s ( v  p  s )] d  m áx ( v , p )

3. TEST DE LAUWLEY – HOTELLING


(s) v (s)
Definida por: U   i  W U (tabulada por Davis)
i vB
conocida también por estadística generalizada de Hotelling

Se rechaza Ho para valores grandes de la estadística.


Los valores críticos se leen en la Tabla A-12 del libro de Rencher.

Una aproximación puede darse en términos de la distribución de la variable F1


(s) a ( b 2) ( v  vH  p 1)( v 1)
F1  Uc  F[ pvH ,4 a  2 ] c b ( v  p 1) B ( v  p 3)( v  p )
B 1

O bien las alternativas


2( sN 1)U ( s )
F2  s 2 ( 2 m  s 1)
 F[ s ( 2 m  s 1),2( sN 1)]

[ s ( v  v H 1)  2]U ( s )
F3  spvH  F[ pvH ,s ( v vH 1)]
Los test no dan necesariamente los mismos resultados, puesto que no son equivalentes,
debido a la naturaleza multidimensional de los vectores de medias.

Ejemplo 14:
Sea una muestra seleccionada aleatoriamente formada por 24 automóviles para los
cuales se han producido datos técnicos, relativos a ciertas dimensiones de los mismos.
Las variables consideradas son las siguientes:

Precio del automóvil. Tipo de combustible (motor)


Tipo de tracción. Número de cilindros
Cilindrada (centímetros cúbicos) Potencia (caballos de fuerza)
Longitud (centímetros) Anchura (centímetros)
Altura (centímetros) Volumen del maletero. (litros)
Peso (kilogramos) Consumo medio (litros)
Velocidad máxima (kilómetros/hora)

definen de manera acertada las principales características en las que un posible


comprador debe fijarse a la hora de adquirir un automóvil.
Se desea detectar las diferencias significativas que pueden existir atendiendo al tipo de
- combustible utilizado (gasolina o diesel),y
- a la tracción (delantera o trasera).

Las hipótesis nulas planteadas para cada situación son:


Ho: no hay efectos de los distintos tratamientos de cada factor (combustible y tracción)
Ho (combustible): Los efectos de los tratamientos son cero.
Ho (tracción): Los efectos de los tratamientos son cero.
H1 : existe algún efecto distinto de cero.

Medida de discrepancia
Se dispone de cuatro contrastes:  de Wilk, Mayor Raíz de Roy, Pillai, Lawley-
Hotelling.
Datos.

consumo
ponderad
cilindrada enpotencia en volumen del o entre velocidad
diesel o delantera numero de centimetros caballos de logitud en anchura en altura en maletero en peso en urbano/exmaxima en
PRECIO gasolina o trasera cilindros cubicos vapor centimetros centimetros centimetros litros kilogramos traurbano km/h
1 3500000 diesel delantera 4,00 1910,00 105,00 443,00 174,00 141,00 378,00 1270,00 5,80 188,00
2 3635000 diesel delantera 4,00 1896,00 110,00 415,00 173,00 143,00 350,00 1180,00 4,90 193,00
3 5598000 diesel delantera 6,00 2496,00 150,00 448,00 173,00 142,00 390,00 1400,00 6,80 222,00
4 8721000 diesel delantera 6,00 2496,00 150,00 503,00 188,00 144,00 525,00 1695,00 8,20 214,00
5 2757419 diesel delantera 4,00 1997,00 90,00 417,00 170,00 141,00 408,00 1220,00 5,20 180,00
6 3730000 diesel delantera 4,00 1994,00 105,00 460,00 175,00 143,00 430,00 1451,00 6,40 185,00
7 3495000 diesel trasera 4,00 1665,00 90,00 421,00 170,00 139,00 300,00 1215,00 6,40 175,00
8 6700000 diesel trasera 6,00 2926,00 184,00 478,00 180,00 144,00 460,00 1575,00 7,10 225,00
9 6637000 diesel trasera 6,00 2479,00 163,00 481,00 180,00 145,00 410,00 1685,00 7,00 215,00
10 4975000 diesel trasera 4,00 2148,00 115,00 453,00 173,00 143,00 455,00 1505,00 6,10 203,00
11 5295000 diesel trasera 6,00 2148,00 143,00 453,00 173,00 143,00 455,00 1520,00 6,20 220,00
12 6050000 diesel trasera 5,00 2497,00 150,00 452,00 172,00 146,00 465,00 1520,00 8,00 200,00
13 3120000 gasllina delantera 4,00 1595,00 101,00 415,00 174,00 143,00 350,00 1090,00 7,40 188,00
14 4115000 gasllina delantera 4,00 1781,00 125,00 448,00 173,00 141,00 440,00 1205,00 8,40 205,00
15 3975000 gasllina trasera 4,00 1895,00 105,00 447,00 174,00 142,00 440,00 1285,00 7,80 200,00
16 6025000 gasllina trasera 6,00 1991,00 150,00 481,00 180,00 145,00 410,00 1570,00 9,60 212,00
17 2336670 gasllina delantera 4,00 1587,00 90,00 417,00 170,00 140,00 408,00 1078,00 7,70 182,00
18 2045000 gasllina delantera 4,00 1242,00 80,00 384,00 166,00 148,00 264,00 920,00 6,00 172,00
19 1738000 gasllina delantera 4,00 1388,00 90,00 383,00 163,00 132,00 250,00 961,00 7,30 180,00
20 2811000 gasllina delantera 4,00 1796,00 115,00 467,00 175,00 152,00 540,00 1364,00 8,10 190,00
21 3500000 gasllina trasera 4,00 1595,00 160,00 419,00 169,00 137,00 225,00 1165,00 7,80 207,00
22 4790000 gasllina trasera 4,00 1998,00 129,00 453,00 173,00 143,00 455,00 1455,00 9,30 210,00
23 5492000 gasllina trasera 4,00 1998,00 163,00 453,00 173,00 143,00 455,00 1490,00 9,50 230,00
24 8025025 gasllina trasera 6,00 2799,00 204,00 484,00 180,00 151,00 600,00 1700,00 11,30 225,00
Total N 24 24 24 24 24 24 24 24 24 24 24 24 24

Los resultados son:


1. MANOVA a un factor
- Para el caso en que el factor sea el motor (gasolina o diesel)
Contrastes multivariadosb

Gl de la
Efecto Valor F hipótesis Gl del error gl Sig.
Intercept Traza de Pillai 1,000 23538,580a 11,000 12,000 ,000
Lambda de Wilks ,000 23538,580a 11,000 12,000 ,000
Traza de Hotelling 21577,032 23538,580a 11,000 12,000 ,000
Raíz mayor de Roy 21577,032 23538,580a 11,000 12,000 ,000
MOTOR Traza de Pillai ,960 26,462a 11,000 12,000 ,000
Lambda de Wilks ,040 26,462a 11,000 12,000 ,000
Traza de Hotelling 24,257 26,462a 11,000 12,000 ,000
Raíz mayor de Roy 24,257 26,462a 11,000 12,000 ,000
a. Estadístico exacto
b. Diseño: Intercept+MOTOR

- Para el caso en que el factor sea el motor (gasolina o diesel)


Ho (combustible): Los efectos de los tratamientos son cero.
Con cualquier test se rechaza la hipótesis nula.
- Para el caso en que el factor sea la tracción:
Ho (tracción): Los efectos de los tratamientos son cero.
Contrastes multivariadosb

Gl de la
Efecto Valor F hipótesis Gl del error gl Sig.
Intercept Traza de Pillai 1,000 12933,802a 11,000 12,000 ,000
Lambda de Wilks ,000 12933,802a 11,000 12,000 ,000
Traza de Hotelling 11855,985 12933,802a 11,000 12,000 ,000
Raíz mayor de Roy 11855,985 12933,802a 11,000 12,000 ,000
TRACCION Traza de Pillai ,641 1,949a 11,000 12,000 ,133
Lambda de Wilks ,359 1,949a 11,000 12,000 ,133
Traza de Hotelling 1,787 1,949a 11,000 12,000 ,133
Raíz mayor de Roy 1,787 1,949a 11,000 12,000 ,133
a. Estadístico exacto
b. Diseño: Intercept+TRACCION

Se rechaza la hipótesis.
Ante el rechazo de la hipótesis nula en el caso del tipo del motor, se realizan ANOVAS
individuales para cada variable:
ANOVA Table for precio by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 7,17306E12 1 7,17306E12 2,22 0,1507
Within groups 7,11929E13 22 3,23604E12
-----------------------------------------------------------------------------
Total (Corr.) 7,8366E13 23

ANOVA Table for num cilindros by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 2,04167 1 2,04167 2,55 0,1242
Within groups 17,5833 22 0,799242
-----------------------------------------------------------------------------
Total (Corr.) 19,625 23

ANOVA Table for cent cubicos by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 1,03626E6 1 1,03626E6 7,24 0,0133
Within groups 3,14733E6 22 143060,0
-----------------------------------------------------------------------------
Total (Corr.) 4,18358E6 23
ANOVA Table for potencia by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 77,0417 1 77,0417 0,07 0,7991
Within groups 25536,9 22 1160,77
-----------------------------------------------------------------------------
Total (Corr.) 25614,0 23

ANOVA Table for largo by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 1247,04 1 1247,04 1,34 0,2602
Within groups 20542,9 22 933,769
-----------------------------------------------------------------------------
Total (Corr.) 21790,0 23

ANOVA Table for ancho by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 40,0417 1 40,0417 1,55 0,2269
Within groups 569,917 22 25,9053
-----------------------------------------------------------------------------
Total (Corr.) 609,958 23

ANOVA Table for alto by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 0,375 1 0,375 0,02 0,8849
Within groups 384,583 22 17,4811
-----------------------------------------------------------------------------
Total (Corr.) 384,958 23

ANOVA Table for volum maletero by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 1488,37 1 1488,37 0,18 0,6759
Within groups 182413,0 22 8291,48
-----------------------------------------------------------------------------
Total (Corr.) 183901,0 23
ANOVA Table for peso by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 158925,0 1 158925,0 3,41 0,0784
Within groups 1,02631E6 22 46650,5
-----------------------------------------------------------------------------
Total (Corr.) 1,18524E6 23

ANOVA Table for consumo litros 100km by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 20,3504 1 20,3504 14,01 0,0011
Within groups 31,9592 22 1,45269
-----------------------------------------------------------------------------
Total (Corr.) 52,3096 23

ANOVA Table for velocidad max by "motor"

Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 15,0417 1 15,0417 0,05 0,8292
Within groups 6943,58 22 315,617
-----------------------------------------------------------------------------
Total (Corr.) 6958,62 23

Las variables para las que se rechaza la hipótesis nula son centímetros cúbicos y
consumo.
Existen diferencias significativas en estas variables según el tipo de combustible.
Obsérvense las gráficas siguientes

Este gráfico refleja, según los datos obtenidos, que un vehículo con motor de gasolina
tiene un consumo mayor que un vehículo diesel.
En el contraste realizado para la variable PESO, el p-valor está cercano a la frontera de
rechazo. El motivo es que quizás exista una relación entre el tipo de motor y el peso del
automóvil.

Parece que los vehículos con motor diesel tienen un peso más elevado que los de
gasolina.

MEDIDA DE ASOCIACION MULTIVARIADA


RAZÓN DE CORRELACIÓN DE FISHER
SCB
2 
SCT
Mide la relación entre la variable dependiente Y y el agrupamiento variable i asociado
con μi ó αi, considerada como una variable categórica, en el modelo ANOVA a una vía.
Entonces existe una variable Xi= 0, 1; si es uno la unidad observada pertenece al grupo i,
toma el valor cero en otro caso, i=1, 2, 3, …, k-1.

En MANOVA,
 2   2  1  
En términos de la estadística de Roy  2  2   siendo entonces la raíz cuadrada la
máxima correlación entre la combinación lineal de las p variables dependientes y la
combinación lineal de las k-1 variables Dummy. Esta medida es llamada correlación
canónica, la cual se puede extender a un cálculo similar con cada valor propio,
S 1 S i
   i 1   i 1 (1  ri 2 ) con ri  i-ésima correlación canónica
1  i 1  i
En términos de la estadística de Pillai

En términos de la estadística de Lawley – Hotelling


Prueba de igualdad de matrices de covarianzas (M de BOX)
Como una extensión de la prueba de Box presentada en el capítulo de inferencia
unidimensional y bidimensional y siendo un supuesto fundamental en MANOVA se
considera en este punto la comparación de G grupos de acuerdo a la homogeneidad.
Sean G muestras aleatorias de dos poblaciones normales p-variadas tal que
X j n(j;  j) j  1, 2,...., k
El planteamiento de las hipótesis es:
Ho: Σ1 = Σ2=......= Σg
H1 : Algún Σi ≠ Σj i≠j

Estadística de trabajo
(n g  1)/2
gG  1 Sg
M  G 0  M  1
SPL g 1
(n g  1)/2

1 1 2p2  3p  1
C  (Gg  1  )( )
ng  1 n g 6(p  1)
2
U  2(1  C)ln M  U  [( g  1)p(p  1)/2]

La matriz combinada (SPL) se obtiene como sigue:

nh h  (nh  1)h  nh Sh  (nh  1)Sh  W h y

Gg  1 Wg
  S pl (pl : combinada)
Gg  1 ng  g

Decisión
- Sí U  [2p(p 1)/2; ] se rechaza Ho
- De otra manera se acepta Ho.
Muestra de la Tabla A.9
BIBLIOGRAFIA
 French, A., Poulsen, J., & Yu, A. (2002). Multivariate Analysis of Variance
(MANOVA).
 Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1998). Multivariate data
analysis (5th ed.). New York: Macmillan (Chapter 6).
 Lara Porras A.M. (2001). “Diseño estadístico de experimentos, análisis de la
varianza y temas relacionados: tratamiento informático mediante SPSS”. Ed.:
Proyecto Sur.
 Tabachnick, B. G., & Fidell, L. S. (1983). Using multivariate statistics. New York:
Harper & Row. (Chapter 9; more recent editions are available)

You might also like