You are on page 1of 12

Albert PR

Prctica 4: EL MODELO ANOVA


Ejercicio evaluable 1: La variable tiempos recoge los tiempos de realizacin de una misma
tarea informtica de varios operadores (de caractersticas muy similares) bajo 3 sistemas
operativos, para comparar sobre cul es ms rpida.

Realiza un grfico sencillo del tiempo en funcin del sistema operativo, que
visualice la posible influencia del sistema operativo sobre el tiempo.

plot(tiempos)

En el diagrama de cajas podemos observar que el tiempo de realizacin para la misma tarea s
est influenciado por el sistema operativo, en general, los tiempos de los operadores bajo
Windows se concentran sobre el valor 25, en Linux sobre los 22.5 y en MacOS sobre los 24,
adems, por la amplitud de la caja y la longitud de los bigotes podemos observar como los
tiempos son ms homogneos en Windows, seguido por MacOs y finalmente por Linux.

Albert PR

Calcula los tiempos medios bajo cada sistema operativo, y establece un ranking de
rapidez.

Realizamos un pequeo programa para separar los datos por sistema operativo:
i=1;win=c();lin=c();mac=c();
while(i<= length(tiempos[,1])){
if (tiempos$so[i]== "Windows") { win=c(win,tiempos$tiem[i]) }
if (tiempos$so[i]== "Linux") { lin=c(lin,tiempos$tiem[i]) }
if (tiempos$so[i]== "MacOS") { mac=c(mac,tiempos$tiem[i]) }
i=i+1;
}
mean(win);mean(lin);mean(mac)
[1] 25.08
[1] 22.2
[1] 24.29
Es decir, el tiempo medio bajo Windows es de 25.08, bajo Linux de 22.2, y bajo MacOs de
24.29, por tanto, en un ranking de rapidez, el ms rpido sera Linux, seguido de MacOs y por
ultimo estara Windows.

Aplica el ANOVA para demostrar o refutar que el tiempo medio depende del sistema
operativo. Qu se puede decir usando un nivel de confianza del 5%?

Realizamos el contraste de hiptesis:


:
{ 0
1 : 0
mianova=aov(tiempos$tiem~tiempos$so)
summary(mianova)
Df Sum Sq Mean Sq F value Pr(>F)
tiempos$so 2 44.29 22.144 22.78 1.6e-06 ***
Residuals 27 26.25 0.972
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Obtenemos un p-valor de 1.6e-06, que es muy inferior al nivel de confianza de 0.05, por lo que
rechazamos la hiptesis nula, es decir, rechazamos que el valor de Y dependa de X, es decir, los
tiempos de ejecucin s dependen del sistema operativo sobre el cual se trabaja.

Albert PR

Comprueba si es razonable aplicar ANOVA a estos datos, o si no se debera aplicar.


Figuras y comentario.

plot (mianova)

En el anterior grfico observamos la varianza de los errores para los tres sistemas operativos,
pese a que los valores en Linux son ms dispersos, es decir, la varianza es mayor, considero
que no hay una diferencia significativa de errores entre sistemas operativos, es decir, los
errores son similares independientemente del sistema operativo.

En el anterior grfico relacionamos los cuantiles tericos de la normal con los de los errores
estimados. Vemos que hay bastantes alejados de la diagonal, pero por lo general se
mantienen cerca.
Con los dos anteriores grficos podemos decir que es razonable aplicar el modelo ANOVA
bajo esta muestra.

Albert PR

En caso afirmativo, y si ANOVA result en que el sistema operativo S influa en los


tiempos medios, haz un nuevo ranking donde se vea si hay diferencias
estadsticamente significativas (al 5%) entre los sistemas operativos.

Con el paquete agricolae instalado y cargado, procedemos a realizar comparaciones por el


mtodo LSD de Fisher:
LSD.test(y=mianova, trt="tiempos$so", alpha=0.05, console=TRUE)
Study: mianova ~ "tiempos$so"

LSD t Test for tiempos$tiem

Mean Square Error: 0.972037

tiempos$so, means and individual ( 95 %) CI

tiempos.tiem
Linux

std r

LCL

UCL Min Max

22.20 1.0519823 10 21.56029 22.83971 20.0 23.8

MacOS

24.29 0.9362455 10 23.65029 24.92971 23.0 26.0

Windows

25.08 0.9658617 10 24.44029 25.71971 23.7 26.7

alpha: 0.05 ; Df Error: 27


Critical Value of t: 2.051831

Least Significant Difference 0.904686


Means with the same letter are not significantly different.

Groups, Treatments and means


a

Windows

MacOS

Linux

25.08
24.29
22.2

La ltima tabla que nos devuelve nos indica el ranking, que punta a Windows y MacOS como
a y a Linux como b, es decir, sita en el mismo nivel a Windows y MacOs.

Albert PR
Ejercicio 2: Las variables prodA, prodB, prodC y prodD recogen la produccin (en miles de
unidades) de 4 lneas en las que se aplican mtodos distintos (A, B, C y D) que se quieren
comparar.

Realiza un grfico sencillo de la produccin en funcin del mtodo, que visualice la


posible influencia del mtodo sobre la produccin.

boxplot(prodA,prodB,prodC,prodD)

Vemos que la produccin s que parece estar influenciada por el mtodo de produccin, siendo
la produccin A y D muy homogneas, la C relativamente homognea y la B bastante dispersa,
en cuanto a las miles de unidades, parece ser que la B es la ms productiva, la C y D estn en un
nivel similar y la A sera la menos productiva.

Calcula las producciones medias bajo cada mtodo, y establece un ranking de


productividad.

mean(prodA);mean(prodB);mean(prodC);mean(prodD)
[1] 70.155
[1] 76.72
[1] 72.875
[1] 74.025
La B sera la ms productiva, seguida de la C, D y por ltimo la A.

Albert PR

Aplica el ANOVA para demostrar o refutar que la productividad media depende del
mtodo. Qu se puede decir usando un nivel de confianza del 1%?

Realizamos el contraste de hiptesis:


:
{ 0
1 : 0

x = data.frame(X = rep(c("A", "B", "C","D", each = 20)), Y = c(prodA,prodB,prodC,prodD))


mianova = aov(Y ~ X, data = x)
summary(mianova)
Df Sum Sq Mean Sq F value Pr(>F)
X

4 80.4 20.10 0.686 0.604

Residuals 75 2196.0 29.28


Obtenemos un p-valor de 0.604, que es superior al nivel de confianza de 0.01, por lo que
aceptamos la hiptesis nula, es decir, aceptamos que el valor de Y dependa de X, es decir, las
unidades producidas no dependen del mtodo de produccin escogido.

Comprueba si es razonable aplicar ANOVA a estos datos, o si no se debera aplicar.


Figuras y comentario.

plot(mianova)

Albert PR
En el anterior grfico observamos la varianza de los errores para los cuatro sistemas de
produccin, podemos observar que los valores de B son muy dispersos, en A son relativamente
dispersos, y tanto en D como en C la varianza es poca y estn ms concentrados.

En el anterior grfico relacionamos los cuantiles tericos de la normal con los de los errores
estimados. Vemos que hay por los extremos hay bastantes datos alejados de la diagonal,
pero por lo general se mantienen cerca.
Con los dos anteriores grficos podemos decir que es razonable aplicar el modelo ANOVA
bajo esta muestra.

En caso afirmativo, y si ANOVA result en que el mtedo S influa en la


productividad media, haz un nuevo ranking donde se vea si hay diferencias
estadsticamente significativas (al 5%) entre los mtodos.

Con el paquete agricolae instalado y cargado, procedemos a realizar comparaciones por el


mtodo LSD de Fisher:
LSD.test(y=mianova, trt="X", alpha=0.05, console=TRUE)
Study: mianova ~ "X"

LSD t Test for Y

Mean Square Error: 29.27989

Albert PR
X, means and individual ( 95 %) CI

std r

LCL

UCL Min Max

20 73.75000 6.708403 16 71.05514 76.44486 64.3 95.5


A 74.73750 5.224159 16 72.04264 77.43236 68.9 90.2
B 71.75625 5.368919 16 69.06139 74.45111 59.5 79.5
C 73.03750 3.610702 16 70.34264 75.73236 66.9 80.8
D 73.93750 5.678248 16 71.24264 76.63236 64.8 88.7

alpha: 0.05 ; Df Error: 75


Critical Value of t: 1.992102

Least Significant Difference 3.811109


Means with the same letter are not significantly different.

Groups, Treatments and means


a

74.74

73.94

20

73.75

73.04

71.76

La ltima tabla que nos devuelve nos indica el ranking, que punta a todos los mtodos como
a.
Ejercicio 3: Una asignatura tiene 5 grupos de laboratorio, con un profesor distinto en cada
grupo. Alumnos de algn grupo se han quejado por creer que con su profesor, las notas son
ms bajas que en otros grupos. Utiliza los datos labo de las notas para saber qu puede
aportar la estadstica a este caso. Describe el mismo esquema de trabajo de los ejercicios
anteriores.
Primero, vamos a realizar un plot sobre los datos para ver a que nos enfrentamos:
plot(labo)

Albert PR

Podemos ver que, a simple vista, s parece que las notas del grupo B son significativamente ms
bajas. Vamos a comparar las medias para ver que esto es cierto, para ello utilizaremos la misma
funcin que hemos programado en el ejercicio 1:
i=1;A=c();B=c();C=c();D=c();E=c();
while(i<= length(labo[,1])){
if (labo$gr[i]== "A") { A=c(A,labo$nota[i]) }
if (labo$gr[i]== "B") { B=c(B,labo$nota[i]) }
if (labo$gr[i]== "C") { C=c(C,labo$nota[i]) }
if (labo$gr[i]== "D") { D=c(D,labo$nota[i]) }
if (labo$gr[i]== "E") { E=c(E,labo$nota[i]) }
i=i+1;
}
mean(A);mean(B);mean(C);mean(D);mean(E);
[1] 5.775
[1] 5.348
[1] 6.235
[1] 5.981818
[1] 5.978571

Albert PR
Podemos ver que, como habamos intuido en el diagrama de cajas, las notas del grupo B son
bastante ms bajas, las del A, D, y E son similares y las del grupo C son bastante ms altas.
Procedemos a realizar un contraste de hiptesis y a aplicar el modelo anova sobre los datos:
:
{ 0
1 : 0
mianova=aov(labo$nota~labo$gr, data=labo)
summary(mianova)
Df Sum Sq Mean Sq F value Pr(>F)
labo$gr

4 10.22 2.5555 2.601 0.0399 *

Residuals 110 108.09 0.9826


--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Obtenemos un p-valor del 0.0399, por lo que rechazaramos la hiptesis nula para niveles de
confianza superiores, y aceptaramos para inferiores. Como el p-valor esta dentro de los lmites
de los niveles de confianza habituales (1%,5%,10%), depender del nivel escogido el rechazar o
no la hiptesis nula, es decir, rechazar que las notas no dependen del grupo (y profesor)
escogido.
Vamos a ver si es razonable aplicar ANOVA a estos datos:
plot (mianova)

Albert PR
En el anterior grfico relacionamos los cuantiles tericos de la normal con los de los errores
estimados. Vemos que por los extremos hay bastantes alejados de la diagonal, pero por lo
general se mantienen cerca.
NOTA: En este caso, el plot no me devuelve el grfico Residuals vs Factors Levels, por lo
que, pese a que aceptaremos que es razonable aplicar el modelo ANOVA, somos menos
rotundos que en los dos ejercicios anteriores.

Por ltimo, realizaremos un nuevo ranking para ver si hay diferencias estadsticamente
significativas (al 5%) entre los grupos.
Con el paquete agricolae instalado y cargado, procedemos a realizar comparaciones por el
mtodo LSD de Fisher:
LSD.test(y=mianova, trt="labo$gr", alpha=0.05, console=TRUE)
Study: mianova ~ "labo$gr"

LSD t Test for labo$nota

Mean Square Error: 0.9825934

labo$gr, means and individual ( 95 %) CI

labo.nota

std r

LCL

UCL Min Max

A 5.775000 0.7461304 20 5.335737 6.214263 4.4 7.8


B 5.348000 1.2100689 25 4.955112 5.740888 3.4 7.6
C 6.235000 1.0519531 20 5.795737 6.674263 4.7 9.2
D 5.981818 0.8364530 22 5.562998 6.400639 4.7 8.0
E 5.978571 0.9934441 28 5.607327 6.349816 4.7 8.2

alpha: 0.05 ; Df Error: 110


Critical Value of t: 1.981765

Minimum difference changes for each comparison

Means with the same letter are not significantly different.

Albert PR
Groups, Treatments and means
a

6.235

5.982

5.979

ab

5.775

5.348

La ltima tabla que nos devuelve nos indica el ranking, que por un lado punta al mismo nivel
a a los grupos C, D, y E, por otro lado punta como b al grupo B, y entre ambos, punta
como ab al grupo A.

You might also like