You are on page 1of 4

Captulo 11

Mtodos Estadsticos Modernos

El presente capitulo pretende mostrar mtodos estadsticos ms robustos desarrollados


gracias al avance computacional con respecto a los estudiados en el captulo 10.
Una alternativa moderna a la prueba t tradicional
A continuacin se muestra la grfica de densidades para dos conjuntos de datos con el fin
de comparar sus variancias y despus evidenciar el uso de la prueba t.

A continuacin se va a explorar los conjuntos de datos un poco ms, y luego comparar y


contrastar la prueba t con dos nuevas pruebas que son ms robustas. Por supuesto, a partir
de la imagen anterior, uno no esperara que la varianza o la media no fueran las mismas.
Para fines de referencia, realizamos tanto la prueba t asumiendo varianzas iguales como la
prueba t de Welch.
Obsrvese que la prueba t de Welch da un valor p inferior a 0,05.

> t.test(group2, group1, var.equal = TRUE)


Two Sample t-test
data: group2 and group1
t = -1.6967, df = 14, p-value = 0.1119
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-78.295181 9.131545
sample estimates:
mean of x mean of y
104.6000 139.1818
> t.test(group2, group1)
Welch Two Sample t-test
data: group2 and group1
t = -2.2074, df = 13.932, p-value = 0.04457
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-68.1984170 -0.9652194
sample estimates:
mean of x mean of y
104.6000 139.1818

Ahora usemos la prueba de Yuen con un recorte de .20 para los medios, que es el valor por
defecto.

> yuenTest <- yuen ( group2 , group1)


> yuenTest $p.value
[1] 0.1321475
> yuenTest $ci
[1] -83.33050 13.23527

Existen muchas otras pruebas estadsticas modernas disponibles para una variedad de
situaciones, incluyendo alternativas robustas a pruebas de una muestra, anlisis de varianza
y regresin. Siempre es importante examinar cualquier precondicin o suposicin necesaria
para usar una prueba en particular.

Bootstrapping

El bootstrapping (o bootstrap) es un mtodo de remuestreo propuesto por Bradley Efron en


1979. Se utiliza para aproximar la distribucin en el muestreo de un estadstico. Se usa
frecuentemente para aproximar el sesgo o la varianza de un anlisis estadstico, as como
para construir intervalos de confianza o realizar contrastes de hiptesis sobre parmetros de
inters. En la mayor parte de los casos no pueden obtenerse expresiones cerradas para las
aproximaciones bootstrap y por lo tanto es necesario obtener remuestras en un ordenador
para poner a prueba el mtodo. La enorme potencia de clculo de los ordenadores actuales
facilita considerablemente la aplicabilidad de este mtodo tan costoso computacionalmente.

> myData <- rnorm (1000 , 500 , 100)


> resamples <- lapply (1:1000 , function (i) sample ( myData , replace =
TRUE ))
> r.mean <- sapply ( resamples, mean )
> ci.mean <- c( quantile (r.mean, 0.025) , quantile (r.mean, 0.975) )
> ci.mean
2.5% 97.5%
491.0863 503.1850
> hist (r.mean )
> abline (v = quantile (r.mean , 0.025) )
> abline (v = quantile (r.mean , 0.975) )

A continuacion se muestra el grafico correspondiente a el anterior codigo:


Observe que el intervalo de confianza para la media de los datos originales es
prcticamente el mismo que el intervalo de confianza para los medios bootstrap. Encontrar
intervalos de confianza y estimaciones de error estndar para las medianas es menos
comnmente hecho que encontrar estos medios. Continuemos con nuestro ejemplo y
bootstrap la mediana y la media para las 1.000 muestras de una poblacin normal con una
media de 500 y una desviacin estndar de 100. Usaremos la misma tcnica que antes, pero
esta vez haremos una Funcin de combinar nuestros procedimientos. Pasaremos el dataset y
el nmero de resamples como argumentos a la funcin, y luego escribiremos los resultados
de la funcin en un objeto llamado boot1. Esto nos permitir consultar el objeto para la
salida de inters. Vamos a calcular los errores estndar tanto para la media como para
la mediana.

> boot.fun <- function (data , num) {


+ resamples <- lapply (1: num , function (i) sample (data, replace=TRUE))
+ r.median <- sapply ( resamples, median )
+ r.mean <- sapply ( resamples, mean )
+ std.err.median <- sqrt ( var (r.median ))
+ std.err.mean <- sqrt (var (r.mean ))
+ rawDataName <-
+ data.frame (std.err.median = std.err.median , std.err.mean = std.err.mean , resamples =
resamples , medians =r.median , means =r.mean )
+}
> boot1 <- boot.fun ( myData , 1000)> boot1 <- boot . fun ( myData , 1000)
> boot1 $ std.err.mean
[1] 3.191525
> boot1 $ std.err.median
[1] 4.309543

Podemos ver que las medianas tienen un error estndar ms grande que los medios. En
general, cuando los datos se extraen de una distribucin normal con un gran tamao de
muestra, la mediana producir un intervalo de confianza aproximadamente 25% ms
amplio que el de la media.
Pruebas de permutacin

Las pruebas de permutacin pueden ser asintticamente vlidas utilizando el teorema del
lmite central permutatorio, o pueden producir valores p exactos usando la simulacin de
Monte Carlo, un algoritmo de red o una enumeracin completa.
Estas caractersticas se implementan en el paquete permanente disponible en CRAN.
Utilicemos un conjunto de datos hipottico de un estudio de memoria. Los datos tienen las
puntuaciones de recuerdo para 20 sujetos cada uno de dos condiciones. Supongamos que en
este caso los pacientes fueron asignados aleatoriamente a las condiciones, y la prueba de
memoria se realiz despus de tomar el frmaco o el placebo durante 30 das.

> permTS ( recall ~ cond , data = memory )


Permutation Test using Asymptotic Approximation
data: recall by cond
Z = -2.1456, p-value = 0.03191
alternative hypothesis: true mean cond=drug - mean cond=placebo is not equal to 0
sample estimates:
mean cond=drug - mean cond=placebo
-4.505
> permTS ( recall ~ cond , data = memory , exact = TRUE )
Exact Permutation Test Estimated by Monte Carlo
data: recall by cond
p-value = 0.03
alternative hypothesis: true mean cond=drug - mean cond=placebo is not equal to 0
sample estimates:
mean cond=drug - mean cond=placebo
-4.505
p-value estimated from 999 Monte Carlo replications
99 percent confidence interval on p-value:
0.01251632 0.05338086

Tenga en cuenta que los valores de p para las cuatro pruebas son relativamente similares.
Curiosamente, investigaciones recientes indican que la prueba de permutacin puede no
funcionar bien cuando los datos de los grupos que se comparan no estn distribuidos de
forma idntica. La robusta prueba de Yuen que usamos anteriormente muestra que cuando
los datos son recortados y usamos varianzas Winsorized, los resultados no son
significativos. Esto indica que la probabilidad de error de Tipo I puede haber sido inflada
para las cuatro pruebas anteriores.

You might also like