Taller 2 - 200059331

Taller #2a
Modelos de Regresin Avanzados

Andrea Caldern Yepes, Andrs Holgun Kasperson
200059331, 200021753
Ejercicio 1
a)
Matriz de correlacin y determinante
Grfico de correlacin
Grfico de Dispersin
Al calcular el determinante de la matriz de correlacin podemos saber si

es posible o no hablar de multicolinealidad ya que esta est presente
cuando el determinante es o tiende a cero. En este caso se puede
observar que el determinante es 0,0784 lo que adems se ve afectado
por bajos coeficientes en la matriz y un tamao de muestra grande. Por
lo anterior podemos decir que puede que no exista multicolinealidad
entre los datos.
Al analizar el grafico de correlacin podemos ver que ninguno de los
coeficientes es mayor a 0,5 lo que se puede atribuir al tamao de
muestra.
Con respecto al grfico de dispersin de puede decir que no se ve
ningn tipo de patrn lineal entre las variables independientes, se
observa mucha variabilidad.
b) La variable que menos influencia y es aquella que al ajustar el modelo
completo presenta un menor valor de t, y la que ms influencia a la
respuesta es aquella con uno mayor. Podemos entonces decir que
aquella que menos influencia es x 5 , lo cual se ve soportado por la
matriz de correlacin.
La variable que ms influencia es
x 7 , lo cual se puede ver no solo en
la matriz de correlacin sino tambin al hacer las pruebas para el

modelo de y dependiendo de cada una de las variables por separado,
donde un mayor F representa una con mayor influencia sobre la
respuesta.
c)
Modelo de Regresin Lineal Mltiple ajustado
^y =0,2745+1,1497 x 1 +1,6941 x 2 +1,9266 x3 +1,8753 x 4 +1,0739 x 5+1,6173 x 6 +1,8379 x 7

d)
Significancia global
H 0 :Todos los j=0
H 1 : Al menos un j 0
F7,192=250, valor p< 2,2 x 1016
En base al valor p podemos optar por rechazar
H 0 , por lo que
podemos concluir que el modelo completo es bueno en trminos de que

al menos un j es diferente de cero.
Significancia Marginal
H 0 : 1=0
H 1: 1 0
16
t 0,25;192 =10,677 , valor p< 2 x 10

podemos concluir que el coeficiente
H 0 , por lo que
1 es significativamente diferente
de cero y por tanto es importante para el modelo.

H 0 : 2=0
H 1: 2 0
t 0,25;192 =14,619 , valor p< 2 x 10
16

H 0 , por lo que
es significativamente diferente

H 0 : 3=0
H 1 : 3 0
t 0,25;192 =14,580, valor p<2 x 1016
H 0 , por lo que

H 0 : 4 =0
H 1: 4 0
t 0,25;192 =15,613 , valor p< 2 x 1016
H 0 , por lo que
H 0 : 5=0
H 1 : 5 0
t 0,25;192 =8,947 , valor p=3,1 x 10
16

H 0 , por lo que

H 0 : 6 =0
H 1: 6 0
t 0,25;192 =15,123 , valor p< 2 x 1016
H 0 , por lo que

H 0 : 7 =0
H 1 : 7 0
t 0,25;192 =14,981 , valor p<2 x 1016
H 0 , por lo que

Al realizar las pruebas de significancia marginal para cada
podemos observar que todos estos tienen un nivel de significancia

importante en el modelo. Con respecto a la multicolinealidad podemos
concluir que dado a que no hubo rechazo de ninguna de las pruebas
marginales no podramos decir que hay algn tipo de relacin entre
alguna de las variables independientes.
Como anteriormente concluimos, aqu se comprueba el hecho de que la
variable que ms influencia E[ yx ] es x 7 .
e)
Los resultados presentados por estas pruebas son consistentes con

nuestras observaciones iniciales, es decir no se presenta
multicolinealidad grave en el modelo ya que se ve que el VIF para cada
variable es menor a 5, lo que quiere decir que hay multicolinealidad
moderado; con respecto al IC, se ve que este es menor a 30 lo que
quiere decir al igual que el VIF que no se presenta multicolinealidad en
este caso en todo el modelo.
f) En este caso utilizamos el mtodo de todas las regresiones posibles
para comprobar lo concluido anteriormente, en primer lugar buscamos
cual es el modelo con la combinacin de variables que minimizan el
MSE , que es aquel cuyo RSS ( rss=166,7475 ) sea menor ya que
este est directamente relacionado con dicho valor, este modelo seria:
Que es aquel con todas las variables, este mismo modelo es el que
maximiza el poder de prediccin ( C p =8
y el porcentaje de
variabilidad explicado por la respuesta ( R
2
adj
=0,9011
g) Ahora realizamos backwards elimination para comprobar lo dicho

anteriormente por medio del mtodo de todas las regresiones posibles.
Al ver los datos arrojados por el programa podemos concluir que estos
efectivamente apoyan todas las decisiones tomadas anteriormente, es
decir no hay discrepancia ya que el mtodo nos arroja un modelo
completo como habamos establecido que debera ser, con los mismos
para cada variable encontrados al hacer el modelo de regresin lineal
mltiple completo.
h)
Al observar la grfica anterior podemos observar que hay 3 valores

atipicos. Para saber si son influenciales se calculan las medidas de
influencia para cada uno con lo que concluimos que ninguno de estos es
realmente influencial.
Grficas para los supuestos sobre residuales
Normalidad
H 0 : el error se ajusta a una distribucin normal
H 1 : elerror no se ajusta a una distribucin normal
Esto lo podemos concluir en base al grafico Q-Q, al ver que este

presenta una forma lineal positiva optamos por no rechazar Ho ya que
esto indica normalidad. Lo que comprobamos al hacer la prueba de
Shapiro-Wilk y el valor p que esta nos arroja.
Independencia
H 0 :los errores sonindependientes
H 1 :los errores son dependientes
Respecto a la independencia podemos observar que en el grfico ACF
solo uno de los valores sobrepasa los lmites, sin embargo esto no lo
hace por mucho y al ver el grafico PACF comprobamos que se puede
decir que esto es poco significativo y as optar por no rechazar Ho,
concluyendo que los residuos son independientes.
Varianza constante
H 0 : 2 cte
H 1 : 2 no cte
Esta conclusin la podemos sacar al ver la grfica de los residuos
estandarizados contra la respuesta del modelo ajustado, y dado a que
no se presenta ningn tipo de patrn podemos optar por no rechazar Ho.
Media = 0
H 0 : =0
H1: 0
Tras realizar la debida prueba en base a la media muestral podemos

concluir en base al no rechazo de Ho, lo que indica que la media es
estadsticamente igual a cero.
i)
El primer intervalo mostrado es el de confianza del 99%
6,281306 E [ y x ] 7,048351
El segundo es el intervalo de prediccin para dados valores de x con el

99% de confianza
4,787127 E[ yx ]8,542351
Ejercicio 2
a)
(1,2699+ 14,3631 x )
^y =1,9483(1ee
=0,1025
b)
c)
(1,2699+ 14,3631 x )
^y =1,9483(1ee
(1,2699+14,3631 (0) )
^y =1,9483 ( 1ee
1,2699
)=1,9483 ( 1ee ) =1,89292014
Esto indica que cuando el grosor del cable tiende a cero, su sensibilidad
tiende a 1,8929
d) Intervalo de confianza del 95% para
1 y
0,927727 1 2,968873
2,7409 2 0,2011
Intervalo de confianza del 90% para
2 ,7409
e
^1=0,927727 ( 1e
) =0,927726828
0,2011
^2=0,927727 ( 1ee
2,7409
e
^3=2,968873 ( 1e
) =2,96887245
0,2011
^4 =2,968873 ( 1ee
) =0,5182393009
) =1,658447655
0, 5182393009 ^ 2,96887245
Ejercicio 3
Datos
xito= embrin normal
5 experimentos
Primero: dosis= 2,5; tamao de muestra= 38; xitos=0,5(38)=19
Segundo: dosis= 5; n=36; xitos=0,95(36)=34
Tercero: dosis= 10, n=33; xitos=0,9(33)=29
Cuarto: dosis= 25; n=5; xitos=1(5) =5
Quinto: dosis=50; n=2; xitos=1(2)=2
logit ( ^ ) =0,3386+0,3120 x
^
=
1
(0,33860,3120 x)
1+e
Cuando la dosis es igual a 8pg la probabilidad de obtener un embrin normal,

es decir con 2 ojos, es de:
^
=
1
(0,33860,3120(8))
1+e
=0,8963
Anexos, cdigos en R
#Codigo taller computacional 2a, ejercicio 1, RLM
source("https://dl.dropboxusercontent.com/u/9601860/generatedata.R")
datos(200059331)
rm(datos)
d <- read.table("/Users/ANDREA/Documents/datos200059331.txt", header =
TRUE)
head(d)
#matriz de correlacion
cor(d)
det(cor(d))
## esto permite mejorar el grafico de correlacion
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste0(prefix, txt)
if(missing(cex.cor)) cex.cor <- 1.5
text(0.5, 0.5, txt, cex = 1.5)
}
##Grafico de Correlacion
pairs(d, lower.panel = panel.smooth, upper.panel = panel.cor, las = 1)
##Grafico de disperion
pairs(d)
##Modelo de RLM
m <- lm(y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, data = d)
summary(m)
##modelo de regresion marginal
#x1
m1 <- lm(y ~ x1, data = d)
summary(m1) # esto nos permite ver los betas
#x2
m2 <- lm(y ~ x2, data = d)
summary(m2)
#x3
m3 <- lm(y ~ x3, data = d)
summary(m3)
#x4
m4 <- lm(y ~ x4, data = d)
summary(m4)
#x5
m5 <- lm(y ~ x5, data = d)
summary(m5)
#x6
m6 <- lm(y ~ x6, data = d)
summary(m6)
#x7
m7 <- lm(y ~ x7, data = d)
summary(m7)
#todos los trminos sin interacciones
m8 <- lm(y ~ x1 + x2 + x3 +x4 + x5 + x6 + x7, data = d)
summary(m8)
anova(m)
##paquete 'car'
if(require(car)) install.packages("car")
library(car)
##VIF
vif(m)
##Numero de IC
X <- with(d, model.matrix(~x1 + x2 + x3 + x4 + x5 + x6 + x7))
kappa(X)
##paquete "leaps"
if(!require(leaps)) install.packages('leaps')
require(leaps)
##metodo de todas las regresiones posibles
todas <- regsubsets(y ~ ., data = d, nbest = 128, really.big= TRUE)
resultado <- summary(todas)
out <- with(resultado, cbind(which, rsq, rss, adjr2, cp, bic))[,-1]
p <- rowSums(out[,1:5])
out <- data.frame(modelo = 1:NROW(out), p, out)
out
#backwards elimination
mback <- step(m, direction = 'backward')
summary(mback)
##analisis residual
#graficamente
par(mfrow = c(2, 2))
plot(m)
##residuales crudos vs. cada variable
# residuales
r <- residuals(m)
# vs. x1
plot(d$x1, r, las = 1, ylab = 'Residual', main = "\n\nx1")
abline(h = 0, col = 2, lty = 2)
# vs. x2
# vs. x3
# vs. x4

# vs. x5
# vs. x6
# vs. x7
##residuales estudentizados vs. cada variable
# vs. x1
r <- rstudent(m)
plot(d$x1, r, las = 1, ylab = 'Residual', xlab = "", main = "\n\nx1")
# vs. x2
# vs. x3
# vs. x4
# vs. x5
# vs. x6

# vs. x7
##distancia de Cook
# grafico
plot(m, which = 4, las = 1)
# valores
cooks.distance(m)
## medidas de influencia
influence(m)
##validacion de supuestos
# normalidad
shapiro.test(r)
# acf y pacf
acf(r, las = 1, main = "")
pacf(r, las = 1, main = "")
# media
mean(r)
##intervalo confianza
predict(m,data.frame(x1=0.715 , x2 = 0.589 , x3=0 , x4=0 , x5= 1.243 , x6=
0.879 , x7=0.987), interval= "confidence", conf.level=0.99)
##intervalo de prediccion
## cual es el valor esperado de Y cuando x1=0.715, x2 = 0.589, x3=0, x4=0,
x5= 1.243, x6= 0.879, x7=0.987?
predict(m, data.frame(x1=0.715 , x2 = 0.589 , x3=0 , x4=0 , x5= 1.243 , x6=
0.879 , x7=0.987), interval="prediction", conf.level=0.99)
#Codigo Taller computacional 2a, ejercicio 2, RNL

#Ingresar datos
x<-seq(0.05,0.20,by=0.01)
show(x)
y<c(1.51,1.49,1.47,1.43,1.35,1.19,0.96,0.85,0.65,0.64,0.58,0.56,0.52,0.53,0.49,0.
50)
d<-data.frame(x,y)
#Estimar
A<-nls(y~beta1*(1-exp(-(exp(-(beta2+beta3*x))))), start=list(beta1=1.9,beta2=1.2,beta3=14.3),data=d)
summary(A)
#Grafico
with(d, plot(x,y, las=1))
points(d$x,predict(A), type='l',col=14)
#Codigo Taller computacional 2a, ejercicio 3, RL

#Ingresar los datos
datos<-data.frame(x,y)
y<c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,1,1,1,1,1,1,1)
x<c(2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.
5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,5,5,5,5,5,5,5,
5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,10,10,10,10,10,10,10,10,
10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,2
5,25,25,25,25,50,50)
## numero de 1/0
with(datos, table(y))
## proporciones
prop.table(with(datos, table(y)))
##modelo
m<-glm(y~x, data=datos,family=binomial)
summary(m)
# que pasa cuando x=8

predict(m, newdata = data.frame(x = 8)) # logit
predict(m, newdata = data.frame(x = 8), type = 'response') # thetahat
predict(m, newdata = data.frame(x = 8), type = 'response', se = TRUE) #
thetahat + error

Taller 2 - 200059331

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Taller 2 - 200059331

Uploaded by

Copyright:

Available Formats

Taller #2a

Modelos de Regresin Avanzados

Al calcular el determinante de la matriz de correlacin podemos saber si

x 7 , lo cual se puede ver no solo en

la matriz de correlacin sino tambin al hacer las pruebas para el

^y =0,2745+1,1497 x 1 +1,6941 x 2 +1,9266 x3 +1,8753 x 4 +1,0739 x 5+1,6173 x 6 +1,8379 x 7

En base al valor p podemos optar por rechazar

podemos concluir que el modelo completo es bueno en trminos de que

t 0,25;192 =10,677 , valor p< 2 x 10

En base al valor p podemos optar por rechazar

de cero y por tanto es importante para el modelo.

En base al valor p podemos optar por rechazar

de cero y por tanto es importante para el modelo.

de cero y por tanto es importante para el modelo.

de cero y por tanto es importante para el modelo.

En base al valor p podemos optar por rechazar

de cero y por tanto es importante para el modelo.

de cero y por tanto es importante para el modelo.

de cero y por tanto es importante para el modelo.

podemos observar que todos estos tienen un nivel de significancia

Los resultados presentados por estas pruebas son consistentes con

g) Ahora realizamos backwards elimination para comprobar lo dicho

Al observar la grfica anterior podemos observar que hay 3 valores

Esto lo podemos concluir en base al grafico Q-Q, al ver que este

Tras realizar la debida prueba en base a la media muestral podemos

El primer intervalo mostrado es el de confianza del 99%

El segundo es el intervalo de prediccin para dados valores de x con el

)=1,9483 ( 1ee ) =1,89292014

d) Intervalo de confianza del 95% para

Cuando la dosis es igual a 8pg la probabilidad de obtener un embrin normal,

abline(h = 0, col = 2, lty = 2)

abline(h = 0, col = 2, lty = 2)

#Codigo Taller computacional 2a, ejercicio 2, RNL

#Codigo Taller computacional 2a, ejercicio 3, RL

# que pasa cuando x=8

You might also like