You are on page 1of 36

Clculos con el programa R

Introducir el concepto de distribucin normal


Aprender el uso del programa R para realizar
clculos con la distribucin normal
Probabilidad de intervalos
Clculo e interpretacin de cuantiles
Aplicaciones
Criterios diagnstico
Intervalos de normalidad
En muchos casos,
observamos resultados
que presentan una
distribucin simtrica
respecto de la media
muestral.
Las medias muestrales se distribuyen simtricamente alrededor de la media
poblacional, independientemente de la forma de la distribucin de origen.
Las medias muestrales se distribuyen simtricamente alrededor de la media
poblacional, independientemente de la forma de la distribucin de origen.
Las medias muestrales se distribuyen simtricamente alrededor de la media
poblacional, independientemente de la forma de la distribucin de origen.
La distribucin normal es un modelo estadstico con dos parmetros:
que representa la esperanza (valor medio poblacional) y o que es la raz
cuadrada de la varianza (desviacin estndar).
Nos referiremos a una N(,o).
Grficamente, en el caso N(10,2) seria
curve(dnorm(x,10,2),0,20)
=10
o=2
Efecto del valor de
curve(dnorm(x,10,2),0,20)
curve(dnorm(x,5,2),0,20,add=T)
curve(dnorm(x,15,2),0,20,add=T)
es un parmetro de posicin
Corresponde a la esperanza de la
distribucin (valor medio
poblacional)
Efecto del valor de o (desviacin estndar)
curve(dnorm(x,10,2),0,20)
curve(dnorm(x,10,3),0,20,add=T)
curve(dnorm(x,10,4),0,20,add=T)
curve(dnorm(x,10,5),0,20,add=T)
o es un parmetro de dispersin
Un valor ms alto indica una mayor
dispersin en los posibles valores.
o
2
corresponde a la varianza de la
distribucin
La funcin de distribucin corresponde a la P(Xx).
Por ejemplo, para una N(10,2) la probabilidad P(X 12) es:
> x <-12
> mu <-10
> sigma <-2
> pnorm(x,mu,sigma)
[1] 0.8413447
P(X 12) P(X 12)
P(X x)=1-P(X x)
P(X =x)=0
El valor que toma la
funcin de distribucin
en un determinado
punto depende de los
parmetros.
Por ejemplo, P(X12)
ser distinta en
funcin de los
parmetros de la
distribucin de X.
Veamos algunos
ejemplo:
=8 o=2
=14 o=2
=10 o=4
=14 o=4
0.309
0.977
0.691
0.159
Se cumple que
Supongamos una N(14.2, 3.2). Cul es la
probabilidad de observar resultados entre 13 i 15.2?
P(aX b)=P(Xb)-P(Xa)
P(13X 15.2)=P(X15.2)-P(X13)
> a <- 13
> b <- 15.2
> mu <- 14.2
> sigma <- 3.2
> res <- pnorm(b,mu,sigma)-pnorm(a,mu,sigma)
> round(res,2)
[1] 0.27
Curva normal con la probabilidad P(aXb) sombreada
Shadowed.Normal.Plot <- function(a, b, m=10, s=1, add = F, ymax=0.20) {
curve(dnorm(x, mean = m, sd = s), m - 4 * s,m+ 4 * s,
add = add, xlab = "X", ylab = "f(x)",ylim=c(0,ymax))
xvals <- seq(a, b, length = 2000)
dvals <- dnorm(xvals, m, s)
polygon(c(xvals, rev(xvals)), c(rep(0, 2000),
rev(dvals)), col = "gray")
abline(h = 0)
}
=8 o=2
=14 o=2
=10 o=4
=14 o=4
0.819
0.533
0.159
0.286
) 12 6 ( s s X P
Una observacin de una
medida que siga una
distribucin normal puede
interpretarse comla suma de
una constante y una
distribucin normal de
esperanza 0, es decir:
i i
i
y
N
N Y
c
o c
o
+ =
)
`

) , 0 (
) , (
) 2 , 0 ( N
i
c
=10
) 2 , 10 ( N
Supongamos que una medida X tiene una distribucin N(,o).
Si utilizamos un instrumento de medida que tenga una variabilidad o
e
Entonces
Ejemplo
( )
2 2
,
c
o o c + + = N Y X Y
( ) ) 66 . 5 , 10 ( 4 4 , 10
) 4 , 0 (
) 4 , 50 (
2 2
N N Y
N
N X
+
)
`

c
Podemos especificar el efecto de distintos factores y/o
errores experimentales en un modelo
) , 0 (
) , 0 (
|
o |
o c
c | o
N
N
y
j
ijk
ijk ij j i ijk

+ + + + =
) , 0 ( o c
c | o
N
y
ijk
ijk ij j i ijk

+ + + + =
) , 0 ( o c
c | o
N
y
ijk
ijk j i ijk

+ + + =
) , 0 ( o c
c | o
N
X y
ijk
ijk j j i ijk

+ + + =
El cuantil x
q
corresponde al valor que cumple P(Xq)=q
Supongamos que la concentracin de un metabolito sigue
una distribucin N(100,12). Cul seria el cuantil 95 de esta
distribucin?
Es decir, por debajo de qu valor esperamos encontrar el 95% de los
valores de una muestra?
> q <- 0.95
> mu <- 100
> sigma <- 12
> round(qnorm(q,mu,sigma),1)
[1] 119.7
0.95
0.05
Se cumple que
La N(0,1) se denomina normal estndar (o tipificada)
Se cumple que
) 1 , 0 (
) , (
N
X
Z
N X

o
|
.
|

\
|

s = s

o
x
Z P x X P
N X
) (
) , (
) 565 . 0 (
3 . 2
54 3 . 55
) 3 . 55 (
) 3 . 2 , 54 (
s =
|
.
|

\
|

s = s

Z P Z P X P
N X
> pnorm(55.3,54,2.3)
[1] 0.714037
> pnorm((55.3-54)/2.3,0,1)
[1] 0.714037
Se cumple que
o
o

q q q
q
q
q
q
z x z
x
q z Z P
q
x
Z P q x X P
+ = =

= s
=
|
|
.
|

\
|

s = s
) (
) (
> q <- 0.95
> mu <- 12
> sigma <- 1.5
> xq <- qnorm(q,mu,sigma)
> zq <- qnorm(q,0,1)
> c(xq,zq,mu+zq*sigma)
[1] 14.467280 1.644854 14.467280
Se conoce como intervalo de normalidad (o de
referencia) (1-o) a los puntos (a,b) que cumplen:
P(Xa)=o/2
P(Xb)=o/2, es decir P(Xb)=1-o/2
Es decir corresponde al intervalo centrado en que
cumple P(aXb)=(1-o)
Por lo tanto a ser el cuantil o/2 y b el cuantil 1-o/2
Interpretacin
Los resultados esperados para las observaciones de esta
variable estarn entre a y b con probabilidad 1-o
Consideremos una N(100,4)
El intervalo de referencia que incluye un 95%
de los valores esperados ser:
1-o=0.95, por lo tanto o=0.05 y o/2=0.025
Buscaremos el cuantil 0.025 y el cuantil 0.975
> mu <- 100
> sigma <- 4
> round(c(qnorm(0.025,mu,sigma),qnorm(0.975,mu,sigma)),2)
[1] 92.16 107.84
Podemos introducir los clculos necesarios en una funcin:
Ahora podemos calcular cualquier intervalo de referencia
Ref.Interval <- function(mu,sigma,prob)
{ alfa <- 1-prob
round(c(qnorm(alfa/2,mu,sigma),qnorm(1-alfa/2,mu,sigma)),2)
}
> Ref.Interval(100,4,0.95)
[1] 92.16 107.84
> Ref.Interval(100,4,0.90)
[1] 93.42 106.58
El intervalo de normalidad para una N(100,4) era:
> Ref.Interval(100,4,0.95)
[1] 92.16 107.84
0.95
0.025 0.025
0.975
Como hemos visto, el intervalo de normalidad (1-o) es:
Si recordamos que
Tenemos
Pero
Por lo tanto, el intervalo puede ponerse como
) 1 ( ) (
2 / 1 2 /
o
o o
= s s

x X x P
o
q q
z x + =
) 1 ( ) (
2 / 1 2 /
o o o
o o
= + s s +

z X z P
2 / 1 2 / o o
= z z
o
o 2 / 1
z
Supongamos una N(12.1,
1.2). El intervalo de
referencia al 95% es:
Podemos verificar que
obtenemos el mismo
resultado utilizando
o
o 2 / 1
z
> prob <- 0.95
> alfa <- 1-prob
> mu <- 12.1
> sigma <- 1.2
> a <- qnorm(alfa/2,mu,sigma)
> b <- qnorm(1-alfa/2,mu,sigma)
> round(c(a,b),2)
[1] 9.75 14.45
> prob <- 0.95
> alfa <- 1-prob
> mu <- 12.1
> sigma <- 1.2
> zq <- qnorm(1-alfa/2,0,1)
> zq
[1] 1.959964
> round(c(mu-zq*sigma,mu+zq*sigma),2)
[1] 9.75 14.45
Supongamos que en una poblacin de sujetos sanos la
distribucin de un metabolito es N(100,5).
En una poblacin patolgica, el metabolito se
encuentra alterado, presentando una distribucin
N(105,4).
Establecimiento de criterios diagnstico
Encontrar un criterio diagnstico que permita clasificar
correctamente al 95% de las personas sanas.
Encontrar un criterio diagnstico que permita clasificar
correctamente al 95% de las personas enfermas.
Esta situacin puede representarse como:
Sanos
N(100,5)
Enfermos
N(105,4)
El criterio diagnstico se
establecer al encontrar un
punto x
d
apropiado para
separar con un error mnimo
a sanos y enfermos.
Valores altos se asociaran a un
diagnstico (+)
Valores bajos se asociaran a un
diagnstico (-)
Sanos
N(100,5)
Enfermos
N(110,4)
x
d
(+) (-)
x
d
(+) (-)
E
S
Especificidad
P(-/S)
x
d
(+) (-)
E
S
Sensibilidad
P+/E)
Si
S
<
E
la sensibilidad
corresponde a
Por lo tanto, si queremos
una sensibilidad, p.e., de
0.9 hemos de encontrar
el cuantil 0.1 para los
enfermos.
x
d
(+) (-)
E
S
Sensibilidad
P+/E)
) ( 1 ) ( ) / (
d E d E
x X P x X P E P s = > = +
> muS <- 100
> sigmaS <- 5
> muM<- 110
> sigmaM<- 4
> round(qnorm(0.1,muM,sigmaM),2)
[1] 104.87
Si
S
<
E
la especificidad
corresponde a
Por lo tanto, si queremos
una especificidad , p.e.,
de 0.9 hemos de
encontrar el cuantil 0.9
para los sanos.
) ( ) / (
d S
x X P S P s =
x
d
(+) (-)
E
S
Especificidad
P(-/S)
> muS <- 100
> sigmaS <- 5
> muM<- 110
> sigmaM<- 4>
round(qnorm(0.9,muS,sigmaS),2)
[1] 106.41
Si la medida que estamos analizando tiene una distribucin
normal N(,o), entonces la media de n observaciones sigue
una N(,o/n).
Por ejemplo, si X es N(10,3) y tomamos muestra de tamao
15, la media de dichas muestras seguir una distribucin
N(10,3/15).
Podemos comprobar este resultado mediante simulaciones.
Generar muchas muestra de tamao 15 de una N(10,3) y representar
su comportamiento comparndolo con la distribucin esperada
N(10,3/15).
Funcin para obtener muestras de una N(,o) y estudiar el
comportamiento de la media de cada muestra
mu <- 10
sigma <- 3
n <- 15
nsamples <- 500
res <- sapply(c(1:5000),f<-function(x)
mean(rnorm(n,mu,sigma)))
hist(res,probability=T)
curve(dnorm(x,mu,sigma/sqrt(n)),6,14,col="red",add=T)
qqnorm(res)
qqline(res)
Disear una funcin para determinar el punto diagnstico cuando las
distribuciones son normales
Considerar que la distribucin de enfermos puede estar por arriba o por
debajo de la de los sanos.
Generar una curva ROC
Cmo optimizar la eleccin del punto?
Estudiar el comportamiento de la media muestral para muestras de
distintas distribuciones
Establecer la convergencia a la distribucin normal independientemente de la
distribucin de origen.
Estudiar el efecto del error experimental en los intervalos de referencia
Qu implicaciones prcticas tiene el error experimental?
Estudiar el efecto de un error sistemtico
Discutir el efecto de distintos errores en la determinacin de un IR
Determinar la resistencia mnima del cable de un ascensor en funcin de
la distribucin de pesos en la poblacin.

You might also like