Professional Documents
Culture Documents
ndice
INTRODUCCIN .................................................................................................. 2 PLANTEAMIENTO DEL PROBLEMA ............................................................... 3 EL MODELO DE REGRESIN LOGSTICA...................................................... 6 ESTIMACIN DE LOS PARMETROS. ............................................................ 9 EJEMPLO 1 .......................................................................................................... 11
V.1. Coeficientes estimados del modelo logstico ............................................................ 13 EJEMPLO.................................................................................................................... 14 V.2. Estimando probabilidades ......................................................................................... 15 V.3. Interpretando los coeficientes ................................................................................... 16
VI.
Media de los incrementos: ........................................................................... 19 Incremento en una persona media: .............................................................. 19 EJEMPLO COMPLETO....................................................................................... 20
VI.1. Historial de las iteracciones ..................................................................................... 21 VI.2. Contraste de regresin ............................................................................................. 22
Cox y Snell: ................................................................................................. 24 Nagelkerke prefiere definir R 2 como: ........................................................ 25 Test de Hosmer y Lemeshow ...................................................................... 25 Tabla de clasificacin .................................................................................. 27
I.
INTRODUCCIN
En muchas ocasiones estaremos interesados en predecir los valores de una variable dicotmica binaria, es decir, una variable que slo puede tomar dos valores, los valores son complementarios y dichos valores no son comparables, como sucede en regresin lineal.
Ejemplos de variable dependiente dicotmica pueden ser: sano o enfermo, paga o no paga, , etc.
El modelo de regresin logstica se utiliza cuando estamos interesados en pronosticar la probabilidad de que ocurra o no un suceso determinado. Por ejemplo, a la vista de un conjunto de pruebas mdicas, que una persona tenga una determinada enfermedad, o bien que un cliente devuelva un crdito bancario.
A diferencia del anlisis discriminante que requiere la normalidad multivariante de los datos, el anlisis de regresin logstica slo precisa del principio de monotona, es decir, si el suceso A es que una determinada persona padezca de artrosis y X representa la edad, deber de ocurrir:
xi x j P( A / xi ) P( A / x j )
A diferencia del anlisis discriminante, podremos estudiar el impacto que tiene cada una de las variables explicativas en la probabilidad de que ocurra el suceso en estudio.
El anlisis de regresin logstica es una herramienta muy flexible en cuanto a la naturaleza de las variables explicativas, pues stas pueden ser de escala y categricas.
II.
Supongamos que tenemos la variable de estudio codificada de la siguiente manera: 0 No ocurre el suceso y= 1 Si ocurre el suceso
Adems, vamos a considerar que slo tenemos una variable explicativa X ; en estas condiciones podramos considerar un modelo de regresin lineal con el propsito de ver qu dificultades nos van a surgir:
yi = pi = a + b * xi + ui
Podemos observar que la lnea de regresin no est acotada en el intervalo [0,1] y, por lo tanto, ya no va a representar una probabilidad.
Adems, consideraciones de ndole matemtica nos llevan a la conclusin de que los residuos no van a ser homocedsticos y, por tanto, la tcnica de estimacin por mnimos cuadrados dejar de ser un mtodo ptimo de estimacin.
Una forma que tenemos de garantizar que los valores pronosticados estn en el intervalo [0,1] es considerar la siguiente transformacin:
p (a / x) = F ( x * b)
Es montona no decreciente:
x1 x2 F ( x1 ) F ( x2 )
Si utilizamos la funcin de distribucin logstica, el anlisis se denomina Regresin Logstica, y si utilizamos la funcin de distribucin normal se denomina Regresin Probit.
III.
El modelo de regresin logstica parte de la hiptesis de que los datos siguen el siguiente modelo:
p ln( ) = b0 + b1 * x1 + b2 * x2 + ... + bk * xk + u = x * b + u 1 p
z = b0 + b1 * x1 + b2 * x2 + ... + bk * xk
p ln( )= z+u 1 p
p ln( )=z 1 p p = ez 1 p
p = (1 p) * e z p = ez p * ez p + p * ez = ez p(1 + e z ) = e z
p= ez 1 + ez
F ( x) =
ex 1 + ex
p=
ez = F ( z ) = F ( x * b) 1 + ez
De donde se deduce que el modelo de regresin logstica es, en principio, un modelo de regresin no lineal, pero es lineal en escala logartmica atendiendo a su definicin original:
p ln( )=z 1 p
ln( p ) ln(1 p ) = z
Es decir, la diferencia de la probabilidad de que ocurra un suceso respecto de que no ocurra es lineal pero en escala logartmica. Por tanto, el significado de los coeficientes, aunque guardando una cierta relacin con el modelo de regresin lineal, va a ser algo ms complejo de interpretar.
IV.
Brevemente, vamos a ver en esquema el problema que ofrece, en el caso de regresin logstica, la estimacin de los parmetros.
Sea una muestra de n elementos, donde se ha observado la variable respuesta Y (que slo puede tomar dos valores: cero y uno) y la variable X .
Por tanto:
P(Y / x) = p y * (1 p)1 y
Tomando logaritmos:
logP (Y ) = yi Log (
i
n pi ) + log(1 pi ) 1 pi i
L( B) = yi * xi * b Log (1 + e xi *b )
i
Resulta obvio que aunque derivemos y establezcamos la condicin de mximo, no vamos a poder despejar los coeficientes B .
2 L( B) L( B) Ba = B0 + B * B * B
Esta solucin establece cmo encontrar una solucin ( Ba ) a partir de un punto prximo cualquiera, denominado B0 . Por lo tanto, deberemos de hacer una estimacin inicial del valor de los verdaderos parmetros y mediante un procedimiento recursivo encontrar el verdadero valor de los mismos. Para encontrar los verdaderos valores se suele utilizar el algoritmo de Newton-Raphson.
Grficamente:
10
V.
EJEMPLO 1
Unas de las zonas propensas a ser afectadas por la enfermedad son los ganglios linfticos.
Para ciertos tipos de cncer es preciso realizar una intervencin quirrgica para determinar si la enfermedad se ha extendido al sistema linftico, y as determinar qu tratamiento se deber de aplicar.
Si en funcin a una serie de pruebas mdicas no invasivas se pudiera determinar si los ganglios linfticos estn afectados o no se ahorrara tiempo y molestias a los pacientes.
Los datos que vamos a analizar pertenecen a una muestra aleatoria de 53 pacientes masculinos con cncer de prstata. A cada paciente se le han medido las siguientes variables o caractersticas:
Xray: Resultado de la prueba de rayos X Grado: Grado de agresividad del tumor. Estado: Cmo est de extendida la enfermedad. Nodos: Indicador de si los ganglios linfticos estn afectados o no por la enfermedad. Edad: edad del paciente. Acido: Prueba de laboratorio del nivel de cido phosphatase.
11
A continuacin mostramos los estadsticos descriptivos de las variables involucradas en el anlisis. Es de particular importancia asegurarse que las variables del tipo ausencia/presencia estn codificadas como cero y uno.
xray Prueba de rayos X Frequency 38 15 53 Percent 71,7 28,3 100,0 Valid Percent 71,7 28,3 100,0 Cumulative Percent 71,7 100,0
Valid
grado Grado de agresividad Frequency 33 20 53 Percent 62,3 37,7 100,0 Valid Percent 62,3 37,7 100,0 Cumulative Percent 62,3 100,0
Valid
estado Estado de la enfermedad Frequency 26 27 53 Percent 49,1 50,9 100,0 Valid Percent 49,1 50,9 100,0 Cumulative Percent 49,1 100,0
Valid
nodos Estado de los ganglios linfaticos Frequency 33 20 53 Percent 62,3 37,7 100,0 Valid Percent 62,3 37,7 100,0 Cumulative Percent 62,3 100,0
Valid
Statistics edad Edad en aos 53 0 59,38 60,00 56a 6,168 -,495 ,327 -,697 ,644 45 68 acid Acido phosphatase 53 0 69,42 65,00 50 26,201 2,252 ,327 7,295 ,644 40 187
N Mean Median Mode Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Minimum Maximum
Valid Missing
12
Con las variables anteriores vamos a intentar construir un modelo de regresin logstica para tratar de pronosticar en qu pacientes se encuentran los ganglios linfticos (nodos) afectados por la enfermedad.
En la segunda columna se muestran los coeficientes estimados B. Para poder interpretar dichos coeficientes hay que tener en cuenta como estn codificadas las variables, pues las dos primeras: edad y acido son contnuas y el resto estn codificadas como 0 o 1, para indicar ausencia o presencia de una determinada caracterstica.
b W (b j ) = j (b j )
y dicho estadstico se distribuye de acuerdo con una 12 ; por tanto, todos los coeficientes que tengan un W (b j ) > 4 sern significativos.
La sptima columna es el exponencial del coeficiente. El inters del exponencial de los coeficientes es el estudio del impacto de las variables cualitativas.
13
Ejemplo.
En este ejemplo hemos codificado la prueba de rayos x de forma dicotmica (0,1). Por tanto:
p = e z = k * e 2.045* xray 1 p
Si la prueba de rayos X es negativa, la variable vale 0, y si es positiva la variable vale 1; por tanto, si la prueba de rayos x es positiva el cociente de probabilidades aumenta:
e 2.045 = 7.73
Pues:
p = e z = k * e 2.045* xray 1 p
p = e z = k * e 2.045*1 = k * 7.73 1 p
Luego, si la prueba de rayos x es positiva, la probabilidad de tener el sistema linfatico afectado queda multiplicada por 7.73.
14
Con los coeficientes estimados ya es posible predecir la probabilidad de que una persona tenga los ganglios linfticos afectados por el cncer simplemente construyendo la funcin de probabilidad:
P (nodo = 1 / x) =
1 1 + e z
Donde:
Z = 0.62 + 1.56 * estado + 0.76 * grado + 2 * xray + 0.024 * acido 0.07 * edad
A la vista de esta ecuacin, podemos estimar la probabilidad de que un hombre con determinadas caractersticas tenga el sistema linftico afectado.
Por ejemplo, la probabilidad de que un hombre de 60 aos, con un nivel de cido de 50 y negativo en el resto de las pruebas es de:
Z = 0.62 + 1.56 * estado + 0.76 * grado + 2 * xray + 0.024 * acido 0.07 * edad
Z = 0 . 62 + 1 . 56 * 0 + 0 . 76 * 0 + 2 * 0 + 0 . 024 * 50 0 . 07 * 60 Z = 2.38
P(nodo = 1 / x) =
1 1+ e
( 2.38 )
= 0.085
En cambio la misma persona dando positivo en todas las pruebas va a tener una probabilidad estimada de:
Z = 0 . 62 + 1 . 56 * 1 + 0 . 76 * 1 + 2 * 1 + 0 . 024 * 50 0 . 07 * 60
15
Z = 1.94
P(nodo = 1 / x) =
1 = 0.87 1 + e (1.94 )
X k donde se produzca el incremento como del valor del resto de las variables, pues la
pendiente de la curva de regresin va a ir variando.
16
Odds Ratio como el cociente de probabilidades entre que ocurra un suceso respecto
de que no ocurra:
P (Y = 1) P = P (Y = 0) 1 P
OddRatio =
Teniendo en cuenta que el modelo de regresin logstica puede ser escrito como:
Los coeficientes B indican el incremento de la probabilidad de que ocurra el suceso, es decir, la probabilidad de que el sistema linftico est afectado respecto de que no est afectado pero en escala logartmica.
Si el coeficiente p-esimo vale cero, indica que la variable p-esima no afecta a la ocurrencia del suceso.
Si el coeficiente p-esimo es negativo indica que a media que dicha variable va aumentando va a ir disminuyendo el logaritmo del cociente de probabilidades y al revs si es positivo.
Si tomamos exponenciales:
p = e B0 * e B1 * x1 * e B2 * x 2 * ... * e Bk * x k 1 p
17
Bp
Otra forma de verlo algo ms intuitiva es considerar la derivada de la funcin de regresin respecto de la p-esima variable.
El problema es que la derivada va a depender de qu valor tomamos para las k variables, es decir, en qu punto vamos a evaluar la curva.
El significado de la primera expresin es el incremento en la probabilidad de ocurrencia del suceso en una persona media por un incremento unitario en la p-esima variable. La segunda expresin indica cul es la media de los incrementos de la probabilidad de ocurrencia del suceso por un incremento unitario en la p-esima variable.
18
Las dos ltimas formas no estn implementadas en la aplicacin SPSS y deberemos realizarlas a mano. En el caso que nos ocupa:
Cdigo en SPSS
compute z= -0.069*edad+0.024*acid+2.045*xray+0.761*grado+1.564*estado+0.062. execute. compute edadB= 1/(1+exp(-z))**2*exp(-z)*(-0.069). compute acidB= 1/(1+exp(-z))**2*exp(-z)*(0.024). compute xrayB= 1/(1+exp(-z))**2*exp(-z)*(2.045). compute gradoB= 1/(1+exp(-z))**2*exp(-z)*(0.761). compute estadoB= 1/(1+exp(-z))**2*exp(-z)*(1.56). execute. mean edadB to estadoB.
Cdigo en SPSS
compute z= -0.069*59.4+0.024*69.42+2.045*0.28+0.761*0.38+1.564*0.51+0.062. compute edadB= 1/(1+exp(-z))**2*exp(-z)*(-0.069). compute acidB= 1/(1+exp(-z))**2*exp(-z)*(0.024). compute xrayB= 1/(1+exp(-z))**2*exp(-z)*(2.045). compute gradoB= 1/(1+exp(-z))**2*exp(-z)*(0.761). compute estadoB= 1/(1+exp(-z))**2*exp(-z)*(1.56). execute. mean edadB to estadoB.
19
VI.
EJEMPLO COMPLETO
Seguimos con el ejemplo anterior, pero mostrando tanto estadsticos de bondad de ajuste como los de contraste de regresin.
En primer lugar se muestran los esquemas de codificacin de las variables, tanto la variable respuesta como las variables categricas:
A la vista del esquema de codificacin de la variable respuesta, el modelo va a tratar de predecir la probabilidad de que una persona tenga el sistema linftico afectado.
En el resto de las variables categricas vemos que el esquema de codificacin interno coincide con el externo.
20
-2 Log likelihood 59,116 59,001 59,001 59,001 54,101 53,366 53,353 53,353 53,353
Constant -1,053 -1,167 -1,170 -1,170 -1,564 -1,979 -2,043 -2,045 -2,045
Coefficients xray(1) 1,986 2,177 2,182 2,182 1,735 2,069 2,118 2,119 2,119
estado(1)
a. Method: Forward Stepwise (Conditional) b. Constant is included in the model. c. Initial -2 Log Likelihood: 70,252 d. Estimation terminated at iteration number 4 because parameter estimates changed by less than ,001. e. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.
Realiza dos pasos, por lo tanto se han introducido dos variables en el modelo.
En cada paso va aumentando la verosimilitud del modelo, lo cual implica que disminuye la siguiente expresin: -2 log(verosimilitud) (-2LL).
En los dos pasos el algoritmo termina correctamente porque se alcanza el criterio de parada, es decir, el cambio entre los coeficientes estimados en a ultima iteracin es inferior a 0.001.
21
El contraste de regresin en estos modelos no se realiza sobre la descomposicin de la suma de cuadrados como en regresin lineal sino sobre el incremento de la verosimilitud, mas exactamente sobre la disminucin de -2LL.
Hiptesis
H 0 b1 = b2 = ... = bk = 0
H1 b p 0
Iteration Step 1 0 2 3
a. Constant is included in the model. b. Initial -2 Log Likelihood: 70,252 c. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.
22
Por lo tanto rechazamos la hiptesis nula y aceptamos que la primera variable es significativa.
23
En este tipo de modelos no se emplea el R 2 para mostrar la bondad del ajuste, sino que se calcula el incremento de la verosimilitud, aunque reciben el nombre de R 2 no van a tener el significado geomtrico que tienen en regresin lineal por lo tanto deberan de llamarse pseudos R 2 .
Model Summary Step 1 2 -2 Log Cox & Snell likelihood R Square 59,001a ,191 53,353b ,273 Nagelkerke R Square ,260 ,372
a. Estimation terminated at iteration number 4 because parameter estimates changed by less than ,001. b. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.
Cox y Snell:
R2 = 1
En este ejemplo:
R2 = 1 (
24
R2 =
R2 2 RMax
Aunque estos coeficientes tratan de medir la variabilidad explicada, en general, van a ser mucho ms bajos que en regresin lineal y debern de ser complementados con otras medidas de bondad de ajuste.
Contingency Table for Hosmer and Lemeshow Test nodos Estado de los ganglios linfaticos = 0 No afectados Observed Expected 29 29,000 4 4,000 18 18,593 11 10,407 3 2,407 1 1,593 nodos Estado de los ganglios linfaticos = 1 Afectados Observed Expected 9 9,000 11 11,000 3 2,407 6 6,593 2 2,593 9 8,407
Step 1 Step 2
1 2 1 2 3 4
Total 38 15 21 17 5 10
La hiptesis nula es que no hay diferencias entre los valores observados y los valores pronosticados (probabilidades); la alternativa es que s las hay. Por tanto, el
25
En este caso la significatividad de este es de 0.798, no rechazamos la hiptesis nula y por tanto no rechazamos que el modelo tiene falta de ajuste.
26
Tabla de clasificacin
Si bien los coeficientes de bondad de ajuste no son del todo fiables, la tabla de clasificacin es normalmente el criterio que debemos de seguir para indicar la bondad de ajuste del modelo.
En esta tabla se muestran los casos bien clasificados en la diagonal principal, y los casos mal clasificados en la segunda diagonal.
a Classification Table
Step 1
Observed Estado de los ganglios linfaticos Overall Percentage Estado de los ganglios linfaticos Overall Percentage
Step 2
De las 29 + 4 personas que no tienen los ganglios afectados, 29 han sido pronosticados como sanos, es decir, un porcentaje de aciertos del
29 = 87% 33
De las 9 + 11 personas que s tienen los ganglios afectados, 11 han sido pronosticados como afectados, un porcentaje de aciertos del
11 = 55% 20
29 + 11 = 75 .5% 29 + 11 + 4 + 9
27
28