You are on page 1of 29

Regresin con variable dependiente cualitativa

J. M. Rojo Abun Instituto de Economa y Geografa Madrid, II-2007

Jos Manuel Rojo

ndice

I. II. III. IV. V.

INTRODUCCIN .................................................................................................. 2 PLANTEAMIENTO DEL PROBLEMA ............................................................... 3 EL MODELO DE REGRESIN LOGSTICA...................................................... 6 ESTIMACIN DE LOS PARMETROS. ............................................................ 9 EJEMPLO 1 .......................................................................................................... 11
V.1. Coeficientes estimados del modelo logstico ............................................................ 13 EJEMPLO.................................................................................................................... 14 V.2. Estimando probabilidades ......................................................................................... 15 V.3. Interpretando los coeficientes ................................................................................... 16

VI.

Media de los incrementos: ........................................................................... 19 Incremento en una persona media: .............................................................. 19 EJEMPLO COMPLETO....................................................................................... 20
VI.1. Historial de las iteracciones ..................................................................................... 21 VI.2. Contraste de regresin ............................................................................................. 22

Hiptesis ...................................................................................................... 22 Construccin del contraste........................................................................... 22


VI.3. Medidas de bondad del ajuste.................................................................................. 24

Cox y Snell: ................................................................................................. 24 Nagelkerke prefiere definir R 2 como: ........................................................ 25 Test de Hosmer y Lemeshow ...................................................................... 25 Tabla de clasificacin .................................................................................. 27

Jos Manuel Rojo

I.

INTRODUCCIN

En muchas ocasiones estaremos interesados en predecir los valores de una variable dicotmica binaria, es decir, una variable que slo puede tomar dos valores, los valores son complementarios y dichos valores no son comparables, como sucede en regresin lineal.

Ejemplos de variable dependiente dicotmica pueden ser: sano o enfermo, paga o no paga, , etc.

El modelo de regresin logstica se utiliza cuando estamos interesados en pronosticar la probabilidad de que ocurra o no un suceso determinado. Por ejemplo, a la vista de un conjunto de pruebas mdicas, que una persona tenga una determinada enfermedad, o bien que un cliente devuelva un crdito bancario.

A diferencia del anlisis discriminante que requiere la normalidad multivariante de los datos, el anlisis de regresin logstica slo precisa del principio de monotona, es decir, si el suceso A es que una determinada persona padezca de artrosis y X representa la edad, deber de ocurrir:

xi x j P( A / xi ) P( A / x j )

A diferencia del anlisis discriminante, podremos estudiar el impacto que tiene cada una de las variables explicativas en la probabilidad de que ocurra el suceso en estudio.

El anlisis de regresin logstica es una herramienta muy flexible en cuanto a la naturaleza de las variables explicativas, pues stas pueden ser de escala y categricas.

Jos Manuel Rojo

II.

PLANTEAMIENTO DEL PROBLEMA

Supongamos que tenemos la variable de estudio codificada de la siguiente manera: 0 No ocurre el suceso y= 1 Si ocurre el suceso

Adems, vamos a considerar que slo tenemos una variable explicativa X ; en estas condiciones podramos considerar un modelo de regresin lineal con el propsito de ver qu dificultades nos van a surgir:

yi = pi = a + b * xi + ui

Si estimamos este modelo y representamos grficamente la recta de regresin:

Podemos observar que la lnea de regresin no est acotada en el intervalo [0,1] y, por lo tanto, ya no va a representar una probabilidad.

Adems, consideraciones de ndole matemtica nos llevan a la conclusin de que los residuos no van a ser homocedsticos y, por tanto, la tcnica de estimacin por mnimos cuadrados dejar de ser un mtodo ptimo de estimacin.

Una forma que tenemos de garantizar que los valores pronosticados estn en el intervalo [0,1] es considerar la siguiente transformacin:

Jos Manuel Rojo

p (a / x) = F ( x * b)

Donde F es una funcin de distribucin.

Jos Manuel Rojo

Nota Una funcin de distribucin es una funcin real de variable real:


F :R R

De forma que verifica: Est acotada en el intervalo [0,1]


0 F ( x) 1 x

Es montona no decreciente:
x1 x2 F ( x1 ) F ( x2 )

Y, adems, est definida en todo R, tomando los siguientes valores:


F ( ) = 0 F ( + ) = 1

En general, la grafica de una funcin de distribucin es:

Si utilizamos la funcin de distribucin logstica, el anlisis se denomina Regresin Logstica, y si utilizamos la funcin de distribucin normal se denomina Regresin Probit.

Jos Manuel Rojo

III.

EL MODELO DE REGRESIN LOGSTICA

El modelo de regresin logstica parte de la hiptesis de que los datos siguen el siguiente modelo:

p ln( ) = b0 + b1 * x1 + b2 * x2 + ... + bk * xk + u = x * b + u 1 p

Con el fin de simplificar la notacin, definimos Z:

z = b0 + b1 * x1 + b2 * x2 + ... + bk * xk

Por lo tanto, el modelo se puede representar como:

p ln( )= z+u 1 p

Donde p es la probabilidad de que ocurra el suceso de estudio.

Operando algebricamente sobre el modelo:

p ln( )=z 1 p p = ez 1 p

p = (1 p) * e z p = ez p * ez p + p * ez = ez p(1 + e z ) = e z
p= ez 1 + ez

Jos Manuel Rojo

Como la funcin de distribucin logstica es:

F ( x) =

ex 1 + ex

Por tanto, podemos reescribir el modelo de forma mucho ms compacta:

p=

ez = F ( z ) = F ( x * b) 1 + ez

De donde se deduce que el modelo de regresin logstica es, en principio, un modelo de regresin no lineal, pero es lineal en escala logartmica atendiendo a su definicin original:

p ln( )=z 1 p
ln( p ) ln(1 p ) = z

ln( p) ln(1 p) = b0 + b1 * x1 + b2 * x2 + ... + bk * xk

Es decir, la diferencia de la probabilidad de que ocurra un suceso respecto de que no ocurra es lineal pero en escala logartmica. Por tanto, el significado de los coeficientes, aunque guardando una cierta relacin con el modelo de regresin lineal, va a ser algo ms complejo de interpretar.

Jos Manuel Rojo

Recordemos las dos formas ms importantes de expresar el modelo de regresin logstica:

ln( p) ln(1 p) = b0 + b1 * x1 + b2 * x2 + ... + bk * xk

p = eb0 * eb1* X 1 * eb 2* X 2 ...ebk * X k 1 p

La primera expresin se llama logit y a la segunda Odds ratio o cociente de probabilidades.

Jos Manuel Rojo

IV.

ESTIMACIN DE LOS PARMETROS.

Brevemente, vamos a ver en esquema el problema que ofrece, en el caso de regresin logstica, la estimacin de los parmetros.

Sea una muestra de n elementos, donde se ha observado la variable respuesta Y (que slo puede tomar dos valores: cero y uno) y la variable X .

La funcin de probabilidad de una observacin cualquiera es:


P (Y = 1 / x ) = p P (Y = 0 / x ) = 1 p

Por tanto:

P(Y / x) = p y * (1 p)1 y

Por tanto la funcin de probabilidades de la muestra es:


P ( y1 , y2 ,..., yn ) = piYi * (1 pi )1 yi
i

Esta expresin recibe el nombre de verosimilitud de la muestra (likelihood).

Tomando logaritmos:

logP (Y ) = yi Log (
i

n pi ) + log(1 pi ) 1 pi i

Expresando pi en funcin de los parmetros que deseamos estimar:

L( B) = yi * xi * b Log (1 + e xi *b )
i

Jos Manuel Rojo

Resulta obvio que aunque derivemos y establezcamos la condicin de mximo, no vamos a poder despejar los coeficientes B .

La solucin que vamos a obtener es:


1

2 L( B) L( B) Ba = B0 + B * B * B

Esta solucin establece cmo encontrar una solucin ( Ba ) a partir de un punto prximo cualquiera, denominado B0 . Por lo tanto, deberemos de hacer una estimacin inicial del valor de los verdaderos parmetros y mediante un procedimiento recursivo encontrar el verdadero valor de los mismos. Para encontrar los verdaderos valores se suele utilizar el algoritmo de Newton-Raphson.

Grficamente:

Jos Manuel Rojo

10

V.

EJEMPLO 1

Vamos a ir introduciendo los elementos de esta tcnica a travs de un sencillo ejemplo.

El tratamiento y pronstico del cncer depende de cunto se haya extendido la enfermedad.

Unas de las zonas propensas a ser afectadas por la enfermedad son los ganglios linfticos.

Si los ganglios linfticos estn afectados el tratamiento pierde efectividad.

Para ciertos tipos de cncer es preciso realizar una intervencin quirrgica para determinar si la enfermedad se ha extendido al sistema linftico, y as determinar qu tratamiento se deber de aplicar.

Si en funcin a una serie de pruebas mdicas no invasivas se pudiera determinar si los ganglios linfticos estn afectados o no se ahorrara tiempo y molestias a los pacientes.

Los datos que vamos a analizar pertenecen a una muestra aleatoria de 53 pacientes masculinos con cncer de prstata. A cada paciente se le han medido las siguientes variables o caractersticas:

Xray: Resultado de la prueba de rayos X Grado: Grado de agresividad del tumor. Estado: Cmo est de extendida la enfermedad. Nodos: Indicador de si los ganglios linfticos estn afectados o no por la enfermedad. Edad: edad del paciente. Acido: Prueba de laboratorio del nivel de cido phosphatase.

11

A continuacin mostramos los estadsticos descriptivos de las variables involucradas en el anlisis. Es de particular importancia asegurarse que las variables del tipo ausencia/presencia estn codificadas como cero y uno.
xray Prueba de rayos X Frequency 38 15 53 Percent 71,7 28,3 100,0 Valid Percent 71,7 28,3 100,0 Cumulative Percent 71,7 100,0

Valid

0 Negativo 1 Positivo Total

grado Grado de agresividad Frequency 33 20 53 Percent 62,3 37,7 100,0 Valid Percent 62,3 37,7 100,0 Cumulative Percent 62,3 100,0

Valid

0 No agresivo 1 Agresivo Total

estado Estado de la enfermedad Frequency 26 27 53 Percent 49,1 50,9 100,0 Valid Percent 49,1 50,9 100,0 Cumulative Percent 49,1 100,0

Valid

0 No extendido 1 Extendido Total

nodos Estado de los ganglios linfaticos Frequency 33 20 53 Percent 62,3 37,7 100,0 Valid Percent 62,3 37,7 100,0 Cumulative Percent 62,3 100,0

Valid

0 No afectados 1 Afectados Total

Statistics edad Edad en aos 53 0 59,38 60,00 56a 6,168 -,495 ,327 -,697 ,644 45 68 acid Acido phosphatase 53 0 69,42 65,00 50 26,201 2,252 ,327 7,295 ,644 40 187

N Mean Median Mode Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Minimum Maximum

Valid Missing

a. Multiple modes exist. The smallest value is shown

12

V.1. Coeficientes estimados del modelo logstico

Con las variables anteriores vamos a intentar construir un modelo de regresin logstica para tratar de pronosticar en qu pacientes se encuentran los ganglios linfticos (nodos) afectados por la enfermedad.

Coeficientes del modelo de regresin logstica.


Variables in the Equation Step a 1 edad acid xray grado estado Constant B -,069 ,024 2,045 ,761 1,564 ,062 S.E. ,058 ,013 ,807 ,771 ,774 3,460 Wald 1,432 3,423 6,421 ,976 4,084 ,000 df 1 1 1 1 1 1 Sig. ,231 ,064 ,011 ,323 ,043 ,986 Exp(B) ,933 1,025 7,732 2,141 4,778 1,064

a. Variable(s) entered on step 1: edad, acid, xray, grado, estado.

En la segunda columna se muestran los coeficientes estimados B. Para poder interpretar dichos coeficientes hay que tener en cuenta como estn codificadas las variables, pues las dos primeras: edad y acido son contnuas y el resto estn codificadas como 0 o 1, para indicar ausencia o presencia de una determinada caracterstica.

En la tercera columna es muestra la desviacin tpica del estimador.

La cuarta columna muestra el estadstico de Wald; el estadstico de Wald es:

b W (b j ) = j (b j )

y dicho estadstico se distribuye de acuerdo con una 12 ; por tanto, todos los coeficientes que tengan un W (b j ) > 4 sern significativos.

La sexta columna (sig) es el p-value del coeficiente.

La sptima columna es el exponencial del coeficiente. El inters del exponencial de los coeficientes es el estudio del impacto de las variables cualitativas.

13

Ejemplo.

En este ejemplo hemos codificado la prueba de rayos x de forma dicotmica (0,1). Por tanto:
p = e z = k * e 2.045* xray 1 p

Si la prueba de rayos X es negativa, la variable vale 0, y si es positiva la variable vale 1; por tanto, si la prueba de rayos x es positiva el cociente de probabilidades aumenta:
e 2.045 = 7.73

Pues:

p = e z = k * e 2.045* xray 1 p

Resultado negativo de la prueba:


p = e z = k * e 2.045*0 = k * 1 1 p

Resultado positivo de la prueba:

p = e z = k * e 2.045*1 = k * 7.73 1 p

Luego, si la prueba de rayos x es positiva, la probabilidad de tener el sistema linfatico afectado queda multiplicada por 7.73.

14

V.2. Estimando probabilidades

Con los coeficientes estimados ya es posible predecir la probabilidad de que una persona tenga los ganglios linfticos afectados por el cncer simplemente construyendo la funcin de probabilidad:

P (nodo = 1 / x) =

1 1 + e z

Donde:
Z = 0.62 + 1.56 * estado + 0.76 * grado + 2 * xray + 0.024 * acido 0.07 * edad

A la vista de esta ecuacin, podemos estimar la probabilidad de que un hombre con determinadas caractersticas tenga el sistema linftico afectado.

Por ejemplo, la probabilidad de que un hombre de 60 aos, con un nivel de cido de 50 y negativo en el resto de las pruebas es de:
Z = 0.62 + 1.56 * estado + 0.76 * grado + 2 * xray + 0.024 * acido 0.07 * edad
Z = 0 . 62 + 1 . 56 * 0 + 0 . 76 * 0 + 2 * 0 + 0 . 024 * 50 0 . 07 * 60 Z = 2.38

P(nodo = 1 / x) =

1 1+ e
( 2.38 )

= 0.085

En cambio la misma persona dando positivo en todas las pruebas va a tener una probabilidad estimada de:
Z = 0 . 62 + 1 . 56 * 1 + 0 . 76 * 1 + 2 * 1 + 0 . 024 * 50 0 . 07 * 60

15

Z = 1.94

P(nodo = 1 / x) =

1 = 0.87 1 + e (1.94 )

V.3. Interpretando los coeficientes

Si bien en regresin lineal la interpretacin de los coeficientes de regresin es simple e intuitiva:

Bk es el incremento producido en la variable dependiente por un incremento


unitario en la variable X k . En la regresin logstica no va a ser tan intuitiva, al depender tanto del valor de

X k donde se produzca el incremento como del valor del resto de las variables, pues la
pendiente de la curva de regresin va a ir variando.

16

Para ayudar a interpretar los coeficientes de regresin logstica definimos el

Odds Ratio como el cociente de probabilidades entre que ocurra un suceso respecto
de que no ocurra:
P (Y = 1) P = P (Y = 0) 1 P

OddRatio =

Teniendo en cuenta que el modelo de regresin logstica puede ser escrito como:

ln( p) ln(1 p) = b0 + b1 * x1 + b2 * x2 + ... + bk * xk


p ln( ) = b0 + b1 * x1 + b2 * x2 + ... + bk * xk 1 p

Los coeficientes B indican el incremento de la probabilidad de que ocurra el suceso, es decir, la probabilidad de que el sistema linftico est afectado respecto de que no est afectado pero en escala logartmica.

Si el coeficiente p-esimo vale cero, indica que la variable p-esima no afecta a la ocurrencia del suceso.

Si el coeficiente p-esimo es negativo indica que a media que dicha variable va aumentando va a ir disminuyendo el logaritmo del cociente de probabilidades y al revs si es positivo.

Si tomamos exponenciales:

p = e B0 * e B1 * x1 * e B2 * x 2 * ... * e Bk * x k 1 p

17

Por tanto el coeficiente e Ratio.

Bp

va a significar por cunto se multiplica el Odds

Otra forma de verlo algo ms intuitiva es considerar la derivada de la funcin de regresin respecto de la p-esima variable.

Tenemos que la probabilidad de ocurrencia del evento es una funcin de X y B:


P (Y = 1 / X ) = ( X , B ) = ( X * B )

Si derivamos respecto de la p-esima variable:


= ( X * B )bp = (b0 + b1 x1 + ...bk xk )bp x p

El problema es que la derivada va a depender de qu valor tomamos para las k variables, es decir, en qu punto vamos a evaluar la curva.

Podemos evaluarla en el punto medio:

(b0 + b1 x1 + ...bk xk )bp

O bien podemos considerar la media de los incrementos:


(b0 + b1 xi ,1 + ...bk xi , k )b p n

El significado de la primera expresin es el incremento en la probabilidad de ocurrencia del suceso en una persona media por un incremento unitario en la p-esima variable. La segunda expresin indica cul es la media de los incrementos de la probabilidad de ocurrencia del suceso por un incremento unitario en la p-esima variable.

18

Las dos ltimas formas no estn implementadas en la aplicacin SPSS y deberemos realizarlas a mano. En el caso que nos ocupa:

Media de los incrementos:


Report Mean N Std. Deviation edadB -,0101 53 ,00504 acidB ,0035 53 ,00175 xrayB ,2994 53 ,14944 gradoB ,1114 53 ,05561 estadoB ,2284 53 ,11400

Cdigo en SPSS

compute z= -0.069*edad+0.024*acid+2.045*xray+0.761*grado+1.564*estado+0.062. execute. compute edadB= 1/(1+exp(-z))**2*exp(-z)*(-0.069). compute acidB= 1/(1+exp(-z))**2*exp(-z)*(0.024). compute xrayB= 1/(1+exp(-z))**2*exp(-z)*(2.045). compute gradoB= 1/(1+exp(-z))**2*exp(-z)*(0.761). compute estadoB= 1/(1+exp(-z))**2*exp(-z)*(1.56). execute. mean edadB to estadoB.

Incremento en una persona media:


Report Mean N Std. Deviation edadB -,0152 53 ,00000 acidB ,0053 53 ,00000 xrayB ,4517 53 ,00000 gradoB ,1681 53 ,00000 estadoB ,3446 53 ,00000

Cdigo en SPSS

compute z= -0.069*59.4+0.024*69.42+2.045*0.28+0.761*0.38+1.564*0.51+0.062. compute edadB= 1/(1+exp(-z))**2*exp(-z)*(-0.069). compute acidB= 1/(1+exp(-z))**2*exp(-z)*(0.024). compute xrayB= 1/(1+exp(-z))**2*exp(-z)*(2.045). compute gradoB= 1/(1+exp(-z))**2*exp(-z)*(0.761). compute estadoB= 1/(1+exp(-z))**2*exp(-z)*(1.56). execute. mean edadB to estadoB.

19

VI.

EJEMPLO COMPLETO

Seguimos con el ejemplo anterior, pero mostrando tanto estadsticos de bondad de ajuste como los de contraste de regresin.

En primer lugar se muestran los esquemas de codificacin de las variables, tanto la variable respuesta como las variables categricas:

A la vista del esquema de codificacin de la variable respuesta, el modelo va a tratar de predecir la probabilidad de que una persona tenga el sistema linftico afectado.

En el resto de las variables categricas vemos que el esquema de codificacin interno coincide con el externo.

20

VI.1. Historial de las iteracciones

a,b,c,d,e Iteration History

Iteration Step 1 1 2 3 4 Step 1 2 2 3 4 5

-2 Log likelihood 59,116 59,001 59,001 59,001 54,101 53,366 53,353 53,353 53,353

Constant -1,053 -1,167 -1,170 -1,170 -1,564 -1,979 -2,043 -2,045 -2,045

Coefficients xray(1) 1,986 2,177 2,182 2,182 1,735 2,069 2,118 2,119 2,119

estado(1)

1,144 1,527 1,587 1,588 1,588

a. Method: Forward Stepwise (Conditional) b. Constant is included in the model. c. Initial -2 Log Likelihood: 70,252 d. Estimation terminated at iteration number 4 because parameter estimates changed by less than ,001. e. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

Realiza dos pasos, por lo tanto se han introducido dos variables en el modelo.

En cada paso va aumentando la verosimilitud del modelo, lo cual implica que disminuye la siguiente expresin: -2 log(verosimilitud) (-2LL).

En los dos pasos el algoritmo termina correctamente porque se alcanza el criterio de parada, es decir, el cambio entre los coeficientes estimados en a ultima iteracin es inferior a 0.001.

21

VI.2. Contraste de regresin

El contraste de regresin en estos modelos no se realiza sobre la descomposicin de la suma de cuadrados como en regresin lineal sino sobre el incremento de la verosimilitud, mas exactamente sobre la disminucin de -2LL.

Hiptesis

H 0 b1 = b2 = ... = bk = 0
H1 b p 0

Construccin del contraste

C 2 LL = 2 LL(b0 ) (2 LL(b0 , b1 , b2 ,..., bk )

La diferencia de verosimilitudes se distribuye de acuerdo con una distribucin

2 , donde J es la diferencia del nmero de parmetros en el modelo. j


a,b,c Iteration History

Iteration Step 1 0 2 3

-2 Log likelihood 70,253 70,252 70,252

Coefficients Constant -,491 -,501 -,501

a. Constant is included in the model. b. Initial -2 Log Likelihood: 70,252 c. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.

La verosimilitud con slo la constante es de 70.252.

22

La verosimilitud (-2LL) con una sola variable es de 59.001.

La verosimilitud (-2LL) con dos variables es de 53.353.

La primera variable que entra produce una disminucin en -2LL de:

70.252-59.001= 11.251. P( X 2 > 11.252) =0.00079

Por lo tanto rechazamos la hiptesis nula y aceptamos que la primera variable es significativa.

La segunda variable sobre la primera produce una reduccin de -2LL de:

59.001-53.353=5.647 P( 12 > 5.647 ) = 0.01747

Por lo tanto la introduccin de la segunda variable sigue siendo significativa.

23

VI.3. Medidas de bondad del ajuste

En este tipo de modelos no se emplea el R 2 para mostrar la bondad del ajuste, sino que se calcula el incremento de la verosimilitud, aunque reciben el nombre de R 2 no van a tener el significado geomtrico que tienen en regresin lineal por lo tanto deberan de llamarse pseudos R 2 .
Model Summary Step 1 2 -2 Log Cox & Snell likelihood R Square 59,001a ,191 53,353b ,273 Nagelkerke R Square ,260 ,372

a. Estimation terminated at iteration number 4 because parameter estimates changed by less than ,001. b. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

Cox y Snell:

R2 = 1

L(b0 ) L(b0 , b1 ,...bk )

N L(b0 ) R2 = 1 L(b , b ,...b ) k 0 1

En este ejemplo:

R2 = 1 (

70.25 53 ) = 0.273 53.353

Este coeficiente est acotado:


0 R2 < 1

Es decir, no puede alcanzar el valor 1.

24

R cuadrado de Nagelkerke Nagelkerke prefiere definir R 2 como:

R2 =

R2 2 RMax

2 Donde RMax = 1 (L(b0 ) ) N 2

Para as poder alcanzar el valor 1.

Aunque estos coeficientes tratan de medir la variabilidad explicada, en general, van a ser mucho ms bajos que en regresin lineal y debern de ser complementados con otras medidas de bondad de ajuste.

Test de Hosmer y Lemeshow

Contingency Table for Hosmer and Lemeshow Test nodos Estado de los ganglios linfaticos = 0 No afectados Observed Expected 29 29,000 4 4,000 18 18,593 11 10,407 3 2,407 1 1,593 nodos Estado de los ganglios linfaticos = 1 Afectados Observed Expected 9 9,000 11 11,000 3 2,407 6 6,593 2 2,593 9 8,407

Step 1 Step 2

1 2 1 2 3 4

Total 38 15 21 17 5 10

El test de Hosmer y Lemeshow es un constaste de distribucin.

La hiptesis nula es que no hay diferencias entre los valores observados y los valores pronosticados (probabilidades); la alternativa es que s las hay. Por tanto, el

rechazo de este test indica que el modelo no est bien ajustado.

25

En este caso la significatividad de este es de 0.798, no rechazamos la hiptesis nula y por tanto no rechazamos que el modelo tiene falta de ajuste.

26

Tabla de clasificacin

Si bien los coeficientes de bondad de ajuste no son del todo fiables, la tabla de clasificacin es normalmente el criterio que debemos de seguir para indicar la bondad de ajuste del modelo.

En esta tabla se muestran los casos bien clasificados en la diagonal principal, y los casos mal clasificados en la segunda diagonal.
a Classification Table

Step 1

Observed Estado de los ganglios linfaticos Overall Percentage Estado de los ganglios linfaticos Overall Percentage

No afectados Afectados No afectados Afectados

Predicted Estado de los ganglios linfaticos No afectados Afectados 29 4 9 11 29 9 4 11

Step 2

Percentage Correct 87,9 55,0 75,5 87,9 55,0 75,5

a. The cut value is ,500

De las 29 + 4 personas que no tienen los ganglios afectados, 29 han sido pronosticados como sanos, es decir, un porcentaje de aciertos del
29 = 87% 33

De las 9 + 11 personas que s tienen los ganglios afectados, 11 han sido pronosticados como afectados, un porcentaje de aciertos del
11 = 55% 20

El porcentaje global de aciertos es del

29 + 11 = 75 .5% 29 + 11 + 4 + 9

27

28

You might also like