Professional Documents
Culture Documents
Anlisis CRT
En entrenamiento
Del anlisis CRT en entrenamiento, podemos ver que tenemos 120 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
87,59% y 17 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 12,41%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.
En comprobacin
Del anlisis CRT en
comprobacin, podemos ver
que tenemos 115 datos
correctamente clasificados, lo
que representa un porcentaje
clasificados de 79,31% y 30
datos que son clasificados de
manera errnea, lo que
representa un porcentaje de
clasificacin del 20,69%.
Antes de sealar si resulta un
buen modelo o no, debemos ver
qu tan bien se clasifican los
distintos estados del Account Status.
Analizando el Recall tenemos que para 30 days late es de 43%, para 60 days
late es de 35% y para los Balanced es de 93%.
Por otra parte la Precisin tenemos que para 30 days late es de 100%, para 60
days late es de 38% y para Balanced es de 83%.
De esto, podemos ver que el modelo tiene una mayor precisin que
exhaustividad para la mayora de los estados, es decir, el modelo dentro de sus
predicciones es preciso pero no es tan bueno prediciendo en relacin a los que
realmente resultaron ser de ese estado. Por ejemplo, tiene 100% de precisin
para el estado 30 days late, pero el total que resultaron ser de ese estado es
mucho mayor que el que se predijo, por eso tenemos solo un 43% de Recall.
Anlisis C5
En entrenamiento
Del anlisis C5 en entrenamiento, podemos ver que tenemos 121 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
88,32% y 16 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 11,68%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.
Analizando el Recall tenemos que para 30 days late es de 46%, para 60 days
late es de 73% y para los Balanced es de 97%.
Por otra parte la Precisin
tenemos que para 30 days
late es de 100%, para 60 days
late es de 67% y para
Balanced es de 93%.
De esto, podemos ver que el
modelo tiene una mayor
precisin que exhaustividad
para la mayora de los
estados, es decir, el modelo
dentro de sus predicciones es
preciso pero no es tan bueno
prediciendo en relacin a los
que realmente resultaron ser
de ese estado. Por ejemplo, tiene 100% de precisin para el estado 30 days
late, pero el total que resultaron ser de ese estado es mucho mayor que el que
se predijo, por eso tenemos solo un 46% de Recall.
En comprobacin
Del anlisis C5 en comprobacin, podemos ver que tenemos 118 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
81,38% y 27 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 18,62%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.
Anlisis Logstico
En entrenamiento
Del anlisis Logstico en entrenamiento, podemos ver que tenemos 118 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
86,13% y 19 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 13,87%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.
A continuacin se presenta
una tabla con el Recall
(Exhaustividad) y la Precisin
del modelo Logstico en
entrenamiento:
Anlisis Logstico 30 days 60 days Bal
Entrenamiento late late ed
30 days late 6 3 4
60 days late 2 16 4
Balanced 1 5 9
Total columna 9 24 10
Correctas 6 16 9
Precisin (%
correctas/total pred) 67% 67% 92
Analizando el Recall tenemos que para 30 days late es de 46%, para 60 days
late es de 73% y para los Balanced es de 94%. De esto podemos ver que es
mejor prediciendo los Balanced que los 60 days late y que es mejor prediciendo
estos ltimos que los de 30 days late.
Por otra parte la Precisin tenemos que para 30 days late es de 67%, para 60
days late es de 67% y para Balanced es de 92%. De lo que vemos que es un
modelo similar en precisin para la prediccin de cada uno de los estados.
En comprobacin
Del anlisis Logstico en comprobacin, podemos ver que tenemos 113 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
77,93% y 32 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 22,07%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.
Analizando el Recall tenemos que para 30 days late es de 52%, para 60 days
late es de 18% y para los Balanced es de 93%. De esto podemos ver que es un
muy mal modelo en cuanto al recall de la prediccin de 60 days late, pero
podra ser un buen modelo prediciendo los Balanced.
Por otra parte la Precisin tenemos que para 30 days late es de 73%, para 60
days late es de 25% y para Balanced es de 84%. De lo que vemos que es un
modelo con una baja precisin en los 60 days late.
Conclusin del anlisis para los modelos
En primer lugar, analizando el Recall de los modelos en Entrenamiento el mejor
modelo es C5, ya que cuenta con un Recall ms alto en 2 de las 3 categoras.
Sin embargo, en la particin de Comprobacin el modelo que tiene un Recall
mayor en dos de las tres categoras es el CRT, por lo que en ese caso este sera
un mejor modelo en cuanto a Exhaustividad.
Ahora, viendo la Precisin de los modelos en la particin de Entrenamiento, el
modelo que tiene un mayor nivel es el C5, ya que tiene un mayor valor en dos
de las tres categoras.
Con respeto a la particin de Comprobacin, el mejor modelo sigue siendo C5
que tiene una Precisin ms alta slo en Balanced, ya que en las otras dos
tanto C5 como CRT tienen los mismos valores. Ms abajo se encuentra en
cuanto a precisin y exhaustividad el modelo Logstico.
Luego de haber analizado la precisin y la exhaustividad de todos los modelos,
podemos concluir que el mejor de los tres result ser C5, ya que en la mayora
result ser mejor que los dems y por lo tanto, este modelo podra predecir
mejor a qu categora perteneceran los clientes.
Podemos ver que los clientes que tienen un hijo entran en Nbr_Children
de >= que 1 y por lo tanto, se puede observar que la categora ms
probable en este caso sera de 60 days late, con una probabilidad del
47,059% y son 20 personas las que entran dentro de esta categora.
El rbol, por lo
tanto, qued como
se ve en la figura a
continuacin:
Podemos ver en
primer lugar que las variables que incluye este rbol son Home,
Mo_Expenses, Mo_Balance y Mo_Income.
Por otro lado, vemos que dentro de este rbol existen 7 rutas que se
pueden analizar.
El rbol comienza con el tipo de casa que tienen los clientes, si es que se
trata de una casa que es propia, ser diferente la distribucin del estado de
la cuenta que de las personas cuya casa es arrendada. Donde en promedio
las personas que tienen una casa propia tendern a estar balanceados y las
personas que tienen una casa arrendada tendern a estar ms atrasados
con las cuentas.
Esto tiene sentido ya que las personas que arriendan destinan un monto
considerable de su sueldo para este fin, y por lo tanto para comprar otras
cosas no les alcanzar y se tendrn que endeudar, y al contar con tan poco
margen disponible se podrn atrasar en pagar con ms probabilidad que las
personas que tienen una
casa propia. Por otro lado,
las personas que tienen
casa propia en general
sern personas
ms estables
econmicamente.
Volviendo a analizar el rbol de la pregunta dos, podemos ver que cuenta
con siete rutas al igual que el nuevo generado, pero las variables que se
incluyen son Mo_Expenses, Mo_Balance, Nbr_Children y Credit
limit.
Antiguo modelo C5
Tal como sealamos anteriormente en el laboratorio, nuestro primer Modelo
C5 de prueba (sin considerar ni la variable Gender ni Mo_Expenses) tiene
una precisin de 88,32%
A continuacin se presenta una tabla con el Recall (Exhaustividad) y la
Precisin de C5 en entrenamiento:
30 days 60 days Balanc Total Correct Recall:
C5 Entrenamiento late late ed Fila os Correctos (%)
30 days late 6 5 2 13 6 46%
60 days late 0 16 6 22 16 73%
Balanced 0 3 99 102 99 97%
Total columna 6 24 107
Correctas 6 16 99
Precisin (%
correctas/total pred) 100% 67% 93%
Nuevo modelo C5
Ahora realizaremos el mismo procedimiento para poder analizar el nuevo
modelo C5 con las nuevas variables incluidas. Y obtenemos que este nuevo
modelo tiene un porcentaje de correctamente clasificados de un 89,05%
Analizando tanto el Recall como la precisin, tenemos la siguiente tabla:
Analizando el Recall tenemos que para 30 days late es de 54%, para 60 days
late es de 59% y para los Balanced es de 100%.
Por otra parte la Precisin tenemos que para 30 days late es de 100%, para 60
days late es de 81% y para Balanced es de 89%. De lo que tenemos que este
resulta ser un buen modelo en cuanto a la precisin.
De lo anterior tenemos que este modelo es mejor en cuanto a precisin y a
recall en la mayora de los estados, el ltimo resulta ser un mejor modelo. Sin
embargo, cabe sealar que en cuanto al recall para 60 days late, resulta ser
mejor en el primer modelo, por lo tanto, si una empresa busca predecir de
mejor manera los clientes que estn ms atrasados en sus pagos ser mejor
que utilicen el modelo anterior y no el nuevo modelo realizado.
Ventajas
1. Es una tcnica valiosa cuando deseamos construir modelos
con gran cantidad de variables independientes o con poca teora
previa que sirva de gua. En comparacin con modelos como logit,
probit o regresin lineal, no es necesario de un marco terico o de un
modelo previamente establecido y respaldado para la incorporacin de
variables, lo que se debe hacer en este caso solo consiste en seleccionar
las variables que queremos aadir y el programa realizar los rboles de
decisin y luego se interpretan los resultados. En los modelos descritos
esto no se puede hacer, ya que hay relaciones que son simplemente
casualidad y no tienen una relacin de causalidad.