Professional Documents
Culture Documents
Agenda
Representacin de rboles de decisin ID3, un algoritmo de aprendizaje Entropa, ganancia de informacin. Sobre-ajuste (overfitting)
rboles de decisin
Representacin del rbol de decisin: Cada nodo interno prueba un atributo Cada rama corresponde a un valor del atributo Cada nodo hoja asigna una clasificacin
Entropa
S es una muestra de ejemplos de entrenamiento es la proporcin de ejemplos positivos en S es la proporcin de ejemplos negativos en S La entropa mide la impureza de S
Entropa
Entropy(S) = nmero esperado de bits que se necesitan para codificar una clase de miembros de S tomados aleatoriamente (bajo el cdigo de menor longitud, ptimo) Teora de la Informacin: el cdigo de longitud ptima asigna -log2 p bits al mensaje que tiene probabilidad p Dado que hay dos clases, si se combinan ponderadamente se tiene:
Ganancia de la informacin
Gain(S,A): reduccin de la entropa debida al ordenamiento en A
Ejemplos de entrenamiento
Mantiene una nica hiptesis a medida que busca en el espacio de rboles. No hace backtracking
Mnimo local
Sesgo inductivo
Es el conjunto de supuestos que, junto con los datos de entrenamiento, deductivamente justifican la clasificacin asignada por el programa que aprende a las futuras instancias.
Sobre-entrenamiento
Considere el error de la hiptesis h sobre Datos de entrenamiento: errortrain(h) Hiptesis h H se sobre-entrena sobre los datos de entrenamiento si hay una hiptesis alternativa h H tal que
errortrain(h) < errortrain(h) Y errorD(h) > errorD(h)
Evitando el Sobre-entrenamiento
Cmo evitar el sobre-entrenamiento Dejar de crecer cuando la divisin de los datos no es estadsticamente significativa Hacer crecer el rbol completamente y despus podar Cmo seleccionar el mejor rbol: Medir el desempeo sobre los datos de entrenamiento Medir el desempeo sobre un conjunto de validacin separado MDL: minimizar size(tree) + size(miscassifications(tree))