Arboles 2

“Implicancias del Data Mining”
CAPITULO VI - ÁRBOLES
“Con los árboles se representa la dependencia lógica entre la

decisión y los atributos”.
Anónimo.
Temas:
• Introducción
• Árboles
• Árboles Binarios
• Árboles n-arios
• Árboles Etiquetados
• Representación de los Árboles
• Árbol de decisión
• Desarrollo
• Ejemplos
• Usos Generales
• Ventajas y Desventajas de los Árboles
• Software
• Referencias Bibliográficas
ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 1

Introducción
Muchas veces los métodos científicos no permiten valorar con anticipación las consecuencias de
cada decisión, cuanto más compleja, costosa y grande es la actividad planificada más difícil es
determinar si la información existente es adecuada para decidir.
La reducción de los problemas de negocios a términos matemáticos requiere la definición de un

paralelo entre el problema y una estructura matemática. La teoría de grafos suministra el vehículo
ideal para estructuras que son ricas en aplicaciones potenciales a los problemas de negocios.
Los grafos constituyen una herramienta básica para modelizar fenómenos discretos. Su aplicación
se extiende a campos tan diversos cómo el Diseño y Análisis de Redes de Comunicación, la
Planificación de la Producción, la Ingeniería Eléctrica o las Ciencias de Computación.
Existe una clase de grafos que tienen una relación especial en estadística y en particular con el
data mining y es además, uno de los tipos de grafos más importantes: los árboles. Estos se
utilizan para organizar información de tal modo que sea posible efectuar eficientemente
operaciones que atañen a esa información. Es frecuente que resulte posible desglosar los
problemas complejos y representarlos mediante una estructura de árbol. Ésta estructura que
llamamos árbol apareció en 1847 en la obra de Gustav Kirchoff acerca de las redes eléctricas. El
concepto también apareció en Geometrie die Lage de Karl von Staudt. En 1857, los árboles fueron
redescubiertos por Arthur Cayley, quien no conocía tales desarrollos anteriores y fue el primero en
llamar “árbol” a esta estructura: Cayley los utilizó en las aplicaciones relacionadas con los isómeros
químicos.
El pilar sobre el que se asienta el modelo de los árboles de decisión es la teoría de grafos,
específicamente en los grafos denominados árboles.
Un árbol de decisión puede interpretarse esencialmente como una serie de reglas compactadas
representadas en forma de árbol.
En el presente capítulo primero, se introduce al concepto de árboles, y luego se trata los árboles
de decisión ya que es una de las herramientas utilizadas por data mining.
Árboles
Los árboles son un subconjunto importante de los grafos, y son una herramienta útil para describir
estructuras que representan algún tipo de jerarquía.
Los árboles genealógicos y los organigramas son ejemplos comunes de árboles.
Para definir el concepto de árbol debemos saber cuando un grafo es conexo. Un grafo es conexo si
para cada par de nodos existe un camino que los conecta.
Entonces, un árbol es un grafo que es conexo y no contiene ciclos.

Árboles binarios
N1
N2 N3
N2 N3 N2 N3
Figura 1- Árbol Binario
Los árboles binarios constituyen un tipo particular de árboles de gran aplicación. Estos árboles se
caracterizan porque no existen nodos con grado mayor a dos. Acontinuación se presenta un árbol
binario.
Árboles n-arios
Un árbol n-ario es un grafo dirigido en el cual, de cada nodo pueden partir n aristas y así
consecutivamente, sin que sea obligatorio que de cada nodo partan igual número de aristas.
Esta clase de árboles es poco utilizada en el almacenamiento y manejo de información, ya que los
algoritmos que se pueden implementar para su manipulación son bastante engorrosos, debido a la
aleatoriedad de su estructura.
En la Figura 2 puede observarse un árbol ternario.
N1
N2 N3 N4
Figura 2 – Árbol Ternario
Árboles Etiquetados
Un árbol, se dice que es etiquetado, si sus aristas tienen asignada una etiqueta. Es útil asociar una
etiqueta, o valor, a cada nodo de un árbol. La etiqueta de un nodo no es el nombre del nodo, sino
el valor almacenado en él.

Se presenta el siguiente ejemplo de árbol (Figura 3), en el que se han etiquetado los nodos de una
manera particular:
n1 *
n2 n3
+ +
n4 n5 n6 n7
c
a b a
Figura 3 – Árbol Etiquetado
Analizando las etiquetas, el nodo n2 tiene el operador + como etiqueta y sus hijos: izquierdo y
derecho representa las expresiones a y b, respectivamente. Por lo tanto n2 representa (a) + (b).
El nodo n1 representa (a + b) * (a + c). Puede observarse que estos árboles se pueden utilizar
para representar y/o almacenar expresiones algebraicas.
Representación de los árboles binarios posicionales en computadores
En particular es de interés la representación de los árboles binarios en computadoras.
Existen dos formas de mantener un árbol en la memoria de una computadora, una se llama
representación secuencial, la cual se basa en la matriz de adyacencia (es la que relaciona los
nodos del árbol entre sí), la otra forma es la llamada representación enlazada y se basa en listas
enlazadas de vecinos.
Listas enlazadas: siendo una celda una unidad de almacenamiento de información idealizada que
posee dos elementos: los datos y un apuntador a la siguiente celda. Una colección de celdas,
enlazadas mediante apuntadores, es una lista enlazada. Si cada celda posee dos apuntadores,
estamos hablando de una lista doblemente enlazada.
Representación gráfica:
El espacio central representa el almacenamiento de datos y lo apuntadores, llamados apuntador

izquierdo y apuntador derecho, representados como puntos y flechas.

Las listas doblemente enlazadas se utilizan para representar árboles binarios etiquetados
posicionales. Cada celda corresponde a un nodo, y la parte de datos puede contener una etiqueta
para el nodo o un apuntador hacia la etiqueta.
Se presenta un árbol en la Figura 4 y a continuación su representación en la Figura 5.
N1
N2
N5
N3 N4
N6 N7
Figura 4 – Ejemplo árbol binario
N1 N5
N2 N4
N3 N7
N6
Figura 5 – Lista doblemente enlazada
Árboles de Decisión
Es una tarea desafiante comparar varios cursos de acción y finalmente seleccionar la acción que se
va a realizar. Las dificultades de la toma de decisiones están representadas por la complejidad de
las alternativas de decisión. La capacidad que tiene quien decide de procesar información es
limitada, pero en muchas decisiones se deben visualizar y comparar las implicancias de varios
cursos de acción. Además, hay factores desconocidos que interfieren en la situación problemática;
rara vez se conoce con certeza el resultado, es decir hay asociado algún grado de incertidumbre.
El estudio sistemático de la toma de decisiones proporciona el marco para escoger cursos de

acción en situaciones complejas, inciertas o dominadas por conflictos. La elección entre acciones

posibles y la predicción de resultados esperados resultan del análisis lógico que se haga de la
situación de decisión y de las técnicas que se utilicen para ello.
Se han desarrollado muchas técnicas para facilitar el proceso de decisión. Una de estas técnicas es
conocida como Árboles de Decisión o Sistemas de aprendizaje inductivos
Los árboles de decisión son muy útiles para el planteamiento de problemas secuenciales, pero esta
clase de situaciones implica decisiones con resultados hacia el futuro que, en términos de
comportamiento de quien decide no se ha definido con claridad cómo manejarlos.
Un árbol de decisión es un método gráfico que expresa, en orden cronológico las acciones
alternativas viables para el tomado de decisiones y las opciones que la suerte o el azar determina.
Un árbol de decisión representa una serie de cuestiones o pautas basadas en un conjunto de

variables que explican la variabilidad de la variable dependiente o de resultado, que se plasman
como un camino que recorre el árbol. Los árboles de decisión se representan bajando desde el
nodo raíz hacia los nodos hoja. Son útiles siempre que los ejemplos a partir de los que se desea
aprender se puedan representar mediante un conjunto prefijado de atributos y valores, ya sean
éstos discretos o continuos.
Tampoco están especialmente indicados para tratar con información incompleta y pueden resultar
problemáticos cuando existen dependencias funcionales en los datos del conjunto de
entrenamiento (cuando unos atributos son función de otros).
Se pueden construir con la ayuda de un algoritmo que divida los registros en grupos; la
probabilidad del resultado es diferente en cada grupo atendiendo a los valores de las variables
independientes. Existe una gran variedad de algoritmos de árboles de decisión por ejemplo se
citan aquí los nombres, autor y año en que se desarrolló el algoritmo:
[1]
ID3 [Quinlan 19686]
[2]
C4.5 [Quinlan 1993]
[3]
Cart [Breiman 1984]
Se presentará una descripción de los algoritmos.
Existen varios motivos que explican el auge que han experimentado estas técnicas en DM
últimamente. La razón de mayor peso es la enorme competitividad que existe para obtener
información con el fin de ofrecer un servicio al cliente cada vez mejor, así como aumentar la
rentabilidad.
Otra razón la encontramos en el hecho de que, en la actualidad, se puedan analizar sin grandes
costos las grandes masas de datos transaccionales que generan los negocios y en que estos datos
sean más accesibles gracias a los administradores de bases de datos.
Desarrollo
En principio, se busca la obtención de un árbol de decisión que sea compacto.

Un árbol de decisión pequeño nos permite comprender mejor el modelo de clasificación obtenido y,
además, es probable que el clasificador más simple sea el correcto, de acuerdo con el principio de
economía de Occam: “los entes no han de multiplicarse innecesariamente”. Este principio, si bien
permite la construcción de modelos fácilmente comprensibles, no garantiza que los modelos as
obtenidos sean mejores que otros aparentemente más complejos.
En terminología de árboles de decisión, la base del árbol es la raíz. Cada división para un atributo
representa una rama y el punto final del árbol donde se alcanza una decisión que se denomina
hoja.
VPN: valor probable neto
Nodo
Decisión
Raíz
Figura 6 – Árbol de Decisión
En un Árbol de Decisiones hay nodos y ramas. En la Figura 6, se puede observar que hay líneas
rectas que son las ramas, hay cuadrados que son los nodos o puntos de decisión y círculos que son
nodos o puntos de azar. Las ramas que se extienden de los nodos indican las alternativas que se
pueden tomar, en el caso de nodos de decisión o los diferentes resultados de un evento en el caso
de los nodos de azar. En este último caso cada rama tiene asociada una probabilidad de
ocurrencia. Esta probabilidad es una medida de la posibilidad de que ese evento ocurra. La suma
de las probabilidades de las ramas que parten de cada nodo del evento es igual a uno. O sea, que
se supone que los eventos son exhaustivos; a los nodos de decisión no se les asigna
probabilidades, ya que en esos puntos quien decide tiene el control y no es un evento aleatorio,
sujeto al azar.
La secuencia óptima de decisiones se encuentra comenzando a la derecha y avanzando hacia el

origen del árbol. En cada nodo se debe calcular un VPN (valor probable neto), esperado. Si el nodo
es un evento este VPN se calcula para todas las ramas que salen de ese nodo. Si el nodo es un
punto de decisión el VPN esperado se calcula para cada una de las ramas y se selecciona el más

elevado. En cualquiera de los dos casos el VPN esperado se “lleva” hasta el siguiente evento
multiplicado por la probabilidad asociada a la rama por donde “se viaja”.
La técnica de análisis de decisiones con árboles de decisión consiste en efectuar cálculos en cada
nodo de azar para encontrar el valor esperado. Ese valor reemplaza al nodo de azar y se compara
con cada uno de los demás que parten de un nodo de decisión y se selecciona el mayor. Este valor
se asigna el nodo de decisión correspondiente y se llama valor de posición del nodo de decisión.
¿Cuándo se detiene la construcción del árbol de decisión?
Las reglas de parada tratan de predecir si merece la pena seguir construyendo el árbol por la rama
actual o no. Lo usual es detener la construcción del árbol de decisión cuando se ha llegado a un
nodo puro, entendiendo por nodo puro aquel que contiene ejemplos de una única clase. No
obstante, se pueden utilizar otros criterios de parada además del anterior. A continuación se
describen dos posibles reglas:
• Pureza del nodo

Cuando un nodo solamente contiene ejemplos de una clase, obviamente, el proceso de
construcción del árbol de decisión ha finalizado. Sin embargo, también puede utilizarse un
umbral de pureza para detener la construcción del árbol de decisión cuando la ramificación
del árbol no suponga una disminución significativa de la impureza del mismo (según alguna
medida estadística de impureza). En la práctica, esto no suele resultar totalmente
satisfactorio y se puede optar por construir el árbol de decisión completo para después
realizar una poda a posteriori.
• Cota de profundidad
Independientemente de la pureza del nodo, se puede establecer de antemano una cota de
profundidad para no construir árboles excesivamente complejos. Cuando un nodo se halle a
más de cierta profundidad, se detiene el proceso de generación del árbol.
Estas reglas también se denominan reglas de pre-poda porque reducen la complejidad del árbol
durante su construcción, en contraste con las reglas usuales de post-poda que simplifican el árbol
de decisión una vez éste ha sido construido por completo.
Breiman (1984) destaca la importancia de la poda frente al de selección de parada. Su argumento

es que resulta más eficiente podar un árbol que detener su crecimiento: la poda permite que un
subárbol de un nodo permanezca y la otra desaparezca, mientras que detener el crecimiento poda
ambas ramas simultáneamente.
La idea básica es la de podar aquellos árboles que produzcan pequeños beneficios de bondad. Se
espera que árboles podados (más simples) produzcan mejores resultados que los obtenidos con
árboles más grandes (más complejos), esto es, los árboles podados tendrán más capacidad de
generalización.

Algoritmos
El ID3 es un algoritmo simple y, sin embargo, potente, cuya misión es la elaboración de un árbol
de decisión bajo las siguientes premisas:
1. Cada nodo corresponde a un atributo y cada rama al valor posible de ese atributo. Una
hoja del árbol específica el valor esperado de la decisión de acuerdo con los ejemplos
dados. La explicación de una determinada decisión viene dada por la trayectoria desde
la raíz a la hoja representativa de esa decisión.
2. A cada nodo se le es asocia aquel atributo más informativo que aún no haya sido
considerado en la trayectoria desde la raíz.
3. Para medir cuánto de informativo es un atributo se emplea el concepto de entropía.

Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el
atributo para la clasificación.
Se emplea el término entropía para designar la incertidumbre asociada a la ocurrencia de un

mensaje dentro de un conjunto de ellos. La entropía de un conjunto de mensajes coincide
numéricamente con la información proporcionada por la ocurrencia de uno de ellos.
Los sistemas de aprendizaje inductivo se basan, generalmente, en los algoritmos ID3 y C4.5
formulados por Quinlan.
El ID3 es capaz de tratar con atributos cuyos valores sean discretos o continuos. En el primer caso,
el árbol de decisión generado tendrá tantas ramas como valores posibles tome el atributo. Si los
valores del atributo son continuos, el ID3 no clasifica correctamente los ejemplos dados. Por ello,
Quinlan (1993) propuso el C4.5, como extensión del ID3, que permite:
1. Construir árboles de decisión cuando algunos de los ejemplos presentan valores

desconocidos para algunos de los atributos.
2. Trabajar con atributos que presenten valores continuos.
3. La poda de los árboles de decisión. El árbol de decisión ha sido construído a partir de un

conjunto de ejemplos, por tanto, reflejará correctamente todo el grupo de casos. Sin
embargo, como esos ejemplos pueden ser muy diferentes entre sí, el árbol resultante
puede llegar a ser bastante complejo, con trayectorias largas y muy desiguales. Para
facilitar la comprensión del árbol puede realizarse una poda del mismo, lo que significa
la sustitución de una parte del árbol (sub-árbol) por una hoja. La poda tendrá lugar si el
valor esperado de error en el sub-árbol es mayor que con la hoja que lo sustituya.
Entre los algoritmos basados en árboles, el CART (acrónimo de Classification And Regression
Trees o árboles de clasificación y regresión) fue propuesto por Breiman. Las diferencias principales
entre los distintos algoritmos de construcción de árboles de decisión radican en las estrategias de
poda y en la regla adoptada para particionar nodos. Así, CART se caracteriza, fundamentalmente,

por realizar particiones binarias y por utilizar una estrategia de poda basada en el criterio de coste-
complejidad.
La metodología a seguir puede resumirse en dos pasos
1. Aprendizaje. Consiste en la construcción del árbol a partir de un conjunto de prototipos,

digamos S. Constituye la fase más compleja y la que determina el resultado final. A esta
fase dedicamos la mayor parte de nuestra atención.
2. Clasificación. Consiste en el etiquetado de un patrón X, independiente del conjunto de

aprendizaje. Se trata de responder a las preguntas asociadas a los nodos interiores
3. Utilizando los valores de los atributos del patrón X. Este proceso se repite desde el nodo
raíz hasta alcanzar una hoja, siguiendo el camino impuesto por el resultado de cada
evaluación.
1. Aprendizaje ?
S Aprendizaje ? ?
1 2 ? 1
2 1
2. Clasificación
Xt Xt +1
? ?
? ? ? ?
1 2 ? 1 1 2 ? 1
2 1 2 1
d(Xt) = 1 d(Xt+1) = 2
Figura 7 - Metodología

Proponemos ejemplos que ayudarán a comprender mejor la metodología.
Ejemplo 1
El problema a resolver es el siguiente: se trata de decidir si vamos a jugar al tenis dependiendo de
las condiciones atmosféricas siguientes: nubosidad, humedad y viento.
Considerando un conjunto de aprendizaje en el que los patrones están compuestos por atributos
categóricos y la clase cierta asociada es Si o No, algunos de estos prototipos serán:
Nubosidad
Despejado Nuboso Lluvioso
Humedad SI Viento
Alta Normal Fuerte Débil
NO SI NO SI
Figura 8 – Ejemplo 1: Tenis
Que se corresponde con la siguiente regla para la decisión de jugar: (Nubosidad = despejado
Humedad = normal) (Nubosidad = nublado) (Nubosidad = lluvioso viento = débil)
y la siguiente para la decisión de no jugar:
(Nubosidad = despejado Humedad = alta) (Nubosidad = lluvioso viento = fuerte)
Observar que aunque los patrones tienen asociados tres atributos, para la toma de decisiones no
se requiere la evaluación de todos ellos (tener en cuenta en caso Nubosidad = nuboso, por
ejemplo). Para el árbol presentado, sólo se requiere la evaluación de un máximo de dos atributos
para llegar a tomar una decisión.
Una consecuencia es que los árboles de decisión llevan implícitamente un mecanismo de selección
de las variables más significativas. De hecho, si una vez construído el árbol, un atributo no
interviene en ninguna pregunta (no se evalúa en algún nodo interior) éste puede descartarse. Este
procedimiento es, por lo tanto, un mecanismo sencillo de selección de características
Ejemplo 2
El ejemplo consiste en el lanzamiento de un nuevo producto al mercado en la empresa de
aplicación, SAS. En el primer punto de decisión hay que enfrentarse a dos alternativas: introducir el
producto a a escala nacional o escala regional. El segundo punto de decisión hay que decidir entre

distribuir a nivel nacional o no. Se puden ver gráficamente y adenás se observan las probabilidades
asignadas a la ocurrencia de los eventos.se tiene:
VPN en miles
Baja demanda P=0,30 de millones
$1,0
$4,5
Alta demanda
nacional P=0,71
Distribuir a escala C
nacional
Baja demanda nacional
P=0,29 -0,5
2
Introducir
A Alta demanda Alta demanda $2,5
regionalmente
regional P=0,70 nacional P=0,71
No distribuir a
D
Escala nacional
1 Baja demanda nacional

P=0,29 $2,0 -0,5
Introducir Alta demanda regional y alta demanda nacional P=0,50 $7,5

a escala
nacional B Alta demanda regional y baja demanda nacional P=0,20 $1,0
Baja demanda P=0,30 -$4,0

Figura 9 – Ejemplo 2: Producto, esquema inicial
Evaluando este árbol, se tiene lo siguiente:
VPN en miles
Baja demanda P=0,30 de millones
$1,0
$4,5
Alta demanda
nacional P=0,71
Distribuir a escala
C
nacional
$3,05 $3,05 Baja demanda nacional
P=0,29 -0,5
$2,135 2 1,775
Introducir
A Alta demanda Alta demanda $2,5
regionalmente
regional P=0,70 nacional P=0,71
No distribuir a D
Escala nacional
1 $2,355 Baja demanda nacional
P=0,29 $2,0 -0,5
$2,75 3,75 0,58
Introducir Alta demanda regional y alta demanda nacional P=0,50 $7,5

a escala 0,2
nacional B Alta demanda regional y baja demanda nacional P=0,20 $1,0
-1,2
Baja demanda P=0,30 -$4,0
Figura 10 – Ejemplo 2: Producto, con VPN

En el ejemplo, la probabilidad de obtener una demanda alta si se introduce el producto a nivel

regional es 0,7 y la probabilidad de obtener una baja demanda es 0,3. Cada combinación de
decisiones y eventos tiene un resultado (en este caso, valor probable neto, VPN) asociado.
En la Figura 10, el VPN de todas las ramas que emanan del evento C es:
(4,5x0,71+(-0,5)x0,29)=3,05 y para el evento D es 2,355. Pasando al punto de decisión 2 se

puede ver que la alternativa seleccionada sería “distribuir” a escala nacional. O sea que si el
gerente se ve eventualmente confrontado a tomar la decisión en el punto 2, escogería esta
alternativa y en todos los análisis posteriores puede descartar cualquier otra alternativa.
Siguiendo el análisis se pasa al evento A; el VPN esperado en ese nodo es

(1x0,3+3,05x0,7)=2,435. De un modo similar el VPN esperado en el nodo B es 2,75.
Resumiendo todo el proceso y se observa que la decisión que se seleccionaría sería “introducir a
nivel nacional”. Se debe observar que en este análisis se ha utilizado el criterio de maximizar el
VPN esperado. Otro enfoque pudo haber sido maximizar el valor esperado de la utilidad.
Usos Generales de Análisis Basados en Árboles
• Segmentación. Identifica personas que probablemente sean miembros de una clase

particular de sujeto
• Estratificación. Asigna casos a una de las categorías, como grupo con grado de riesgo alto,
medio y bajo.
• Predicción. Crea reglas y las usa para predecir futuros eventos. La predicción también puede
hacer referencia al intento de establecer atributos predictivos.
• Reducción de datos y selección de predictores. Selecciona un subconjunto de
predictores de una larga lista, útil en la construcción de un modelo formal paramétrico.
• Interacción-identificación. Identificar relaciones que pertenecen sólo a subgrupos
específicos y especificar éstos en un modelo formal paramétrico.
Ventajas y desventajas de los árboles de decisión

La gran utilidad de la técnica es que establece de antemano las políticas a seguir, dada la
ocurrencia de ciertos eventos. Por la forma de hacer el análisis - devolverse desde las ramas al
punto de la decisión inicial- se parece a la Programación Dinámica, la cual también establece una
secuencia de decisiones a seguir para obtener el resultado óptimo. La forma de un árbol es
intuitiva. Esto significa que el usuario puede comprobar la racionalidad del modelo y si lo cree
necesario, modificar el árbol o influir en su arquitectura según su propia experiencia o su
conocimiento. No requiere una gran capacidad computacional ni una habilidad analítica especial
para construirlo.

Una de las desventajas de los árboles de decisión es su dificultad cuando se presentan muchas
alternativas, lo cual es probable que ocurra si se desea que el modelo se aproxime a la realidad. En
este caso el número de cálculos puede crecer en forma desproporcionada. El número de puntos
finales crece rápidamente en cuanto el número de nodos crece. Esto induce al analista a reducir
intencionalmente el número de puntos terminales y los estimativos de las probabilidades son muy
escasos y pobres. Por lo tanto el uso de este enfoque puede dar unos resultados inadecuados.
Como hemos visto se puede simplificar los árboles asignando distribuciones de probabilidad a los
nodos de azar y efectuando un proceso iterativo de simulación; y realizando eliminaciones en el
desarrollo del proceso con base en el valor esperado y la varianza de las diferentes distribuciones
resultantes. O sea, que se eliminarían aquellas distribuciones con mayores (o menores) valores
esperados y varianzas simultáneamente (sí una distribución tiene menor valor esperado y mayor
varianza que otra, se descarta la primera, bajo el supuesto de que se trata de utilidades; si fueran
costos se consideraría el mayor valor esperado y mayor varianza). También se pueden descartar
en el proceso, valores que no cumplan con ciertos límites preestablecidos. De esta forma el análisis
se simplificaría al reducir los eventos.
Software
PrecisionTree®
Es un programa auxiliar de análisis de decisión para Microsoft Excel®. Le permite crear diagramas
de influencia y árboles de decisión directamente en una hoja de cálculo. Crea diagramas fácilmente
seleccionando celdas en la hoja de cálculo y haciendo clic en los botones de nodo de la barra de
herramientas de PrecisionTree. Se introduce probabilidades y beneficios directamente en las celdas
del árbol de decisión. Con un solo una orden, PrecisionTree puede ejecutar un eficaz análisis de
decisión en un modelo que ayudará a determinar el camino a seguir.
CART
CART es una herramienta Data Mining de estructura tipo árbol que permite automáticamente
descubrir relaciones ocultas en los datos para la búsqueda de análisis predictivos. De este modo,
CART puede encontrar las relaciones que existen entre diferentes tipos de información para
obtener una mejor comprensión de los mismos.
CART está siendo ampliamente utilizado en el sector bancario, telecomunicaciones, centros

médicos y hospitales, empresas de producción, laboratorios de investigación industrial y en el
sector académico.
Los perfiles empresariales en donde CART se transforma en un programa de inapreciable valor

serían los siguientes:
Marketing
Segmentación de mercados.
Calificación de clientes.

Análisis de oportunidades
Mailings directos
Rentabilidad en la segmentación de mercados.

Predicción en las respuestas.
Definición de públicos objetivos.
Servicios financieros
Tarjetas de crédito.
Detección de fraudes.
Producción
Detección de errores en las líneas de

ensamblaje.
Control de calidad.
Salud
Análisis médicos.
Investigación biomédica.

Referencias Bibliográficas
[1]
QUINLAN J.R. “Induction of Decision Trees. Machine Learning”, Kluwer Academic Publishers – 1986.
[2]
QUINLAN J.R. “C4.5: programs for machine learning”, Morgan Kaufmann Publishers Inc. – 1993.
[3]
BREIMAN L., FRIEDMAN J., OLSHEN, R. y STONE, C. “Classification and regression trees”, Pacific
Grove - 1984.

Arboles 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Arboles 2

Uploaded by

Copyright:

Available Formats

“Implicancias del Data Mining”

“Con los árboles se representa la dependencia lógica entre la

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 1

La reducción de los problemas de negocios a términos matemáticos requiere la definición de un

Los árboles genealógicos y los organigramas son ejemplos comunes de árboles.

Entonces, un árbol es un grafo que es conexo y no contiene ciclos.

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 2

Figura 1- Árbol Binario

En la Figura 2 puede observarse un árbol ternario.

Figura 2 – Árbol Ternario

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 3

Representación de los árboles binarios posicionales en computadores

En particular es de interés la representación de los árboles binarios en computadoras.

El espacio central representa el almacenamiento de datos y lo apuntadores, llamados apuntador

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 4

Se presenta un árbol en la Figura 4 y a continuación su representación en la Figura 5.

Figura 4 – Ejemplo árbol binario

El estudio sistemático de la toma de decisiones proporciona el marco para escoger cursos de

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 5

situación de decisión y de las técnicas que se utilicen para ello.

Un árbol de decisión representa una serie de cuestiones o pautas basadas en un conjunto de

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 6

VPN: valor probable neto

Figura 6 – Árbol de Decisión

La secuencia óptima de decisiones se encuentra comenzando a la derecha y avanzando hacia el

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 7

¿Cuándo se detiene la construcción del árbol de decisión?

• Pureza del nodo

Breiman (1984) destaca la importancia de la poda frente al de selección de parada. Su argumento

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 8

3. Para medir cuánto de informativo es un atributo se emplea el concepto de entropía.

Se emplea el término entropía para designar la incertidumbre asociada a la ocurrencia de un

1. Construir árboles de decisión cuando algunos de los ejemplos presentan valores

2. Trabajar con atributos que presenten valores continuos.

3. La poda de los árboles de decisión. El árbol de decisión ha sido construído a partir de un

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 9

La metodología a seguir puede resumirse en dos pasos

1. Aprendizaje. Consiste en la construcción del árbol a partir de un conjunto de prototipos,

2. Clasificación. Consiste en el etiquetado de un patrón X, independiente del conjunto de

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 10

Proponemos ejemplos que ayudarán a comprender mejor la metodología.

Despejado Nuboso Lluvioso

Alta Normal Fuerte Débil

Figura 8 – Ejemplo 1: Tenis

Humedad = normal) (Nubosidad = nublado) (Nubosidad = lluvioso viento = débil)

y la siguiente para la decisión de no jugar:

(Nubosidad = despejado Humedad = alta) (Nubosidad = lluvioso viento = fuerte)

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 11

1 Baja demanda nacional

Introducir Alta demanda regional y alta demanda nacional P=0,50 $7,5

Baja demanda P=0,30 -$4,0

Introducir Alta demanda regional y alta demanda nacional P=0,50 $7,5

Figura 10 – Ejemplo 2: Producto, con VPN

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 12

En el ejemplo, la probabilidad de obtener una demanda alta si se introduce el producto a nivel

(4,5x0,71+(-0,5)x0,29)=3,05 y para el evento D es 2,355. Pasando al punto de decisión 2 se

Siguiendo el análisis se pasa al evento A; el VPN esperado en ese nodo es

Usos Generales de Análisis Basados en Árboles

• Segmentación. Identifica personas que probablemente sean miembros de una clase

Ventajas y desventajas de los árboles de decisión

ASS Silvia M. Aranguren - ASS Silvia L. Muzachiodi Árboles - 13

CART está siendo ampliamente utilizado en el sector bancario, telecomunicaciones, centros

Los perfiles empresariales en donde CART se transforma en un programa de inapreciable valor