Professional Documents
Culture Documents
EQUIPO 1
QU ES LA MINERA
DE DATOS?
El datamining, es el conjunto de
tcnicas y tecnologas que
permiten explorar grandes bases
de datos, de manera automtica
o semiautomtica, con el
objetivo de encontrar patrones
repetitivos, tendencias o reglas
que expliquen el
comportamiento de los datos en
un determinado contexto.
VEAMOS UN
EJEMPLO
Un ejemplo ms habitual es el de la
deteccin de patrones de fuga.
En muchas industrias como la banca,
las telecomunicaciones, etc. existe un
comprensible inters en detectar
cuanto antes aquellos clientes que
puedan estar pensando en rescindir
sus contratos para, posiblemente,
pasarse a la competencia.
Otro ejemplo,
Blockbuster Entertainment
mina su base de datos del
historial de alquiler de
vdeo para recomendar
alquileres a los clientes
individuales. American
Express puede sugerir
productos a sus titulares de
tarjetas basados en el
anlisis de sus gastos
mensuales.
EL PROCESO DE MINERIA
DE DATOS EN 6 PASOS
1.DEFINIR EL
PROBLEMA
ste paso incluye analizar
requisitos:
Qu est buscando?Qu tipos
de relaciones intenta buscar?
Desea realizar predicciones a
partir del modelo de minera de
datos o solamente buscar
asociaciones y patrones
interesantes?
Qu resultado o atributo
desea predecir?
2.PREPARAR LOS
DATOS
Consiste en consolidar y
limpiar los datos identificados
en el paso anterior.
PASO 4: Generar
modelos
consiste en generar el modelo o modelos de
minera de datos.Usar los conocimientos
adquiridos en el paso3 para definir y crear los
modelos.
6. Implementar y actualizar
los modelos
Una vez que los modelos de minera de datos se
encuentran en el entorno de produccin, puede llevar
acabo diferentes tareas, dependiendo de sus
necesidades. Las siguientes son algunas de las tareas
que puede realizar:
Como funciona la
minera de datos ?
NIVELES DE ANLISIS
Algoritmos genticos
Un
rboles de decisin
Estructuras en forma de rbol
que representan conjuntos de
decisiones. Estas decisiones
generan reglas para la
clasificacin de un conjunto de
datos.
Algunas tcnicas son: rboles
de Clasificacin y Regresin
(CART) y Deteccin Automtica
de Interaccin (Chi Cuadrado
CHAID).
Visualizacin de datos
La