You are on page 1of 29

MINERIA DE DATOS

EQUIPO 1

QU ES LA MINERA
DE DATOS?
El datamining, es el conjunto de
tcnicas y tecnologas que
permiten explorar grandes bases
de datos, de manera automtica
o semiautomtica, con el
objetivo de encontrar patrones
repetitivos, tendencias o reglas
que expliquen el
comportamiento de los datos en
un determinado contexto.

VEAMOS UN
EJEMPLO
Un ejemplo ms habitual es el de la
deteccin de patrones de fuga.
En muchas industrias como la banca,
las telecomunicaciones, etc. existe un
comprensible inters en detectar
cuanto antes aquellos clientes que
puedan estar pensando en rescindir
sus contratos para, posiblemente,
pasarse a la competencia.

A estos clientes y en funcin de su valor se les podran hacer


ofertas personalizadas, ofrecer promociones especiales, etc.,
con el objetivo ltimo de retenerlos. La minera de datos
ayuda a determinar qu clientes son los ms proclives a darse
de baja estudiando sus patrones de comportamiento y
comparndolos con muestras de clientes que, efectivamente,
se dieron de baja en el pasado.

Otro ejemplo,
Blockbuster Entertainment
mina su base de datos del
historial de alquiler de
vdeo para recomendar
alquileres a los clientes
individuales. American
Express puede sugerir
productos a sus titulares de
tarjetas basados en el
anlisis de sus gastos
mensuales.

EL PROCESO DE MINERIA
DE DATOS EN 6 PASOS

1.DEFINIR EL
PROBLEMA
ste paso incluye analizar
requisitos:
Qu est buscando?Qu tipos
de relaciones intenta buscar?
Desea realizar predicciones a
partir del modelo de minera de
datos o solamente buscar
asociaciones y patrones
interesantes?

Qu resultado o atributo
desea predecir?

Qu tipo de datos tiene y qu tipo de


informacin hay en cada columna?En caso de
que haya varias tablas, cmo se relacionan?
Cmo se distribuyen los datos?Los datos son
estacionales?Los datos representan con
precisin los procesos de la empresa?

2.PREPARAR LOS
DATOS
Consiste en consolidar y
limpiar los datos identificados
en el paso anterior.

Los datos pueden estar dispersos en la empresa


y almacenados en formatos distintos; tambin
pueden contener incoherencias como entradas
que faltan o incorrectas.

Por ejemplo, los datos pueden mostrar


que un cliente adquiri un producto
incluso antes que se ofreciera en el
mercado.

La limpieza de datos no solamente


implica quitar los datos no vlidos o
agregar valores faltantes, sino
tambin buscar las correlaciones
ocultas en los datos E identificar los
orgenes de datos que son ms
precisos.

Por ejemplo, debera utilizar la fecha de envo o la


fecha de pedido?Qu influye ms en las ventas: la
cantidad, el precio total o un precio con descuento?

PASO 3: Explorar los datos


El tercer paso del proceso de minera de datos, como
se resalta en el siguiente diagrama, consiste en
explorar los datos preparados.

Se deben conocer los datos para tomar las


decisiones adecuadas, Entre las tcnicas de
exploracin se incluyen calcular los valores
mnimos y mximos, calcular la media y las
desviaciones estndar, y examinar la
distribucin de los datos.

Se exploran los datos empresariales, para predecir


algn problema con datos defectuosos, usando
diversas estrategias y programas como masterdata
services para sondear los datos y su disponibilidad
para la minera de datos y solucionar le problema.

PASO 4: Generar
modelos
consiste en generar el modelo o modelos de
minera de datos.Usar los conocimientos
adquiridos en el paso3 para definir y crear los
modelos.

Antes de procesar la estructura y el modelo, un


modelo de minera de datos simplemente es un
contenedor que especifica las columnas que se
usan para la entrada. El procesamiento de un
modelo a menudo se denominaentrenamiento.El
entrenamiento hace referencia al proceso de
aplicar un algoritmo matemtico concreto a los
datos de la estructura para extraer patrones.

Es importante recordar que siempre que


los datos cambian, debe actualizar la
estructura y el modelo de minera de
datos.

5. Explorar y validar los


modelos
Antes de implementar un
modelo en un entorno de
produccin, es aconsejable
probar si funciona
correctamente. Adems, al
generar un modelo,
normalmente se crean varios
con configuraciones diferentes
y se prueban todos para ver
cul ofrece los resultados
mejores para su problema y
sus datos.

6. Implementar y actualizar
los modelos
Una vez que los modelos de minera de datos se
encuentran en el entorno de produccin, puede llevar
acabo diferentes tareas, dependiendo de sus
necesidades. Las siguientes son algunas de las tareas
que puede realizar:

Usar los modelos para crear predicciones que luego


podr usar para tomar decisiones comerciales.
Crear consultas de contenido para recuperar
estadsticas, reglas o frmulas del modelo.
Crear un informe que permita a los usuarios realizar
consultas directamente en un modelo de minera de
datos existente.
Actualizar los modelos despus de la revisin y
anlisis.Cualquier actualizacin requiere que vuelve a
procesar los modelos.

Como funciona la
minera de datos ?

En general, se buscan cualquiera de estos cuatro tipos


de relaciones:
Clases:Los datos almacenados se utilizan para
localizar datos en grupos predeterminados. Por
ejemplo, una cadena de restaurantes podra minar
datos de compra del cliente para determinar cuando
los clientes los visitan y lo que normalmente ordenan.
Grupos:Los elementos de datos se agrupan de
acuerdo a las relaciones lgicas o preferencias de los
consumidores.

Asociaciones:Los datos pueden ser


minados para identificar asociaciones.
Patrones secuenciales:Los datos se minan
para anticipar patrones de comportamiento
y tendencias.

NIVELES DE ANLISIS

REDES NEURONATES ARTIFICIALES


Es

un sistema de interconexin de neuronas


en una red que colaboran para producir un
estmulo de salida.

Algoritmos genticos
Un

algoritmo gentico (o AG para abreviar) es una tcnica


de programacin que imita a la evolucin biolgica como
estrategia para resolver problemas.

rboles de decisin
Estructuras en forma de rbol
que representan conjuntos de
decisiones. Estas decisiones
generan reglas para la
clasificacin de un conjunto de
datos.
Algunas tcnicas son: rboles
de Clasificacin y Regresin
(CART) y Deteccin Automtica
de Interaccin (Chi Cuadrado
CHAID).

Mtodo del vecino


ms prximo
Una

tcnica que clasifica


cada registro en un conjunto
de datos basado en una
combinacin de las clases de
registro(s) kms similares a
l en un conjunto de datos
histricos (dondek1). A
veces se llama tcnica del
vecino k-ms cercano.

Visualizacin de datos
La

interpretacin visual de las complejas


relaciones de datos multidimensionales. Las
herramientas de grficos se utilizan para
ilustrar las relaciones de datos.

You might also like