You are on page 1of 27

Inteligencia de Negocios

Objetos de Minera de Datos


Mg. Luis Ramirez Milla
luisramirezmilla@hotmail.com

Objetos de la Minera de Datos

Son varios los objetos que intervienen en la


Minera de Datos (SQL Server).
Estructura de Minera de Datos (EMD)
Modelo de Minera de Datos (MMD)

Adems:
Columnas de la EMD
Columnas del MMD

Estructura de la Minera de Datos (EMD)

Concepto
Es una estructura de datos que define el
dominio de datos a partir del cual se
generan los modelos de minera de datos

Una nica EMD puede contener varios modelos


de minera de datos que comparten el mismo
dominio.

Estructura de la Minera de Datos (EMD)

Objeto asociado
Las unidades de creacin de la EMD son las
columnas de la EMD, que describen los
datos que contiene el origen de datos.
Estas columnas contienen informacin como:
El tipo de datos,
El tipo de contenido,
El modo en que se distribuyen los datos.

Estructura de la Minera de Datos (EMD)

Tablas Anidadas
Una tabla anidada representa una relacin
de uno a varios entre la entidad de un
escenario y sus atributos relacionados
Ejm: Si la informacin que describe al cliente se encuentra
en una tabla y las compras del cliente en otra, puede
utilizar tablas anidadas para combinar la informacin
en un nico escenario.

Columnas de la EMD
Las columnas de la EMD definen el modo en que un MMD
utiliza las columnas de un origen de datos.
columna
Identificador

Definicin
nombre nico de la columna, a menudo, el mismo que el nombre. Este dato no se
puede cambiar despus de crear la estructura de minera de datos, mientras que el

nombre se puede cambiar.


Nombre

nombre o alias de la columna.

Contenido

enumeracin que describe si los datos son discretos o continuos.

Tipo

enumeracin que indica el tipo de datos general

Distribucin

enumeracin que describe la distribucin esperada de valores. Se incluye una


distribucin si la columna es continua.

Marcas de

enumeracin que indica cmo tratar los valores que faltan y as sucesivamente.

modelado
Enlace

propiedades que especifican que los datos de origen.

Columnas de la EMD

Tipos de datos
Antes de procesar un MMD, se debe definir los
tipos de datos de las columnas de la EMD en la
que se basa el modelo.
Tipo de datos

Tipos de contenido admitidos

Text

Discrete, Discretized, Sequence

Long

Continuous, Cyclical, Discrete, Discretized, Key Sequence, Key Time,


Ordered, Sequence, Time

Boolean

Discrete

Double

Continuous, Cyclical, Discrete, Discretized, Key Sequence, Key Time,


Ordered, Sequence, Time

Date

Continuous, Discrete, Discretized, Key Time

Columnas de la EMD

Contenidos
Se utilizan para describir el comportamiento de los datos
que contiene la columna.
Tipo de contenido
Discrete

Comportamiento
La columna contiene valores discretos. Por ejemplo una columna de genero es
una columna de atributos discretos muy habitual, en la que los datos representan
un numero contado, finito, de categoras de genero. No hay posibilidad de que se
den valores fraccionados.

Continuos

Continuo indica que la columna contiene valores que representan datos


numricos en una escala que permite valores intermedios. Por ejemplo una
columna de ingresos

Discretized

La columna contiene valores que representan grupos o depsitos de valores que


se deriven de una columna continua.

Los depsitos se tratan como valores

ordenados y discretos.
Key

Indica que la columna identifica una fila de forma inequvoca

Columnas de la EMD

Contenidos
Tipo de contenido
Key Sequence

Comportamiento
El tipo de contenido secuencia de claves solamente se puede utiliza en modelos
de agrupacin en clsteres de secuencia. Cuando se establece el tipo de
contenido en key sequence, se indica que la columna contiene valores que
representan una secuencia de eventos. Los valores estn ordenados y no tienen
que estar separados por una distancia equivalente.

Key Time

El tipo de contenido clave temporal solamente se puede utilizar en modelos de


serie temporal. Cuando se establece el tipo de contenido en key time, se indica

que los valores estn ordenados y que representan una escala de tiempo.
Ordered

La columna contiene valores que definen un conjunto ordenado. Por ejemplo, si


una columna de atributos ordenados contiene informacin acerca de una lista de
niveles de especializacin que vayan de uno al cinco,

no existe informacin

implcita entre los niveles de especializacin ; un nivel cinco de especializacin no


es necesariamente cinco veces mejor que un nivel uno de especializacin.

Columnas de la EMD

Contenidos
Tipo de contenido
Cyclical

Comportamiento
La columna contiene valores que representan un conjunto ordenado cclico. Por
ejemplo, los das numerados de la semana ya que el da numero uno sigue al da

numero siete.

Columnas de la EMD

Mtodos Discretizacin
Para aquellos algoritmos que no pueden utilizar columnas continuas como entrada.
Mtodo de
discretizacin

Descripcin

AUTOMATIC

Analysis Services determina el mtodo de discretizacin que se va a utilizar.

CLUSTERS

El algoritmo divide los datos en grupos mediante el muestreo de los datos de entrenamiento,
inicializa en un nmero de puntos aleatorios y, a continuacin, ejecuta varias iteraciones del
algoritmo de clsteres de Microsoft utilizando el mtodo de clster EM (Expectation Maximization).
El mtodo CLUSTERS resulta til porque funciona en cualquier curva de distribucin. Sin embargo,
requiere ms tiempo de procesamiento que otros mtodos de discretizacin.

Este mtodo slo puede utilizarse con columnas numricas.


EQUAL_AREAS

El algoritmo divide los datos en grupos que contienen el mismo nmero de valores. Este mtodo es
la mejor opcin para las curvas de distribucin normales, pero no se obtendrn resultados ptimos si
la distribucin incluye grandes cantidades de valores en un grupo pequeo de los datos continuos.

Por ejemplo, si la mitad de los pedidos especificados en el diagrama del escenario tienen un valor de
cero en Cost, la mitad de los datos se encontrarn en un solo punto de la curva. En esta distribucin,
este mtodo divide los datos en un intento de establecer una discretizacin igual en varias reas.
Esto produce una representacin inexacta de los datos.

Columnas de la EMD

Columnas clasificadas
Se definen para incluir informacin que describa otra columna del
modelo. Por ejemplo, puede definir una columna clasificada que
describa las compras totales de un cliente durante un ao.
Tipo clasificacin
Probability

Comportamiento
El valor de la columna es la probabilidad del valor asociado, un numero entre cero
y uno.

Variance

El valor de la columna es la varianza del valor asociado.

Stdev

El valor de la columna es la desviacin estndar del valor asociado.

Probability_Variance El valor de la columna es la varianza de la probabilidad valor asociado.


Probability_Stdev

El valor de la columna es la desviacin estndar de la probabilidad

valor

asociado.
Support

El valor de la columna es el peso, o factor de duplicacin del escenario, del valor

asociado.

Columnas de la EMD

Distribucin de columnas
Permite modificar la forma en que los algoritmos procesan los datos de
estas columnas cuando se crean MMD.
Tipo
distribucin
Normal

Comportamiento
Los valores de la columna continua forman un
histograma con una distribucin normal.

Log Normal

Los valores de la columna continua forman un


histograma, donde la curva se alarga en el extremo
superior y se desva hacia el extremo inferior.

Uniform

Los valores de la columna continua forman una curva

plana, en la que todos los valores son iguales.

Modelo de la Minera de Datos (MMD)

Concepto
Un MMD aplica un algoritmo de modelo de
minera de datos a los datos que representa
una estructura de minera de datos
Un MMD esta contenido en la EMD y hereda
todos los valores de las propiedades definidas
por la estructura de minera de datos.
El modelo puede utilizar todas las columnas de
la EMD o un subconjunto de las mismas.

Modelo de la Minera de Datos (MMD)

Objeto asociado
Los MMD contienen columnas al igual que
las EMD.
Estas columnas contienen informacin como:
El tipo de datos,
El tipo de contenido,
El modo en que se distribuyen los datos.

las cuales son heredadas de la EMD.

Modelo de la Minera de Datos (MMD)

Parmetros
El MMD contienen dos propiedades: Algorithm y
Usage.

Algorithm: Se define en el MMD y define el algoritmo que


se utiliza para crearlo.

Usage: Se define en la columna del MMD y define el


modo en que el modelo utiliza una columna (entrada, de
clave o de prediccin).

Modelo de la Minera de Datos (MMD)

Modelos asociados a una EMD


Los modelos pueden diferir en lo que respecta a:

Que columnas de la EMD se van a usar,


El modo en que se va a usar,
El tipo de algoritmo que se emplea para crear cada
modelo y
La configuracin de los patrones de cada modelo.

Ejm: Puede generar modelo de arboles de decisin o de


clsteres independientes, cada uno con columnas
diferentes de la estructura y utilizarlo para llevar a
cabo diferentes tareas empresariales.

Columnas del MMD

Al igual que la estructura, el modelo de


minera de datos contiene columnas. La EMM
contiene el modelo de MMD y este hereda
todos los valores de las propiedades que
definen la estructura.

En una columna de minera de datos puede


definir dos elementos adicionales de
informacin: uso e indicadores de modelado.

Columnas del MMD


Uso: Define como el modelo va a usar la
columna (entrada, de clave o prediccin)
Indicadores de Modelado: Proporcionan al
algoritmo informacin adicional sobre los
datos que se definen en la tabla de
escenarios, de forma que el algoritmo
pueda generar un modelo mas preciso.

Model_Existence_Only
Regressor

Columnas del MMD

Indicadores de modelado
MODEL_EXISTENCE_ONLY
Indica que la presencia del atributo es ms importante que los valores
que estn en la columna de atributos.
Por ejemplo, considere una tabla de escenarios que contenga una lista
de elementos de pedido asociados con un cliente determinado. Los
datos de la tabla incluyen el tipo de producto, el Id. y el costo de cada
elemento. Para el modelado, el hecho de que el cliente haya adquirido
un elemento de pedido concreto podra ser ms importante que el costo
del propio elemento.
REGRESSOR
Indica que el algoritmo puede usar la columna especificada en la frmula
de regresin de algoritmos de regresin.
Este indicador se admite en los algoritmos de rboles de decisin y de
serie temporal de Microsoft.

Modelo de la Minera de Datos (MMD)

En resumen

Un MMD es simplemente un objeto vaco hasta que se procesa. Al


procesar un modelo, los datos que define la estructura se pasan
por el algoritmo.

El algoritmo identifica las reglas y los patrones en los datos y,


despus, utiliza dichas reglas y patrones para rellenar el modelo.

Una vez procesado un modelo, este puede ser explotado utilizando


los visores o realizando consultas al modelo para a llevar a cabo
predicciones.

Puede crear varios modelos basados en la misma estructura.


Todos los modelos generados a partir de la misma estructura
deben proceder del mismo origen de datos.

Algoritmos de Minera de Datos


Algoritmo de rboles de decisin
Algoritmo Bayes naive
Algoritmo de serie temporal
Algoritmo de red neuronal

Algoritmo de clsteres de secuencia


Algoritmo de asociacin
Algoritmo de clsteres

You might also like