Professional Documents
Culture Documents
Adems:
Columnas de la EMD
Columnas del MMD
Concepto
Es una estructura de datos que define el
dominio de datos a partir del cual se
generan los modelos de minera de datos
Objeto asociado
Las unidades de creacin de la EMD son las
columnas de la EMD, que describen los
datos que contiene el origen de datos.
Estas columnas contienen informacin como:
El tipo de datos,
El tipo de contenido,
El modo en que se distribuyen los datos.
Tablas Anidadas
Una tabla anidada representa una relacin
de uno a varios entre la entidad de un
escenario y sus atributos relacionados
Ejm: Si la informacin que describe al cliente se encuentra
en una tabla y las compras del cliente en otra, puede
utilizar tablas anidadas para combinar la informacin
en un nico escenario.
Columnas de la EMD
Las columnas de la EMD definen el modo en que un MMD
utiliza las columnas de un origen de datos.
columna
Identificador
Definicin
nombre nico de la columna, a menudo, el mismo que el nombre. Este dato no se
puede cambiar despus de crear la estructura de minera de datos, mientras que el
Contenido
Tipo
Distribucin
Marcas de
enumeracin que indica cmo tratar los valores que faltan y as sucesivamente.
modelado
Enlace
Columnas de la EMD
Tipos de datos
Antes de procesar un MMD, se debe definir los
tipos de datos de las columnas de la EMD en la
que se basa el modelo.
Tipo de datos
Text
Long
Boolean
Discrete
Double
Date
Columnas de la EMD
Contenidos
Se utilizan para describir el comportamiento de los datos
que contiene la columna.
Tipo de contenido
Discrete
Comportamiento
La columna contiene valores discretos. Por ejemplo una columna de genero es
una columna de atributos discretos muy habitual, en la que los datos representan
un numero contado, finito, de categoras de genero. No hay posibilidad de que se
den valores fraccionados.
Continuos
Discretized
ordenados y discretos.
Key
Columnas de la EMD
Contenidos
Tipo de contenido
Key Sequence
Comportamiento
El tipo de contenido secuencia de claves solamente se puede utiliza en modelos
de agrupacin en clsteres de secuencia. Cuando se establece el tipo de
contenido en key sequence, se indica que la columna contiene valores que
representan una secuencia de eventos. Los valores estn ordenados y no tienen
que estar separados por una distancia equivalente.
Key Time
que los valores estn ordenados y que representan una escala de tiempo.
Ordered
no existe informacin
Columnas de la EMD
Contenidos
Tipo de contenido
Cyclical
Comportamiento
La columna contiene valores que representan un conjunto ordenado cclico. Por
ejemplo, los das numerados de la semana ya que el da numero uno sigue al da
numero siete.
Columnas de la EMD
Mtodos Discretizacin
Para aquellos algoritmos que no pueden utilizar columnas continuas como entrada.
Mtodo de
discretizacin
Descripcin
AUTOMATIC
CLUSTERS
El algoritmo divide los datos en grupos mediante el muestreo de los datos de entrenamiento,
inicializa en un nmero de puntos aleatorios y, a continuacin, ejecuta varias iteraciones del
algoritmo de clsteres de Microsoft utilizando el mtodo de clster EM (Expectation Maximization).
El mtodo CLUSTERS resulta til porque funciona en cualquier curva de distribucin. Sin embargo,
requiere ms tiempo de procesamiento que otros mtodos de discretizacin.
El algoritmo divide los datos en grupos que contienen el mismo nmero de valores. Este mtodo es
la mejor opcin para las curvas de distribucin normales, pero no se obtendrn resultados ptimos si
la distribucin incluye grandes cantidades de valores en un grupo pequeo de los datos continuos.
Por ejemplo, si la mitad de los pedidos especificados en el diagrama del escenario tienen un valor de
cero en Cost, la mitad de los datos se encontrarn en un solo punto de la curva. En esta distribucin,
este mtodo divide los datos en un intento de establecer una discretizacin igual en varias reas.
Esto produce una representacin inexacta de los datos.
Columnas de la EMD
Columnas clasificadas
Se definen para incluir informacin que describa otra columna del
modelo. Por ejemplo, puede definir una columna clasificada que
describa las compras totales de un cliente durante un ao.
Tipo clasificacin
Probability
Comportamiento
El valor de la columna es la probabilidad del valor asociado, un numero entre cero
y uno.
Variance
Stdev
valor
asociado.
Support
asociado.
Columnas de la EMD
Distribucin de columnas
Permite modificar la forma en que los algoritmos procesan los datos de
estas columnas cuando se crean MMD.
Tipo
distribucin
Normal
Comportamiento
Los valores de la columna continua forman un
histograma con una distribucin normal.
Log Normal
Uniform
Concepto
Un MMD aplica un algoritmo de modelo de
minera de datos a los datos que representa
una estructura de minera de datos
Un MMD esta contenido en la EMD y hereda
todos los valores de las propiedades definidas
por la estructura de minera de datos.
El modelo puede utilizar todas las columnas de
la EMD o un subconjunto de las mismas.
Objeto asociado
Los MMD contienen columnas al igual que
las EMD.
Estas columnas contienen informacin como:
El tipo de datos,
El tipo de contenido,
El modo en que se distribuyen los datos.
Parmetros
El MMD contienen dos propiedades: Algorithm y
Usage.
Model_Existence_Only
Regressor
Indicadores de modelado
MODEL_EXISTENCE_ONLY
Indica que la presencia del atributo es ms importante que los valores
que estn en la columna de atributos.
Por ejemplo, considere una tabla de escenarios que contenga una lista
de elementos de pedido asociados con un cliente determinado. Los
datos de la tabla incluyen el tipo de producto, el Id. y el costo de cada
elemento. Para el modelado, el hecho de que el cliente haya adquirido
un elemento de pedido concreto podra ser ms importante que el costo
del propio elemento.
REGRESSOR
Indica que el algoritmo puede usar la columna especificada en la frmula
de regresin de algoritmos de regresin.
Este indicador se admite en los algoritmos de rboles de decisin y de
serie temporal de Microsoft.
En resumen