Laboratorio de Mineria de Datos Con SQL Server PDF

Universidad Privada San Juan Bautista
Facultad de Ingenieras
Escuela Profesional de Ingeniera de Computacin y Sistemas
Laboratorio de Minera de Datos

Con SQL Server
Curso:Sistema de Soporte a la Toma de Decisiones
Docente: Ing. Dante Garca
Ciclo: IX
Semestre: 2015-1
Objetivo
Implementar la Minera de Datos para generar conocimiento que ayude a la empresa a tomar
decisiones asertivas.
Realizar en secuencia los pasos indicados para poder implementar el cubo con xito.
ATACHAR LA BASE DE DATOS
1. Ejecutar SQL Server Management Studio y conectarse con la cuenta SA, si tiene clave
proceda a ingresarla para establecer una conexin. Observe la siguiente pantalla:
2. Crear en el disco C una carpeta llamada CubosOLAP y dentro de ello otras carpetas
llamadas BaseDatos y Proyecto OLAP, y copie el archivo empaquetado de la base de datos
llamada AdventureWorksDW2008R2. Proceda a desempaquetar el archivo dentro de la
carpeta Base Datos. El archivo desempaquetado mostrar dos archivos, uno con extensin
MDF que contiene toda la estructura de la base de datos, y otro archivo con extensin LDF
que contiene todas las transacciones correspondientes.
3. Usando la base de datos AdventureWorksDW2008R2 de SQL Server proporcionada por el
profesor ir a la carpeta Databases del SQL Management Studio, pulsar el botn derecho del
mouse y elija la opcin la opcin Attach. Se mostrar la siguiente ventana:
Ing. Dante Garca
Pgina 1

4. Pulsar el botn Add para aadir o atachar la base de datos. Ir a la carpeta donde se localiza
el archivo MDF de la base de datos, hacer clic para seleccionarla y pulsar el botn OK.
5. Observar en el Explorador de objetos de SQL Server que la base de datos ya est atachada
al sistema, tal como se indica en la siguiente pantalla:
CREAR EL PROYECTO DE ANALISYS SERVICES EN SQL SERVER

1. Crear un nuevo proyecto usando el Servicio de Anlisis de SQL Server, la presentacin de
algunas pantallas puede variar debido a la versin de SQL Server, en mi caso estoy usando
el SQL Server 2014 versin empresarial. Para crear el proyecto, ir al SQL Server 2014 o
2010 0 2008 R2 (dependiendo de la versin de SQL Server) y seleccionar la opcin SQL
Server Data Tools for Visual Studio 2013. Espere a que cargue la aplicacin, pues esta
herramienta es la que tiene SQL Server para desarrollar Inteligencia de Negocios (BI).
Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 2

2. Seleccione el men File o Archivo, opcin New, opcin Project. Para proceder a crear un
nuevo proyecto. El proyecto debe crearse dentro de la carpeta Proyecto Mineria con el
nombre MineriaDatosDemo (en mi caso la ruta asumida es: E:\Aplicaciones\USJB\Soporte a
la Toma de Decisiones\Proyecto Mineria). Observe la siguiente pantalla:
3. Al crearse el proyecto, se muestra la ventana del Explorador de Soluciones con una serie de
carpetas que organizan la informacin del cubo a disear. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 3

DEFINIR UN ORIGEN DE DATOS

1. Dirigirse al Explorador de Soluciones, ir a la carpeta Data Source, pulsar el botn derecho del
mouse y elija la opcin New Data Source. El sistema lo conectar con un asistente que le
ayudar a crear la fuente de datos. En este caso pulsar el botn Next.
2. Defina los parmetros necesarios para establecer la conexin con la base de datos
AdventureWorksDW2008R2, para este caso pulsar el botn New y observe la siguiente
pantalla:
2. Observando la pantalla, debe indicar el nombre del Servidor, modo de autenticacin y

seleccione la base de datos AdventureWorksDW2008R2. Para asegurarse si se establece la
conexin pulsar el botn Test Connection. Luego pulsar el botn OK y observar la siguiente
ventana:
Ing. Dante Garca
Pgina 4

3. Pulsar el botn Next y proporcione informacin especfica para el servicio. En este caso se
usar la Cuenta del Servicio, es decir marcar la opcin Use the service account y pulsar el
botn Next.
4. Defina un nombre para la fuente de datos, en este caso: AdventureWorksDW2008R2.
Observe la siguiente pantalla: (No se olvide de pulsar el botn Finish para terminar la
configuracin de la fuente de datos).
Ing. Dante Garca
Pgina 5

5. La fuente de datos debe observarse en el explorador de soluciones. Esta fuente de datos
asume la extensin ds y est lista para operar. Observe la siguiente pantalla:
DEFINIR UNA VISTA DE ORIGEN DE DATOS

1. Dirigirse al Explorador de Soluciones, ir a la carpeta Data Source Views, pulsar el botn
derecho del mouse, elija la opcin New Data Source View. El sistema le conectar con un
asistente que le ayudar a configurar la vista de datos. En este caso pulsar el botn Next.
2. Seleccionar el origen de datos creado anteriormente y pulsar el botn Next. Observe la
siguiente pantalla:
3. En caso de que la cuenta usada tenga clave el sistema le pedir otra vez la cuenta con la
contrasea. En mi caso la cuenta es sa. No se olvide de pulsar el botn OK Observe la
siguiente pantalla:
Ing. Dante Garca
Pgina 6

4. Proceda despus a seleccionar las tablas y vistas necesarias para crear la vista. En nuestro
caso seleccione las tablas ProspectiveBuyer y las vistas: vAssocSeqLineItems,
vAssocSeqOrders,vTargetMail, y vTimeSeries. Por cada tabla o vista pulsar CTRL + Clic
para su seleccin. Observe la siguiente pantalla:
5. Asignar un nombre para la vista. En nuestro caso asignarle el nombre

VistaAdventureWorksDW2008R2 y pulsar el botn Finish. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 7

6. Dirigirse al Explorador de Soluciones y observe que en la carpeta Data Source Views existe
una nueva vista creada con el nombre VistaAdventureWorksDW2008R2 y extensin dsv.
7. El contenido de la vista tambin se observa en el Diseador de Vistas de Origen de Datos de

Business Intelligence Development Studio. Este diseador contiene los elementos siguientes:
a. El Panel Diagrama, en el que las tablas y sus relaciones se representan
grficamente.
b.
El Panel Tablas, en el que las tablas y los elementos de esquema se muestran en

una vista de rbol.
c. El
Panel Organizador de
Diagramas,
en el que puede crear
subdiagramas de modo que pueda ver los subconjuntos de la vista de origen de
datos.
Ing. Dante Garca
Pgina 8

d. Una Barra de herramientas especfica del Diseador de vistas de origen de datos.
MODIFICAR UNA VISTA DE ORIGEN DE DATOS

Puede usar el diseador de vistas de origen de datos para cambiar la forma de ver los datos en un
origen de datos. As por ejemplo puede cambiar el nombre de cualquier objeto por uno que sea ms
significativo para el proyecto. El nombre del objeto no se modifica en el origen de datos original, pero
puede referirse al objeto dentro del proyecto utilizando este nombre ms descriptivo.
Para crear una cesta de mercado y escenarios de clsteres de secuencia, tiene que crear una
nueva relacin de varios a uno entre las tablas vAssocSeqOrders y vAssocSeqLineItems. Mediante
esta relacin puede convertir vAssocSeqLineItems en una tabla anidada de vAssocSeqOrders para
crear los modelos.
Creando una nueva Relacin entre Tablas
1. En el panel de la Vista de Origen de Datos del diseador de vistas de origen de datos
seleccione la columna OrderNumber de la tabla vAssocSeqLineItems.
2. Arrastre la columna hasta la tabla vAssocSeqOrders y colocarla en la columna OrderNumber.

Ahora existir una nueva relacin de datos a uno entre las tablas vAssocSeqOrders y
vAssocSeqLineItems. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 9

CREAR UN ESCENARIO DE CORREO DIRECTO

El departamento de Marketing de Adventure Works desea aumentar las ventas dirigiendo una
campaa de correo directo a clientes especficos. La empresa desea determinar los patrones que
posteriormente se aplicarn a clientes potenciales. La empresa pretende usar los patrones hallados
para predecir que clientes potenciales tienen ms probabilidades de comprar un producto.
Adems el departamento de marketing desea encontrar las posibles agrupaciones lgicas de clientes
que se encuentran en la base de datos, como por ejemplo aquellos que siguen pautas demogrficas
y de compras similares.
La base de datos de la empresa Adventure Works contiene una lista de clientes antiguos y una lista
de clientes nuevos potenciales.
En esta fase crear un escenario de correo directo para obtener los siguientes datos:
Un conjunto de modelos de minera de datos que sugerir a los clientes que tienen una
mayor probabilidad de serlo entre una lista de clientes potenciales.
Una agrupacin de clientes actuales.
Para realizar estas tareas se aplicar el Algoritmo Bayes Naive de Microsoft, el Algoritmo de
rboles de Decisin de Microsoft y el Algoritmo de Clsteres de Microsoft.
ALGORITMO BAYES NAIVE DE MICROSOFT

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificacin basado en los
teoremas de Bayes y que Microsoft SQL Server Analysis Services proporciona para el
modelado de prediccin. La palabra nave (ingenuo en ingls) del trmino Bayes naive
proviene del hecho que el algoritmo utiliza tcnicas Bayesianas pero no tiene en cuenta las
dependencias que puedan existir.
Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos
de Microsoft y, por tanto, resulta til para generar rpidamente modelos de minera de
datos que detectan las relaciones entre las columnas de entrada y las columnas de
prediccin. Puede utilizar este algoritmo para realizar la exploracin inicial de los
datos y, ms adelante, aplicar los resultados para crear modelos de minera de datos
adicionales con otros algoritmos ms complejos y precisos desde el punto de vista
computacional.
El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada
columna de entrada, dado cada posible estado de la columna de prediccin.
Para comprender cmo funciona, utilice el Visor Bayes naive de Microsoft de SQL Server
Data Tools (SSDT) (como se muestra en el siguiente grfico) para consultar una
representacin visual del modo en que el algoritmo distribuye los estados.
Ing. Dante Garca
Pgina 10

Aqu, el Visor Bayes naive de Microsoft muestra cada columna de entrada del conjunto de
datos e indica cmo se distribuyen los estados de cada columna, dado cada estado de
la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de entrada que son
importantes para diferenciar los distintos estados de la columna de prediccin.
Por ejemplo, en la fila Commute Distance que se muestra aqu, la distribucin de
valores de entrada es visiblemente diferente para los compradores en comparacin
con los no compradores. Esto indica que la entrada, Commute Distance = 0-1 miles, es
un factor de prediccin potencial.
El visor tambin proporciona valores para las distribuciones, de modo que pueda ver
que para los clientes que viajan entre una y dos millas para ir a trabajar, la
probabilidad de que compren una bicicleta es de 0,387, y la probabilidad que no la
compren es de 0,287. En este ejemplo, el algoritmo utiliza la informacin numrica,
derivada de un dato de cliente (como la distancia entre el domicilio y el lugar de trabajo), para
predecir si un cliente comprara una bicicleta.
ALGORITMO DE ARBOLES DE DECISION DE MICROSOFT

El algoritmo de rboles de decisin de Microsoft es un algoritmo de clasificacin y
regresin proporciona por Microsoft SQL Server Analysis Services para el modelado de
prediccin de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basndose en las
relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores,
conocidos como estados, de estas columnas para predecir los estados de una
columna que se designa como elemento de prediccin. Especficamente, el algoritmo
identifica las columnas de entrada que se correlacionan con la columna de prediccin. Por
ejemplo, en un escenario para predecir qu clientes van a adquirir probablemente una
bicicleta, si nueve de diez clientes jvenes compran una bicicleta, pero slo lo hacen dos de
diez clientes de edad mayor, el algoritmo infiere que la edad es un buen elemento de
prediccin en la compra de bicicletas. El rbol de decisin realiza predicciones
basndose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresin lineal para determinar dnde
se divide un rbol de decisin.
Ing. Dante Garca
Pgina 11

Si se define ms de una columna como elemento de prediccin, o si los datos de entrada
contienen una tabla anidada que se haya establecido como elemento de prediccin, el
algoritmo genera un rbol de decisin independiente para cada columna de prediccin.
Ejemplo:
El departamento de marketing de la empresa Adventure Works Cycles desea identificar las
caractersticas de los clientes antiguos que podran indicar si es probable que realicen
alguna compra en el futuro. La base de datos AdventureWorks2008R2 almacena
informacin demogrfica que describe a los clientes antiguos. Mediante el algoritmo de
rboles de decisin de Microsoft que analiza esta informacin, el departamento puede
generar un modelo que predice si un determinado cliente va a comprar productos,
basndose en el estado de las columnas conocidas sobre ese cliente, como la demografa o
los patrones de compra anteriores.
Cmo funciona el algoritmo?
El algoritmo de rboles de decisin de Microsoft genera un modelo de minera de datos
mediante la creacin de una serie de divisiones en el rbol. Estas divisiones se
representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una
columna de entrada tiene una correlacin significativa con la columna de prediccin.
La forma en que el algoritmo determina una divisin vara en funcin de si predice una
columna continua o una columna discreta.
Entre los mtodos que se usan para determinar si hay que dividir el rbol figuran
mtricas estndar del sector para la entropa y las redes Bayesianas.
Prediccin de Columnas Discretas

La forma en que el algoritmo de rboles de decisin de Microsoft genera un rbol para una
columna de prediccin discreta puede mostrarse mediante un histograma. El siguiente
diagrama muestra un histograma que traza una columna de prediccin, Bike Buyers,
con una columna de entrada, Age. El histograma muestra que la edad de una persona
ayuda a distinguir si esa persona comprar una bicicleta.
La correlacin que aparece en el diagrama har que el algoritmo de rboles de decisin de

Microsoft cree un nuevo nodo en el modelo.
Ing. Dante Garca
Pgina 12

A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una estructura en
rbol. El nodo superior del rbol describe el desglose de la columna de prediccin para
la poblacin global de clientes. A medida que el modelo crece, el algoritmo considera
todas las columnas.
Prediccin de Columnas Continuas

Cuando el algoritmo de rboles de decisin de Microsoft genera un rbol basndose en una
columna de prediccin continua, cada nodo contiene una frmula de regresin. Se
produce una divisin en un punto de no linealidad de la frmula de regresin. Por
ejemplo, considere el siguiente diagrama.
El diagrama contiene los datos que pueden modelarse utilizando una sola lnea o dos
lneas conectadas. Sin embargo, una sola lnea realizar un pobre trabajo en la
representacin de los datos. En su lugar, si se usan dos lneas, el modelo har un mejor
trabajo en la aproximacin a los datos. El punto donde las dos lneas se unen es el
punto de no linealidad y donde se dividira un nodo de un modelo de rbol de decisin. Por
ejemplo, el nodo que corresponde al punto de no linealidad del grfico anterior podra
representarse mediante el siguiente diagrama. Las dos ecuaciones representan las
ecuaciones de regresin de las dos lneas.
Datos Requeridos para el modelo

Cuando prepare los datos para su uso en un modelo de rboles de decisin, conviene que
comprenda qu requisitos son imprescindibles para el algoritmo concreto, incluidos el
volumen de datos necesario y la forma en que estos se utilizan.
Los requisitos para un modelo de rboles de decisin son los siguientes:
Una nica columna key. Cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. No estn permitidas las claves compuestas.
Una columna de prediccin. Se requiere al menos una columna de prediccin. Puede
incluir varios atributos de prediccin en un modelo y pueden ser de tipos diferentes, numrico
o discreto. Sin embargo, el incremento del nmero de atributos de prediccin puede
aumentar el tiempo de procesamiento.
Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o
continuas. Aumentar el nmero de atributos de entrada afecta al tiempo de procesamiento.
Ing. Dante Garca
Pgina 13

ALGORITMO DE CLUSTERES DE MICROSOFT

El algoritmo de clsteres de Microsoft es un algoritmo de segmentacin suministrado por
Analysis Services. El algoritmo utiliza tcnicas iterativas para agrupar los casos de un
conjunto de datos dentro de clsteres que contienen caractersticas similares. Estas
agrupaciones son tiles para la exploracin de datos, la identificacin de anomalas en
los datos y la creacin de predicciones.
Los modelos de agrupacin en clsteres identifican las relaciones en un conjunto de
datos que no se podran derivar lgicamente a travs de la observacin casual. Por
ejemplo, puede discernir lgicamente que las personas que se desplazan a sus trabajos en
bicicleta no viven, por lo general, a gran distancia de sus centros de trabajo. Sin embargo, el
algoritmo puede encontrar otras caractersticas que no son evidentes acerca de los
trabajadores que se desplazan en bicicleta. En el siguiente diagrama, el clster A
representa los datos sobre las personas que suelen conducir hasta el trabajo, en tanto
que el clster B representa los datos sobre las personas que van hasta all en bicicleta.
El algoritmo de clsteres se diferencia de otros algoritmos de minera de datos, como el

algoritmo de rboles de decisin de Microsoft, en que no se tiene que designar una
columna de prediccin para generar un modelo de agrupacin en clsteres. El
algoritmo de clsteres entrena el modelo de forma estricta a partir de las relaciones
que existen en los datos y de los clsteres que identifica el algoritmo.
Ejemplo:
Considere un grupo de personas que comparten informacin demogrfica similar y que
adquieren productos similares de la empresa Adventure Works. Este grupo de personas
representa un clster de datos. En una base de datos pueden existir varios clsteres como
stos. Mediante la observacin de las columnas que forman un clster, puede ver con mayor
claridad la forma en que los registros de un conjunto de datos se relacionan entre s.
Cmo funciona el algoritmo?
El algoritmo de clsteres de Microsoft identifica primero las relaciones de un conjunto de
datos y genera una serie de clsteres basndose en ellas. Un grfico de dispersin es
una forma til de representar visualmente el modo en que el algoritmo agrupa los
datos, tal como se muestra en el siguiente diagrama. El grfico de dispersin representa
todos los casos del conjunto de datos; cada caso es un punto del grfico. Los clsteres
agrupan los puntos del grfico e ilustran las relaciones que identifica el algoritmo.
Despus de definir los clsteres, el algoritmo calcula el grado de perfeccin con que los
clsteres representan las agrupaciones de puntos y, a continuacin, intenta volver a
Ing. Dante Garca
Pgina 14

definir las agrupaciones para crear clsteres que representen mejor los datos. El
algoritmo establece una iteracin en este proceso hasta que ya no es posible mejorar
los resultados mediante la redefinicin de los clsteres.
Datos Requeridos para el modelo

Los requisitos para un modelo de agrupacin en clsteres son los siguientes:
Una nica columna key Cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. No estn permitidas las claves compuestas.
Columnas de entrada Cada modelo debe tener al menos una columna de entrada que
contenga los valores que se utilizan para generar los clsteres. Puede tener tantas columnas
de entrada como desee, pero dependiendo del nmero de valores existentes en cada
columna, la adicin de columnas adicionales podra aumentar el tiempo necesario para
entrenar el modelo.
Una columna de prediccin opcional El algoritmo no necesita una columna de prediccin
para generar el modelo, pero puede agregar una columna de prediccin de casi cualquier
tipo de datos. Los valores de la columna de prediccin se pueden tratar como entradas
del modelo de agrupacin en clsteres, o se puede especificar que slo se utilicen
para las predicciones. Por ejemplo, si desea predecir los ingresos del cliente agrupando en
clsteres de acuerdo con datos demogrficos como la regin o la edad, se deben especificar
los ingresos como PredictOnly y agregar todas las dems columnas, como la regin o la
edad, como entradas.
CREAR UNA ESTRUCTURA DEL MODELO DE MINERIA DE DATOS

En este escenario se aplicar la Minera de Datos para crear un escenario de correo directo
(Targeted Mailling) a travs del asistente de Mineria de Datos de Inteligencia de Negocios, con la
finalidad de crear una estructura de minera de datos y un modelo de Mineria de Datos de rbol de
Decisin.
Creando el Escenario de Correo directo
1. En el Explorador de Soluciones, pulsar el botn derecho del mouse en la carpeta Mining
Structures (Estructura de Minera de Datos) y seleccione New Mining Structure (Nueva
estructura de Minera de Datos).
2. El sistema le guiar a travs de un asistente para la minera de datos y hacer clic en el botn
Next (Siguiente).
3. Luego seleccione el mtodo de definicin, compruebe que a partir de una base de datos
relacional o un almacn de datos (From existing relational database or Datawarehouse) se
ha seleccionado y a continuacin hacer clic en el botn Next (Siguiente). Observe la
siguiente pantalla:
Ing. Dante Garca
Pgina 15

4. Seleccione la tcnica de Minera de Datos. Existen varias tcnicas de Minera de datos que
se pueden usar y que son reconocidas por Microsoft a travs del SQL Server. En nuestro
caso seleccione Arboles de Decisin de Microsoft. Recuerde que este modelo para la
prediccin trabaja con atributos discretos y continuos. Observe la siguiente pantalla y no
se olvide de pulsar el botn Next (Siguiente).
5. Seleccione la vista de origen de datos, observe que VistaAdventureWorks2008R2 se ha

seleccionado en forma automtica. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 16

Hacer clic en el botn Browse (Explorar) para ver las tablas de la vista de origen de datos y a
continuacin hacer clic en Cerrar para volver al asistente y no se olvide de pulsar el botn
Next (Siguiente). Observe la siguiente pantalla:
6. En la ventana Especificar Tipos de Tablas active la casilla de verificacin correspondiente a

vTargetMail y a continuacin pulsar el botn Next (Siguiente) Observe la siguiente pantalla:
7. Seleccione los datos para el entrenamiento o las columnas para definir el anlisis.
Compruebe que la casilla de verificacin de la columna clave junto a la columna
CustomerKey est activada. Si la tabla de origen de la vista de origen de datos muestra una
clave, el asistente para la Minera de datos elegir automticamente sa columna como
clave para el modelo y a continuacin pulsar el botn Next (Siguiente) Observe la siguiente
pantalla:
Ing. Dante Garca
Pgina 17

8. Active las casillas de Verificacin Entrada y De Prediccin situadas junto a la columna

BikeBuyer y a continuacin pulsar el botn Next (Siguiente) Observe la siguiente pantalla:
9. Al indicar que una columna es de prediccin, se habilita el botn Suggest (Sugerir). Si hace
clic en Sugerir se abrir el cuadro de dilogo Sugerir Columnas relacionadas que enumera
las columnas que estn ms ligadas a la columna de prediccin. Observe la siguiente
pantalla:
Ing. Dante Garca
Pgina 18

10. En el cuadro de dilogo Sugerir Columnas relacionadas se ordenan los atributos segn la
relacin que tengan con el atributo de prediccin. Las columnas con mayor valor a 0.05 se
seleccionan automticamente para ser incluidas en el modelo. Si las sugerencias le parecen
bien, hacer clic en Aceptar para que las columnas seleccionadas se consideren como
columnas de entrada en el asistente. En nuestro caso cancelar la sugerencia. Vamos a
considerar la nuestra.
11. Active las casillas de verificacin de Entrada para las siguientes columnas:
Age
CommuteDistance
EnglishEducation
EnglishOcupation
FirstName
Gender
GeographyKey
HouseOwnerFlag
LastName
MaritalStatus
NumbersCarsOwned
NumbersChildrenAtHome
Region
TotalChildren
YearlyIncome
12. Observe la siguiente pantalla y pulsar el botn Next (Siguiente):
Ing. Dante Garca
Pgina 19

13. Especificar el contenido y el tipo de datos de las columnas para la estructura de la minera de
datos. Pulsar el botn Detect para detectar las columnas numricas para los valores
discretos o continuos. Observe la siguiente pantalla:
14. Un algoritmo ejecutar los datos numricos de los ejemplos y determinar si las columnas
numricas contiene valores continuos o discretos. Por ejemplo una columna puede contener
informacin salarial, como valores de sueldos actuales que son contnuos o bien integrales
que representen rangos de sueldos como 1=<25,000.00, 2=de 25,000.00 a 50,000.00, que
son discretos.
15. Despus de hacer clic en Detectar compruebe que las entradas de las columnas tipo de
Contenido y Tipo de Datos tengan la configuracin especificada en la siguiente tabla, y no se
olvide de pulsar Next (Siguiente) cuando ha terminado:
Ing. Dante Garca
Pgina 20

Columna
Age
BikeBluyer
CommuteDistance
CustomerKey
EnglishEducation
EnglishOccupation
FirstName
Gender
GeographyKey
HouseOwnerFlag
LastName
MaritalStatus
NumbersCarsOwned
NumbersChildrenAtHome
Region
TotalChildren
YearlyIncome
Tipo de Contenido
Continuous
Discrete
Discrete
Key
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Continuous
Tipo de Datos
Long
Long
Text
Long
Text
Text
Text
Text
Text
Text
Text
Text
Long
Long
Text
Long
Double
Para el campo GeographyKey se le ha cambiado el Tipo de Contenido y Tipo de Datos, pues

las operaciones matemticas que usan estos nmeros carecen de significado.
16. En la pgina Crear Conjunto de Prueba, dejar los datos por defecto y dar clic en Next
(Siguiente). Observe la siguiente pantalla:
17. Defina el nombre de la estructura para la Minera de Datos, en nuestro caso escriba
DMCorreoDirigido y para el modelo de la Minera de Datos escriba TMArbolDecision, luego
active la casilla Permitir obtencin de detalles y dar clic en Finish (Finalizar). Observe la
siguiente pantalla:
Ing. Dante Garca
Pgina 21

18. No se olvide de pulsar el botn Guardar Todo de la barra de herramientas para actualizar
todo el proyecto. Observe la siguiente pantalla:
19. Proceda a procesar el proyecto para que el sistema considere los cambios realizados hasta
el momento, para ello ir a la ventana del Explorador de Soluciones y sobre el proyecto
MineriaDatosDemo, pulsar el botn derecho del mouse y elija la opcin Process (Procesar) y
responda Yes (Si) para iniciar el proceso. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 22

20. Luego pulsar el botn Run (Ejecutar) y observar que el sistema a procesado el proyecto
referente a la Minera de datos. Observe la siguiente pantalla y no se olvide de pulsar el
botn Close (Cerrar) dos veces:
21. Cuando el proyecto ha sido procesado, considerando las herramientas disponibles para la
Minera de Datos se observa lo siguiente:
a. Mining Structure (Estructura de la Minera)
Con esta herramienta puedes visualizar la Estructura de la Minera de Datos creada y
se muestra la vista de datos definida llamada vTargetMail.
Ing. Dante Garca
Pgina 23

b. Mining Models (Modelo de la Minera de Datos)
Muestra que Algoritmo de Minera de Datos usa el proyecto, en nuestro caso: rboles
de Decisin de Microsoft, los campos de entrada y el campo predictivo; en nuestro
caso el campo predictivo es Bike Buyer (Comprador de Bicicleta). Observe la
siguiente pantalla:
c. Mining Models Viewer (Vista del Modelo de la Minera de Datos)

De acuerdo al Algoritmo de Minera de Datos seleccionado, el sistema muestra la
vista de la Minera de Datos, en nuestro caso como hemos seleccionado el rbol de
Decisiones de Microsoft, el Sistema para la variable predictiva Bike Buyer
(Comprador de bicicletas), muestra el rbol en 3 niveles con anlisis de todos los
casos (Total de casos analizados: 12939). De estos hay una probabilidad de
50.79% que no puede comprar una bicicleta (con 6572 casos) y un 49.21% que
si pueden comprar una bicicleta (con 6367 casos).
Observe la leyenda obtenida:
Ing. Dante Garca
Pgina 24

Observe el rbol de Decisin:
Analizando parte del rbol de Decisin, podemos decir que la condiciones formuladas por
el sistema:
Para una edad (Age) >= 72 aos, existen un total de 455 casos analizados, de las
cuales 358 no pueden comprar una bicicleta, 97 si pueden comprar, con
ausencia de 0. Observe el estrato de pantalla del mismo rbol de Decisiones. Esto
se muestra apuntando con el puntero del mouse sobre cada nodo del rbol.
Para una edad (Age) >= 72 aos y con ingresos anuales (Yearly Income)
>=42,000 y <=67,600, existen un total de 129 casos analizados, de las cuales 110
no pueden comprar una bicicleta, 19 si pueden comprar, con ausencia de 0.
Observe el estrato de pantalla del mismo rbol de Decisiones. Esto se muestra
apuntando con el puntero del mouse sobre cada nodo del rbol. Observe el estrato
de pantalla del mismo rbol de Decisiones
Ing. Dante Garca
Pgina 25

Tambin es posible visualizar un Diagrama de Dependencia de Redes donde podemos
saber las variables de entrada que usa la variable de prediccin (Bike Buyer). Observe la
siguiente pantalla:
Tambin es posible obtener una vista genrica del rbol de Decisiones, para ello ir a la lista
de vista (Viewer) y seleccione Microsoft Generic Content Tree Viewer. Observe la siguiente
pantalla:
Ing. Dante Garca
Pgina 26

d. Mining Accuracy Chart (Grfico de Precisin de la Minera de Datos)
Es posible obtener diferentes tipos de grficos con los datos analizados, por ejemplo
un grfico lineal de todos los que si pueden comprar bicicletas. (la variable de
Prediccin debe tomar el valor de 1).Observe la siguiente pantalla:
Seleccione la ficha Lift Chart (Grfico de Elevacin) para generar la grfica lineal de
los que pueden comprar bicicletas. Observe la siguiente pantalla:
Leyenda de la Minera
Grfica de Elevacin
Un grfico de elevacin representa grficamente la mejora que ofrece un modelo de
minera cuando se compara contra un modelo al azar, y mide el cambio en trminos
de una puntuacin de elevacin. Al comparar las puntuaciones de elevacin para
diversas partes del conjunto de datos y para diferentes modelos, se puede
determinar qu modelo es mejor, y qu porcentaje de los casos en el conjunto
de datos se beneficiara de la aplicacin de las predicciones del modelo.
Con un grfico de elevacin, se puede comparar la precisin de las
predicciones de varios modelos que tienen el mismo atributo de prediccin.
Tambin puede evaluar la exactitud de la prediccin, ya sea para un solo resultado
(un nico valor del atributo de prediccin), o para todos los resultados (todos los
valores del atributo especificado).
El siguiente grfico muestra un grfico de elevacin para el modelo de distribucin de
correo directo que se crea en la Minera de Datos. En esta tabla, el atributo
objetivo [Bike Buyer] y el valor de destino es 1, lo que significa que el cliente se
predice para comprar una bicicleta. El grfico de elevacin muestra as la mejora
del modelo proporciona la hora de identificar a estos clientes potenciales.
Ing. Dante Garca
Pgina 27

Al observar la grfica lineal podemos afirmar que la grfica representa el porcentaje

de la poblacin total (eje X) en relacin al porcentaje de la poblacin objetivo (eje
Y). Es decir El eje X de la grfica representa el porcentaje de los datos de
prueba que se utiliza para comparar las predicciones. El eje Y de la grfica
representa el porcentaje de los valores previstos.
La lnea roja representa el Modelo ideal para el rbol de Decisin con un porcentaje
de poblacin objetivo de 100%
La lnea verde representa al modelo del rbol de Decisin con una puntuacin de
0.84, una poblacin objetivo de 69.08% y predecir la probabilidad en 60.39%.
La lnea azul representa los resultados de adivinar al azar, y es la base sobre la
cual evaluar la elevacin con una poblacin objetivo del 50% (49.50% Aprox.).
Ejemplo:
En la leyenda de la Minera de Datos contiene los valores reales en cualquier
punto de las curvas. Puede cambiar el lugar en el que se mide haciendo clic en la
barra gris vertical y moverlo. En el grfico, mueva la lnea gris a 30 por ciento,
porque este es el punto en el que tanto los modelos filtrados y sin filtrar parecen ser
ms eficaz, y despus de este punto la elevacin disminuye. Observe la grfica:
Ing. Dante Garca
Pgina 28

Observando la leyenda:
La leyenda de la Minera tambin contiene partituras y estadsticas que ayudan a

interpretar el grfico. Estos resultados representan la precisin del modelo en la lnea
de color gris, que en este escenario es posicionada para incluir 30 por ciento de
los casos generales de prueba.
A partir de estos resultados, se puede ver que, cuando se mide a 30 por ciento
(29.70% aprox.) de todos los casos, el correo destino del 30%, puede predecir
el comportamiento de compra de bicicletas de 44.67% de la poblacin objetivo,
con una probabilidad del 63.80%. En otras palabras, si usted envi un correo
dirigido a slo el 30 por ciento de los clientes en su base de datos, se podra
llegar a un poco menos de la mitad de su pblico objetivo. Si ha utilizado el
modelo filtrado, podra obtener resultados ligeramente mejores, y llegar a alrededor
del 51 por ciento de sus clientes objetivo.
El valor para predecir la probabilidad representa el umbral requerido para
incluir un cliente entre los "propensos a comprar". Para cada caso, el modelo
estima la exactitud de cada prediccin y tiendas que valoran, que se puede utilizar
para filtrar o para dirigirse a los clientes. En nuestro caso el envo de correo al 30%
de la poblacin objetivo nos dara una probabilidad del 63.80% en comprar
bicicletas.
El eje X es el mismo que en el grfico con la columna de prediccin especificada,
pero el eje Y ahora representa el porcentaje de predicciones que son correctas.
Por lo tanto, la lnea ideal es la lnea diagonal, lo que demuestra que en 50 por
ciento de los datos, el modelo predice correctamente 50% de los casos, el
mximo que se puede esperar.
Cambiar el Tipo de Grfico
Tambin es posible cambiar el tipo de grfico a la opcin Profit Chart (Grfico de
Beneficios). Al hacerlo, se muestra la siguiente ventana:
Ing. Dante Garca
Pgina 29

Asumiendo una poblacin de 50,000 personas, con un Costo Fijo de 5,000, un Costo
Individual de 3 e ingresos por persona de 15, se obtiene la siguiente grfica de
beneficios:
Con una poblacin objetivo del 50%, se obtiene un beneficio de 178,340.90 con
una probabilidad del 60.39%. Observe la leyenda:
Matriz de Clasificacin
Una matriz de clasificacin ordena todos los casos del modelo en categoras,
determinando si el valor de prediccin coincide con el valor real. A continuacin,
se cuentan todos los casos de cada categora y los totales se muestran en la matriz.
La matriz de clasificacin es una herramienta estndar de evaluacin de
modelos estadsticos a la que a veces se denomina matriz de confusin.
El grfico que se crea cuando se elige la opcin Matriz de clasificacin
compara los valores reales con los valores de prediccin para cada estado de
prediccin especificado. Las filas de la matriz representan los valores de
prediccin para el modelo, mientras que las columnas representan los valores
reales. Las categoras usadas en el anlisis son falso positivo, verdadero positivo,
falso negativo y verdadero negativo.
Una matriz de clasificacin es una herramienta importante para evaluar los
resultados de la prediccin, ya que hace que resulte fcil entender y explicar
los efectos de las predicciones errneas. Al ver la cantidad y los porcentajes en
cada celda de la matriz, podr saber rpidamente en cuntas ocasiones ha sido
exacta la prediccin del modelo.
Ing. Dante Garca
Pgina 30

En nuestro caso la Matriz de Clasificacin tiene los siguientes datos:
Interpretacin:
Ing. Dante Garca
En la tabla anterior se muestra la Matriz de Clasificacin para el modelo

TM_DecisionTree. Recuerde que para este atributo de prediccin, 0
significa No y 1 significa S.
La primera celda de resultados, que contiene el valor 1802, indica el

nmero de verdaderos positivos para el valor 0. Dado que 0 indica que
el cliente no compr una bicicleta, esta estadstica indica que el modelo
predijo el valor correcto para quienes no compraron bicicleta en 1802
casos.
La celda situada directamente debajo de esa, que contiene el valor 978,

indica el nmero de falsos positivos, o nmero de veces que el modelo
predijo que alguien comprara una bicicleta cuando en realidad no lo
hizo.
La celda que contiene el valor 717 indica el nmero de falsos positivos

para el valor 1. Dado que 1 significa que el cliente compr una bicicleta,
esta estadstica indica que, en 717 casos, el modelo predijo que alguien
no comprara una bicicleta cuando s lo hizo.
Finalmente, la celda que contiene el valor 2048 indica el nmero de

verdaderos positivos para el valor de destino 1. En otras palabras, en
2048 casos el modelo predijo correctamente que alguien comprara una
bicicleta.
Sumando los valores de las celdas contiguas diagonalmente, se puede

determinar la exactitud total del modelo. Una diagonal indica el nmero
total de predicciones exactas y la otra indica el nmero total de
predicciones errneas.
Pgina 31

Modificar el modelo de Envo de Correo
La estructura de la Minera de Datos que se cre anteriormente contiene un modelo de minera de
datos individual que se basa en el algoritmo de rboles de Decisin de Microsoft. En este caso se
proceder a definir dos modelos adicionales mediante la Ficha Modelos de Minera de datos del
Diseador de Minera de Datos. En este caso aplicaremos el modelo Naive Bayes y el modelo
Clustering.
Crear el Modelo de Minera de Datos usando el Modelo Clustering
1. Cambie a la Ficha Modelos de Minera de Datos del Diseador de Minera de Datos. Active
el Explorador de Soluciones, ir a la Carpeta Mining Structures y hacer doble clic en la
estructura de la minera llamada DMCorreoDirigido.dmm. Luego hacer clic en Mining Models.
Observe que el diseador muestra dos columnas: una para la estructura de la Minera de
Datos y otra para el modelo de Minera de Datos inicial que se cre anteriormente.
2. Ir a la columna Structure (Estructura), pulsar el botn derecho del mouse y elija la opcin
Nuevo Modelo de Minera de Datos. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 32

3. Esto permite abrir el Cuadro de Dilogo para definir el nombre del modelo. En este caso para
el nombre del modelo escriba TM_Clustering.
4. En Nombre del Algoritmo seleccione Clusteres de Microsoft. Observe la siguiente pantalla y
no se olvide de pulsar el botn Aceptar (OK):
5. En el Modelo de Minera de Datos aparece un nuevo modelo creado por el Algoritmo de

Clsteres de Microsoft. Este algoritmo puede agrupar en clster y predecir atributos
continuos y discretos. Observe la siguiente pantalla:
Crear el Modelo de Minera de Datos usando el Modelo Naive Bayes

1. Cambie a la Ficha Modelos de Minera de Datos del Diseador de Minera de Datos. Active
el Explorador de Soluciones, ir a la Carpeta Mining Structures y hacer doble clic en la
estructura de la minera llamada DMCorreoDirigido.dmm.
2. Ir a la columna Structure (Estructura), pulsar el botn derecho del mouse y elija la opcin
Nuevo Modelo de Minera de Datos.
3. Esto permite abrir el Cuadro de Dilogo para definir el nombre del modelo. En este caso para
el nombre del modelo escriba TM_NaiveBayes.
4. En Nombre del Algoritmo seleccione Microsoft Naive Bayes. Observe la siguiente pantalla y
no se olvide de pulsar el botn Aceptar (OK):
Ing. Dante Garca
Pgina 33


Bayes Naive de Microsoft. Este algoritmo al crearlo muestra un mensaje explicando que no
admite columnas continuas. Para trabajar con estas columnas el modelo Bayes Naive debe
discretizarlas. En nuestro caso hacer clic en Yes (Si) para confirmar el mensaje y continuar

Bayes Naive. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 34

Procesar los Modelos de Minera de Datos
1. En el men Debug (Depurar) seleccione Start Debugging (Iniciar Depuracin) o presionar F5.
2. La base de datos Analysis Services se implementa en el equipo servidor y los modelos de

Minera de Datos se procesan. Observa las siguientes pantallas:
Ing. Dante Garca
Pgina 35

3. Si la base de datos ya se ha implementado en el equipo servidor, puede procesar slo los
modelos de Minera de Datos.
Procesar los Modelos de Minera de Datos cuando el proyecto ya se ha implementado
1. En el men Mining Model (Modelo de Minera de Datos) elija la opcin Process para procesar
todos los modelos y pulsar el botn Run (Ejecutar).
2. Se abre el cuadro de dilogo Progreso del Proceso para mostrar informacin acerca del
procesamiento del modelo. Este proceso puede llevar algn tiempo dependiendo del equipo.
Observe la siguiente pantalla, no se preocupe por la generacin de los warnings. No se
olvide de pulsar el botn Close (Cerrar) en ambos casos:
Explorar los Modelos de la Minera de Datos

1. Una vez que se procesen los modelos de su proyecto, podr verlos usando la ficha Visor de
Modelos de Minera de Datos del Diseador de Minera de Datos. Puede usar la lista
Modelos de Minera de Datos ubicada en la parte superior de la ficha, para examinar los
modelos individuales en la estructura de Minera de Datos. Observe las siguientes pantallas:
Modelo de Minera de Datos rbol de Decisin
Ing. Dante Garca
Pgina 36

Modelo de Minera de Datos Clustering de Microsoft
Modelo de Minera de Datos Naive Bayes
Trabajando con el Modelo de Minera de Datos rbol de Decisin

Cuando cambie a la ficha Visor de Modelos de Minera de Datos en el Diseador de Minera
de Datos para el proyecto, el diseador se abre con el modelo de minera de datos de correo
directo que es el primero de la estructura. Cada algoritmo utilizado para crear un modelo en
Analysis Services aporta diferentes resultados, por lo tanto se ofrece un visor independiente
para cada algoritmo.
Para el caso del algoritmo de rbol de Decisin, el Visor tiene dos fichas: un para el rbol de
Decisin y la otra para la Red de Dependencias.
Ing. Dante Garca
Pgina 37

rbol de Decisin
1. En la ficha rbol de Decisin puede examinar los tres modelos de rbol que componen un
modelo de Minera de Datos. Dado que el modelo de correo directo incluido en este proyecto
tiene una sola variable de prediccin (Bike Buyer), slo hay un rbol para ver. Si hubiera ms
rboles, se podra usar el cuadro rbol para elegir uno diferente. Observe la siguiente
pantalla:
2. De manera predeterminada el Visor de rboles de Microsoft slo muestra los primeros tres
niveles del rbol, si el rbol contiene menos de tres niveles, el visor mostrar solo los niveles
existentes. Puede ver ms niveles usando el control deslizante Mostrar nivel o las lista
Expansin predeterminada. Observe la siguiente pantalla:
Modificar el rbol
1. Deslice Mostrar nivel hasta 5 (la Lista Default Expansion debe estar en 5 niveles)
2. Cambiar la lista fondo a 1
Ing. Dante Garca
Pgina 38

3. Al cambiar la configuracin de Fondo, podr ver rpidamente el nmero de escenarios para
Bike Buyer que son igual a 1 y que existen en cada nodo. Cuando ms oscuro sea el
sombreado del nodo ms escenarios incluye. Observe la siguiente pantalla:
Informacin de los Nodos del rbol de Decisin

1. La informacin necesaria para alcanzar el nodo desde el nodo anterior. Puede ver la ruta
completa del nodo en la Leyenda de Minera de datos o deteniendo el puntero sobre un
nodo para ver un recuadro informativo.
2. Un histograma que describe la distribucin de estados de la columna de prediccin por orden

de popularidad. Puede decir cuntos estados aparecen en el histograma mediante el control
de histogramas.
Ing. Dante Garca
Pgina 39

3. La concentracin de escenarios, si el estado del atributo de prediccin se ha especificado en

el control Fondo.
4. Puede ver los escenarios de entrenamiento que cada nodo admite haciendo clic con el botn
secundario en el nodo y a continuacin, seleccionando (Drill Through) Obtener Detalles. De
este men elija la opcin Model Columns Only. Observe la siguiente pantalla:
Red de Dependencias
Esta ficha muestra las relaciones entre los atributos que contribuyen a la capacidad de prediccin del
modelo de Minera de Datos. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 40

1. El nodo central para la Red de Dependencia, Bike Buyer; representa el atributo de prediccin
del modelo de Minera de Datos. Cada nodo adyacente representa un atributo que afecta el
resultado del atributo de prediccin.
2. Puede usar el control deslizante situado en la parte izquierda de la ficha para controlar la
intensidad de los vnculos que se muestran. Si desplaza el control deslizante hacia abajo,
solo se mostrarn los vnculos de mayor intensidad.
3. Haga clic en un nodo del a red, y a continuacin, consulte la leyenda de color situada en la
parte inferior de la ficha para ver cules son los nodos predichos por el nodo seleccionado o
los nodos que predicen al nodo seleccionado. Observe la siguiente pantallas:
Ing. Dante Garca
Pgina 41

El Modelo Microsoft Clustering

1. Utilice la lista Modelo de minera de Datos de la parte superior de la ficha Visor de Modelos
de Minera de Datos para cambiar al Modelo TM_Clustering.
2. El Visor de este modelo, el Visor de Clsteres de Microsoft contiene cuatro fichas: Diagrama
del Clster, perfiles del Clster, Caractersticas del Clster y Definicin del Clster. De
forma predeterminada el Visor muestra la ficha Diagrama del Clster cuando se abre por
primera vez. Observe la siguiente pantalla:
Diagrama del Clster

1. La ficha Diagrama del clster muestra todos los clsteres de un modelo de minera de
datos. Aqu puede comprobar la cantidad de agrupaciones que se encontraron en el
conjunto de datos y lo cerca o lejos que se encuentran entre s.
2. Este diagrama permite explorar las relaciones entre los clsteres detectados por el algoritmo.
La lnea entre los clsteres representa la proximidad y aparecen sombreadas en
funcin de la similitud entre los clsteres.
Ing. Dante Garca
Pgina 42

3. El color de cada clster representa la frecuencia de la variable y el estado del clster.
4. Puede seleccionar la variable y el estado en los cuadros Variable de Sombreado y
Estado de la parte superior del nodo.
5. La variable predeterminada es llenada, pero puede cambiarla a cualquier atributo del modelo
con el fin de determinar los clsteres que contienen miembros con los atributos que desea.
6. Si usa el control deslizante situado en la parte izquierda de la red, puede filtrar los
vnculos de menor intensidad y encontrar los clsteres con las relaciones ms prximas
7. Por Ejemplo: Establecer la variable de sombreado en Age (Edad) y Estado Muy Alta
(>=63). Observe la siguiente pantalla:
8. Cuanto ms oscuro sea el sombreado, mayor ser la proporcin del atributo de destino y la
distribucin de valores para se clster.
9. Busque el clster con el sombreado ms oscuro cuando la Variable de sombreado se
establezca en Edad >65. Mantenga el mouse sobre el clster.
10. El valor que aparece ahora en la ventana de informacin sobre herramientas muestra la
poblacin de clientes en este clster con ms de 65 aos de edad.
11. Haga clic con el botn secundario en este clster y seleccione Cambiar nombre de
clster. Escriba un nombre nuevo que sea descriptivo, como Ms de 65. El nuevo nombre
se guarda con el modelo en el servidor y se puede usar para identificar el clster en las otras
vistas de agrupacin en clsteres.
12. Otro ejemplo: Establecer la variable de sombreado en Bike Buyer y Estado en 1,
observar que el clster 9 es el que contiene la mayor densidad de compradores de
bicicletas (Bike Buyer) y que la relacin ms fuerte existen entre el clster 1 y el clster
6.
Perfiles del Clster
1. La pestaa Perfiles del clster le permite comparar la composicin de todos los
clsteres de un vistazo. Es un buen punto de partida cuando se empieza a familiarizar con
el modelo. Esta vista ser tambin til ms adelante, si ha estado explorando un clster
determinado y decide que necesita buscar clsteres relacionados.
Ing. Dante Garca
Pgina 43

2. Perfiles del clster tambin ofrece buena informacin general sobre las diferencias
entre clsteres. Por consiguiente, se recomienda usar esta vista para asignar a cada
clster un nombre descriptivo.
3. La ficha perfiles del clster proporciona una vista global del modelo TM_Clustering.
Como podr ver el visor, la ficha perfiles del clster contiene una columna por cada clster
del modelo.
4. La primera columna enumera los atributos asociados a un clster como mnimo. El
resto del visor contiene la distribucin de estados de un atributo por cada clster.
5.
La distribucin de una variable discreta se muestra como una barra coloreada y el

nmero mximo de barras aparece en la lista Barras de Histograma.
6. Los atributos continuos se muestran con un diagrama de rombo que representa la

desviacin media y estndar en cada clster.
7. Para familiarizarse con esta vista realizar lo siguiente:
a. Haga clic en la celda con los empleos, en la columna Estados, para ver la lista de
todos los valores para empleos.
b. Ahora desplace el cursor sobre Empleos en los perfiles del clster.
c. La informacin sobre herramientas muestra la distribucin de los empleos en ese
clster. Observe la siguiente pantalla:
d. Observe que, en algunos clsteres (como el que est en el grfico), la lista de

empleos no est completa y algunos empleos se reemplazan con la etiqueta
Otros.
e. Esto es as por motivos de diseo, ya que podra resultar difcil ver las diferencias
entre muchas barras pequeas en un histograma. De forma predeterminada,
solamente se conservan las barras de mayor importancia y las restantes se
agrupan en un depsito gris denominado Otros.
f.
Para cambiar el nmero de barras que se pueden ver en un histograma, se usa la

opcin Barras de histograma.
g. Observe que la columna Edad tiene un aspecto diferente al resto. Haga clic en el
rombo del grfico que se usa para representar la edad.
h. La columna Edad inicialmente solo contena nmeros continuos. El algoritmo de
clsteres requiere valores discretos, de modo que agrup los valores numricos
Ing. Dante Garca
Pgina 44

de la columna Edad en un nmero limitado de grupos de edad, en funcin de la
distribucin de valores.
i.
Haga clic en uno de los grficos de rombo en un perfil del clster.
j.
Estos grficos de rombo se muestran nicamente cuando los datos de origen

usan valores numricos continuos. Los grficos de rombo proporcionan
algunas estadsticas descriptivas de utilidad, lo cual incluye la media y la
desviacin estndar para ese valor en cada clster:
i. La lnea del grfico de rombo representa el intervalo de valores del
atributo. Los valores tambin se muestran en la columna Estados a la
izquierda del grfico Perfiles.
ii. El centro del rombo se encuentra en la media del nodo.
iii. El ancho del rombo representa la varianza del atributo en ese nodo. Por
tanto, un rombo ms estrecho indica que el nodo puede crear una
prediccin ms exacta.
k. Para crear ms espacio en el grfico, haga clic con el botn secundario en un

clster que no necesite ver de forma inmediata y seleccione Ocultar columna.
Esto no elimina la columna del modelo, tan solo la contrae temporalmente.
l.
Para ver los clsteres que ha ocultado, puede hacer clic y arrastrar el borde de la
columna o seleccionar el nombre del clster en la lista Ms clsteres.
m. Descienda por la lista de atributos hasta que encuentre Bike Buyer y, despus,
busque el clster con el porcentaje ms alto de los valores S.
n. Haga clic con el botn secundario en el encabezado de la columna para el
clster al que desea cambiar el nombre, seleccione Cambiar nombre de clster
y escriba Bike Buyers.
o. El nuevo nombre del clster se mantiene en todas las vistas y en el servidor hasta
que se vuelva a procesar el modelo. Observe la siguiente pantalla:
Sugerencias
1. Haga clic en un encabezado de columna para ordenar los atributos por orden de
importancia respecto a ese clster.
2. Arrastre las columnas para volver a ordenarlas en el visor.
Ing. Dante Garca
Pgina 45

3. Haga clic en cualquier celda del grfico de perfiles para ver estadsticas detalladas en
la Leyenda de minera de datos.
4. Haga clic con el botn secundario en una celda y seleccione Obtener detalles de
columnas del modelo para generar los datos subyacentes en una nueva hoja de
clculo de Excel.
5. Haga clic con el botn secundario en el encabezado de la columna del clster y
seleccione Obtener detalles de datos de la estructura para obtener informacin detallada
sobre los miembros del clster que no se incluy en el modelo.
6. Por ejemplo, si est creando perfiles de clientes, puede que deje la informacin de contacto
en datos subyacentes (la estructura de minera de datos) pero sin incluirla en el modelo
porque no es de utilidad para el anlisis. Sin embargo, una vez se hayan asignado los
clientes a los clsteres, podr ver los datos detallados mediante la obtencin de detalles.
Caractersticas del Clster
1. Con la vista Caractersticas de clster, podr realizar una exploracin profunda de un
solo clster, para buscar los atributos que mejor definen a este grupo de datos.
2. Seleccione el clster Ms de 65 en la lista Clster.
3. Tras seleccionar un clster, puede ver detalladamente las caractersticas que lo componen.
4. Los atributos que contiene el clster se enumeran en las columnas Variables; el estado
del atributo se indica en la columna Valores.
5. Los estados de los atributos se enumeran por orden de importancia, junto con su
probabilidad en este clster, lo cual se representa con una barra coloreada en la columna
Probabilidad. Observe la siguiente pantalla:
6. Haga clic en la columna Variables para ordenar por atributo.

7. Al cambiar la variable para ordenar, podr ver con ms facilidad cmo se distribuyen en el
grupo los valores de variables tales como ingresos o propiedad de vehculo.
8. Haga clic en Copiar a Excel.
9. Se agrega una nueva hoja de clculo al libro que contiene las caractersticas del clster
seleccionado.
10. Ahora elija otro clster en la lista, Bike Buyers.
11. Haga clic en Copiar a Excel.
Ing. Dante Garca
Pgina 46

12. Tenga en cuenta que el nuevo grfico de caractersticas del clster se ha agregado en
su propia hoja de clculo. Puede moverlo a la misma hoja de clculo que el otro perfil para
hacer ms sencilla su comparacin, lo cual lo har en el paso siguiente.
Sugerencias
1. Observe que la caracterstica principal del cliente en el clster Ms de 65 es que no
compran su producto. Si quiere saber por qu es as, puede examinar los clsteres y
comparar los grupos o bien, puede crear un modelo relacionado con un algoritmo que sea
bueno para examinar las causas y los resultados, como un modelo de rbol de decisin o un
modelo Bayes naive.
2. Si desea obtener una lista completa de atributos y de probabilidades para este clster
(o para todos los clsteres) puede crear una consulta.
Distincin del Clster
1. Puede utilizar la pestaa Distincin del clster para comparar los atributos de dos
clsteres o bien, entre un clster y el resto de casos en el conjunto de datos.
2. Para resaltar las caractersticas de este visor, lo compararemos con las tablas de
simultaneidad de Excel que haba creado segn la vista Caractersticas del clster.
3. Utilice las listas Clster 1 y Clster 2 para seleccionar los clsteres que desea comparar.
a. Para Clster 1, seleccione Ms de 65.
b. Para Clster 2, seleccione Bike Buyers.
4. La comparacin debera tener una apariencia similar a la del grfico siguiente:
5. Observe que, en segundo plano, el visor Distincin del clster enva consultas
complejas al servidor de minera de datos para extraer los atributos que son ms
importantes a la hora de diferenciar dos grupos, lo cual facilita la labor de comparar dos
conjuntos de clientes.
6. Haga clic en una de las columnas Favorece.
7. La barra a la derecha de la lista de atributos y valores muestra las caractersticas o valores
que son ms importantes como rasgos diferenciadores del clster seleccionado.
8. Ahora compare las listas de Excel.
9. Observe las listas de Excel:
Ing. Dante Garca
Pgina 47

Dado que las estadsticas subyacentes que se usaron para generar la imagen en el
visor se guardan en Excel como tablas, puede filtrar y ordenar, y ver los valores reales de
probabilidad.
Adems de utilizar Excel, se recomienda que pruebe el visor de clsteres para Visio, el cual
permite no solo ver los puntos de datos, sino tambin modificar y mejorar ampliamente el
grfico.
El Modelo Microsoft Bayes Naive
Cuando abre un modelo Bayes naive con Examinar, el modelo se muestra en un visor interactivo de
cuatro paneles diferentes. El visor se usa para explorar las correlaciones y obtener informacin
sobre el modelo y los datos subyacentes.
Red de dependencias
Perfiles del atributo
Caractersticas del atributo
Distincin del atributo
Explorar el Modelo
1. El visor tiene por objeto ayudarle a explorar la interaccin entre los atributos de entrada y
los atributos de salida (las entradas y variables dependientes) que se detectaron mediante
el modelo Bayes naive de Microsoft.
2. Si desea experimentar con el visor Bayes naive, use el asistente para Asistente para
clasificacin (Complementos de minera de datos para Excel) en la cinta de opciones de
Minera de datos, haga clic en Opciones avanzadas y cambie el algoritmo para poder usar el
algoritmo Bayes naive.
3. Para estos ejemplos, se usan los datos de origen y se agrupa la columna Ingresos
anuales en cinco grupos de ingresos, desde Muy bajo a Muy alto. Posteriormente, el
modelo Bayes naive analiza los factores en correlacin con cada categora de
ingresos.
Red de Dependencias
La primera ventana que se usar es Red de dependencias. Muestra de un solo vistazo las
entradas que estn estrechamente correlacionadas con el resultado seleccionado. Observe la
siguiente pantalla:
Ing. Dante Garca
Pgina 48

Explorar la Red de Dependencias

1. Primero, haga clic en el resultado de destino Ingresos anuales, que se representa como
un nodo en el grfico.
2. Los nodos resaltados que rodean la variable de destino son los que se correlacionan
estadsticamente con este resultado. Use la leyenda en la parte inferior del visor para
entender la naturaleza de la relacin.
3. Haga clic en el control deslizante a la izquierda del visor y arrstrelo hacia abajo.
4. Este control filtra las variables independientes segn la importancia de las
dependencias. Cuando desplace el control deslizante hacia abajo, solamente
permanecen en el grfico los vnculos de mayor importancia.
5. Una vez haya filtrado el grfico, haga clic en el botn Copiar vista del grfico. A
continuacin, seleccione una hoja de clculo de Excel y presione Ctrl+V.
6. Esta opcin copia la vista seleccionada, incluidos los filtros y lo que se ha resaltado.
Perfiles del Atributo
Las ventanas Perfiles del atributo proporcionan una indicacin visual sobre cmo el resto de
variables se relacionan con los resultados individuales.
Explorar los Perfiles
1. Para ocultar algunos valores de forma que pueda comparar los resultados con mayor
facilidad, haga clic en el encabezado de columna y arrstrelo a otra columna. Observe la
siguiente pantalla:
Ing. Dante Garca
Pgina 49

2. Haga clic en cualquier celda para ver la distribucin de los valores en la Leyenda de
minera de datos.
3. Como los atributos asociados a los distintos resultados se muestran visualmente, es
fcil identificar correlaciones interesantes, como por ejemplo, la forma en que se distribuyen
los ingresos por regin.
4. Para obtener los datos subyacentes de esta vista, haga clic en Copiar a Excel. Una
tabla se genera en una hoja de clculo nueva que muestra las correlaciones entre atributos y
resultados individuales. En esta tabla de Excel puede ocultar o filtrar columnas fcilmente.
Caractersticas del Atributo
La vista Caractersticas del atributo resulta til para efectuar un examen en detalle de una
variable de resultados en particular y de los factores que contribuyen a ello. Observe la
siguiente pantalla:
Ing. Dante Garca
Pgina 50

Explorar las Caractersticas del Atributo
1. Haga clic en Valor y seleccione un elemento de Valor.
2. Al seleccionar un resultado de destino, el grfico se actualiza para mostrar los factores
ms estrechamente asociados a los resultados, ordenados segn su importancia.
3. Tenga en cuenta que si crea un modelo usando la opcin Analizar influenciadores clave
(Herramientas de anlisis de tabla para Excel), podr crear modelos que tengan ms de
un atributo de prediccin. Sin embargo, el resto de los asistentes de los complementos de
minera de datos le limitarn a un solo atributo de prediccin.
4. Haga clic en Copiar a Excel para crear una tabla en una nueva hoja de clculo donde se
enumeren las puntuaciones para todos los atributos relacionados con el resultado
seleccionado de destino.
Distincin del Atributo
La vista Distincin del atributo le ayuda a comparar dos resultados o un resultado frente al
resto de resultados. Observe la siguiente pantalla:
Explorar la Distincin del Atributo

1. Utilice los controles Valor 1 y Valor 2 para seleccionar los resultados que desea
comparar.
2. Por ejemplo, en este modelo haba ciertos atributos interesantes en el grupo de salario bajo,
por lo que elegimos el grupo con los ingresos ms bajos de la primera lista
desplegable y elegimos Todos los otros estados en la segunda lista desplegable.
3. Los atributos se ordenan por orden de importancia (se calcula en funcin de los datos de
entrenamiento). Por tanto, el empleo es el factor ms estrechamente correlacionado con
los ingresos (al menos para el primer grupo de destino).
4. Para ver las cifras exactas, haga clic en la barra de color y consulte la Leyenda de
minera de datos.
5. Observe que los ingresos ms bajos tambin se correlacionan con la regin Europa.
6. El modelo de Bayes naive no admite la obtencin de detalles; sin embargo, si quisiera
investigar los casos asociados a este grupo de resultados, puede utilizar una consulta.
Ing. Dante Garca
Pgina 51

Algoritmo de Asociacin de Microsoft
Este algoritmo de Microsoft es un algoritmo de asociacin suministrado por Analysis Services,
til para los motores de recomendacin. Un motor de recomendacin recomienda productos a
los clientes basndose en los elementos que ya han adquirido o en los que tienen inters. El
algoritmo de asociacin de Microsoft tambin resulta til para el anlisis de la cesta de compra.
Los modelos de asociacin se generan basndose en conjuntos de datos que contienen
identificadores para casos individuales y para los elementos que contienen los casos. Un grupo de
elementos de un caso se denomina un conjunto de elementos. Un modelo de asociacin se
compone de una serie de conjuntos de elementos y de las reglas que describen cmo estos
elementos se agrupan dentro de los casos. Las reglas que el algoritmo identifica pueden
utilizarse para predecir las probables compras de un cliente en el futuro, basndose en los
elementos existentes en la cesta de compra actual del cliente. El siguiente diagrama muestra
una serie de reglas en un conjunto de elementos.
Como muestra el diagrama, el algoritmo de asociacin de Microsoft puede encontrar potencialmente

muchas reglas dentro de un conjunto de datos. El algoritmo usa dos parmetros, soporte y
probabilidad, para describir los conjuntos de elementos y las reglas que genera. Por ejemplo, si
X e Y representan dos elementos que podran estar en un carro de la compra, el parmetro de
soporte es el nmero de casos en el conjunto de datos que contienen la combinacin de elementos,
X e Y. Utilizando el parmetro de soporte en combinacin con los parmetros definidos por el
usuario, MINIMUM_SUPPORT y MAXIMUM_SUPPORT, el algoritmo controla el nmero de
conjuntos de elementos que se generan. El parmetro de probabilidad, tambin denominado
confianza, representa la fraccin de casos en el conjunto de datos que contienen X y que
tambin contienen Y. Utilizando el parmetro de probabilidad en combinacin con el
parmetro MINIMUM_PROBABILITY, el algoritmo controla el nmero de reglas que se generan.
Cmo Funciona el Algoritmo
El algoritmo de asociacin de Microsoft recorre un conjunto de datos para hallar elementos

que aparezcan juntos en un caso.
A continuacin, agrupa en conjuntos de elementos todos los elementos asociados que

aparecen, como mnimo, en el nmero de casos especificado en el parmetro
MINIMUM_SUPPORT.
Por ejemplo, un conjunto de elementos puede ser "Mountain 200=Existing, Sport

100=Existing" y tener un soporte de 710.
El algoritmo generar reglas a partir de los conjuntos de elementos. Estas reglas se usan
para predecir la presencia de un elemento en la base de datos, basndose en la presencia
de otros elementos especficos que el algoritmo ha identificado como importantes.
Por ejemplo, una regla puede ser "if Touring 1000=existing and Road bottle cage=existing,
then Water bottle=existing", y puede tener una probabilidad de 0.812.
En este ejemplo, el algoritmo identifica que la presencia en la cesta del neumtico Touring
1000 y del soporte de la botella de agua predice que probablemente la cesta de compra
incluir tambin una botella de agua.
Ing. Dante Garca
Pgina 52

Crear una Estructura de Minera de Datos de Asociacin
1. En el Explorador de soluciones en SQL Server Data Tools (SSDT), haga clic con el botn
secundario en Estructuras de minera de datos y seleccione Nueva estructura de minera
de datos para abrir el Asistente para minera de datos.
2. En la pgina de inicio del Asistente para minera de datos, haga clic en Siguiente.
3. En la pgina Seleccionar el mtodo de definicin, compruebe que la opcin A partir de
una base de datos relacional o del almacenamiento de datos se ha seleccionado y, a
continuacin, haga clic en Siguiente.
4. En la pgina Crear la estructura de minera de datos, en Qu tcnica de minera de
datos desea utilizar?, seleccione Reglas de asociacin de Microsoft en la lista y, a
continuacin, haga clic en Siguiente. Aparecer la pgina Seleccionar vista del origen de
datos.
5. Seleccione Orders en Vistas del origen de datos disponibles y, a continuacin, haga clic
en Siguiente.
6. En la pgina Especificar tipos de tablas, en la fila correspondiente a la tabla
vAssocSeqLineItems, active la casilla Anidada y, en la fila de la tabla anidada
vAssocSeqOrders, active la casilla Caso. Haga clic en Siguiente.
7. En la pgina Especificar los datos de aprendizaje, desactive las casillas que estn
activadas, si hay alguna. Establezca la clave para la tabla de casos, vAssocSeqOrders,
activando la casilla Clave junto a OrderNumber.
Dado que el propsito del anlisis de la cesta de la compra es determinar qu productos
estn incluidos en una transaccin nica, no tiene que usar el campoCustomerKey.
8. Establezca la clave para la tabla anidada, vAssocSeqLineItems, activando la
casilla Clave junto a Model. La casilla Entrada se activa tambin automticamente al hacer
esto.Active igualmente la casilla De prediccin correspondiente a Modelo.
En un modelo de cesta de la compra, no se preocupa de la secuencia de productos de la
cesta de la compra y, por consiguiente, no debera incluir LineNumber como clave de la
tabla anidada. Se usara LineNumber como clave solo en un modelo en el que la secuencia
fuera importante.
9. Active la casilla situada a la izquierda de IncomeGroup y Region, pero no realice ninguna
otra seleccin. Al activar la columna situada ms a la izquierda se agregan las columnas a la
estructura como referencia posterior, pero las columnas no se usarn en el modelo. Las
selecciones tendrn la apariencia siguiente:
Ing. Dante Garca
Pgina 53

10. Haga clic en Siguiente.
11. En la pgina Especificar el contenido y el tipo de datos de las columnas, revise las
selecciones, que deberan mostrarse en la tabla siguiente, y a continuacin haga clic
en Siguiente.
12. En la pgina Crear conjunto de pruebas, el valor predeterminado para la

opcin Porcentaje de datos para pruebas es el 30 por ciento. Cmbielo a 0. Haga clic en
Siguiente.
Analysis Services proporciona varios grficos para medir la precisin del modelo. Sin
embargo, algunos tipos de grficos de precisin, como el grfico de elevacin y el
informe de validacin cruzada, estn diseados para la clasificacin y la estimacin. No
se pueden usar en la prediccin asociativa.
13. En la pgina Finalizacin del asistente, en Nombre de la estructura de minera de datos,
escriba Association.
14. En Nombre del modelo de minera de datos, escriba Asociacin.
15. Seleccione la opcin Permitir obtencin de detalles y, a continuacin, haga clic
en Finalizar. El Diseador de minera de datos se abre para mostrar la estructura de minera
de datos Association que acaba de crear.
Ing. Dante Garca
Pgina 54

Minera de datos con Excel usando SQL Server
Para aplicar la Minera de Datos con Excel, es necesario descargar de la pgina Web de Microsoft el
Complemento para minera del SQL Server 2012, ya sea para 32 bits o de 64 bits. Esto va depender
del Sistema Operativo Windows.
Para que Excel tenga acceso a la Minera de Datos:
1. Descargar los archivos de complementos de la pgina web de Microsoft. Proceda a escribir
en el Explorador Web la siguiente direccin Web: https://www.microsoft.com/eses/download/details.aspx?id=35578
2. Seleccione como idioma Espaol y pulsar el botn Descargar. Observe la siguiente pantalla:
3. Elija la descarga que deseas si es para 32 bits o para 64 bits.

a. El archivo 3082\x64\SQL_AS_DMAddin.msi es para 64 bits.
b. El archivo 3082\x86\SQL_AS_DMAddin.msi es para 32 bits.
4. Marcar la descarga deseada y pulsar el botn Next. Observe la siguiente pantalla:
5. Abrir el botn Guardar y elija la opcin Guardar Como para grabar el archivo en una carpeta
destino. Observe la siguiente imagen:
Ing. Dante Garca
Pgina 55

6. Los Requisitos de instalacin son muy importante a tenerlos en cuenta para que el
complemento se pueda instalar con xito:
a. Si tiene instalada una versin anterior de los Complementos de minera de datos,
debe quitarla con Agregar o quitar programas del Panel de control antes de instalar
la versin ms reciente. No se quitarn los valores de configuracin del usuario,
como Conexiones.
b. Paso 1: comprobar que Microsoft Office 2010 o 2013 est instalado.
c. Paso 2: si todava no tiene Microsoft .NET Framework 4.0, descargar e instalar
la versin de Microsoft .NET Framework 4.0 correspondiente a la arquitectura del
equipo (32 o 64 bits) de la instalacin de Office.
d. Si piensa instalar las Herramientas de anlisis de tabla para Excel o el Cliente
de minera de datos para Excel, compruebe que el componente Compatibilidad con
programacin de .NET est instalado en Microsoft Office Excel ejecutando el
programa de instalacin de Microsoft Office desde Agregar o quitar programas del
Panel de control.
e. Si piensa instalar las Plantillas de minera de datos para Visio, compruebe que el
componente Compatibilidad con programacin de .NET est instalado en Microsoft
Office Visio ejecutando el programa de instalacin de Microsoft Office Visio 2010
desde Agregar o quitar programas del Panel de control.
f.
Paso 3: descargar la versin apropiada de los Complementos de minera de

datos correspondiente a la arquitectura del equipo (32 o 64 bits) de la instalacin
de Office 2010 haciendo clic en el vnculo de descarga que aparece ms adelante en
esta pgina. Para iniciar la instalacin inmediatamente, haga clic en Ejecutar. Para
instalar en otro momento, haga clic en Guardar. Con los Complementos de minera
de datos se instalan la licencia y la documentacin.
7. Hacer doble clic sobre el archivo para proceder a su instalacin y siga todos los pasos del
asistente para lograr una excelente instalacin. Al ejecutar la aplicacin se muestrea la
siguiente pantalla, pulsar el botn Ejecutar.
8. El asistente le mostrara una pantalla tal como se indica y pulsar el botn Siguiente.
Ing. Dante Garca
Pgina 56

9. Aceptar los trminos de contrato de licencia tal como se indica en la siguiente pantalla y
pulsar el botn siguiente:
10. Abrir la lista de Cliente de Minera de Datos para Excel y seleccionar se instalar en el disco
duro local. Observe la siguiente pantalla, no se olvide de pulsar siguiente.
Ing. Dante Garca
Pgina 57

11. Pulsar el botn Instalar para proceder a la Instalacin y pulse Finalizar para terminar.
12. Ejecutar el Excel y proceda a cargar el complemento:

a. Ir al men Archivo, Opciones, Complementos y pulsar el botn Ir.
b. Marcar las dos casillas de Complementos referentes a Microsoft SQL Server Data
Mining, tal como indica la siguiente pantalla:
13. Cuando el Complemento se ha marcado y has pulsado el botn Aceptar, observars una
nueva Ficha llamada Minera de Datos. Observe la siguiente pantalla:
14. En este caso ya se encuentra listo para trabajar con la minera de datos desde Excel usando
el SQL Server.
Ing. Dante Garca
Pgina 58

Cliente de Minera de Datos para Excel
El Cliente de minera de datos para Excel es un conjunto de herramientas que permiten realizar
tareas comunes de minera de datos, desde limpieza de datos hasta generacin de modelos y
consultas de prediccin. Puede utilizar los datos de las tablas o los rangos de Excel, o tener
acceso a orgenes de datos externos.
Esta herramienta nos permite:
Acceso a datos, limpieza de datos y administracin de datos
Cargue los datos en Excel, lmpielos, compruebe la existencia de valores atpicos y cree resmenes
estadsticos. Tambin puede realizar diferentes tipos de muestreo, perfiles de los datos y probar los
modelos con datos externos. El Cliente de minera de datos es el modo ms sencillo de preparar
datos para el anlisis sin necesidad de complejos scripts o procesos ETL.
Herramientas de modelado
Estas herramientas proporcionan interfaces de asistente para algoritmos de minera de datos
conocidos y probados empricamente, incluida la agrupacin en clsteres (mediana-k y EM), el
anlisis de la asociacin, el anlisis de series temporales y los rboles de decisin. Las opciones
avanzadas de modelado para cada asistente le permiten elegir algoritmos diferentes, como Nave
Bayes o las redes neuronales, y personalizar el comportamiento como la inicializacin del clster o el
tamao del muestreo inicial.
Todos los algoritmos de minera de datos se hospedan en una instancia de Analysis Services, lo que
le ofrece ms capacidad para generar modelos complejos.
Prueba, prediccin y validacin
El Cliente de minera de datos proporciona herramientas estndar del sector para probar los
modelos, incluidos los grficos de elevacin y la validacin cruzada. Los asistentes proporcionados
facilitan las pruebas de la validez del conjunto de datos y su precisin. El asistente de consulta
genera consultas para usar los modelos para la prediccin y la puntuacin.
Visualizacin e informes
Los grficos generados por la mayora de las herramientas pueden guardarse directamente en Excel.
Utilice la herramienta Examinar modelos en Excel (Complementos de minera de datos de SQL
Server) para explorar los modelos.
Escalabilidad y extensibilidad
El Cliente de minera de datos para Excel mantiene una conexin activa con el servidor, por lo que se
puede guardar el modelo de minera de datos en el servidor, para usarlo en otras pruebas o
implementarlo en un servidor de produccin para conseguir una mayor escalabilidad.
Conectar con los datos de origen (Cliente de minera de datos para Excel)
Describe cmo crear y usar las conexiones utilizadas para almacenar modelos de minera de datos y
para obtener acceso a datos externos almacenados en Analysis Services.
Conexiones de minera de datos La conexin inicial que crea cuando inicia los
complementos se usa para obtener acceso a los algoritmos, analizar los datos y almacenar
modelos y estructuras de minera de datos.
Se requiere una conexin a una instancia de Analysis Services para usar las herramientas de
modelado y de visualizacin en los complementos, ya que los complementos dependen de
los algoritmos y estructuras de datos que proporciona Analysis Services.
Conexiones a los orgenes de datos externos. Tambin puede crear conexiones a datos
externos mientras crea modelos o guarda resultados. Por ejemplo, puede crear un modelo
de minera de datos en un servidor y, a continuacin, realizar una consulta de prediccin a
partir de ese modelo de minera de datos usando los datos almacenados en otra instancia de
Analysis Services, en una tabla de datos de Excel o en un origen de datos externo, como
Ing. Dante Garca
Pgina 59

Microsoft Access. Cada vez que obtenga acceso al nuevo origen de datos, se le pedir que
cree una conexin mediante un cuadro de dilogo.
Crear Conexiones al Servidor de Minera de datos
El grupo Conexiones del Cliente de minera de datos para Excel y las Herramientas de anlisis de
tabla para Excel proporciona herramientas para administrar las conexiones a una instancia de SQL
Server Analysis Services.
Es posible crear la conexin al instalar el complemento o agregarla posteriormente.
Puede crear varias conexiones y modificar las conexiones en cualquier momento, a menos
que est en el proceso de crear o consultar un modelo.
No cambie ni cierre una conexin cuando se est procesando un modelo de minera de

datos. El modelo de minera de datos podra perder datos o quedar inutilizable.
Solo puede haber una conexin activa de cada vez.
Conexiones en los Complementos de Excel

El grupo Conexiones del Cliente de minera de datos para Excel y las Herramientas de anlisis de
tabla para Excel es donde se administran las conexiones a una instancia de SQL Server Analysis
Services.
Crear una nueva conexin al servidor en los complementos de Excel
1. Haga clic en el botn Conexin en la cinta de opciones Analizar o Minera de datos. Observe
la siguiente Pantalla:
2. En el cuadro de dilogo Conexiones de Analysis Services, haga clic en Nueva.

3. En el cuadro de dilogo Nueva conexin de Analysis Services, escriba el nombre del
servidor.
4. Especifique el mtodo de autenticacin.
5. Seleccione una base de datos de la lista desplegable Nombre del catlogo. Si no existe
ninguna base de datos en la instancia, seleccione (predeterminado).
6. Escriba un nombre descriptivo para la conexin. Observe la siguiente pantalla:
Ing. Dante Garca
Pgina 60

7. Haga clic en Probar conexin para comprobar si el servidor y la base de datos estn
disponibles. Observe la siguiente pantalla:
8. Haga clic en Aceptar y, a continuacin, en Cerrar.

9. En la ficha Minera de Datos debe aparecer la conexin establecida en el grupo de Conexin.
Explorar datos (Complementos de minera de datos de SQL Server)

1. La Ayuda del asistente para Explorar datos le ayuda a conocer el tipo y cantidad de datos de
la tabla de datos. El asistente representa de forma grfica la distribucin y los valores para
las columnas seleccionadas, por columnas. Despus, puede probar a cambiar la forma en
que se agrupan los datos o copiar el grfico que muestra el contenido en un libro de Excel
para revisarlo.
2. Si los datos contienen datos numricos continuos, puede alternar entre estas dos vistas:
Ing. Dante Garca
Pgina 61

Grfico de lneas. Este grfico de lneas representa grficamente los valores de

datos en el eje X y el nmero de casos en el eje Y.
Grfico de barras. Este grfico agrupa los valores por el nmero de casos
correspondientes a cada valor.
3. Cuando el asistente encuentra grupos en los datos, usa la distribucin real de los valores de
datos. Por tanto, el grfico de barras no muestra los valores numricos segn los tpicos
marcadores de eje numrico con nmeros enteros como 10 o 100. En su lugar, los intervalos
que se muestran en el grfico de barras se asemejaran a valores como 43 521-55 603 (para
la columna Income).
4. Si desea agrupar los datos en otros intervalos, debera hacerlo en Excel antes de analizar los
datos. O bien, puede cambiar las etiquetas de los datos mediante el Asistente para cambiar
etiquetas. Observe la imagen:
Uso del Asistente para Explorar Datos

1. En la cinta de opciones Minera de datos, haga clic en Explorar datos.
2. En el cuadro de dilogo Seleccionar datos de origen, seleccione la tabla o el rango de celdas
que contiene los datos.
3. En el cuadro de dilogo Seleccionar columna, elija la columna que desea analizar, a partir de
los datos de ejemplo mostrados en el panel.
4. En el cuadro de dilogo Explorar datos, elija el tipo de grfico que usar para mostrar la
distribucin de los datos.
5. Si lo desea, puede agregar nuevas columnas a los datos, cambiar la manera en que se
segmentan los datos o copiar el grfico en Excel.
Ing. Dante Garca
Pgina 62

Laboratorio de Mineria de Datos Con SQL Server PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Laboratorio de Mineria de Datos Con SQL Server PDF

Uploaded by

Copyright:

Available Formats

Universidad Privada San Juan Bautista

Laboratorio de Minera de Datos

Ing. Dante Garca

Universidad Privada San Juan Bautista

CREAR EL PROYECTO DE ANALISYS SERVICES EN SQL SERVER

Ing. Dante Garca

Universidad Privada San Juan Bautista

Ing. Dante Garca

Universidad Privada San Juan Bautista

DEFINIR UN ORIGEN DE DATOS

2. Observando la pantalla, debe indicar el nombre del Servidor, modo de autenticacin y

Ing. Dante Garca

Universidad Privada San Juan Bautista

Ing. Dante Garca

Universidad Privada San Juan Bautista

DEFINIR UNA VISTA DE ORIGEN DE DATOS

Ing. Dante Garca

Universidad Privada San Juan Bautista

5. Asignar un nombre para la vista. En nuestro caso asignarle el nombre

Ing. Dante Garca

Universidad Privada San Juan Bautista

7. El contenido de la vista tambin se observa en el Diseador de Vistas de Origen de Datos de

El Panel Tablas, en el que las tablas y los elementos de esquema se muestran en

Ing. Dante Garca

Universidad Privada San Juan Bautista

Observe la siguiente pantalla:

MODIFICAR UNA VISTA DE ORIGEN DE DATOS

2. Arrastre la columna hasta la tabla vAssocSeqOrders y colocarla en la columna OrderNumber.

Ing. Dante Garca

Universidad Privada San Juan Bautista

CREAR UN ESCENARIO DE CORREO DIRECTO

ALGORITMO BAYES NAIVE DE MICROSOFT

Ing. Dante Garca

Universidad Privada San Juan Bautista

ALGORITMO DE ARBOLES DE DECISION DE MICROSOFT

Ing. Dante Garca

Universidad Privada San Juan Bautista

Prediccin de Columnas Discretas

La correlacin que aparece en el diagrama har que el algoritmo de rboles de decisin de

Ing. Dante Garca

Universidad Privada San Juan Bautista

Prediccin de Columnas Continuas

Datos Requeridos para el modelo

Ing. Dante Garca

Universidad Privada San Juan Bautista

ALGORITMO DE CLUSTERES DE MICROSOFT

El algoritmo de clsteres se diferencia de otros algoritmos de minera de datos, como el

Ing. Dante Garca

Universidad Privada San Juan Bautista

Datos Requeridos para el modelo

CREAR UNA ESTRUCTURA DEL MODELO DE MINERIA DE DATOS

Ing. Dante Garca

Universidad Privada San Juan Bautista

5. Seleccione la vista de origen de datos, observe que VistaAdventureWorks2008R2 se ha

Ing. Dante Garca

Universidad Privada San Juan Bautista

6. En la ventana Especificar Tipos de Tablas active la casilla de verificacin correspondiente a

Ing. Dante Garca

Universidad Privada San Juan Bautista

8. Active las casillas de Verificacin Entrada y De Prediccin situadas junto a la columna

Ing. Dante Garca

Universidad Privada San Juan Bautista

12. Observe la siguiente pantalla y pulsar el botn Next (Siguiente):