Professional Documents
Culture Documents
Facultad de Ingenieras
Escuela Profesional de Ingeniera de Computacin y Sistemas
Ciclo: IX
Semestre: 2015-1
Objetivo
Implementar la Minera de Datos para generar conocimiento que ayude a la empresa a tomar
decisiones asertivas.
Realizar en secuencia los pasos indicados para poder implementar el cubo con xito.
ATACHAR LA BASE DE DATOS
1. Ejecutar SQL Server Management Studio y conectarse con la cuenta SA, si tiene clave
proceda a ingresarla para establecer una conexin. Observe la siguiente pantalla:
2. Crear en el disco C una carpeta llamada CubosOLAP y dentro de ello otras carpetas
llamadas BaseDatos y Proyecto OLAP, y copie el archivo empaquetado de la base de datos
llamada AdventureWorksDW2008R2. Proceda a desempaquetar el archivo dentro de la
carpeta Base Datos. El archivo desempaquetado mostrar dos archivos, uno con extensin
MDF que contiene toda la estructura de la base de datos, y otro archivo con extensin LDF
que contiene todas las transacciones correspondientes.
3. Usando la base de datos AdventureWorksDW2008R2 de SQL Server proporcionada por el
profesor ir a la carpeta Databases del SQL Management Studio, pulsar el botn derecho del
mouse y elija la opcin la opcin Attach. Se mostrar la siguiente ventana:
Pgina 1
4. Pulsar el botn Add para aadir o atachar la base de datos. Ir a la carpeta donde se localiza
el archivo MDF de la base de datos, hacer clic para seleccionarla y pulsar el botn OK.
5. Observar en el Explorador de objetos de SQL Server que la base de datos ya est atachada
al sistema, tal como se indica en la siguiente pantalla:
Pgina 2
2. Seleccione el men File o Archivo, opcin New, opcin Project. Para proceder a crear un
nuevo proyecto. El proyecto debe crearse dentro de la carpeta Proyecto Mineria con el
nombre MineriaDatosDemo (en mi caso la ruta asumida es: E:\Aplicaciones\USJB\Soporte a
la Toma de Decisiones\Proyecto Mineria). Observe la siguiente pantalla:
3. Al crearse el proyecto, se muestra la ventana del Explorador de Soluciones con una serie de
carpetas que organizan la informacin del cubo a disear. Observe la siguiente pantalla:
Pgina 3
Pgina 4
3. Pulsar el botn Next y proporcione informacin especfica para el servicio. En este caso se
usar la Cuenta del Servicio, es decir marcar la opcin Use the service account y pulsar el
botn Next.
4. Defina un nombre para la fuente de datos, en este caso: AdventureWorksDW2008R2.
Observe la siguiente pantalla: (No se olvide de pulsar el botn Finish para terminar la
configuracin de la fuente de datos).
Pgina 5
3. En caso de que la cuenta usada tenga clave el sistema le pedir otra vez la cuenta con la
contrasea. En mi caso la cuenta es sa. No se olvide de pulsar el botn OK Observe la
siguiente pantalla:
Pgina 6
4. Proceda despus a seleccionar las tablas y vistas necesarias para crear la vista. En nuestro
caso seleccione las tablas ProspectiveBuyer y las vistas: vAssocSeqLineItems,
vAssocSeqOrders,vTargetMail, y vTimeSeries. Por cada tabla o vista pulsar CTRL + Clic
para su seleccin. Observe la siguiente pantalla:
Pgina 7
6. Dirigirse al Explorador de Soluciones y observe que en la carpeta Data Source Views existe
una nueva vista creada con el nombre VistaAdventureWorksDW2008R2 y extensin dsv.
Observe la siguiente pantalla:
c. El
Panel Organizador de
Diagramas,
en el que puede crear
subdiagramas de modo que pueda ver los subconjuntos de la vista de origen de
datos.
Pgina 8
Pgina 9
Pgina 10
Aqu, el Visor Bayes naive de Microsoft muestra cada columna de entrada del conjunto de
datos e indica cmo se distribuyen los estados de cada columna, dado cada estado de
la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de entrada que son
importantes para diferenciar los distintos estados de la columna de prediccin.
Por ejemplo, en la fila Commute Distance que se muestra aqu, la distribucin de
valores de entrada es visiblemente diferente para los compradores en comparacin
con los no compradores. Esto indica que la entrada, Commute Distance = 0-1 miles, es
un factor de prediccin potencial.
El visor tambin proporciona valores para las distribuciones, de modo que pueda ver
que para los clientes que viajan entre una y dos millas para ir a trabajar, la
probabilidad de que compren una bicicleta es de 0,387, y la probabilidad que no la
compren es de 0,287. En este ejemplo, el algoritmo utiliza la informacin numrica,
derivada de un dato de cliente (como la distancia entre el domicilio y el lugar de trabajo), para
predecir si un cliente comprara una bicicleta.
Pgina 11
Pgina 12
El diagrama contiene los datos que pueden modelarse utilizando una sola lnea o dos
lneas conectadas. Sin embargo, una sola lnea realizar un pobre trabajo en la
representacin de los datos. En su lugar, si se usan dos lneas, el modelo har un mejor
trabajo en la aproximacin a los datos. El punto donde las dos lneas se unen es el
punto de no linealidad y donde se dividira un nodo de un modelo de rbol de decisin. Por
ejemplo, el nodo que corresponde al punto de no linealidad del grfico anterior podra
representarse mediante el siguiente diagrama. Las dos ecuaciones representan las
ecuaciones de regresin de las dos lneas.
Pgina 13
Despus de definir los clsteres, el algoritmo calcula el grado de perfeccin con que los
clsteres representan las agrupaciones de puntos y, a continuacin, intenta volver a
Pgina 14
Pgina 15
Pgina 16
7. Seleccione los datos para el entrenamiento o las columnas para definir el anlisis.
Compruebe que la casilla de verificacin de la columna clave junto a la columna
CustomerKey est activada. Si la tabla de origen de la vista de origen de datos muestra una
clave, el asistente para la Minera de datos elegir automticamente sa columna como
clave para el modelo y a continuacin pulsar el botn Next (Siguiente) Observe la siguiente
pantalla:
Pgina 17
9. Al indicar que una columna es de prediccin, se habilita el botn Suggest (Sugerir). Si hace
clic en Sugerir se abrir el cuadro de dilogo Sugerir Columnas relacionadas que enumera
las columnas que estn ms ligadas a la columna de prediccin. Observe la siguiente
pantalla:
Pgina 18
10. En el cuadro de dilogo Sugerir Columnas relacionadas se ordenan los atributos segn la
relacin que tengan con el atributo de prediccin. Las columnas con mayor valor a 0.05 se
seleccionan automticamente para ser incluidas en el modelo. Si las sugerencias le parecen
bien, hacer clic en Aceptar para que las columnas seleccionadas se consideren como
columnas de entrada en el asistente. En nuestro caso cancelar la sugerencia. Vamos a
considerar la nuestra.
11. Active las casillas de verificacin de Entrada para las siguientes columnas:
Age
CommuteDistance
EnglishEducation
EnglishOcupation
FirstName
Gender
GeographyKey
HouseOwnerFlag
LastName
MaritalStatus
NumbersCarsOwned
NumbersChildrenAtHome
Region
TotalChildren
YearlyIncome
Pgina 19
13. Especificar el contenido y el tipo de datos de las columnas para la estructura de la minera de
datos. Pulsar el botn Detect para detectar las columnas numricas para los valores
discretos o continuos. Observe la siguiente pantalla:
14. Un algoritmo ejecutar los datos numricos de los ejemplos y determinar si las columnas
numricas contiene valores continuos o discretos. Por ejemplo una columna puede contener
informacin salarial, como valores de sueldos actuales que son contnuos o bien integrales
que representen rangos de sueldos como 1=<25,000.00, 2=de 25,000.00 a 50,000.00, que
son discretos.
15. Despus de hacer clic en Detectar compruebe que las entradas de las columnas tipo de
Contenido y Tipo de Datos tengan la configuracin especificada en la siguiente tabla, y no se
olvide de pulsar Next (Siguiente) cuando ha terminado:
Pgina 20
Tipo de Contenido
Continuous
Discrete
Discrete
Key
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Discrete
Continuous
Tipo de Datos
Long
Long
Text
Long
Text
Text
Text
Text
Text
Text
Text
Text
Long
Long
Text
Long
Double
17. Defina el nombre de la estructura para la Minera de Datos, en nuestro caso escriba
DMCorreoDirigido y para el modelo de la Minera de Datos escriba TMArbolDecision, luego
active la casilla Permitir obtencin de detalles y dar clic en Finish (Finalizar). Observe la
siguiente pantalla:
Pgina 21
18. No se olvide de pulsar el botn Guardar Todo de la barra de herramientas para actualizar
todo el proyecto. Observe la siguiente pantalla:
19. Proceda a procesar el proyecto para que el sistema considere los cambios realizados hasta
el momento, para ello ir a la ventana del Explorador de Soluciones y sobre el proyecto
MineriaDatosDemo, pulsar el botn derecho del mouse y elija la opcin Process (Procesar) y
responda Yes (Si) para iniciar el proceso. Observe la siguiente pantalla:
Pgina 22
20. Luego pulsar el botn Run (Ejecutar) y observar que el sistema a procesado el proyecto
referente a la Minera de datos. Observe la siguiente pantalla y no se olvide de pulsar el
botn Close (Cerrar) dos veces:
21. Cuando el proyecto ha sido procesado, considerando las herramientas disponibles para la
Minera de Datos se observa lo siguiente:
a. Mining Structure (Estructura de la Minera)
Con esta herramienta puedes visualizar la Estructura de la Minera de Datos creada y
se muestra la vista de datos definida llamada vTargetMail.
Pgina 23
Pgina 24
Analizando parte del rbol de Decisin, podemos decir que la condiciones formuladas por
el sistema:
Para una edad (Age) >= 72 aos, existen un total de 455 casos analizados, de las
cuales 358 no pueden comprar una bicicleta, 97 si pueden comprar, con
ausencia de 0. Observe el estrato de pantalla del mismo rbol de Decisiones. Esto
se muestra apuntando con el puntero del mouse sobre cada nodo del rbol.
Para una edad (Age) >= 72 aos y con ingresos anuales (Yearly Income)
>=42,000 y <=67,600, existen un total de 129 casos analizados, de las cuales 110
no pueden comprar una bicicleta, 19 si pueden comprar, con ausencia de 0.
Observe el estrato de pantalla del mismo rbol de Decisiones. Esto se muestra
apuntando con el puntero del mouse sobre cada nodo del rbol. Observe el estrato
de pantalla del mismo rbol de Decisiones
Pgina 25
Tambin es posible obtener una vista genrica del rbol de Decisiones, para ello ir a la lista
de vista (Viewer) y seleccione Microsoft Generic Content Tree Viewer. Observe la siguiente
pantalla:
Pgina 26
Seleccione la ficha Lift Chart (Grfico de Elevacin) para generar la grfica lineal de
los que pueden comprar bicicletas. Observe la siguiente pantalla:
Leyenda de la Minera
Grfica de Elevacin
Un grfico de elevacin representa grficamente la mejora que ofrece un modelo de
minera cuando se compara contra un modelo al azar, y mide el cambio en trminos
de una puntuacin de elevacin. Al comparar las puntuaciones de elevacin para
diversas partes del conjunto de datos y para diferentes modelos, se puede
determinar qu modelo es mejor, y qu porcentaje de los casos en el conjunto
de datos se beneficiara de la aplicacin de las predicciones del modelo.
Con un grfico de elevacin, se puede comparar la precisin de las
predicciones de varios modelos que tienen el mismo atributo de prediccin.
Tambin puede evaluar la exactitud de la prediccin, ya sea para un solo resultado
(un nico valor del atributo de prediccin), o para todos los resultados (todos los
valores del atributo especificado).
El siguiente grfico muestra un grfico de elevacin para el modelo de distribucin de
correo directo que se crea en la Minera de Datos. En esta tabla, el atributo
objetivo [Bike Buyer] y el valor de destino es 1, lo que significa que el cliente se
predice para comprar una bicicleta. El grfico de elevacin muestra as la mejora
del modelo proporciona la hora de identificar a estos clientes potenciales.
Pgina 27
Pgina 28
Pgina 29
Con una poblacin objetivo del 50%, se obtiene un beneficio de 178,340.90 con
una probabilidad del 60.39%. Observe la leyenda:
Matriz de Clasificacin
Una matriz de clasificacin ordena todos los casos del modelo en categoras,
determinando si el valor de prediccin coincide con el valor real. A continuacin,
se cuentan todos los casos de cada categora y los totales se muestran en la matriz.
La matriz de clasificacin es una herramienta estndar de evaluacin de
modelos estadsticos a la que a veces se denomina matriz de confusin.
El grfico que se crea cuando se elige la opcin Matriz de clasificacin
compara los valores reales con los valores de prediccin para cada estado de
prediccin especificado. Las filas de la matriz representan los valores de
prediccin para el modelo, mientras que las columnas representan los valores
reales. Las categoras usadas en el anlisis son falso positivo, verdadero positivo,
falso negativo y verdadero negativo.
Una matriz de clasificacin es una herramienta importante para evaluar los
resultados de la prediccin, ya que hace que resulte fcil entender y explicar
los efectos de las predicciones errneas. Al ver la cantidad y los porcentajes en
cada celda de la matriz, podr saber rpidamente en cuntas ocasiones ha sido
exacta la prediccin del modelo.
Pgina 30
Interpretacin:
Pgina 31
Observe que el diseador muestra dos columnas: una para la estructura de la Minera de
Datos y otra para el modelo de Minera de Datos inicial que se cre anteriormente.
2. Ir a la columna Structure (Estructura), pulsar el botn derecho del mouse y elija la opcin
Nuevo Modelo de Minera de Datos. Observe la siguiente pantalla:
Pgina 32
Pgina 33
Pgina 34
Pgina 35
Pgina 36
Pgina 37
2. De manera predeterminada el Visor de rboles de Microsoft slo muestra los primeros tres
niveles del rbol, si el rbol contiene menos de tres niveles, el visor mostrar solo los niveles
existentes. Puede ver ms niveles usando el control deslizante Mostrar nivel o las lista
Expansin predeterminada. Observe la siguiente pantalla:
Modificar el rbol
1. Deslice Mostrar nivel hasta 5 (la Lista Default Expansion debe estar en 5 niveles)
2. Cambiar la lista fondo a 1
Pgina 38
Pgina 39
Red de Dependencias
Esta ficha muestra las relaciones entre los atributos que contribuyen a la capacidad de prediccin del
modelo de Minera de Datos. Observe la siguiente pantalla:
Pgina 40
1. El nodo central para la Red de Dependencia, Bike Buyer; representa el atributo de prediccin
del modelo de Minera de Datos. Cada nodo adyacente representa un atributo que afecta el
resultado del atributo de prediccin.
2. Puede usar el control deslizante situado en la parte izquierda de la ficha para controlar la
intensidad de los vnculos que se muestran. Si desplaza el control deslizante hacia abajo,
solo se mostrarn los vnculos de mayor intensidad.
3. Haga clic en un nodo del a red, y a continuacin, consulte la leyenda de color situada en la
parte inferior de la ficha para ver cules son los nodos predichos por el nodo seleccionado o
los nodos que predicen al nodo seleccionado. Observe la siguiente pantallas:
Pgina 41
Pgina 42
8. Cuanto ms oscuro sea el sombreado, mayor ser la proporcin del atributo de destino y la
distribucin de valores para se clster.
9. Busque el clster con el sombreado ms oscuro cuando la Variable de sombreado se
establezca en Edad >65. Mantenga el mouse sobre el clster.
10. El valor que aparece ahora en la ventana de informacin sobre herramientas muestra la
poblacin de clientes en este clster con ms de 65 aos de edad.
11. Haga clic con el botn secundario en este clster y seleccione Cambiar nombre de
clster. Escriba un nombre nuevo que sea descriptivo, como Ms de 65. El nuevo nombre
se guarda con el modelo en el servidor y se puede usar para identificar el clster en las otras
vistas de agrupacin en clsteres.
12. Otro ejemplo: Establecer la variable de sombreado en Bike Buyer y Estado en 1,
observar que el clster 9 es el que contiene la mayor densidad de compradores de
bicicletas (Bike Buyer) y que la relacin ms fuerte existen entre el clster 1 y el clster
6.
Perfiles del Clster
1. La pestaa Perfiles del clster le permite comparar la composicin de todos los
clsteres de un vistazo. Es un buen punto de partida cuando se empieza a familiarizar con
el modelo. Esta vista ser tambin til ms adelante, si ha estado explorando un clster
determinado y decide que necesita buscar clsteres relacionados.
Pgina 43
g. Observe que la columna Edad tiene un aspecto diferente al resto. Haga clic en el
rombo del grfico que se usa para representar la edad.
h. La columna Edad inicialmente solo contena nmeros continuos. El algoritmo de
clsteres requiere valores discretos, de modo que agrup los valores numricos
Pgina 44
j.
Para ver los clsteres que ha ocultado, puede hacer clic y arrastrar el borde de la
columna o seleccionar el nombre del clster en la lista Ms clsteres.
m. Descienda por la lista de atributos hasta que encuentre Bike Buyer y, despus,
busque el clster con el porcentaje ms alto de los valores S.
n. Haga clic con el botn secundario en el encabezado de la columna para el
clster al que desea cambiar el nombre, seleccione Cambiar nombre de clster
y escriba Bike Buyers.
o. El nuevo nombre del clster se mantiene en todas las vistas y en el servidor hasta
que se vuelva a procesar el modelo. Observe la siguiente pantalla:
Sugerencias
1. Haga clic en un encabezado de columna para ordenar los atributos por orden de
importancia respecto a ese clster.
2. Arrastre las columnas para volver a ordenarlas en el visor.
Pgina 45
Pgina 46
5. Observe que, en segundo plano, el visor Distincin del clster enva consultas
complejas al servidor de minera de datos para extraer los atributos que son ms
importantes a la hora de diferenciar dos grupos, lo cual facilita la labor de comparar dos
conjuntos de clientes.
6. Haga clic en una de las columnas Favorece.
7. La barra a la derecha de la lista de atributos y valores muestra las caractersticas o valores
que son ms importantes como rasgos diferenciadores del clster seleccionado.
8. Ahora compare las listas de Excel.
9. Observe las listas de Excel:
Pgina 47
Dado que las estadsticas subyacentes que se usaron para generar la imagen en el
visor se guardan en Excel como tablas, puede filtrar y ordenar, y ver los valores reales de
probabilidad.
Adems de utilizar Excel, se recomienda que pruebe el visor de clsteres para Visio, el cual
permite no solo ver los puntos de datos, sino tambin modificar y mejorar ampliamente el
grfico.
El Modelo Microsoft Bayes Naive
Cuando abre un modelo Bayes naive con Examinar, el modelo se muestra en un visor interactivo de
cuatro paneles diferentes. El visor se usa para explorar las correlaciones y obtener informacin
sobre el modelo y los datos subyacentes.
Red de dependencias
Explorar el Modelo
1. El visor tiene por objeto ayudarle a explorar la interaccin entre los atributos de entrada y
los atributos de salida (las entradas y variables dependientes) que se detectaron mediante
el modelo Bayes naive de Microsoft.
2. Si desea experimentar con el visor Bayes naive, use el asistente para Asistente para
clasificacin (Complementos de minera de datos para Excel) en la cinta de opciones de
Minera de datos, haga clic en Opciones avanzadas y cambie el algoritmo para poder usar el
algoritmo Bayes naive.
3. Para estos ejemplos, se usan los datos de origen y se agrupa la columna Ingresos
anuales en cinco grupos de ingresos, desde Muy bajo a Muy alto. Posteriormente, el
modelo Bayes naive analiza los factores en correlacin con cada categora de
ingresos.
Red de Dependencias
La primera ventana que se usar es Red de dependencias. Muestra de un solo vistazo las
entradas que estn estrechamente correlacionadas con el resultado seleccionado. Observe la
siguiente pantalla:
Pgina 48
Pgina 49
2. Haga clic en cualquier celda para ver la distribucin de los valores en la Leyenda de
minera de datos.
3. Como los atributos asociados a los distintos resultados se muestran visualmente, es
fcil identificar correlaciones interesantes, como por ejemplo, la forma en que se distribuyen
los ingresos por regin.
4. Para obtener los datos subyacentes de esta vista, haga clic en Copiar a Excel. Una
tabla se genera en una hoja de clculo nueva que muestra las correlaciones entre atributos y
resultados individuales. En esta tabla de Excel puede ocultar o filtrar columnas fcilmente.
Caractersticas del Atributo
La vista Caractersticas del atributo resulta til para efectuar un examen en detalle de una
variable de resultados en particular y de los factores que contribuyen a ello. Observe la
siguiente pantalla:
Pgina 50
Pgina 51
El algoritmo generar reglas a partir de los conjuntos de elementos. Estas reglas se usan
para predecir la presencia de un elemento en la base de datos, basndose en la presencia
de otros elementos especficos que el algoritmo ha identificado como importantes.
Por ejemplo, una regla puede ser "if Touring 1000=existing and Road bottle cage=existing,
then Water bottle=existing", y puede tener una probabilidad de 0.812.
En este ejemplo, el algoritmo identifica que la presencia en la cesta del neumtico Touring
1000 y del soporte de la botella de agua predice que probablemente la cesta de compra
incluir tambin una botella de agua.
Pgina 52
Pgina 53
Pgina 54
5. Abrir el botn Guardar y elija la opcin Guardar Como para grabar el archivo en una carpeta
destino. Observe la siguiente imagen:
Pgina 55
7. Hacer doble clic sobre el archivo para proceder a su instalacin y siga todos los pasos del
asistente para lograr una excelente instalacin. Al ejecutar la aplicacin se muestrea la
siguiente pantalla, pulsar el botn Ejecutar.
8. El asistente le mostrara una pantalla tal como se indica y pulsar el botn Siguiente.
Pgina 56
9. Aceptar los trminos de contrato de licencia tal como se indica en la siguiente pantalla y
pulsar el botn siguiente:
10. Abrir la lista de Cliente de Minera de Datos para Excel y seleccionar se instalar en el disco
duro local. Observe la siguiente pantalla, no se olvide de pulsar siguiente.
Pgina 57
13. Cuando el Complemento se ha marcado y has pulsado el botn Aceptar, observars una
nueva Ficha llamada Minera de Datos. Observe la siguiente pantalla:
14. En este caso ya se encuentra listo para trabajar con la minera de datos desde Excel usando
el SQL Server.
Pgina 58
Conexiones de minera de datos La conexin inicial que crea cuando inicia los
complementos se usa para obtener acceso a los algoritmos, analizar los datos y almacenar
modelos y estructuras de minera de datos.
Se requiere una conexin a una instancia de Analysis Services para usar las herramientas de
modelado y de visualizacin en los complementos, ya que los complementos dependen de
los algoritmos y estructuras de datos que proporciona Analysis Services.
Conexiones a los orgenes de datos externos. Tambin puede crear conexiones a datos
externos mientras crea modelos o guarda resultados. Por ejemplo, puede crear un modelo
de minera de datos en un servidor y, a continuacin, realizar una consulta de prediccin a
partir de ese modelo de minera de datos usando los datos almacenados en otra instancia de
Analysis Services, en una tabla de datos de Excel o en un origen de datos externo, como
Pgina 59
Puede crear varias conexiones y modificar las conexiones en cualquier momento, a menos
que est en el proceso de crear o consultar un modelo.
Pgina 60
7. Haga clic en Probar conexin para comprobar si el servidor y la base de datos estn
disponibles. Observe la siguiente pantalla:
Pgina 61
Grfico de barras. Este grfico agrupa los valores por el nmero de casos
correspondientes a cada valor.
3. Cuando el asistente encuentra grupos en los datos, usa la distribucin real de los valores de
datos. Por tanto, el grfico de barras no muestra los valores numricos segn los tpicos
marcadores de eje numrico con nmeros enteros como 10 o 100. En su lugar, los intervalos
que se muestran en el grfico de barras se asemejaran a valores como 43 521-55 603 (para
la columna Income).
4. Si desea agrupar los datos en otros intervalos, debera hacerlo en Excel antes de analizar los
datos. O bien, puede cambiar las etiquetas de los datos mediante el Asistente para cambiar
etiquetas. Observe la imagen:
Pgina 62