Clase 1

Las herramientas de SAS Enterprise Miner que están disponibles para su análisis se
encuentran en la paleta de herramientas.
La paleta de herramientas está organizada de acuerdo con un proceso de extracción de datos,

SEMMA.
SEMMA es un acrónimo de lo siguiente:
Muestra (Sample) Puede muestrear los datos creando una o más tablas de datos. Las muestras
deben ser lo suficientemente grandespara contener la información significativa, pero lo
suficientemente pequeña como para procesarla.
Explore explora los datos buscando relaciones anticipadas, tendencias imprevistas,y anomalías
para ganar entendimiento e ideas.
Modificar Modifica los datos creando, seleccionando y transformando las variables para
enfocar el modelo proceso de selección.
Modelo Usted modela los datos usando las herramientas analíticas para buscar una
combinación de los datos que predice confiablemente un resultado deseado.
Evalúe usted evalúa modelos predictivos competitivos (gráficos de construcción para evaluar
la utilidad y confiabilidad) de los hallazgos del proceso de minería de datos).
Hay herramientas adicionales disponibles en el grupo de utilidades. También hay herramientas

de grupo especializadas, a saber, HPDM (Minería de datos de alto rendimiento), aplicaciones y
series temporales. Con licencias adicionales, crédito scoring y minería de texto también están
disponibles. Todos los grupos de herramientas se discuten en las siguientes páginas.
Las herramientas en cada pestaña de la Herramienta están ordenadas alfabéticamente.
La herramienta Agregar (Append) se usa para anexar conjuntos de datos que se exportan
mediante dos rutas diferentes en un diagrama de flujo de proceso único. El nodo Append
también puede agregar conjuntos de datos de entrenamiento, validación y prueba en un
nuevo conjunto de datos de entrenamiento.
La herramienta Partición de datos (Data Partition) le permite dividir conjuntos de datos en

conjuntos de datos de entrenamiento, prueba y validación. El conjunto de datos de
entrenamiento se usa para el ajuste preliminar del modelo. El conjunto de datos de validación
se utiliza para supervisar y ajustar el modelo durante la estimación y también se utiliza para la
evaluación del modelo. El conjunto de datos de prueba es un conjunto de datos de retención
adicional que puede usar para la evaluación del modelo. Esta herramienta utiliza muestreo
aleatorio simple, muestreo aleatorio estratificado o muestreo por conglomerados para crear
conjuntos de datos particionados.
La herramienta de importación de archivos (File import) le permite convertir archivos planos

externos seleccionados, hojas de cálculo y tablas de bases de datos en un formato que SAS
Enterprise Miner reconoce como fuente de datos.
La herramienta de filtro crea y aplica filtros a su conjunto de datos de entrenamiento, y a los
conjuntos de datos de validación y prueba, si lo desea. Puede usar filtros para excluir ciertas
observaciones, como valores atípicos extremos y datos erróneos que no desea incluir en su
análisis de minería.
La herramienta Fusionar (Merge) le permite combinar observaciones de dos o más conjuntos

de datos en una sola observación en un nuevo conjunto de datos. La herramienta Merge
admite fusión uno a uno y de coincidencia.
La herramienta de muestra le permite tomar muestras aleatorias simples, enésimas muestras

de observación, muestras aleatorias estratificadas, muestras de primeros ns y muestras de
grupos de conjuntos de datos. Para cualquier tipo de muestreo, puede especificar una
cantidad de observaciones o un porcentaje de la población para seleccionar la muestra. Si está
trabajando con eventos poco frecuentes, la herramienta de muestra se puede configurar para
sobremuestreo o muestreo estratificado.
El muestreo se recomienda para bases de datos extremadamente grandes porque puede

disminuir significativamente el tiempo de entrenamiento del modelo. Si la muestra es
suficientemente representativa, se puede esperar que las relaciones encontradas en la
muestra se generalicen al conjunto completo de datos. La herramienta Sample escribe las
observaciones muestreadas en un conjunto de datos de salida. Guarda los valores iniciales que
se utilizan para generar los números aleatorios de las muestras para que pueda replicar las
muestras.
El muestreo se recomienda para bases de datos extremadamente grandes porque puede

disminuir significativamente el tiempo de entrenamiento del modelo. Si la muestra es
suficientemente representativa, se puede esperar que las relaciones encontradas en la
muestra se generalicen al conjunto completo de datos. La herramienta Sample escribe las
observaciones muestreadas en un conjunto de datos de salida. Guarda los valores iniciales que
se utilizan para generar los números aleatorios de las muestras para que pueda replicar las
muestras.
La herramienta Asociación le permite realizar el descubrimiento de asociación para identificar
elementos que tienden a aparecer juntos dentro de los datos. Por ejemplo, si un cliente
compra una barra de pan, ¿qué posibilidades hay de que el cliente también compre un galón
de leche? Este tipo de descubrimiento también se conoce como análisis de cesta de mercado.
La herramienta también le permite realizar la detección de secuencias si una variable de marca
de tiempo (una variable de secuencia) está presente en el conjunto de datos. Esto le permite
tener en cuenta el orden de las relaciones entre los artículos.
La herramienta de clúster le permite segmentar sus datos. Es decir, le permite identificar

observaciones de datos que son similares de alguna manera. Las observaciones que son
similares tienden a estar en el mismo grupo, y las observaciones que son diferentes tienden a
estar en diferentes grupos. El identificador de clúster para cada observación se puede pasar a
las herramientas siguientes en el diagrama.
La herramienta DMDB crea una base de datos de minería de datos que proporciona
estadísticas de resumen e información a nivel de factor para las variables de clase e intervalo
en el conjunto de datos importados.
La herramienta Graph Explore es una herramienta de visualización avanzada. Le permite

explorar grandes volúmenes de datos de manera gráfica para descubrir patrones y tendencias,
y para revelar valores extremos en la base de datos. La herramienta crea una muestra en
tiempo de ejecución de la fuente de datos de entrada. Utiliza el nodo Graph Explore para
explorar y analizar interactivamente sus datos mediante gráficos. Sus gráficos exploratorios se
conservan cuando se cierra la ventana Graph Explore Results. Cuando vuelve a abrir la ventana
Resultados de Graph Explore, los gráficos persistentes se vuelven a crear.
La herramienta de análisis de enlaces (Link Analysis) se usa para descubrir y examinar
conexiones entre elementos en un sistema complejo. La herramienta transforma los datos de
diferentes fuentes en un modelo de datos que se puede graficar. Las medidas de centralidad
se derivan del gráfico y la herramienta puede realizar la detección elemento-clúster para
ciertos tipos de datos. También se pueden proporcionar tablas de recomendaciones para datos
de entrada transaccionales.
La herramienta Cesta de compras realiza la minería de reglas de asociación sobre datos de

transacción junto con la taxonomía de elementos. Los datos de transacción contienen registros
de transacciones de ventas con detalles sobre los artículos comprados por los clientes. El
análisis de la cesta de compra utiliza la información de los datos de la transacción para darle
una idea de qué productos tienden a comprarse juntos.
La herramienta MultiPlot es una herramienta de visualización que le permite explorar grandes

volúmenes de datos de forma gráfica. La herramienta MultiPlot crea automáticamente gráficos
de barras y diagramas de dispersión para la entrada y el destino. El código creado por esta
herramienta se puede usar para crear gráficos en un entorno por lotes.
La herramienta de Análisis de ruta le permite analizar datos de registro web para determinar
las rutas que los visitantes toman a medida que navegan por un sitio web. También puede usar
la herramienta para realizar análisis de secuencia.
La herramienta SOM / Kohonen realiza aprendizaje no supervisado mediante el uso de la

cuantificación de vectores Kohonen (VQ), mapas autoorganizados de Kohonen (SOM) o SOM
de lotes con Nadaraya-Watson o suavizado lineal local. Kohonen VQ es un método de
agrupamiento, mientras que los SOM son principalmente métodos de reducción de dimensión.
Para el análisis wcluster, se recomienda la herramienta Clustering en lugar de Kohonen VQ.
La herramienta StatExplore es una herramienta multipropósito que se utiliza para examinar

distribuciones de variables y estadísticas en sus conjuntos de datos. La herramienta genera
estadísticas de resumen. Puede usar la herramienta StatExplore para hacer lo siguiente:
seleccionar variables para análisis, para clusters de perfiles y para modelos predictivos
calcular estadísticas de distribución univariadas estándar
calcular estadísticas bivariadas estándar por segmento de clase y clase
calcular estadísticas de correlación para variables de intervalo por entrada de intervalo y

objetivo.
La herramienta de agrupamiento variable (Clustering) es útil para la reducción de datos, como

la elección de las mejores variables o componentes de clúster para el análisis. La agrupación de
variables elimina la colinealidad, disminuye la redundancia variable y ayuda a revelar la
estructura subyacente de las variables de entrada en un conjunto de datos.
La herramienta de Selección de Variables le permite evaluar la importancia de las variables de

entrada para predecir o clasificar la variable objetivo. Para seleccionar las entradas
importantes, la herramienta utiliza un criterio de selección R-cuadrado o chi-cuadrado. El
criterio R-cuadrado le permite eliminar variables en jerarquías, eliminar variables que tienen
grandes porcentajes de valores perdidos y eliminar variables de clase que se basan en el
número de valores únicos. Las variables que no están relacionadas con el objetivo se
establecen en un estado de rechazado. Aunque las variables rechazadas se pasan a las
herramientas posteriores en el diagrama de flujo del proceso, estas variables no se usan como
entradas del modelo mediante herramientas de modelado más detalladas, como las
herramientas de red neuronal y árbol de decisiones. Puede reasignar el estado del modelo de
entrada a las variables rechazadas.
La herramienta de soltar (Drop) se usa para eliminar variables de conjuntos de datos

puntuados. Puede eliminar todas las variables con el tipo de función que especifique, o puede
especificar manualmente las variables individuales para descartar. Por ejemplo, podría
eliminar todas las variables ocultas, rechazadas y residuales de su conjunto de datos
exportado, o podría eliminar solo algunas variables que usted mismo identifica.
La herramienta Imputar le permite reemplazar valores para observaciones que tienen valores
perdidos. Puede reemplazar valores faltantes para variables de intervalo con el promedio, la
mediana, el rango medio, el espaciado mínimo medio o el reemplazo basado en la distribución,
o puede usar un estimador M de reemplazo como el biweight de Tukey, Huber o Andrew's
Wave. También puede estimar los valores de reemplazo para cada entrada de intervalo
utilizando un método de imputación basado en árbol. Los valores faltantes para las variables
de clase se pueden reemplazar por el valor que ocurre con más frecuencia, el reemplazo
basado en distribución, la imputación basada en árbol o una constante.
La herramienta Intervalos interactivos (Interactive Binning )es una herramienta de
agrupación interactiva que se usa para modelar funciones no lineales de múltiples modos de
distribuciones continuas. La herramienta interactiva calcula contenedores iniciales por
cuantiles. Luego puedes dividir y combinar interactivamente los contenedores iniciales. Utiliza
el nodo Intervalos interactivos para crear compartimientos o cubos o clases de todas las
variables de entrada, que incluyen variables de entrada tanto de clase como de intervalo.
Puede crear contenedores para reducir el número de niveles únicos e intentar mejorar la
capacidad de predicción de cada entrada.
La herramienta Componentes principales calcula valores propios y vectores propios a partir de

la matriz de covarianza no corregida, la matriz de covarianza corregida o la matriz de
correlación de las variables de entrada. Los componentes principales se calculan a partir de los
vectores propios y generalmente se tratan como el nuevo conjunto de variables de entrada
para las herramientas de modelado del sucesor. Un análisis de componentes principales es útil
para la interpretación de datos y la reducción de dimensiones de datos.
La herramienta de Reemplazo(Replacement) le permite reasignar y consolidar niveles de

entradas categóricas. Esto puede mejorar el rendimiento de los modelos predictivos.
La herramienta Generador de reglas (Rules Builder) abre la ventana Generador de reglas para
que pueda crear conjuntos de reglas ad hoc con resultados definibles por el usuario. Puede
definir interactivamente los valores de la variable de resultado y las rutas al resultado. Esto es
útil en la creación de reglas ad hoc, como aplicar lógica para probabilidades posteriores y
valores de scorecard.
La herramienta Transformar variables le permite crear nuevas variables que son

transformaciones de variables existentes en sus datos. Las transformaciones son útiles cuando
desea mejorar el ajuste de un modelo a los datos. Por ejemplo, las transformaciones se
pueden usar para estabilizar las variaciones, eliminar la no linealidad, mejorar la capacidad de
adición y corregir la anormalidad en las variables. La herramienta Transformar variables
admite varios métodos de transformación. Los métodos disponibles dependen del tipo y el rol
de una variable.
La pestaña de Calificación de crédito opcional proporciona funcionalidad relacionada con la
calificación crediticia.
Nota:
La solución Credit Scoring for SAS Enterprise Miner no se incluye con la versión base de SAS
Enterprise Miner. Si su sitio no otorgó licencia Credit Scoring para SAS Enterprise Miner, la
pestaña Credit Scoring y sus herramientas asociadas no aparecen en su software SAS
Enterprise Miner.
La herramienta de intercambio de créditos (Credit Exchange) le permite intercambiar los

datos que se crean en SAS Enterprise Miner con la solución SAS Credit Risk Management.
La herramienta Agrupación interactiva crea agrupaciones, o clases, de todas las variables de

entrada. (Esto incluye variables de entrada tanto de clase como de intervalo). Puede crear
agrupaciones para reducir el número de niveles únicos e intentar mejorar la capacidad de
predicción de cada entrada. Junto con la creación de niveles grupales para cada entrada, la
herramienta Agrupación interactiva crea valores de ponderación de evidencia (WOE).
La herramienta Inferencia de rechazo utiliza el modelo que se creó con las aplicaciones
aceptadas para calificar las aplicaciones rechazadas en los datos retenidos. Las observaciones
en el conjunto de datos rechazado se clasifican como "buenos" inferidos e "malos" inferidos.
Las observaciones inferidas se agregan al conjunto de datos Acepta que contiene los registros
"buenos" y "malos" reales, formando un conjunto de datos aumentados. Este conjunto de
datos aumentados sirve entonces como el conjunto de datos de entrada de una segunda
ejecución de modelado de puntuación de crédito. Durante la segunda ejecución de modelado,
la clasificación de atributos se reajusta y los coeficientes de regresión se vuelven a calcular
para compensar el aumento del conjunto de datos.
La herramienta Scorecard le permite reescalar los puntajes logit de los modelos de predicción
binarios para que caigan dentro de un rango específico.
El flujo de trabajo analítico
El flujo de trabajo analítico es la secuencia de pasos que se requieren para cumplir un objetivo
analítico aplicado. Las herramientas y capacidades de SAS Enterprise Miner ocupan los pasos
centrales de este flujo de trabajo. Antes de utilizar SAS Enterprise Miner, debe definir
cuidadosamente su objetivo analítico, seleccionar casos de análisis y extraer, validar y
posiblemente reparar datos de análisis. SAS Enterprise Miner le permite luego transformar sus
datos, aplicar el análisis de interés y generar métodos de implementación. El flujo de trabajo
analítico continúa fuera de las competencias de SAS Enterprise Miner. Los métodos de
implementación deben integrarse en los sistemas de producción. Los resultados de esta
integración deben ser capturados, evaluados y utilizados para refinar la próxima iteración del
análisis.
Creación de un proyecto SAS Enterprise Miner
Un proyecto SAS Enterprise Miner contiene materiales que están relacionados con una tarea
de análisis particular. Estos materiales incluyen flujos de procesos de análisis, conjuntos de
datos de análisis intermedios y resultados de análisis. Para definir un proyecto, debe
especificar un nombre de proyecto y la ubicación del proyecto en SAS Foundation Server. Siga
los pasos a continuación para crear un nuevo proyecto SAS Enterprise Miner.

Clase 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clase 1

Uploaded by

Copyright:

Available Formats

Las herramientas de SAS Enterprise Miner que están disponibles para su análisis se

encuentran en la paleta de herramientas.

La paleta de herramientas está organizada de acuerdo con un proceso de extracción de datos,

SEMMA es un acrónimo de lo siguiente:

Hay herramientas adicionales disponibles en el grupo de utilidades. También hay herramientas

Las herramientas en cada pestaña de la Herramienta están ordenadas alfabéticamente.

La herramienta Partición de datos (Data Partition) le permite dividir conjuntos de datos en

La herramienta de importación de archivos (File import) le permite convertir archivos planos

La herramienta Fusionar (Merge) le permite combinar observaciones de dos o más conjuntos

La herramienta de muestra le permite tomar muestras aleatorias simples, enésimas muestras

El muestreo se recomienda para bases de datos extremadamente grandes porque puede

El muestreo se recomienda para bases de datos extremadamente grandes porque puede

La herramienta de clúster le permite segmentar sus datos. Es decir, le permite identificar

La herramienta Graph Explore es una herramienta de visualización avanzada. Le permite

La herramienta Cesta de compras realiza la minería de reglas de asociación sobre datos de

La herramienta MultiPlot es una herramienta de visualización que le permite explorar grandes

La herramienta SOM / Kohonen realiza aprendizaje no supervisado mediante el uso de la

La herramienta StatExplore es una herramienta multipropósito que se utiliza para examinar

calcular estadísticas de distribución univariadas estándar

calcular estadísticas bivariadas estándar por segmento de clase y clase

calcular estadísticas de correlación para variables de intervalo por entrada de intervalo y

La herramienta de agrupamiento variable (Clustering) es útil para la reducción de datos, como

La herramienta de Selección de Variables le permite evaluar la importancia de las variables de

La herramienta de soltar (Drop) se usa para eliminar variables de conjuntos de datos

La herramienta Componentes principales calcula valores propios y vectores propios a partir de

La herramienta de Reemplazo(Replacement) le permite reasignar y consolidar niveles de

La herramienta Transformar variables le permite crear nuevas variables que son

La herramienta de intercambio de créditos (Credit Exchange) le permite intercambiar los

La herramienta Agrupación interactiva crea agrupaciones, o clases, de todas las variables de

El flujo de trabajo analítico

You might also like