Professional Documents
Culture Documents
TRANSFORMACIONES ETL ETL. Son las siglas en ingls de Extraer, Transformar y Cargar (Extract, Transform and Load). Es el proceso que permite mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Extraer. La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayora de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Por ejemplo la informacin del sistema de RRHH puede estar disponible en una base de datos SQL Server, mientras que la informacin de Ventas est disponible en hojas de clculo. Transformar. La fase de transformacin aplica una serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en datos que sern cargados. Algunas fuentes de datos requerirn alguna pequea manipulacin de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones: Seleccionar slo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen). Traducir cdigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer). Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio). Unir datos de mltiples fuentes (por ejemplo, bsquedas, combinaciones, etc.). Generacin de campos clave en el destino. Carga. La fase de carga es el momento en el cual los datos de la fase anterior (transformacin) son cargados en el sistema de destino. Este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la informacin antigua con nuevos datos, en otras se agrega a la informacin ya existente. Todo depende del modelo y requerimientos del negocio. La fase de carga interacta directamente con la base de datos de destino. Al realizar esta operacin se aplicarn todas las restricciones y triggers que se hayan definido en sta (por ejemplo, valores nicos, integridad referencial, campos obligatorios) y si estn bien definidos contribuyen a que se garantice la calidad de los datos en el proceso ETL.
PENTAHO DATA INTEGRATION (KETTLE)
Kettle es un proyecto Open Source de origen belga, que incluye un conjunto de herramientas para realizar ETL. Ahora forma parte de la suite de Inteligencia de Negocios Pentaho. PDI Kettle consiste principalmente de las siguientes aplicaciones: Spoon Es el componente ms utilizado. Es una herramienta grfica que permite disear Jobs y Transformations ETL. Con esta herramienta se podr conectar a diversos orgenes de datos y transformarlos para cargarlos dentro de su estructura del datawarehouse.
Paso 0: En nuestro primer contacto con Spoon trabajaremos con un repositorio general, para luego desarrollar un ejemplo con un repositorio de datos especifico. Paso 1: Una vez levantado el servicio de pentaho, procedemos a iniciar nuestra herramienta de integracin de datos Kettle, ejecutamos Spoon de la carpeta data integration.
Paso 4: Se procede a aceptar la conexin y la creacin del repositorio. Paso 5: Colocamos un nombre y descripcin al repositorio y luego procedemos a su CREACIN
Paso 6: Seleccionamos la opcin de Create y luego seleccionamos la opcin para que el repositorio sea actualizado.
Paso 8: Se observa el progreso de la creacin del repositorio y una vez creado nos hace la consulta acerca de que si deseamos que se verifique la sentencia SQL que permiti la generacin del repositorio. Seleccionamos que S.
Crear la Transformation Si es que no ha iniciado la herramienta Spoon, ejecute Spoon.bat para iniciarla. Para crear una transformation puede seguir cualquiera de las siguientes opciones: Men File -> New -> Transformation (CTRL + N)
Identificando Steps A modo de aclaracin, un step es la unidad mnima dentro de una transformation, una variedad de steps est disponible dentro de categoras tales como Input, Output, Flow, Scripting y otros, todos ubicados en el Steps Pallete. Continuando con el ejemplo, identificamos que la transformation tiene que realizar lo siguiente: Leer el archivo de texto. Construir la concatenacin de campos Grabar los datos en un archivo XML Para cada uno de los tems a seguir, se utilizarn diferentes Steps que en este caso estn en diferentes categoras. A continuacin se deben identificar los que deben ser utilizados: Leer el archivo de texto. Utilizar el step Text file input, ubicado en la categora Input. Construir la concatenacin de campos. Utilizar el step Modified Java Script Valu, ubicado en la categora Scripting. Grabar los datos en un archivo XML. Utilizar el step XML Ouput, ubicado en la categora Output. Disear la Transformation
Ahora se debe enlazar Text file input con Modified Java Script Valu, para esto se debe crear un Hop siguiendo cualquiera de las siguientes opciones: Seleccionar el primer icono, mantener presionada la tecla SHIFT y arrastrar el cursor hasta el segundo icono. Ubicarse sobre el primer icono, manteniendo presionado el tercer botn del Mouse (la ruedita o track ball) arrastrar hasta el segundo icono. Seleccionar los dos iconos, click derecho sobre cualquiera de ellos y elegir New hop.
Configuracin de los steps Ahora procedemos a realizar la configuracin de cada uno de los steps Cada step nos mostrar una ventana de configuracin. Estas ventanas irn cambiando de acuerdo a la funcionalidad del step y la categora a la que pertenecen. Procedemos a la configuracin de cada uno de los steps que se estn utilizando: Configurar Text File Input
10
1 3 2
Ir a la solapa Content, aqu se especifica el tipo de archivo de texto (separado por comas, longitud fija), el carcter que indica la separacin de columnas, se indica si el archivo presenta encabezado, etc. Para este ejemplo, no se har ningn cambio. Ir a la solapa Fields, dar click en el botn Get Fields, para agregar la lista de las columnas del archivo de texto al grid. Por defecto, los nombres se obtienen de los headers (encabezados) Revisar los campos Name, Type, Length, Trim Type y eliminar los valores que aparezcan en los dems campos.
11
Realizar una previsualizacin de los registros que se obtendrn, haciendo click en el botn Preview rows. Cerrar la ventana de preview y click en el botn OK para salir de la ventana de configuracin del step Text file input. Configurar Modified Java Script Valu Doble click sobre el icono Modified Java Script Valu. Reemplazar el nombre por defecto a Concatenar campos. El rea principal de la ventana de configuracin es para ingresar cdigo JavaScript. Al lado izquierdo aparecen las funciones disponibles que se pueden utilizar. Ingresar el siguiente cdigo var mensaje; o mensaje = 'El codigo de la provincia '+ nombre + ' es ' + coddpto + codprov;
12
Configurar XML Output Doble click sobre el icono XML Output. Cambiar el nombre por defecto a Provincias XML. En el campo Filename ingresar el nombre la ruta donde se crear el archivo Provincias.xml.
13
Guardamos la transformacin.
14
15
16
Conexin a Bases de Datos Primero procedemos a crear una nueva Transformacin y luego en la carpeta Database connections hacemos click derecho y escogemos la opcin New
17
El Modelo Dimensional
18
19
20
OUTPUT
21
TblSales
Aade Semestre
22
Dim TiempoMapping
Dim tiempo
23
Dim_Helado
tblIceCreamIngredient
24
25
Aade Ingrediente
26
Dim_Ingrediente Mapping
Dim_Ingrediente
27
28
El Trabajo PoblandoVentasIceCream
29
30