Professional Documents
Culture Documents
18 Abril 2009
Introduccin a ETL o
Extraer datos de varias fuentes Diversos tipos de base de datos, oracles, access... cheros de texto ( csv, longitud ja, xml ), origenes rss, cheros remotos... Transformar Datos Hacer clculos, unir tablas, descartar datos, cambiar a tipos, lanzar procesos de la base de datos ... Volcar datos Volcar a cheros, base de datos, cheros remotos...
Utilidades
Hacer traspasos de datos completos ante la implantacin de un o nuevo sistema. Hacer volcados de informacin automatizados hacia el o DataWareHouse. Importar datos de cheros externos, ( cheros batch de sistemas mbiles, noticias econmicas de cheros rss... o o Limpieza de datos del sistema actual aplicando complejas condiciones de borrado.
Otros ETL
En el mercado existen varios sistemas ETL, tanto comerciales como opensource. Requisitos a valorar a la hora de escoger un ETL.
Facilidad de uso. Actividad del proyecto. Nmero de transformaciones disponibles y opciones de conguracin u o de estas. Facilidad a la hora de implementar una nueva Transforamcin. o Integracin con un sistema de Bussiness Intelligent completo. o
Atacar cada caso en particular. Desarrollar un ETL propio. ETL comercial. ETL opensource.
Introuduccin a Kettle o
Transformaciones Entidad bsica de trabajo, dene la obtencin, la a o transfomacin, el volcado o qualquier combinacin de o o estas.
Trabajos Conjunto de transformaciones, permite el control de estados, marca el inicio , nal , comunica si el proceso a tenido xito o no... e
Pasos (Step) Entidad bsica de la transformacin. Accin a realizar. a o o Saltos (Hops) Dene el paso entre diferentes pasos, posibilidad de paralelizar la accin, copiar datos a diferentes pasos... o
Introuduccin a Kettle o
Interf Grca cie a Repositorio Almacn y organizacin de todas las e o transformaciones. Vista Control de todas los pasos de la transformacin o Diseo Aadir y editar nuevos pasos a la transformacin n n o Panel de ejcucin Controla tiempo, nmero de las escritas y leidas o u por paso, anlisis de impacto en la base de datos, a herramientas de depuracin... o Linea de comandos Pemite la ejecucin batch de los trabajos y transformaciones , ya o estn en chero como el repositorio. Permite la automatizacin de e o procesos.
Transformaciones
Entradas Obtencin de datos,desde cheros, base de datos, o sistema... Salidas Aadir, actualizar o eliminar datos de la base de datos, n cheros, hojas de clculo... a Bsqueda Buscar valores en tablas, cheros, llamadas a u procedimientos, webservices... Tranformaciones Aplicar funciones al estilo sql (Sort,Group By ),xml,clculos... a Uniones Unir registros de diferentes transformaciones, producto cartesiano, inner, left , right join...
Transformaciones (continuacin) o
Scripting Facilidades de scripting en lenguajes Sql, Javascript y expresiones regulares. Data WareHouse Buscar o actualizar datos a nivel de dimensiones. Trabajos Acciones para la comunicacin con estos, obtener y asignar o variables, devolver el resultado de la transformacin... o Inline Lectura y escritura de registros a nivel socket. Datos Masivos Optimizacines para trabajar con grandes cantidades de o datos, por ahora solo oracle. Experimental Transformaciones no del todo probadas, Datos Masivos para diferentes origenes.
Trabajos
General Controla el ujo del trabajo, llamadas a mas trabajos o transformaciones, generar log, nalizar la ejecucin... o Mail Obtener Mails de cuentas pop para procesar-los, y enviar emails. Gestor/Gestor Remoto de Ficheros Diferentes acciones de sistema, crear, comparar, mover,zip, unzip, ftp, scp.. Condiciones Comprobar si existen cheros y datos en la base de datos, esperar a una cierta condicin. o Scripting Shell, Sql, Javascript Xml Validador XML, XSL, XSD, transformacin XSL o Volcados Masivos Importar y Exportar grandes cantidades de datos de diferentes base de datos.
` ` Angel Alvarez Serra Pentaho Kettle Step
L nea de comandos
Ofrece la posibilidad de ejecutar las diferentes transforamciones y trabajos por lineas de comandos. Posibilidad de integrar con scripts. Automatizacin. o Posibilidad de ejecutar elementos guardados en el Repositorio. Ejecutar un trabajo
kitchen.bat /rep:Production Repository /job:Update dimensions /dir:/Dimensions /user:NaN /pass:somepassword /level:Basic
Clustering
Ejecucin y Log o
Depuracin o
Introduccin o
Es un plugin para Kettle para volcar datos a OpenErp, facilitando el mapeo de datos.
Necesidad de introducir datos de forma consistente en OpenErp. Marca los campos obligatorios Facil introduccin de o los campos relaciones.
Instalacin o
Para la instalacin del plugin es necesario: o Descargar la versin de kettle de http://kettle.pentaho.org/ o Decargar el Plugin textbrbzr branch lp:openerp-kettle En la estructura de directorios del plugin: distrib copiar a KETTLEDIR/plugins/steps libext copiar las librerias a KETTLEDIR/libext
Como utilizarlo
Plugin en estado de desarrollo, con cosas pendientes pero totalmente funcional. Se ha utilizado con xito en la migracin de aplicaciones a e o OpenErp. Cosas Pendientes: traduccin de los campos. o Campos seleccin de openerp. o Lavado de cara al dilogo. a
Preguntas