You are on page 1of 8

1

Elaboracin de diagnostico de calidad de datos para una empresa del sector salud
James Paniagua, Juan Felipe Mira e Ivn Amn
Abstract Hoy en da la informacin es uno de los activos ms importantes para las empresas, se puede usar tanto para el trabajo transaccional diario como para informes elaborados provenientes de diferentes fuentes. Pero toda esa informacin no es til a menos que los datos sean correctos y confiables. Para una empresa de salud, la calidad de la informacin no es solamente necesaria sino requerida, esto debido a que es uno de los sectores con ms regulaciones y vigilancia por parte de diferentes entes del estado y la implcita responsabilidad asociada a esta labor. Para el caso de la Clnica Universitaria, que est buscando mejorar la calidad de sus procesos para buscar una certificacin de calidad, se propone tomar medidas para mejorar la calidad de la informacin de sus sistemas. As, este proyecto entra dentro de los objetivos institucionales que buscan mejorar la calidad de los procesos asistenciales y administrativos. La calidad de la informacin se puede ver afectada de diferentes maneras y su impacto puede ser variable, este estudio pretende determinar en qu estado se encuentra la base de datos de este estudio particular, cuales son los principales problemas y en qu medida afectan el contenido de los datos mediante un proceso definido y repetible. Index Terms data quality, data profiling, data cleansing

1 INTRODUCTION
empresa si se cuenta varias veces una misma persona porque se ingres dos veces la misma informacin sobre ella. La informacin incompleta es til slo parcialmente. De qu sirve tener una lista de clientes si slo se poseen los nmeros de contacto de algunos de ellos? Cmo realizar un informe de ventas anuales si no se poseen la informacin de las ventas de los ltimos 4 meses? La informacin es til slo si est toda en un mismo formato. Realizar un anlisis sobre las ventas realizadas cuando se manejan diferentes valores de moneda o cuando no se tienen homologados los formatos a utilizar, por ejemplo, es una tarea que demanda ms tiempo del que realmente debera usarse. Estos y otros factores hacen que una limpieza previa al anlisis de datos sea obligatoria para garantizar que los resultados obtenidos sean los ms exactos posibles, pues de informacin sucia, solo se podrn obtener conclusiones sucias. En la Clnica Universitaria Bolivariana se ha detectado la necesidad de realizar una limpieza general sobre la informacin que se encuentra en su base de datos. La falta de restricciones cuando se registran datos de pacientes u operaciones a realizar, posibles problemas de diseo en el programa, migraciones u operaciones sobre los datos existentes son posibles causas de los problemas de calidad en los datos de la clnica. El presente trabajo explica cmo, mediante la utilizacin de una metodologa de limpieza de datos, se realiza una exploracin sobre algunos segmentos de la base de datos de la Clnica Universitaria Bolivariana, se obtienen y analizan resultados, y cules seran las principales re James Paniagua est con la Universidad Pontificia Bolivariana, Circular 1, comendaciones para corregir dichos problemas encontraMedelln, Colombia. E-mail: james.paniagua@upb.edu.co. Juan Felipe Mira est con la Universidad Pontificia Bolivariana, Circular 1, dos y cmo evitarlos o al menos mitigarlos en un futuro. Medelln, Colombia. E-mail: felipemira@gmail.com. En todo este proceso, se dividen los diferentes tipos de Ivn Amn est con la Universidad Pontificia Bolivariana, Circular 1, problemas que podran presentarse, para clasificarlos e
Medelln, Colombia. E-mail: ivan.amon@correo.upb.edu.co.

A informacin, en la actualidad, se ha convertido en uno de los principales activos que compaas y hoy est a la mano de las personas comunes, que la utilizan tanto para la toma de decisiones empresariales como para labores de la vida diaria, y que bien utilizada brinda ventajas competitivas para desenvolverse en un mundo tan cambiante. Es por esto que la mayora de ellos recurren a la tecnologa como un medio para el anlisis de dicha informacin. El trmino Business Intelligence, o Inteligencia de Negocios, describe este proceso de forma sencilla: las estrategias y herramientas que posibilitan la generacin de conocimiento a partir de los datos que posee dicha organizacin o persona. Pero, como todo proceso, para que ste produzca resultados ptimos, se hace necesario que la materia prima que se use sea de calidad, en este caso, que la informacin sea la ms indicada, que sea informacin de calidad. Son varios los factores que indican si un conjunto de datos (sea una base de datos, una serie de documentos, o cualquier tipo de repositorio de informacin) es de calidad: La informacin, mientras ms actual sea, ms conocimiento aporta. Es posible que sea ms til, por ejemplo, conocer cules productos se vendan ms hace un par de meses que hace un par de aos. La informacin duplicada no es de utilidad, lo nico que hace es aumentar el esfuerzo necesario para procesarla, adems de mostrar cosas que irrelevantes o errneas. No es til definir cuntos clientes potenciales tiene una

intentar resolverlos mediante el uso de diferentes tcnicas y herramientas, pues cada problema debe ser abordado de manera independiente dados los diferentes grados de complejidad que implican el tratar cada uno de ellos.

2 CLASIFICACIN DE LOS PROBLEMAS EN LOS DATOS


Una de las ms completas clasificacin de los problemas en la calidad de los datos que se encontr durante la redaccin del anteproyecto fue la propuesta por Oliveira y otros [1] en su trabajo A Taxonomy of Data Quality Problems. Rahm y Do [2] tambin hacen una distincin entre problemas de una nica fuente y problemas de mltiples fuentes, al igual que Oliveira y otros, pero en cuanto a problemas de nica fuente, no diferencian entre problemas que ocurren en una nica relacin y problemas entre mltiples relaciones. Ellos diferencian entre problemas a nivel de esquema (problemas derivados de la estructura de la base de datos), y problemas a nivel de instancia (problemas en los datos contenidos en la base de datos). Sin embargo, su aproximacin no se aleja mucha de la descrita por Oliveira y otros. Kim y otros [3], en su taxonoma presentan una categorizacin muy completa sobre problemas en los datos. Su taxonoma se basa en la premisa de que los problemas en los datos se manifiestan de tres diferentes maneras: datos faltantes; datos no faltantes pero errneos; y datos no faltantes y no errneos pero que no pueden ser usados (refirindose a aquellos datos provenientes de la integracin de varias fuentes de datos o cuando no se usa un estndar para el ingreso de los datos). Mller y Freytag [4] clasifican de manera muy genrica en las anomalas en sintcticas (en el formato y los valores usados para representar las entidades), semnticas (en la comprensin y no redundancia de los datos representados) y de cobertura (como, por ejemplo, valores faltantes que reducen el nmero de entidades y propiedades que pueden ser representadas en la coleccin de datos). Este trabajo se limita a los problemas de calidad en los datos que ocurren en una nica relacin de una nica fuente. Dado que el trabajo de Oliveira y otros [1] comprende casi todas las clasificaciones previamente mencionadas, consideramos que es la gua con la cual se identificarn los problemas a analizar en este proyecto. Este documento divide los problemas encontrados en dos categoras principales: problemas en una nica fuente y problemas al relacionar varias fuentes de datos. En el caso de la Clnica Universitaria Bolivariana, nuestro anlisis ser realizado sobre una nica fuente de datos, por lo que los problemas de mltiples fuentes de datos sern omitidos. Dada la alta complejidad y la gran cantidad de tiempo que puede llegar a requerir un anlisis exhaustivo sobre la calidad de los datos de un repositorio de informacin, en este caso el de la Clnica Universitaria Bolivariana, hemos seleccionado una cantidad de problemas a analizar de acuerdo a la categorizacin realizada por Oliveira y otros para una nica fuente de datos. A continuacin se

citan dichos problemas: Valores ausentes Los valores ausentes, o valores nulos, son valores que no estn presentes en la base de datos. Es importante diferenciar un valor ausente de un valor que puede ser vaco. Violaciones de sintaxis Las violaciones de sintaxis comprenden problemas en los datos que violan los formatos preestablecidos donde estos estn contenidos. El ejemplo ms sencillo es un campo de fecha. Suponiendo que el campo de fechas tenga definido un formato de Da/Mes/Ao, diramos que un dato de fecha en ese campo carece de calidad si est en un formato de Ao/Mes/da, pues discrepa de lo que normalmente encontraramos all. Valores desactualizados Los valores desactualizados son valores que no contienen informacin real a la fecha y que, por lo tanto, no aportan informacin de calidad a la hora de utilizarla. Violaciones de intervalo Las violaciones de intervalo agrupan todas aquellas violaciones de datos que se encuentren en campos que deberan tener restricciones en los valores de intervalos aceptados. Naturalmente, suponemos que las violaciones de intervalo estarn limitadas a valores numricos y valores de fechas, aunque sera posible encontrar otro tipo de valores (seriales, identificadores, codificaciones, etc.) que puedan catalogarse en esta categora. Violaciones de dominio Las violaciones de dominio son muy similares a las de intervalo, pues se refieren a caractersticas propias del dato que deben estar dentro de un dominio previamente especificado. Violaciones de unicidad de valores El criterio de unicidad aplica a todas aquellas entidades que poseen un atributo que las identifica inequvocamente de las dems que sean de su mismo tipo, por ejemplo una persona se identifica con su nmero de cedula. Si existe en ms de un registro un dato que se supone nico, ocurre una violacin de unicidad. Violaciones de integridad referencial La estructura de los datos en una base de datos bajo el modelo relacional, define precisamente unas relaciones entre las entidades que representan, se viola la integridad referencial cuando esta relacin se rompe a causa de errores en la insercin o modificacin de los datos, haciendo la informacin inconsistente. Informacin duplicada La informacin duplicada puede estar representada de varias formas, dependiendo del modelo de datos, de las restricciones y de las caractersticas de los datos.

3 METODOLOGAS PARA LA LIMPIEZA DE DATOS


Ahora, para abordar estos problemas, lo ideal es llevar un proceso previo al anlisis de los datos en s, que implica una planeacin y un conocimiento sobre los datos y los tipos de problemas que se buscarn en dichos datos, anteriormente ya descritos. Se hace necesario entonces abordar una metodologa para la limpieza de datos.

Para este trabajo, se han seleccionado 4 metodologas con diferentes enfoques. Aunque en su documento, Oliveira y otros proponen una serie de pasos para abordar la solucin de los problemas descritos en su documento, consideramos que ste es un acercamiento ms tcnico y no un proceso formalizado sobre cmo se realizara este anlisis si debiramos hacerlo desde cero, sin previo conocimiento, e incluso si el repositorio de datos no estuviera a nuestro alcance inmediato. Oracle [5] dispone de su herramienta Warehouse Builder para la construccin de bodegas de datos, que incluye un mdulo previo de para anlisis de calidad y facilita un modelo completo de limpieza de datos en sus procesos de ETL. Es decir, el proceso propuesto esta sesgado a una herramienta. Esta metodologa, basada en el llamado Ciclo de la Calidad de los Datos (Data Quality Cycle) puede ser adaptada para desarrollarse sin utilizar el Warehouse Builder, pues sugiere el qu hacer, sin necesidad de tener que hacerlo con sus especificaciones tcnicas, usando la herramienta. Van den Broeck y otros [6] proponen una metodologa orientada a la investigacin epidemiolgica de enfermedades: Data Cleaning: Detecting, Diagnosing, and Editing Data Abnormalities. Aunque con pocos elementos tcnicos, presenta un acercamiento simple que puede ser interesante de analizar. Rahm y Do [2], en su distincin entre problemas de una nica fuente y problemas de mltiples fuentes, presenta una aproximacin sobre cmo alcanzar la calidad de los datos que se trabajan en un proceso de ETL. Aunque muy sujeta a su clasificacin, puede ser trabaja para adaptarse a las necesidades del proyecto. Tierstein [7] presenta una metodologa muy especializada, enfocada en la transferencia de datos de uno o varios sistemas legacy hacia nuevas bases o bodegas de datos. Se considera que sta es una de las ms completas, pero quizs la cantidad de pasos y algunas actividades que se realizan pueden ser omitidas, y la metodologa podra complementarse con otros pasos que pueden ser cruciales para un exitoso proceso de anlisis de la calidad de los datos. Las metodologas de limpieza datos buscan estandarizar la forma de trabajo de los integrantes del proyecto para poder lograr los objetivos propuestos, se debe tener en cuenta dentro de la seleccin que las metodologas existentes son hechas o bien para limpieza de datos o para la creacin de bodegas de datos, por lo cual es posible que se haga necesario hacer una adaptacin para que cumpla con los requisitos especficos para este proyecto. Con la metodologa se busca asegurar un correcto procedimiento a la hora de realizar un anlisis sobre la calidad de los datos de forma organizada y gil, por eso la seleccin se basa en los siguientes criterios: nfasis en la fase de planeacin, y perfilamiento y diagnstico Claridad en los conceptos y de los pasos a seguir Facilidad de utilizacin (exigencias de personal, profundidad de la documentacin) Referencias de otros autores.

4 SELECCIN DE UNA NUEVA METODOLOGA


Despus de la profundizacin detallada sobre cada metodologa, para el proceso de limpieza actual se considera que la metodologa que ms se ajusta es la metodologa propuesta por Leslie M. Tierstein. Las razones principales son las siguientes: La metodologa busca ayudar en esfuerzos de migracin de datos de bases de datos legacy a nuevos sistemas de almacenamiento. Esto no se aleja mucho de la realidad vivida por la clnica universitaria que pas de un sistema legacy a un sistema nuevo sin realizar una previa limpieza de datos. Es la metodologa encontrada ms detallada y con mejor explicacin de las analizadas, a pesar de ser muy similar con la de Oracle (que es una metodologa ms orientada a la herramienta) y la de Rahm y Do (que tiene un enfoque ms terico). La metodologa de Van den Broek es muy simple, no est muy detallada, y se centra mucho en un caso de estudio en especfico. Sin embargo, se encuentra pertinente que deben realizarse las siguientes modificaciones a dicha metodologa, con el fin de adaptar un mejor plan para abordar: Seleccionar criterios de limpieza especficos. El documento slo muestra algunos defectos potenciales en los datos. Consideramos que debe crearse una lista de todos los posibles defectos en los que la limpieza va a enfocarse, y delimitarlos. Estos criterios fueron seleccionados previamente en el anteproyecto. Debe existir una etapa de verificacin de la limpieza. La metodologa propone pruebas pre-limpiezas con grupos de muestreo, pero como el proceso de limpieza debe realizar algunas correcciones automticas, deben realizarse algunas pruebas post-limpieza que ayuden a demostrar, hasta cierto punto, que la limpieza se ha ejecutado con satisfaccin satisfactoriamente. Tierstein no presenta proceso de limpieza como un ciclo, es decir, no considera que debe ser un esfuerzo continuo. Aunque si plantean al final la necesidad de desarrollar informes y reportes que muestren detalladamente lo sucedido a travs del proceso (informe del perfil de los datos, informe de errores encontrados, informe de errores corregidos y no corregidos, entre otros), consideramos que tambin sera indicado elaborar un informe que d recomendaciones sobre el futuro ingreso de datos al sistema nuevo y que ayude a monitorear la calidad de manera continua en el sistema, con el fin de intentar mitigar el ingreso de informacin sucia en la base de datos. Algunas etapas en el proceso plantean determinadas herramientas o sugieren ciertos algoritmos o programas. Usaremos las herramientas que consideremos indicadas mediante el estudio de las mismas descritas en la exploracin de herramientas para limpieza. De ser necesario, nosotros realizaremos programas que no cumplan con alguna funcionalidad. El uso de una metodologa al pie de la letra no aplicar para el presente trabajo de diagnstico. El mbito de algunas metodologas no es el indicado (objetos de estudio diferentes al caso nuestro) y muchas se fundamentan en el proceso de ETL que se lleva a cabo en un esfuerzo de migracin de datos de un sistema legacy a uno nuevo o

en la creacin de una bodega de datos. Aunque estos casos no se alejan tanto de la realidad, pues el sistema de la Clnica Universitaria Bolivariana pas de un sistema legacy a ser migrado a una base de datos Oracle, la idea es realizar un diagnstico sobre el sistema ya migrado, que seguramente encontrar cierta cantidad de problemas que debieron ser tratados previamente en el sistema legacy, en el sistema de ingreso (validaciones) de datos y mediante transformaciones en el proceso de ETL. Posteriormente, basado en el perfilamiento, diagnstico y recomendaciones encontradas, se podra realizar una limpieza in situ para completar el ciclo de limpieza de datos. Se decide desarrollar una nueva metodologa a partir de la propuesta por Leslie M. Tierstein que ayude a cumplir los principales objetivos propuestos en trabajo de grado. 1) Planeacin y Preparacin Contextualizacin y compresin del negocio Preparacin de un cronograma Especificacin de necesidades de hardware y software Especificacin de mtricas para el proyecto 2) Anlisis y diseo conceptual Determinacin de una muestra de los datos para identificar principales problemas Seleccin de problemas para el proyecto en particular Identificacin los problemas en la muestra con base en una taxonoma de problemas comunes. Realizacin de listado de tablas a limpiar Establecimiento de mtodos de diagnstico para cada problema seleccionado 3) Generacin de resultados y anlisis Realizar perfilamiento de los datos Anlisis de resultados Determinar la causa de las fallas en los Generar recomendaciones (Reemplaza la fase 4, en caso de realizar slo un diagnostico) 4) Realizar la limpieza Definicin de mtodos de limpieza para los problemas seleccionados Limpieza de los datos Realizacin de un informe comparativo del estado de los datos antes y despus de la limpieza conforme a las mtricas definidas. De esta manera se considera que la metodologa cubre todo el proceso de limpieza, es adaptable a diferentes entornos (independiente de herramientas y estructura de los datos) y permite una evaluacin con respecto a los problemas existentes y a las prioridades de las empresas.

5.1 Planeacin y Preparacin Contextualizacin Dentro de la evaluacin preliminar, en particular se encuentra que los la base de datos fue diseada por un nico proveedor de software que utiliza un modelo relacional para guardar los datos y ajusta la estructura de acuerdo a cada cliente, siguientes caractersticas de los datos se consideran relevantes para el estudio: No se utilizan restricciones de tipo clave fornea, cada programa valida las relaciones. No se utilizan restricciones de formato o de rangos de valores, el programa las realiza. Existe una cantidad considerable de tablas sin clave primaria. Se utiliza una mnima cantidad de formatos de datos diferentes. Especificacin de necesidades de hardware y software Para realizar el estudio en este caso particular se necesitan equipos de cmputo con las siguientes caractersticas o superiores y unas configuraciones sencillas Tener una maquina virtual de java instalada y permiso de ejecucin Una conexin de red disponible de por lo menos 100Mb/seg Acceso a los datos mediante una conexin SQL La herramienta seleccionada para realizar el perfil fue DQAnalyzer [8], que brinda la posibilidad de realizar el perfil sobre diferentes fuentes con una mnima configuracin y entrega informacin estadstica de los datos de forma general y particular, agrupndola de diferentes formas dependiendo del tipo de dato (por frecuencias de valores, percentiles, rangos o mscaras). Adems permite hacer procesos personalizados sobre uno o varios campos por ejemplo a partir de expresiones regulares. La herramienta seleccionada para analizar particularmente el problema de redundancia de entidades fue FRIL [9], un software de cdigo abierto que utiliza algoritmos conocidos y de eficiencia probada en la deteccin de informacin duplicada a partir de un campo tipo texto, este software permite realizar este anlisis con una mnima configuracin, no es necesaria una instalacin y solo exige una conexin para el acceso a los datos, se ejecuta en varias plataformas y adems exporta a formatos de texto delimitado los resultados. 5.2 Anlisis y Diseo Conceptual Para evaluar correctamente los problemas ms comunes y de mayor impacto para este caso, primero se evala con respecto a una muestra de los datos cuales problemas se encuentran y cuales se podran presentar en el total de datos, luego se seleccionan de acuerdo a las prioridades de la empresa y se clasifican de acuerdo a la taxonoma escogida previamente. Dentro de la muestra evaluada con datos del mes de junio de algunas tablas con datos del servicio de atencin de urgencias, se encontraron errores de formato y de intervalo, as como informacin duplicada de mdicos y especialidades, adems existe una cantidad importante de datos que opcionales que no se diligencian en la admisin. En relacin a lo encontrado se seleccionan los siguientes

5 DESARROLLO DE LA METODOLOGA
Con la metodologa clara, se procede al desarrollo de cada de cada uno de los pasos definidos,

problemas contextualizados de acuerdo a la taxonoma: valores ausentes, violaciones de sintaxis, violaciones de intervalo, violaciones de unicidad de valores, violaciones de integridad referencial, registros semivacos, registros idnticos.

5.3 Generacin de Resultados y Anlisis Generar los resultados de cada problema implica un procedimiento diferente ya que cada uno aplica a diferentes escenarios probables. A partir del perfil de datos se puede empezar a analizar cada problema, muestra rpidamente ciertos errores y permite realizar un patrn que pueda detectar cada problema. Por ejemplo, para el caso de valores ausentes, los perfiles nos dicen en cada campo que porcentaje de valores son nicos y cuales son diferentes, por lo que para una columna denominada como nica, la cantidad de valores con ms de una ocurrencia debe ser cero. Los perfiles entonces, se utilizan como ayuda y como parte del procedimiento para el diagnostico varios de problemas. A continuacin se describe brevemente el procedimiento para solucionar cada problema. Valores ausentes: se realiza un desarrollo propio para que consolide los datos de los perfiles, a partir de los datos "cantidad de nulos y no nulos", se calcula el porcentaje de valores nulos por campo, luego se filtran solo los campos que estn denominados como obligados (deben tener un valor) en el diccionario de datos. Violaciones de sintaxis: a partir de los datos de cantidad de valores diferentes por mascara, se filtran aquellos que poseen caracteres que no son aceptados en ningn campo tipo texto y luego se aplican filtros de cada campo especifico (solo nmeros, solo letras, etc.). Violaciones de intervalo: primero se define un rango inferior y superior para cada campo de tipo numrico o de fecha, luego a partir de los datos "frecuencia de valores", se evala cuantos datos se encuentran dentro del rango de valores correcto y cuales violan el intervalo definido. Violaciones de unicidad: para los campos definidos como nicos, a partir de los datos del perfil "valor nico, no nico y distinto", se calcula cuantos de los valores no nicos existen en estas columnas. Violaciones de integridad referencial: debido a la falta de restricciones de clave fornea definidas (con la cual trabajan las herramientas que evalan este problema), se hizo necesario un desarrollo propio para evaluar los errores en las relaciones definidas en el diccionario de datos, a partir de sentencias SQL que cuentan la cantidad de datos con incongruencia en la relacin de referencia. Registros idnticos: dentro de las tablas que no poseen clave primaria, a partir de sentencias SQL, se evala cuantos registros son exactamente iguales. Redundancia de entidades: Para este problema fue necesario utilizar una herramienta que pudiera comparar registros, a partir del contenido de uno o varios campos tipo texto. Primero se crean consultas con los campos que entran en la comparacin, en este caso por ejemplo, se ejecuta para detectar nombres de pacientes duplicados concatenando nombres y apellidos en uno solo. Por medio de la herramienta FRIL, se puede ejecutar una de estas consultas como fuen-

te de datos, exige una prioridad para cada campo en la comparacin de similitud de registros y entrega un resultado de acuerdo a los parmetros. En la totalidad de los casos (en unos cuantos se evala con otros algoritmos adicionales) se utiliza el algoritmo de similitud Q-grams, ya que se considera obtiene buenos resultados en diferentes escenarios, de acuerdo a la clasificacin hecha por Ivn Amn y Claudia Jimnez [10], en su artculo "Deteccin de Duplicados: Una Gua Metodolgica". Para cada tabla que se evala a criterio de los responsables de la informacin, cules de los resultados entregados por la herramienta son realmente duplicados. Registros semivacos: Se utiliza un desarrollo propio basado en sentencias SQL, para cuantificar la cantidad de columnas vacas en promedio por cada tabla. En particular, para cada problema se debe dejar claro la cantidad de tablas y registros que se seleccionaron para el anlisis, si bien se da un resultado consolidado, cada caso tiene su escenario probable de ocurrencia, por ejemplo las violaciones de intervalo solo aplican a campos fecha y numero. Por consiguiente, los resultados siguientes deben analizarse individualmente. Para conocer acerca de los resultados particulares de cada problema remtase a las tablas de resultados particulares detallados de la 1 a la 8
Tabla 1. Resultados detallados del anlisis de valores ausentes, resumido para porcentajes mayores a 1.
Nombre de la tabla AYMOV AYMOVORD AYMOVOTR CNCIT INACC INCUP INEXA INMHA INPACI INPRO INTEN INTIP INURG INURGDET Total Cant. Columnas Registros Obligadas 965116 222514 965099 135875 11107 12387 4196 174978 293958 11107 12 184 6846 6833 243517,2 8 1 4 3 1 1 3 1 7 4 1 1 1 1 80 Cant. Nulos 87212 86134 583735 25046 2584 148 369 12970 110298 2397 % 1,13% 38,71% 15,12% 6,14% 23,26% 1,19% 2,93% 7,41% 5,36% 5,40%

12 100,00% 1 1065 2284 1007658 0,54% 15,56% 33,43% 5,17%

Tabla 2. Resultados detallados del anlisis de violaciones de sintaxis.


TABLA AYCARDET AYCARFAC AYMOV CNCIT INACCDET INDIA INESP VIOLACIONES DE SINTAXIS 43011 3884 652070 418 368 1 5 NUMERO DE REGISTROS 704698 787780 959038 146721 4605 17958 244

INEXA INMED INMEGR INPAC INPACI INPACINF INPRO INPROEMP INTUR TOTAL en 360 campos

12 24 2035 195 327756 45835 36 3597 696 1079943

4205 771 270860 1021 302306 269933 11113 142889 27759 12637609

AYCARDET INMEGR INPACI INPACINF

783645 381899 347827 261260

704698 270860 302306 269933 111896 7369212 11974403

1,11 1,41 1,15 0,97 1,46 1,18 0,72

AYMOVEPS 162930 Total 8667394 TOTAL (INCLUYENDO LAS TABLAS DEL ALCANCE)

Tabla 3. Resultados detallados del anlisis de violaciones de intervalo en campos numricos, resumido para tablas con ms de 1 error.
NOMBRE DE LA TABLA AYCARDET AYORDDET CNCANCIT CNCIT CNLIS INACC INMTRA INORDDET INPACI INPACUBI TOTAL CAMPOS ANALIZADOS 6 2 3 2 2 4 4 6 2 4 188

Tabla 6. Resultados detallados del anlisis de registros idnticos, solo las tablas con errores.
NOMBRE DE LA TABLA Registros Duplicados 820 7 1827 3422 243 12 28 2 321 182 24 49 6937 NUM. REGISTROS 1485848 111896 61593 12472 407761 1462 9945 267432 62744 9913 257868 68865 4910160 % 0,055187 0,006256 2,966246 27,43746 0,059594 0,820793 0,281549 0,000748 0,511603 1,835973 0,009307 0,071154 0,001413

ERRORES 3 17 4 19 19 19 3 20 25 21 157

REGISTROS 704698 209074 22400 146721 5511 10931 120548 219269 302306 34158 12076096

AYLOG AYMOVEPS INCAMHIS INCAMIDE INLOG INLOGHIS INLOGSQL INMESP INMPRO INORDDPR INPACMRE INPACTRA Total

Tabla 4. Resultados detallados del anlisis de errores de unicidad de valores.


TABLA COLUMNA AYCAR CARDOC AYMOV MOVDOC INEMP EMPNIT INENT ENTNIT INMED MEDCED MEDREG INPACI PACNUI Total CONTEO 8 8 8 8 90 90 2 2 281 41 240 2340 2340 2729 1682153 0,162233 302306 0,77405 771 36,44617 28 7,142857 219 41,09589 959038 0,000834 NUM. REGISTROS 419791 % 0,001906

Tabla 7. Resultados detallados del anlisis de redundancia de entidades.


NOMBRE DE TABLA INBAR INEMP INENT INESP INEXA INMED INMUN INOCU INPACI(aprox.) INPRO INQUI TOTAL NUMERO DE REGISTROS 261 219 28 244 4205 771 1050 100 302306 11113 572 320869 # ENTIDADES REDUNDANTES 0 22 0 21 2138 16 0 0 3917 3151 0 9265

% 0.00 10.05 0.00 8.61 50.84 2.08 0.00 0.00 1.30 28.35 0.00 2.89

Tabla 5. Resultados detallados del anlisis de integridad referencial, solo las 8 primeras tablas con ms errores.
CANTIDAD DE REGISTROS ERRORES TOTALES 3393445 2307776 833988 959038 954490 803997 RELACION ERRORES POR REGISTRO 3,54 2,42 1,04

TABLA AYMOV AYMOVOTR AYMOVARS

Tabla 8. Resultados detallados del anlisis de registros semivacios.

NOMBRE DE LA TABLA AYMOVEGR INORDDET AYORDDET INPACORD INPACMRE AYMOVORD INPACOTR INPACINF INPROEMP

PROM. COLUM. VACIAS 17,958 40,1979 35,8527 10,5743 11,5486 11,7882 10,9742 24,7339 4,6417

NUM. COLUMNAS

% PROM. COL. VACIAS 71,83 69,31 67,65 50,35 50,21 49,12 47,71 47,57 46,42

NUMERO DE REGISTROS

se han catalogado en un estado inaceptable.

25 58 53 21 23 24 23 52 10

482718 219269 209074 212554 257868 228312 270234 269933 142889

6 CONCLUSIONES
El diagnostico de calidad o el proceso de limpieza de datos se debe seguir un proceso definido, coherente y correctamente delimitado. Los pasos a seguir, de las herramientas a utilizar y de la clasificacin de los problemas a analizar son puntos que deben estar claramente establecidos antes de ejecutar el procedimiento. Los problemas que afectan la calidad de los datos tienen cada uno, causas y mtodos de solucin especficos, la claridad en la definicin del problema es el primer paso para detectarlo. Para el preciso diagnstico y la posterior correccin de los problemas de calidad de datos, se debe primero clasificar y delimitar detalladamente utilizando un lenguaje comn, debido a la cantidad de variantes similares que se pueden presentar con severidad, impacto y mtodos de diagnstico considerablemente diferentes. Dentro de las causas de errores detectadas en este estudio particular son: Falta de validaciones de formato, intervalo y duplicidad en los formularios de las aplicaciones. Migraciones de motores de bases de datos. Diferencias en los formatos de fecha y el conjunto de caracteres. Definicin incompleta del modelo dentro del software de base de datos, de la infraestructura y de las restricciones tanto de referencia como de campos particulares.

La valoracin de los resultados puede variar dependiendo del tipo de problema que se presente y de las prioridades de la institucin objetivo, por esto la valoracin final de los resultados se confrontan contra la definicin de umbrales definidas previamente en la fase de anlisis, esta comparacin se resume en la Tabla 9.
Tabla 9. Resumen general de resultados y clasificacin.
UMBRAL INFERIOR UMBRAL SUPERIOR

INDICADOR

VALOR (%)

ESTADO

Relacin de registros duplicados por numero de registros Porcentaje de valores nulos errneos Porcentaje de errores de sintaxis Relacin de errores de violacin de intervalo por numero de registros por numero de campos (En campos tipo NUMEIRICO) Relacin de errores de violacin de intervalo por numero de registros por numero de campos (En campos FECHA) Relacin de errores de integridad referencial por registro: 0,72 Promedio de columnas vacas Porcentaje de errores de unicidad de valores por tabla Porcentaje de datos redundantes no idnticos

0,14 5,17 0,023 7

0 0 0

0 5 5

ACEPTABLE CONSIDERABLE

ACEPTABLE

AGRADECIMIENTOS
0,000 007

ACEPTABLE

Los autores quieren agradecer al personal de la Clnica Bolivariana que particip en el proyecto y en particular al coordinador del rea de informtica Jorge Ceballos Gallo, por la colaboracin, la buena disposicin y los recursos facilitados.

REFERENCIAS
0,000 026 0 5
ACEPTABLE

72 27,37 5

0 10

5 30

INACEPTABLE CONSIDERABLE

0,16

10

ACEPTABLE

2,89

10

ACEPTABLE

Todos los problemas analizados presentan ocurrencia, existen errores de estructura aunque no han significado un dao significativo en los datos. Existen dos casos con un impacto alto en la calidad de la informacin, como lo son los errores de integridad referencial y los valores ausentes que

[1] OLIVEIRA, Paulo y otros. A Taxonomy of Data Quality Problems. En: Proceedings of the 2nd International Workshop on Data and Information Quality (en conjunto con CAiSE05: 2005: Oporto). <disponible en: http://citeseerx.ist.psu.edu/viewdoc/download?doi =10.1.1.109.1695&rep=rep1&type=pdf> [Consulta : 21 Sep. 2010] [2] RAHM, Erhard y DO, Hong Hai. Data Cleaning: Problems and Current Approaches. En: IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 23 No. 4. (Dic. 2000). <disponible en: http://lips.informatik.uni-leipzig.de/files/200045.pdf> [Consulta : 21 Sep. 2010] [3] KIM, Won y otros. A Taxonomy of Dirty Data. En: Data Mining and Knowledge Discovery. Vol 7 No. 1. (Ene. 2003). p.81-99. <disponible en:

http://sci2s.ugr.es/docencia/m1/KimTaxonomy03. pdf> [Consulta : 21 Sep. 2010] [4] MLLER, Heiko y FREYTAG, Johann-Christoph. Problems, Methods, and Challenges in Comprehensive Data Cleansing. En: Technical Report HUB-IB164. Humboldt University. Berlin. (2003). <disponible en: http://www.dbis.informatik.huberlin.de/fileadmin/research/papers/techreports/2003hub_ib_164-mueller.pdf> [Consulta : 21 Sep. 2010] [5] ROCHNIK, Nikolay y DIJCKS, Jean-Pierre. Oracle Warehouse Builder 10gR2: Transforming Data into Quality Information. Redwood City, CA: Oracle, 2006. [6] VAN DEN BROECK , Jan y otros. Data Cleaning: Detecting, Diagnosing, and Editing Data Abnormalities. En: PLoS Medicine. Vol 2, No 10 (Oct. 2005). <disponible en: http://clinicaltrials.ploshubs.org/article/info:doi/10 .1371/journal.pmed.0020267> [Consulta : 21 Sep. 2010] [7] TIERSTEIN, Leslie M. A Methodology for Data Cleansing and Conversion. W R Systems, Ltd. 2005. <disponible en: http://www.wrsystems.com/whitepapers/dbclean. pdf> [Consulta : 21 Sep. 2010] [8] DQ Analyzer Product Sheet. Ataccama Corporation.,. 2010. <disponible en: http://www.ataccama.com/files/sheets/dqanalyzer-en-101108.pdf> [Consulta : 10 Jun. 2010] [9] Pawel Jurczyk, James J. y otros, FRIL: A Tool for Comparative Record Linkage. En. [ en lnea ]: <disponible en: http://www.mathcs.emory.edu/~lxiong/research/p ub/jurczyk08fril.pdf> [Consulta : 2 Sep. 2010] [10] AMN, Ivn y Jimnez, Claudia. Deteccin de Duplicados: Una Gua Metodolgica. En: Quinto Congreso Colombiano de Computacin 5CCC. Cartagena. (2010); paginas 5-6.

James Paniagua Contacto: james.paniagua@upb.edu.co. Juan Felipe Mira Contacto: felipemira@gmail.com. Ivn Amn es docente investigador de la Universidad Pontificia Bolivariana de Medelln, Colombia, con veinte aos de experiencia en el sector privado y acadmico. Coordinador de la lnea de Bases de Datos del Grupo de Investigacin GIDATI, su rea de inters es la calidad de datos. Ingeniero de Sistemas de la Universidad Eafit y candidato a Magster de la Universidad Nacional de Colombia. Contacto: Universidad Pontificia Bolivariana Circular 1 No. 70 - 01 Medelln, Colombia; ivan.amon@correo.upb.edu.co.

[11]

You might also like