partir da minerao de dez anos de dados do Sistema Pblico de Sade
Tese apresentada Faculdade de Medicina da Universidade de So Paulo para obteno do ttulo de Doutor em Cincias
Programa de Cardiologia
Orientador: Prof. Dr. Marco Antnio Gutierrez
SO PAULO 2011
Dados Internacionais de Catalogao na Publicao (CIP) Preparada pela Biblioteca da Faculdade de Medicina da Universidade de So Paulo
reproduo autorizada pelo autor
Pires, Fbio Antero Ambiente para extrao de informao epidemiolgica a partir da minerao de dez anos de dados do Sistema Pblico de Sade / Fbio Antero Pires.-- So Paulo, 2011.
Tese(doutorado)--Faculdade de Medicina da Universidade de So Paulo. Programa de Cardiologia.
Orientador: Marco Antnio Gutierrez.
Descritores: 1.Relacionamento de registros 2.Minerao de dados 3.Armazm de dados 4.Sistema nico de Sade 5.Estudos epidemiolgicos
USP/FM/DBD-240/11
Dedicatria
minha querida esposa Silvania e aos meus amados filhos Vincius, Carina e Jlia que por tantas vezes se colocaram em segundo plano para que fosse possvel a realizao desse trabalho.
minha me Neusa pelos marcantes ensinamentos de vida, f e perseverana.
Agradecimentos Especiais
Ao amigo e orientador Prof. Dr. Marco Antnio Gutierrez, pelos desafios propostos que contriburam para o engrandecimento desse trabalho, pela competncia acadmica que conduziu essa orientao e pelas diversas horas da sua vida pessoal dedicadas a realizao desse trabalho .
Ao amigo Umberto Tachinardi, principal responsvel e incentivador do meu ingresso no programa de Ps-Graduao em Cardiologia da FMUSP.
Ao amigo Joo Batista Vargas Neto, que por diversas vezes no trnsito catico de So Paulo debateu conceitos utilizados nesse trabalho.
Aos amigos Fabiano Matos e Valdemir Nunes, pelo apoio na preparao da infra-estrutura tecnolgica utilizada.
Ao amigo Andr Luiz de Almeida, pelo auxlio e disponibilizao de dados fundamentais para a realizao desse trabalho.
Agradecimentos
Aos amigos e colegas do Servio de Informtica do Instituto do Corao que me incentivaram e vibraram com a realizao desse trabalho.
Aos professores Moacyr Nobre, Francisco Laurindo e Alfredo Mansur, pelas importantes sugestes apresentadas a este trabalho.
SUMRIO
LISTA DE TABELAS
LISTA DE FIGURAS
LISTA DE GRFICOS
LISTA DE QUADROS
LISTA DE SIGLAS
1. INTRODUO................................................................................ 2 1.1 Sade Pblica .................................................................................2 1.2 Tecnologia da Informao...............................................................3 1.3 Organizao do texto.......................................................................7 1.4 Notaes .........................................................................................8 2. OBJETIVOS.................................................................................. 10 2.1. Objetivo Geral................................................................................10 2.2. Objetivos Especficos ....................................................................10 3. REVISO DA LITERATURA ........................................................ 13 3.1 Epidemiologia e Sade Pblica.....................................................13 3.2 Epidemiologia e Sade Pblica no Brasil ......................................14 3.3 Sistema nico de Sade...............................................................15 3.4 Tecnologia da Informao.............................................................18 3.4.1 Sistemas de Informao do Ministrio da Sade ..........................20 3.4.2 Utilizao de Bases de Dados Administrativas ou Secundrias em Pesquisas Epidemiolgicas e Vigilncia..................................23 3.4.3 Data Warehouse............................................................................29 3.4.3.1 Elementos do Data Warehouse..............................................32 3.4.3.2 Modelagem Multidimensional .................................................38 3.4.4 Data Mining ...................................................................................42 3.4.5 Relacionamento de Registros (Record Linkage) ...........................57 3.4.5.1 Blocagem...............................................................................62 4. MATERIAIS E MTODOS ............................................................ 66 4.1 Fonte de Dados.............................................................................66 4.1.1 Bases de Dados do DATASUS .....................................................66 4.1.2 Bases de Dados da SES/SP .........................................................67 4.1.3 Bases de Dados do Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo.......................................68 4.2 Extrao e Transformao dos Dados de Origem.........................70 4.2.1 Dados do DATASUS .....................................................................71 4.2.2 Dados da SES/SP .........................................................................72 4.2.3 Dados do HCFMUSP.....................................................................75 4.3 Associao de Registros (Record Linkage)...................................76 4.3.1 Identificao das Variveis............................................................77 4.3.2 Anlise do Preenchimento e Consistncia das Variveis..............79 4.3.3 Padronizao das Variveis ..........................................................84 4.3.4 Blocagem.......................................................................................94 4.3.5 Pareamento...................................................................................95 4.3.6 Caracterizao da base de dados Controle.................................105 4.3.7 Teste de Perturbao..................................................................106 4.4 Estrutura do Data Warehouse.....................................................109 4.5 A ferramenta MinerSUS...............................................................121 4.6 Consideraes ticas ..................................................................122 5. RESULTADOS............................................................................ 124 6. DISCUSSO............................................................................... 152 7. CONCLUSES ........................................................................... 164 8. ANEXOS ..................................................................................... 167 9. REFERNCIAS BIBLIOGRFICAS........................................... 170
LISTA DE TABELAS
Tabela 3.1 Amostra de transaes de um supermercado armazenadas no banco de dados .............................. 45 Tabela 3.2 Exemplo de regras descobertas atravs de tcnicas de Data Mining ........................................................... 46 Tabela 3.3 Amostra de registros de pessoas ............................... 58 Tabela 4.1 Mtodos desenvolvidos para anlise, consistncias e padronizao de variveis ....................................... 76 Tabela 4.2 Variveis do SIASUS, armazenadas na BD-SES/SP, utilizadas no processo de associao de registros .... 77 Tabela 4.3 Variveis do SIHSUS, armazenadas na BD-SES/SP, utilizadas no processo de associao de registros .... 78 Tabela 4.4 Variveis do SIM, armazenadas na BD-SES/SP, utilizadas no processo de associao de registros .... 78 Tabela 4.5 Amostra de nomes de pacientes invlidos encontrados nos registros do SIHSUS e SIASUS (BD-SES/SP) .............................................................. 83 Tabela 4.6 Amostra de nomes de mes invlidos encontrados nos registros do SIHSUS e SIASUS (BD-SES/SP) .... 83 Tabela 4.7 Comparao de strings atravs dos algoritmos de Levenshtein e Jaro-Winkler ........................................ 85 Tabela 4.8 Comparao de strings atravs dos algoritmos de Levenshtein e Jaro-Winkler incluindo registros fonetizados ................................................................. 86 Tabela 4.9 Exemplos de preenchimento da varivel <logradouro>.............................................................. 87 Tabela 4.10 Exemplos de preenchimento da varivel <logradouro>aps aplicao do mtodo padroniza logradouro ................................................................. 88 Tabela 4.11 Detalhamento do mtodo fonetiza strings aplicado nas variveis <nome do paciente>, <nome da me> e <logradouro>........................................................... 89 Tabela 4.12 Mtodo de padronizao aplicado por varivel .......... 90 Tabela 4.13 Tabela dos dados demogrficos dos pacientes contido nos registros dos sistemas SIHSUS e SIASUS ...................................................................... 92 Tabela 4.14 Tabela dos dados demogrficos dos pacientes contido nos registros do sistema SIM ......................... 93 Tabela 4.15 Dicionrio de pesos (concordncia e discordncia), por varivel, utilizados para associao de registros . 97 Tabela 4.16 Tabela de pares com os pesos por varivel ............... 98 Tabela 4.17 Comparao entre um registro original e perturbaes inseridas no mesmo registro ................ 108 Tabela 4.18 Dimenses utilizadas para representao do Fato bito, segundo informaes contidas na declarao de bito ....................................................................... 112 Tabela 4.19 Dimenses utilizadas (dados do beb) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos ........................................................................... 113 Tabela 4.20 Dimenses utilizadas (dados da me) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos ........................................................................... 114 Tabela 4.21 Dimenses utilizadas (dados do parto) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos ........................................................................... 114 Tabela 4.22 Dimenses utilizadas (dados do local) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos ........................................................................... 115 Tabela 4.23 Dimenses utilizadas (dados do paciente) para representao do Fato Internao, segundo informaes contidas na Autorizao de Internao Hospitalar ................................................................... 116 Tabela 4.24 Dimenses utilizadas (dados da internao) para representao do Fato Internao, segundo informaes contidas na Autorizao de Internao Hospitalar ................................................................... 117 Tabela 4.25 Dimenses utilizadas (dados do paciente) para representao do Fato Atendimento Ambulatorial, segundo informaes contidas na APAC e no BPA ... 118 Tabela 4.26 Dimenses utilizadas (dados do atendimento) para representao do Fato Atendimento Ambulatorial, segundo informaes contidas na APAC e no BPA ... 119 Tabela 4.27 Faixa de escores para definio do percentual de confiabilidade entre o registro e o paciente ................ 120 Tabela 5.1 Distribuio das frequncias absoluta e relativa do preenchimento por varivel, segundo tipo de atendimento (base de dados BD-Controle) ................ 125 Tabela 5.2 Classificao dos pares de registros na base de dados BD-Controle, considerando o relacionamento determinstico como padro ouro .............................. 126 Tabela 5.3 Resultados da avaliao do mtodo de relacionamento de registro na base de dados BD- Controle .................................................................. 127 Tabela 5.4 Distribuio das frequncias absoluta e relativa do preenchimento por varivel, segundo tipo de atendimento (base de dados BD-SES/SP) ................. 128 Tabela 5.5 Distribuio do sexo, segundo as bases de dados BD-SES/SP e BD-Controle ......................................... 130 Tabela 5.6 Distribuio do primeiro nome mais frequente, segundo as bases de dados BD-SES/SP e BD- Controle ...................................................................... 130 Tabela 5.7 Distribuio do ltimo nome mais frequente, segundo as bases de dados BD-SES/SP e BD-Controle ......... 130 Tabela 5.8 Distribuio de pares, segundo critrio de associao .................................................................. 132 Tabela 5.9 Quantidade de registros por bloco - Etapa de blocagem .................................................................... 133 Tabela 5.10 Distribuio de bitos, segundo ano do bito ............. 135 Tabela 5.11 Distribuio de nascidos vivos, segundo ano do nascimento ................................................................. 135 Tabela 5.12 Distribuio de atendimentos ambulatoriais, segundo ano do atendimento .................................................... 136 Tabela 5.13 Distribuio de atendimentos alta complexidade, segundo ano do atendimento ..................................... 136 Tabela 5.14 Distribuio de internaes, segundo ano da internao ................................................................... 136 Tabela 5.15 Quantidade de inconsistncias por cubo e dimenso 137
LISTA DE FIGURAS
Figura 3.1 Diagrama do ciclo de vida dimensional ...................... 31 Figura 3.2 Diagrama dos elementos do DW adaptao dos modelos de (SANTOS e GUTIERREZ 2008 e KIMBALL 2002) .......................................................... 32 Figura 3.3 Tabela de Fato ........................................................... 39 Figura 3.4 Tabela de Dimenso .................................................. 39 Figura 3.5 Modelo Dimensional: Star Schema ............................ 40 Figura 3.6 Exemplo de um modelo multidimensional sobre o assunto leitos disponveis ........................................... 41 Figura 3.7 Relatrio extrado do modelo dimensional sobre o assunto leitos disponveis. (Duas dimenses na rea linha e uma dimenso na coluna) ............................... 41 Figura 3.8 Relatrio extrado do modelo dimensional sobre o assunto leitos disponveis. (Trs dimenses na rea linha) ........................................................................... 42 Figura 3.9 Classificao de emprstimos bancrios ................... 48 Figura 3.10 Clusters de emprstimos bancrios ........................... 49 Figura 3.11 Deteco de desvio no perfil de compras pagas atravs de carto de crditos ..................................... 50 Figura 3.12 Arquitetura do ambiente computacional. (adaptado de SANTOS e GUTIERREZ, 2008) ............................ 52 Figura 3.13 Exemplo hipottico da tcnica de blocagem, considerando o prenome como chave para constituio dos blocos .............................................. 63 Figura 3.14 Exemplo hipottico da tcnica de blocagem restritiva 64 Figura 4.1 Bases de dados utilizadas como fonte de dados ....... 69 Figura 4.2 Diagrama dos elementos do DW: Bases de Dados (fontes de dados originais), STAGE (cpia das fontes de dados originais, pr-processamento) e Apresentao dos dados (modelos dimensionais processados e dicionrio de metadados) .................. 70 Figura 4.3 Exemplo de tabelas com violao de integridade referencial ................................................................... 72
Figura 4.4 Cubo dimensional para representar o fato BITO ..... 111 Figura 4.5 Cubo dimensional para representar o fato NASCIMENTO ............................................................ 113 Figura 4.6 Cubo dimensional para representar o fato INTERNAO ............................................................ 115 Figura 4.7 Cubo dimensional para representar o fato ATENDIMENTO AMBULATORIAL ............................. 118 Figura 5.1 Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses PERODO e RAA/COR ..... 140 Figura 5.2 Inverso das dimenses Raa/Cor e Perodo do Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses PERODO e RAA/COR ..... 141 Figura 5.3 Resultado final da Inverso das dimenses Raa/Cor e Perodo do Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses PERODO e RAA/COR ................................................................ 141 Figura 5.4 Utilizando o filtro de procedimentos para a parametrizao do filtro global ................................... 145 Figura 5.5 Lista de identificadores de pacientes que ser carregada para a parametrizao do filtro global ....... 146 Figura 5.6 Concluso da parametrizao do filtro global para ser utilizado para dimenso PACIENTE ..................... 147 Figura 5.7 Relatrio OLAP (utilizando filtro global), quantidade de internaes, quantidade de dias de permanncia, valor total das internaes e valor alta complexidade (ambulatrio) segundo dimenso PACIENTE e DIAGNSTICO .......................................................... 149 Figura 5.8 Relatrio OLAP (utilizando filtro global), quantidade de internaes, quantidade de dias de permanncia, valor total das internaes e valor alta complexidade (ambulatrio) segundo dimenso PACIENTE e PROCEDIMENTO ...................................................... 150
LISTA DE GRFICOS
Grfico 4.1 Resultado da perturbaes geradas em mil (1000) registros ...................................................................... 109 Grfico 5.1 Comparativo da distribuio de pacientes por faixa de ano de nascimento entre base de dados BD- Controle e base de dados BD-SES/SP ...................... 131 Grfico 5.2 Distribuio dos escores dos pares Comparao entre as base de dados BD-Controle e BD-SES/SP... 131 Grfico 5.3 Evoluo do nmero de ocorrncias, segundo fato do modelo dimensional ............................................... 137 Grfico 5.4 Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses RAA/COR e PERODO ..................................................................................... 142 LISTA DE QUADROS
Quadro 4.1 Processo de comparao da varivel <Nome do Paciente>.................................................................... 99 Quadro 4.2 Processo de comparao da varivel <CPF>............ 99 Quadro 4.3 Processo de comparao da varivel <Data de Nascimento>............................................................... 100 Quadro 4.4 Processo de comparao da varivel <Nome da Me>........................................................................... 101 Quadro 4.5 Processo de comparao da varivel <Logradouro>.. 102 Quadro 4.6 Processo de comparao da varivel <Nmero do Logradouro>................................................................ 103 Quadro 4.7 Processo de comparao da varivel <Complemento do Logradouro>........................................................... 103 Quadro 4.8 Processo de comparao da varivel <CEP>............. 103 Quadro 4.9 Processo de comparao da varivel <Municpio de Residncia>................................................................. 104 Quadro 4.10 Processo de comparao da varivel <Nmero da AIH>............................................................................ 104 Quadro 4.11 Processo de comparao da varivel <Nmero da APAC>........................................................................ 104
LISTA DE SIGLAS
3G Terceira Gerao de Padres e Tecnologias de Telefonia Mvel AIH Autorizao de Internao Hospitalar APAC Autorizao de Procedimentos de Alta Complexidade BD-DATASUS Bases de dados do Departamento de Informtica do SUS BD-SES/SP Bases de dados da Secretaria Estadual de Sade de So Paulo BD-HCFMUSP Bases de dados do Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo BD-Controle Base de dados resultante da associao entre a base de dados da Secretaria Estadual de Sade de So Paulo e a base e dados do Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo BPA Boletim de Produo Ambulatorial CID Classificao Internacional de Doenas CNES Cadastro Nacional de Estabelecimentos de Sade CNH Carteira Nacional de Habilitao CPF Cadastro Nacional de Pessoa Fsica DATASUS Departamento de Informtica do SUS DECIT Departamento de Cincia e Tecnologia do Ministrio da Sade DM Data Mining DN Declarao de Nascido Vivo DO Declarao de bito DW Data Warehouse ESF Equipes de Sade da Famlia ETL Extract Transformation Load (Extrao Transformao Carga) GPS Global Positioning System (Sistema de Posicionamento Global) HCFMUSP Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo IC Intervalo de Confiana IC95% Intervalo de Confiana de 95% LILACS Literatura Latino-Americana e do Caribe em Cincias da Sade MEDLINE Literatura Internacional em Cincias da Sade MOLAP Multidimensional On-line Analytical Processing OLAP On-line Analytical Processing OLAM On-line Analytical Mining OLTP On-Line Transaction Processing RDBMS Relational Database Management System RGHC Nmero de Matricula do Paciente no Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo. SADT Servio de Apoio a Diagnose e Terapia SES/SP Secretaria Estadual da Sade de So Paulo SIASUS Sistema de Informaes Ambulatoriais do SUS SIAB Sistema de Informao da Ateno Bsica SciELO Scientific Electronic Library Online SISCEL Sistema de Controle de Exames Laboratoriais SIHSUS Sistema de Informaes Hospitalares do SUS SIM Sistema de Informao sobre Mortalidade SINAN Sistema de Informao de Agravos de Notificao SINASC Sistema de Informaes sobre Nascidos Vivos SUS Sistema nico de Sade TI Tecnologia da Informao TMI Taxa de Mortalidade Infantil TRS Terapia Renal Substitutiva
Resumo
PIRES FA. Ambiente para extrao de informao epidemiolgica a partir da minerao de dez anos de dados do sistema pblico de sade [tese]. So Paulo: Faculdade de Medicina, Universidade de So Paulo; 2011. 186p.
A utilizao de bases de dados para estudos epidemiolgicos, avaliao da qualidade e quantidade dos servios de sade vem despertando a ateno dos pesquisadores no contexto da Sade Pblica. No Brasil, as bases de dados do Sistema nico de Sade (SUS) so exemplos de repositrios importantes que renem informaes fundamentais sobre a Sade. Entretanto, apesar dos avanos em termos de coleta e de ferramentas pblicas para a pesquisa nessas bases de dados, tais como o TABWIN e o TABNET, esses recursos ainda no fazem uso de tcnicas mais avanadas para a produo de informao gerencial, como as disponveis em ferramentas OLAP (On Line Analytical Processing) e de minerao de dados. A situao extremamente agravada pelo fato dos dados da Sade Pblica, produzidos por vrios sistemas isolados, no estarem integrados, impossibilitando pesquisas entre diferentes bases de dados. Consequentemente, a produo de informao gerencial torna-se uma tarefa extremamente difcil. Por outro lado, a integrao dessas bases de dados pode constituir um recurso indispensvel e fundamental para a manipulao do enorme volume de dados disponvel nesses ambientes e, assim, possibilitar a produo de informao e conhecimento relevantes, que contribuam para a melhoria da gesto em Sade Pblica. Acompanhar o seguimento de pacientes e comparar diferentes populaes so outras importantes limitaes das atuais bases de dados, uma vez que no h um identificador unvoco do paciente que possibilite executar tais tarefas. Esta Tese teve como objetivo a construo de um armazm de dados (data warehouse), a partir da anlise de dez anos (perodo de 2000 a 2009) das principais bases de dados do SUS. Os mtodos propostos para coleta, limpeza, padronizao das estruturas dos bancos de dados, associao de registros ao paciente e integrao dos sistemas de informao do SUS permitiram a identificao e o seguimento do paciente com sensibilidade de 99,68% e a especificidade de 97,94%.
Descritores: Relacionamento de registros, Minerao de dados, Armazm de dados, Sistema Pbico de Sade, Estudos epidemiolgicos.
Summary
PIRES FA. Environment for epidemiological information extraction by data mining ten years of data from the health public system [thesis]. So Paulo: Faculdade de Medicina, Universidade de So Paulo; 2011. 186p.
The use of databases for epidemiologic studies, quality and quantity evaluation of health services have attracted the attention of researchers in the context of Public Health. In Brazil, the databases of the Sistema nico de Sade (SUS) are examples of important repositories, which store fundamental information about health. However, despite of the advances in terms of load and public tools for research in those databases, such as TABWIN and TABNET, these resources do not use advanced techniques to produce management information as available in OLAP (On Line Analytical Processing) and data mining tools. The situation is drastically increased for the fact that data in public health, produced for different systems, are not integrated. This makes impossible to do research between different databases. As a consequence, the production of management information is a very difficult task. On the other hand, the integration of these databases can offer an important and fundamental resource to manipulate the enormous volume of data available in those environments and, in this way, to permit the production of relevant information and knowledge to improve the management of public health. The patient follow up and the comparison of different populations are other important limitations of the available databases, due to the absence of a common patient identifier. The objective of this Thesis was the construction of a data warehouse to analyze ten years (period from 2000 to 2009) of the principal databases of SUS. The proposed methods to load, clean, database structure standardization, patient record linkage and SUS information systems integration have been permitted patient identification and follow up with sensitivity of 99.6% and specificity of 97.94%.
Descriptors: Record linkage, Data mining, Data warehouse, Brazilian Public Healthcare, Epidemiologic studies.
Introduo
Introduo 2
1. INTRODUO
1.1 Sade Pblica A Sade Pblica pode ser definida como a arte e a cincia de prevenir doenas, promover a sade e prolongar a vida atravs de esforos organizados da sociedade (BLANE, 1999 e ACHESON Report, 1998). Existem outras definies para o termo, porm, todas elas apresentam como idia central o controle, a preveno e reduo de doenas, bem como a manuteno e promoo da sade de toda a populao (BEAGLEHOLE, 2004). No contexto nacional, a Sade Pblica garantida pela Constituio Brasileira, por meio do Sistema nico de Sade (SUS) (BRASIL, 1990). Para viabilizar o seu funcionamento, imprescindvel a demanda de um grande volume de informaes para subsidiar mecanismos de controle, processos, procedimentos e, sobretudo, a tomada de deciso e a elaborao de polticas pblicas de sade. O Departamento de Informtica do SUS (DATASUS) o rgo responsvel por coletar, processar e disseminar informaes sobre a sade brasileira (BRASIL, 2009). O DATASUS possui vrios sistemas administrativos para produzir informao necessria gesto do SUS, dentre eles o Sistema de Informaes Ambulatoriais (SIASUS); Sistema de Informaes Hospitalares (SIHSUS); Cadastro Nacional de Introduo 3
Estabelecimentos de Sade (CNES) e Sistema Estatsticas Vitais (SIM/SINASC) (SANTOS, 2004). Nas definies de Sade Pblica sempre esto presentes os termos controle e preveno. A informao matria-prima para realizao destas aes, ou seja, impossvel controlar e prevenir sem a disponibilidade e o uso adequado da informao. Os sistemas do DATASUS j armazenam uma quantidade considervel de dados e produzem uma grande quantidade de informao, porm, h a necessidade e o desafio de identificar e implementar ferramentas adequadas para manipular a informao disponvel e proporcionar o conhecimento necessrio aos objetivos da Sade Pblica. 1.2 Tecnologia da Informao A cincia da computao apresenta um conjunto de tcnicas e ferramentas destinadas produo de informao gerencial e descoberta de conhecimentos em grandes bases de dados (Minerao de Dados). Estas tcnicas, aplicadas aos dados dos sistemas de informao do DATASUS, podem representar um avano substancial na gesto do SUS e ainda contribuir, decisivamente, nos estudos epidemiolgicos e de vigilncia sanitria atravs da identificao e correlao de padres existentes nos dados. Atualmente, o campo para aplicao das tcnicas e ferramentas de Minerao de Dados mostra-se bastante amplo. Em diversos segmentos, para diferentes problemas, as solues construdas vm se mostrando Introduo 4
eficientes e eficazes (GOLDSCHMIDT, 2005 e CHEN, 2001). Na rea da sade, inclusive na Sade Pblica, h diversos exemplos, bem sucedidos, da aplicao destas tcnicas. Um exemplo o trabalho desenvolvido por pesquisadores da Universidade Changhua de Taiwan, onde proposto um processo para elaborao automtica de modelos que detectam casos abusivos ou fraudulentos nos sistemas de sade (YANG, 2006). Outro trabalho bem sucedido mostra a aplicao de tcnicas de minerao de dados em uma base de dados de sade coletiva, Korea Medical Insurance Corporation (KMIC), visando a descoberta de informaes no triviais para auxlio no monitoramento do programa de controle de hipertenso (CHAE, 2001). Um terceiro exemplo, desenvolvido por pesquisadores da Alabama University em parceria com o Centro para Controle e Preveno de Doenas dos Estados Unidos (CDC), apresenta um processo de anlise de dados capaz de identificar, automaticamente, novos e interessantes padres na base de dados da vigilncia sanitria (STEPHEN, 1998). No mbito da Secretaria da Sade do Estado de So Paulo, foi desenvolvido e implantado um prottipo inicial de um Data Warehouse visando disponibilizar informao gerencial obtida por meio da integrao de dados provenientes de diferentes sistemas de informao do Sistema de Sade Pblica. O desenvolvimento do prottipo permitiu a identificao de alguns aspectos peculiares da rea da Sade, como a qualidade e a demora Introduo 5
na obteno dos dados de origem, bem como o estudo e a implementao de mecanismos para superar os desafios encontrados (SANTOS, 2006). O estgio atual dos sistemas de informao do SUS, embora em constante evoluo, ainda no faz uso de tcnicas e ferramentas mais avanadas para a produo de informao gerencial, como as ferramentas On Line Analytical Processing (OLAP), muito menos da utilizao das tcnicas de minerao de dados. A situao extremamente agravada pelo fato de os dados da Sade Pblica, produzidos por vrios sistemas isolados, no estarem integrados. Consequentemente, a produo de uma informao gerencial torna-se uma tarefa extremamente rdua (SANTOS, 2006). A integrao das bases de dados dos sistemas de informaes do SUS pr-requisito indispensvel para qualquer avano destes sistemas. Somente aps a integr-las ser possvel uma manipulao inteligente do enorme volume disponvel de dados e, consequentemente, a produo de informao relevante que contribua com as ferramentas de gesto da Sade Pblica. Um outro problema a ser enfrentado a identificao unvoca dos pacientes armazenados nos bancos de dados de internaes, exames e medicaes utilizadas no tratamento da alta complexidade. Os dados de identificao dos pacientes que receberam a assistncia teraputica esto armazenados, porm, como os pacientes atendidos pelo SUS no possuem um identificador nico, no possvel acompanhar o seguimento do tratamento dispensado a cada paciente e, desta forma, no possvel a realizao de comparao entre diferentes populaes e de estudos Introduo 6
epidemiolgicos, com foco em seguimento do paciente. Tal possibilidade permitiria aos gestores pblicos e aos estudiosos da sade entender melhor os impactos de medicaes ou tratamentos sobre a populao. Nesse contexto, baseado em variveis de identificao e dados demogrficos do paciente constantes das bases de dados dos sistemas SIHSUS, APAC-SIASUS e SIM, pretende-se desenvolver mtodos que possibilitem relacionar os registros de internaes, atendimentos ambulatoriais de alta complexidade, incluindo medicamentos e o possvel bito ao paciente. Adicional a esta base de dados ancorada no paciente, pretende-se incluir os sistemas BPA-SIASUS, SINASC e CNES e desta forma, construir um repositrio que contenha 10 anos das informaes, referentes aos atendimentos realizados no estado de So Paulo, coletados pelos principais sistemas do Ministrio da Sade de forma integrada e que possibilite a extrao de informaes no contexto da Sade Pblica. A unificao destas informaes em um nico ambiente de forma integrada e padronizada tornar possvel realizao de tarefas tais como: Anlises de custo-efetividade de forma unificada (Internao e Ambulatrio); Anlises de produo (Quantitativa e Qualitativa) ; Pesquisas epidemiolgicas; Conhecer itinerrios teraputicos de pacientes; Comparao de populaes atravs de caractersticas parametrizveis de pesquisas. Introduo 7
1.3 Organizao do texto
Este texto est organizado da seguinte forma: No captulo 2 (Objetivos) so apresentados os objetivos gerais e especficos que motivaram este trabalho. No captulo 3 (Reviso da Literatura) apresentada uma reviso da literatura abordando Epidemiologia e Sade Pblica, as caractersticas da informao no Sistema nico de Sade, os principais Sistemas de Informao do Ministrio da Sade, a utilizao de bases de dados administrativas ou secundrias em pesquisa e vigilncia epidemiolgicas, conceitos de Data Warehouse e Data Mining na rea da sade e, por ltimo, as tcnicas de relacionamento de registros para a associao de duas ou mais bases de dados. No captulo 4 (Materiais e Mtodos) so apresentadas a origem e as caractersticas das bases de dados utilizadas neste trabalho, os mtodos para anlise do preenchimento e consistncia das variveis presentes nas bases de dados utilizadas, os mtodos de limpeza e padronizao das variveis e os mtodos de blocagem e relacionamento de registros entre as bases de dados, a base de dados controle para validao dos mtodos e a adaptao da ferramenta MinerSUS para a realizao de pesquisas com foco no seguimento do paciente. Introduo 8
No captulo 5 (Resultados) so apresentados os resultados da aplicao dos mtodos na base de dados de controle e na base de dados do Sistema nico de Sade e os casos de uso na ferramenta MinerSUS. No captulo 6 (Discusso), discute-se o uso de bases de dados, denominadas administrativas ou secundrias, para anlises e vigilncia epidemiolgica e os resultados obtidos com o relacionamento de registros. Finalmente, no captulo 7 (Concluses), so apresentadas as concluses dos resultados desta tese.
1.4 Notaes Com o objetivo de facilitar a identificao de alguns termos utilizados no texto, as seguintes notaes foram aplicadas: Identificao de varivel: As variveis so descritas no texto sempre entre os caracteres < e >, por exemplo, a varivel nome do paciente ser apresentada como <nome do paciente>; Contedo de varivel: Os contedos das variveis so descritos no texto sempre entre os caracteres e , por exemplo o contedo da varivel <sexo>pode ser Masculino ou Feminino; Os termos em lngua estrangeira esto descritos no texto em itlico, por exemplo, o termo para minerao em dados ser apresentado como Data Mining.
Objetivo
Objetivos
10
2. OBJETIVOS
2.1. Objetivo Geral
O objetivo principal deste trabalho implantar um repositrio de dados (Data Warehouse) para uso de tcnicas de minerao de dados no contexto da Sade Pblica brasileira, contemplando uma dcada (2000 a 2009) de informaes contidas nas bases de dados existentes no DATASUS.
2.2. Objetivos Especficos
a) Implantar a infra-estrutura para acomodar o repositrio de dados (Data Warehouse); b) Realizar a limpeza e adequao dos dados contidos nos sistemas dos DATASUS; c) Definir e carregar o Data Warehouse com um histrico de 10 anos dos principais sistemas de informao do SUS; d) Desenvolvimento do mtodo para associao de registros ao paciente; e) Construo da base de dados Controle visando verificar a eficcia do mtodo de associao de registros. Objetivos
11 f) Implantar ferramentas que permitam a produo de informao gerencial (OLAP); g) Implantar ferramentas que permitam a extrao de conhecimento por meio das tcnicas de Minerao de Dados (Data Mining); h) Avaliar a viabilidade e eficincia das tcnicas de minerao de dados no contexto da Sade Pblica brasileira;
Reviso da Literatura
Reviso da Literatura 13
3. REVISO DA LITERATURA
3.1 Epidemiologia e Sade Pblica Hipcrates (460-377 a.C) atuou como sacerdote de Esculpio em Epidauro onde tambm desenvolveu seus estudos, ensinamentos e pratica da tradio higica. Acredita-se que a Epidemiologia tenha nascido com Hipcrates, diversos autores atribuem a ele os primeiros registros sobre a relao entre doena e o local / ambiente onde ela ocorria (ALMEIDA FILHO, 1986 e COSTA, 1999). No incio da Idade Mdia, mdicos mulumanos aplicando os princpios hipocrticos, adotaram praticas que so consideradas precursoras da Sade Pblica. Neste perodo, consolidou-se o registro de informaes demogrficas e sanitrias bem como os sistemas de vigilncia epidemiolgica sendo Avicena e Averres os principais nomes da chamada medicina do coletivo (MEDRONHO, 2009). A tradio francesa atribui Medicina Veterinria como a primeira medicina voltada para o coletivo ao se investigar uma epizootia que dizimava ovinos, causando prejuzos industria txtil francesa. Esses seriam os primeiros registros de contagem de enfermos visando o controle de uma enfermidade (ROUQUAYROL, 1994 e MEDRONHO, 2009). A abordagem de doenas pelo mtodo numrico influenciou o desenvolvimento dos primeiros estudos, no sculo 19, de morbidade na Reviso da Literatura 14
Inglaterra e nos Estados Unidos, considerados como origem da Sade Pblica (MINAYO, 2003). Segundo Medronho (MEDRONHO, 2009), durante a Segunda Guerra Mundial foram desenvolvidos mtodos eficientes para medir a sade fsica e mental das tropas, tais mtodos foram aplicados na populao civil no ps guerra, onde grandes inquritos epidemiolgicos foram realizados, especialmente de enfermidades no-infecciosas. Rouquayrol (ROUQUAYROL, 1994) destaca o interesse em enfermidades de carter no-transmissvel tais como doenas cardiovasculares e cncer, como objeto de estudos epidemiolgicos aps o declnio na incidncia das doenas infecciosas. Durante a dcada de 1960, aes como a introduo do uso da computao eletrnica, a utilizao de banco de dados e o desenvolvimento e aperfeioamentos de novos desenhos de investigao epidemiolgicas, provoca uma profunda transformao na Epidemiologia (BRASIL, 2002 e MEDRONHO, 2009).
3.2 Epidemiologia e Sade Pblica no Brasil
No Brasil, o incio da Epidemiologia foi na Medicina Tropical e pelos esforos dos naturalistas que, sistematicamente descreveram a ocorrncia de diversas doenas infecciosas, seus vetores e agentes. A vertente acadmica da epidemiologia teve incio no Brasil na dcada de 1920 e seguindo os ensinamentos europeus, teve seu o foco Reviso da Literatura 15
voltado para a Sade Pblica. Em meados da dcada de 1950, foram criados os departamentos de Medicina Preventiva ou Medicina Social em faculdades de Medicina e o ensino da epidemiologia passou a fazer parte do currculo mdico (BARATA, 1997). Analisando as bases de dados do Diretrio de Pesquisa do CNPq em 2000, Barreto (BARRETO, 2002) encontrou 176 grupos de pesquisa no pas com pelo menos uma das suas linhas de pesquisa situada no campo da epidemiologia, totalizando 320 linhas, envolvendo 813 pesquisadores, dos quais 422 eram doutores. Concluindo sua anlise ele afirma: no h dvida de que j constitumos uma comunidade cientfica de porte respeitvel e com grau razovel de maturidade, que se expressa em uma produo cientfica crescente em quantidade e em qualidade.
3.3 Sistema nico de Sade
O Sistema nico de Sade foi criado na Constituio Federal de 1988 e regulamentado pela Lei 8.080 de 1990. Entre seus artigos, encontramos um que caracteriza o acesso a bases de dados: Artigo 39 8: O acesso aos servios de informtica e bases de dados, mantidos pelo Ministrio da Sade e pelo Ministrio do Trabalho e da Previdncia Social, ser assegurado s Secretarias Estaduais e Municipais de Sade ou rgos congneres, como suporte ao processo de gesto, de forma a permitir a gerencia informatizada das contas e a disseminao de estatsticas sanitrias e epidemiolgicas mdico-hospitalares. Reviso da Literatura 16
notvel a predisposio de utilizar informaes contidas nas bases de dados sob a guarda do Ministrio da Sade visando produzir informaes epidemiolgicas. Rouquayrol (ROUQUAYROL, 1994) relata o uso de registros de internaes hospitalares, coletados atravs das AIHs (Autorizao de Internao Hospitalar) para estudos e anlises de morbidade no Brasil. Peixoto et al. (PEIXOTO, 2004) utilizaram dados do Sistema de Informaes Hospitalares do Sistema nico de Sade (SIHSUS) para avaliar os custos de internaes entre idosos (60 ou mais anos de idade) e adultos jovens (20-59 anos). Os achados deste estudo demonstram uma grande contribuio da populao idosa para os gastos com hospitalizaes no mbito do SUS, destacando-se as doenas isqumicas do corao, a insuficincia cardaca e as doenas pulmonares obstrutivas crnicas. Lima-Costa et al. (LIMA-COSTA, 2003) relatam a importante fonte de informao contida nos bancos de dados do Sistema de Informaes sobre Mortalidade (SIM) e do Sistema de Informaes sobre Autorizaes de Internaes Hospitalares (SIHSUS) para a realizao de estudos epidemiolgicos. Mathias et al. (MATHIAS, 1998) estudaram 1.595 internaes referentes a uma amostra representativa das internaes ocorridas nos 8 hospitais gerais do Municpio de Maring, PR. Os diagnsticos registrados nos pronturios mdicos foram comparados aos registrados nas AIHs correspondentes. As concordncias variaram de k=0,79 (doenas do aparelho geniturinrio) a k=0,98 (complicaes da gravidez, parto e Reviso da Literatura 17
puerprio) e k=0,79 (fraturas) a k=0,97 (causas obsttricas diretas) para os 5 grupos e agrupamentos da Classificao Internacional de Doenas (CID) mais freqentes, respectivamente. Os autores concluram que possvel utilizar o banco de dados SIHSUS (Sistema de Internao Hospitalar do Sistema nico de Sade) para o Municpio de Maring, em 1992, com certo grau de confiabilidade segundo grupos de diagnsticos. LOYOLA et al. (LOYOLA FILHO, 2004) utilizaram dados do Sistema de Informaes Hospitalares do Sistema nico de Sade (SIHSUS) para estudar o perfil das internaes hospitalares da populao idosa (60 ou mais anos de idade) comparando-as ao da populao adulta jovem (20-59 anos), com nfase nas causas que justificaram a internao. O risco de hospitalizaes foi acentuadamente mais alto entre idosos em quase a totalidade das causas investigadas. As doenas do aparelho circulatrio, respiratrio e digestivo foram responsveis por 60% das internaes entre os idosos, enquanto que entre os mais jovens essas causas representaram 38% das hospitalizaes. As trs causas mais frequentes de internaes entre idosos, de ambos os sexos, foram insuficincia cardaca, bronquite/enfisema e outras doenas pulmonares obstrutivas crnicas, seguidas pelas pneumonias. Como concluso, os autores sugerem o uso sistemtico do banco de dados do SIHSUS para o planejamento e monitoramento das aes em sade direcionadas populao idosa do Brasil. Oliveira (OLIVEIRA, 2009), em seu editorial da revista Epidemiologia e Servios de Sade, destaca o uso do Subsistema de Reviso da Literatura 18
Autorizao de Procedimentos de Alta Complexidade (APAC), parte integrante do Sistema de Informaes Ambulatoriais (SIASUS). Segundo Oliveira, embora o banco de dados do APAC tenha um foco administrativo, ele apresenta riqueza de dados epidemiolgicos, especialmente para determinadas situaes clnicas, permitindo anlises epidemiolgicas e conhecimento de alguns perfis. Nesta edio, dos oito artigos originais, dois relatam o uso dos bancos de dados disponveis no Sistema nico de Sade.
3.4 Tecnologia da Informao
A Tecnologia da Informao a cincia que visa o tratamento da informao atravs do uso de equipamentos e procedimentos da rea de processamento de dados. Segundo Coeli et al. (COELI, 2009), um sistema de informao pode ser definido como vrios elementos ligados a coleta, armazenamento, processamento de dados e difuso de informaes e tem como funo principal a disponibilizao de informaes de qualidade onde e quando necessrias. Portanto, um sistema de informao composto por um conjunto de partes que atuam articuladamente com o objetivo de transformar dados em informao. O dado pode ser considerado o menor fragmento da informao que armazenada atravs de um sistema, podemos entende-lo como a representao de um fato na sua forma primria, ou seja, o nome de um paciente, seu peso, sua data de nascimento entre outros. A caracterizao da informao representada pelo resultado da combinao de vrios dados que so trabalhados, organizados e interpretados possibilitando assim Reviso da Literatura 19
agregar valor ao fato primrio. Combinando os dados peso e data de nascimento possvel estratificar o peso por faixa etria e ainda calcular a proporo correspondente de cada estrato, isto seria um exemplo simples da transformao de dado em informao. Santos et al. (SANTOS, 2010) argumentam a necessidade de estabelecer uma sucinta distino entre os termos dado, informao e conhecimento, uma vez que se confundem pela proximidade de seus significados. Segundo os autores, dado pode ser definido como um atributo descritivo, qualitativo ou quantitativo acerca de um objeto ou fato. um item elementar da informao que pode ou no ser til para a realizao de determinada tarefa ou tomada de deciso. Em um pronturio mdico, nome do paciente, data de nascimento, horrio de aplicao de uma medicao e dose aplicada so exemplos do termo dado. Informao corresponde a um conjunto de dados, estruturados ou descritivos, que tm significado em um contexto. A transformao de dados em informao costuma ser realizada por meio de apresentao dos dados em uma forma compreensvel ao usurio ou mediante clculos envolvendo outros dados. Com base nos dados registrados em pronturios mdicos, possvel estabelecer o tempo mdio de internao para pacientes submetidos a um procedimento cirrgico especfico, ou seja, os dados data de alta e data de admisso sero transformados na informao mdia de permanncia. Reviso da Literatura 20
Conhecimento designa a compreenso de um indivduo em um domnio especfico. So as regras prticas em geral baseadas em experincias prvias, que usamos para executar alguma tarefa ou resolver algum problema. O conhecimento pode ser expresso de diferentes formas, uma das mais tradicionais por meio de regras, por exemplo: Regra: Se IMC >40 e fumante =sim e colesterol >240 Ento: risco alto de problemas cardacos. Uma importante observao mencionada por Coeli et al. (COELI, 2009) e cabe ressaltar que nenhum sistema pode fornecer informaes de melhor qualidade que os dados que o alimentam.
3.4.1 Sistemas de Informao do Ministrio da Sade Segundo o Ministrio da Sade (BRASIL, 2010), o SUS tem 6,1 mil hospitais credenciados, 45 mil unidades de ateno primria e 30,3 mil Equipes de Sade da Famlia (ESF). O sistema realiza, anualmente, 2,8 bilhes de procedimentos ambulatoriais, 19 mil transplantes, 236 mil cirurgias cardacas, 9,7 milhes de procedimentos de quimioterapia e radioterapia e 11 milhes de internaes. Para acompanhar seu processo de crescimento, suas aes, seus indicadores e resultados, o Ministrio da Sade criou o Departamento de Informtica do SUS - DATASUS, o qual responsvel por desenvolver diferentes sistemas e redes de informaes estratgicas, gerenciais e Reviso da Literatura 21
operacionais, que auxiliem a tomada de decises e definies de polticas de Sade Pblica. As principais atribuies do DATASUS so: a) fomentar, regulamentar e avaliar as aes de informatizao do SUS, direcionadas para a manuteno e desenvolvimento do sistema de informaes em sade e dos sistemas internos de gesto do Ministrio; b) desenvolver, pesquisar e incorporar tecnologias de informtica que possibilitem a implementao de sistemas e a disseminao de informaes necessrias s aes de sade, em consonncia com as diretrizes da Poltica Nacional de Sade; c) manter o acervo das bases de dados necessrias ao sistema de informaes em sade e aos sistemas internos de gesto institucional; d) assegurar aos gestores do SUS e rgos congneres o acesso aos servios de informtica e bases de dados, mantidos pelo Ministrio; e) definir programas de cooperao tcnica com entidades de pesquisa e ensino para prospeco e transferncia de tecnologia e metodologia de informtica em sade, sob a coordenao do Secretrio-Executivo; f) apoiar estados, municpios e o Distrito Federal, na informatizao das atividades do SUS. Os principais sistemas e banco de dados mantidos pelo DATASUS so: Sistema de Informaes sobre Mortalidade (SIM) um sistema de vigilncia epidemiolgica nacional, cujo objetivo captar dados sobre os bitos do pas a fim de fornecer informaes sobre mortalidade para todas as instncias do sistema de sade. O documento de entrada do sistema a Declarao de bito (DO), padronizada em todo o territrio nacional. Reviso da Literatura 22
Sistema de Informaes sobre Nascidos Vivos (SINASC) tem por objetivo coletar dados sobre os nascimentos informados em todo o territrio nacional e fornecer dados sobre natalidade para todas as instncias do sistema de sade. O documento de entrada do sistema a Declarao de Nascido Vivo (DN), padronizada em todo o pas. Sistema de Informaes Hospitalares do SUS (SIHSUS) tem por objetivo registrar todos os atendimentos provenientes de internaes hospitalares que foram atendidos pelo SUS, englobando o conjunto de procedimentos realizados em regime de internao, com base na Autorizao de Internao Hospitalar (AIH) e a partir destes atendimentos, gerar relatrios para que os gestores possam fazer os pagamentos dos estabelecimentos de sade. Sistema de Informaes Ambulatoriais do SUS (SIASUS), este sistema dividido em dois sub-mdulos: Boletim Produo Ambulatorial - BPA, que tem por objetivo registrar a produo ambulatorial da unidade de atendimento, no trata informao individualiza, fornece somente o nmero de procedimentos realizados; Autorizao de Procedimentos de Alta Complexidade - APAC, que tem por objetivo o controle administrativo da produo ambulatorial dos procedimentos de alta complexidade, incluindo Terapia Renal Substitutiva TRS, Oncologia (radioterapia e quimioterapia) e o fornecimento de medicamentos considerados pelo Ministrio da Sade como excepcionais. Sistema de Informao de Agravos de Notificao (SINAN), alimentado principalmente pela notificao e investigao de casos de Reviso da Literatura 23
doenas e agravos que constam da lista nacional de doenas de notificao compulsria. facultado estados e municpios incluir outros problemas de sade importantes em sua regio. Sua utilizao permite a realizao do diagnstico dinmico da ocorrncia de um evento na populao, podendo fornecer subsdios para explicaes causais dos agravos de notificao compulsria, contribuindo assim, para a identificao da realidade epidemiolgica de determinada rea geogrfica.
3.4.2 Utilizao de Bases de Dados Administrativas ou Secundrias em Pesquisas Epidemiolgicas e Vigilncia
As bases de dados que contm dados de pagamentos de servios prestados aos pacientes, autorizaes do uso de medicamentos ou realizaes de exames de apoio a diagnsticos e terapia, por exemplo, so denominadas bases de dados Administrativas ou Secundrias, ou seja, so bases de dados que no foram projetadas para coletar e armazenar dados clnicos de pacientes. No contexto da Sade Pblica, a utilizao de base de dados secundrias ou administrativas tem sido utilizada com sucesso no auxlio da vigilncia e anlises epidemiolgica. Souza et al. (SOUZA, 2010) utilizaram dados do SIASUS referente ao Estado do Rio de J aneiro, para o desenvolvimento de um Sistema de Informao Oncolgica Ambulatorial com o objetivo de identificar Reviso da Literatura 24
automaticamente novos casos de cncer e seguimento do paciente submetido a tratamento ambulatorial do cncer. Virnig et al. (VIRNIG, 2001) fazem reflexes sobre o crescente uso, nos Estados Unidos, de base da dados administrativas para a vigilncia da Sade Pblica. Segundo os autores, as principais caractersticas dessas base de dados so: crescente disponibilidade dos dados, baixo custo, grande cobertura populacional e rapidez na disponibilidade dos dados. Por outro lado, para alguns pesquisadores, o fato dos dados serem provenientes de uma fonte "secundria", implica que eles sempre sero vistos com desconfiana. Ou seja, se os dados no foram gerados com a finalidade especfica para a qual eles so usados, a sua validade ser sempre suspeita. Os autores concluem que apesar dos pontos fracos das bases de dados administrativas, ainda assim elas so uma boa fonte de dados para aplicaes de Sade Pblica, incluindo rastreabilidade e vigilncia. Cardoso et al. (CARDOSO, 2005) estudaram a consistncia do Sistema de Informaes sobre Mortalidade (SIM) e do Sistema de Informaes sobre Nascidos Vivos (SINASC) como fontes de dados para a avaliao sistemtica das desigualdades raciais e tnicas em sade, atravs da anlise das taxas de mortalidade infantil (TMI). Os autores observaram uma reduo substancial do preenchimento da varivel <raa/cor> com contedo no informada tanto para a declarao de bito como na declarao de nascidos vivos. Girotto et al. (GIROTTO, 2010) estudaram os dados do Sistema de Cadastramento e Acompanhamento de Hipertensos e Diabticos (Hiperdia), Reviso da Literatura 25
do Sistema de Informao da Ateno Bsica (SIAB) e de um instrumento de anotao em papel chamado Carto de aprazamento para o acompanhamento dos pacientes hipertensos de uma Unidade de Sade da Famlia de Londrina-PR. O objetivo dos autores foi avaliar e identificar motivos de divergncias quantitativas entre as trs fontes de informao do paciente portador de hipertenso arterial. Os autores apontam uma possvel subnotificao de casos de hipertenso no SIAB e sugerem a atualizao deste atravs de visitas mais frequentes por parte dos agentes de sade tornando essa fonte de informao mais segura para o monitoramento dos pacientes hipertensos. Visando resolver o problema com erros na transcrio ou perda das fichas em papel contendo a coleta de dados das famlias na ateno bsica, Gonalves de S et al. (GONALVES DE S, 2010) desenvolveram uma verso digital da ficha de coleta de dados (Ficha A) do SIAB. Segundo os autores, os dados das famlias so coletados atravs um coletor de dados com GPS e rede 3G e transmitidos automaticamente aps a concluso da coleta, disponibilizando ao gestor um retrato quase que instantneo da situao. Os autores concluem que a implementao do formulrio digital atendeu as expectativas de cadastro, reduzindo tempo, inconsistncias e aumentando a confiabilidade e disponibilidade. Paiva et al. (PAIVA, 2008) realizaram uma reviso de literatura nas bases de dados MEDLINE, LILACS e SciELO sobre o uso do Sistema de Informaes sobre Nascidos Vivos (SINASC), no perodo de 1994 2005, com os descritores: SINASC, live birth e Brazil. Os autores observaram Reviso da Literatura 26
um crescimento do nmero de publicaes, destacando que a maioria dos artigos foram publicados por autores filiados a instituies de ensino e pesquisa. Entretanto, houve um crescimento nos ltimos anos de publicao de artigos de autores ligados a instituies de assistncia e gesto. O envolvimento destes profissionais em estudos utilizando as bases de dados administrativas / secundrias extremamente benfico, pois denota a confiabilidade nos dados produzidos por estes sistemas. Noronha et al. (NORONHA, 2003) estudaram 41.989 cirurgias de revascularizao do miocrdio realizadas no perodo de 1996 1998 em 131 hospitais credenciados pelo Sistema nico de Sade. Os dados foram extrados do Sistema de Informaes Hospitalares do SUS (SIHSUS). Segundo os autores, a taxa de mortalidade foi de 7,2 bitos hospitalares por 100 cirurgias, a idade mdia dos pacientes foi de 59,9 anos e 35,4% das cirurgias foram realizadas em pacientes com idade acima de 64 anos. O sexo masculino representou 67,5% dos casos e em mdia os pacientes permaneceram 15 dias hospitalizados. A concluso do estudo mostrou que no grupo de hospitais com maior volume de cirurgias de revascularizao do miocrdio, os pacientes operados apresentaram menor risco de morrer do que no grupo de hospitais com menor volume de cirurgias. Outro estudo na rea de cardiologia que avaliou a qualidade dos dados do Sistema de Informaes Hospitalares do SUS (SIHSUS), foi o realizado por Escosteguy et al. (ESCOSTEGUY, 2002). Os autores analisaram 1.936 internaes registradas com o diagnstico principal de infarto agudo do miocrdio no Municpio do Rio de J aneiro em 1997. Reviso da Literatura 27
Tambm foi analisada uma amostra aleatria de 391 pronturios mdicos estratificada por hospital. A qualidade do diagnstico de infarto agudo do miocrdio da AIH quando comparada com os pronturio foi satisfatria, (91,7%; IC95%=88,3-94,2). Tambm foi considerada satisfatria a preciso das variveis demogrficas (<sexo>e <faixa etria>), de processo (<uso de procedimentos> e <intervenes>) e de resultado (<bito> e <motivo da sada>). A preciso das variveis demogrficas e de resultado foi superior a das variveis de processo. Por outro lado, houve um elevado sub-registro do diagnstico secundrio. Os autores concluem como pertinente o uso do Sistema de Informaes Hospitalares (SIHSUS) na avaliao da qualidade da assistncia ao infarto agudo do miocrdio.
Bittencourt et al. (BITTENCOURT, 2006) realizaram uma extensa reviso bibliogrfica buscando artigos que mencionavam o uso de dados do Sistema de Informaes Hospitalares do SUS (SIHSUS). O perodo pesquisado foi de 1984 2003 utilizando-se as bases de dados SciELO, MEDLINE e Biblioteca Virtual de Sade Pblica. Tambm foram pesquisados sites de instituies que ofereciam cursos de ps-graduao stricto sensu em Sade Pblica, para a busca de dissertaes e teses e que continham artigos que referenciavam o uso de dados do SIHSUS. Os descritores pesquisados foram: registros hospitalares, sistema, informao, morbidade e mortalidade hospitalar, hospital, internao e avaliao de servio de sade. Os autores localizaram 76 trabalhos no perodo estudado classificando-os em cinco categorias: qualidade das informaes do SIHSUS (3,9%); estratgias para potencializar o uso das Reviso da Literatura 28
informaes para a pesquisa, gesto e ateno mdico-hospitalar (10,5%); descrio do padro da morbidade / mortalidade hospitalar e da assistncia mdica prestada (34,2%); vigilncia epidemiolgica e validao de outros sistemas de informao em sade (19,7%) e avaliao do desempenho da assistncia hospitalar (31,7%). Os autores destacam o crescimento da utilizao dos dados do SIHSUS na Sade Coletiva em nmero, abrangncia, diversidade de contedos e complexidade de anlise e concluem que, embora o sistema tenha cobertura incompleta e incertezas quanto confiabilidade de suas informaes, a variedade de estudos aliada a resultados que mostraram consistncia interna e coerncia com os conhecimentos atuais, refora a importncia dessas bases de dados e a necessidade de entender os seus pontos fortes e fracos. IEZZONI (IEZZONI, 1997) j relatava o uso frequente de dados administrativos para avaliao da qualidade dos cuidados em sade. Como pontos fortes a autora apontava a rapidez na disponibilidade dos dados, baixo custo de aquisio e grande abrangncia da populao. As principais fontes fornecedoras eram os governos federais e estaduais alm das segurados de planos privados. As caractersticas presentes naquela poca, informaes demogrficas, diagnsticos e procedimentos, e o modelo de coleta de dados, formados por bases de dados secundarias, se assemelham com atual cenrio brasileiro.
Reviso da Literatura 29
3.4.3 Data Warehouse A maioria dos sistemas de informao opera sobre bancos de dados chamados transacionais. Esses bancos de dados contm informaes detalhadas que permitem s instituies acompanhar e controlar seus processos operacionais. Por outro lado, existe uma demanda cada vez maior por sistemas de informao que auxiliem no processo de deciso. Gestores necessitam de recursos computacionais que forneam subsdios para apoio ao processo decisrio, sobretudo nos nveis ttico e estratgico da instituio. Segundo Goldschmidt (GOLDSCHMIDT, 2005), Data Warehouse um conjunto de dados baseados em assuntos, integrado, no voltil, varivel em relao ao tempo e destinado a auxiliar em decises de negcio. Outra definio similar de Goldschmidt a de Inmon (INMON, 1997) que define Data Warehouse como uma coleo de dados orientados por assuntos, integrados, variveis com o tempo e no volteis, com o objetivo de suportar o processo gerencial de tomada de deciso. As caractersticas definidas por ambos so bastante semelhantes e so descritas da seguinte forma: Orientao a assunto: Os dados corporativos so reunidos e organizados de modo a apresentar informaes sobre um determinado tema; Integrao: os dados operacionais, independente da fonte, devem ser integrados e consolidados no Data Warehouse; Reviso da Literatura 30
Dados no volteis: Uma vez carregados no Data Warehouse, estes no podem mais sofrer alteraes; Varivel em relao ao tempo: Cada conjunto de dados, ao ser carregado no Data Warehouse, fica vinculado a um rtulo temporal que o identifica dentre os demais. Kimball (KIMBALL, 2002) prope um ciclo de vida dimensional para a construo do Data Warehouse. As principais caractersticas deste ciclo so representas na Figura 3.1. O diagrama ilustra a sequncia das tarefas, a dependncia e a concorrncia (simultaneidade). O grande objetivo do diagrama a reflexo do que deve ser feito e quando em cada etapa da construo do DW. Na etapa planejamento do projeto proposto o estabelecimento do escopo, justificativa preliminar, obteno dos recursos e lanamento do projeto. Em paralelo a todas as etapas, esta a etapa de gerenciamento, a qual servir como base para manter o ciclo de vida do projeto no caminho planejado. Kimball chama a ateno para a relao bidirecional entre as etapas de planejamento e definio dos requisitos de negcio. O alinhamento do DW com os requisitos de negcio absolutamente crucial, por este fato deve haver muita interao entre essas duas atividades. O seguimento superior do diagrama destaca as etapas de tecnologia do projeto, desenho da arquitetura e seleo e instalao do produto. Esta sequncia no foi por Reviso da Literatura 31
acaso e sim para chamar ateno que a escolha do produto dever ocorrer somente aps a definio clara do que se deseja realizar. O seguimento intermedirio do diagrama descreve as etapas do desenho dimensional do projeto, iniciando pela traduo dos requisitos de negcio em um modelo dimensional, passando pela transformao do modelo dimensional para uma estrutura fsica (particionamento, indexao e agregao) e concluindo com os processos de extrao, transformao e carga dos dados. O seguimento inferior do diagrama concentra as etapas de especificao e desenho das aplicaes analticas as quais devero atender as principais demandas dos usurios. Por fim, Kimball descreve a etapa de distribuio a qual refere-se fortemente a treinamento e suporte usurios, etapa de manuteno que visa manter o equilbrio entre a comunidade de usurios e o DW e conclui com a etapa de crescimento a qual visa o futuro do DW e projetos subsequentes, os quais devero dar inicio a um novo ciclo de vida. As principais caractersticas deste ciclo de vida sero detalhados mais adiante.
Figura 3.1 Diagrama do ciclo de vida dimensional Reviso da Literatura 32
3.4.3.1 Elementos do Data Warehouse
Santos e Gutierrez (SANTOS E GUTIERREZ, 2008) dividem o Data Warehouse em quatro elementos: dados operacionais; processo de carga (ferramentas ETL); informaes analticas (ferramentas OLAP); metadados. Kimball (KIMBALL, 2002) apresenta uma pequena diferena nesta diviso: sistemas operacionais (origem dos dados); data staging area; apresentao de dados; ferramentas de acesso aos dados. A Figura 3.2 demonstra de forma esquemtica esta diviso do DW.
Figura 3.2 Diagrama dos elementos do DW adaptao dos modelos de (SANTOS e GUTIERREZ 2008 e KIMBALL 2002)
Detalhando o diagrama da Figura 3.2, iremos encontrar o primeiro componente, ou seja, os sistemas operacionais, o quais so responsveis pela captura das transaes nas instituies. Santos e Gutierrez (SANTOS e GUTIERREZ 2008) tambm classificam os sistemas operacionais como Reviso da Literatura 33
sistemas OLTP (On-Line Transaction Processing ou Processamento de Transaes em tempo-real). No diagrama da Figura 3.2, esto presentes principais sistemas operacionais utilizados no contexto da Sade Pblica brasileira e so as principais fontes de dados utilizados em diversos trabalhos publicados na rea de epidemiologia. Segundo Kimball (KIMBALL 2002), os sistemas operacionais, tambm chamados de sistemas de origem, devem ser tratados externamente ao DW. Tal fato justifica-se pois possvel que se tenha pouco ou nenhum controle sobre o contedo e o formato dos dados nesses sistemas operacionais. As principais prioridades dos sistemas operacionais so o desempenho e a disponibilidade de processamento. As consultas realizadas nesses sistemas so normalmente repetitivas, limitadas e acessam um registro por vez. Normalmente, essas so as caractersticas encontradas no fluxo normal das transaes de sistemas operacionais. Tambm comum, que cada sistema de origem seja uma aplicao naturalmente independente, onde foi realizado o mnimo de integrao com outros sistemas operacionais. Do outro lado, diferente das caractersticas presentes nos sistemas operacionais, est o DW, onde diversas fontes de dados so integradas e tornam-se disponveis para serem consultados de forma ampla e inesperada. O segundo componente do diagrama da Figura 3.2 o Data Staging Area. Segundo Kimball (KIMBALL, 2002) a data staging area considerada como uma rea de armazenamento com um conjunto de processos denominados como ETL (Extract-Transformation-Load ou Extrao Transformao Carga). Resumindo, a data staging area abrange Reviso da Literatura 34
tudo que est entre os sistemas operacionais e a rea de apresentao do usurio do DW. A extrao a primeira etapa do processo de ETL, este processo envolve a leitura, a compreenso dos dados e a cpia dos dados considerados como necessrios ou interessantes, pertencentes aos sistemas de origem, para posteriormente serem trabalhos na data staging area. Na etapa seguinte, ou seja, a etapa de transformao, ocorrem as atividades de filtragem dos dados, combinao de dados das vrias origens, eliminao de dados duplicados e atribuies de chaves de Data Warehouse. Todas essas atividades so precedentes e necessrias para carga dos dados na rea de apresentao do Data Warehouse. Conforme apresentado anteriormente na etapa de extrao, a leitura e compresso dos dados servem como apoio fundamental para a etapa de transformao, atravs de inspeo manual nos dados de origem (leitura) ou de tarefas automatizadas que demonstram diferena de padres, que possvel determinar o que dever ser realizado nas atividades de transformao. A atividade de filtragem de dados subdivididas em quatro tarefas: correo de erros de digitao, soluo de conflitos de domnio, tratamento de elementos ausentes e a diviso em formatos padro, as quais so detalhas a seguir. Na tarefa correo de erros de digitao, busca-se encontrar anomalias na entrada de dados, observando a mesma varivel ou variveis Reviso da Literatura 35
que so coligadas no conjunto de dados de origem. Considerando o exemplo hipottico onde esta sendo carregado um sistema operacional que se registra as passagens dos pacientes, a data de nascimento de um registro diferente dos demais registro de um mesmo paciente, considera uma candidata a erro de digitao. A tarefa soluo de conflitos de domnio tem como objetivo normalizar o contedo de uma varivel categrica, como exemplo podemos citar a varivel <sexo> do paciente. Considerando que esteja sendo carregados dados de dois sistemas operacionais onde no primeiro sistema operacional, os valores possveis para a varivel <sexo>so: M para o valor masculino e F para o valor feminino. No segundo sistema operacional os valores possveis para a varivel <sexo>so: 1 para o valor masculino e 2 para o valor feminino. Desta forma, ser necessrio definir qual conjunto de valor ser atribudo a todos os registros. Na tarefa tratamento de elementos ausentes decidido se variveis que no possuem valores em todos os registros sero ou no carregados para rea de apresentao de dados do DW e ainda qual valor ser atribudo para aquelas que forem carregas. Por ltimo, na tarefa diviso em formatos padro, ser avaliado a necessidade de criar novas variveis baseadas nas variveis dos sistemas operacionais que esto sendo carregados. Um exemplo comum desta tarefa a transformao da data de nascimento em faixas etrias. Reviso da Literatura 36
A terceira e ltima etapa do processo de ETL a de carregar os dados trabalhados na data staging area para a rea de apresentao dos dados do DW. Alm de executar a carga em modelos dimensionais, tambm sero realizados a indexao e a agregao dos dados e finalmente a publicao para os usurios com o aviso das novas dimenses e fatos disponveis no DW. O terceiro componente do diagrama a rea de apresentao dos dados, local onde os dados so armazenados de forma organizada e disponvel para serem consultados diretamente pelos usurios, geradores de relatrios ou por outras ferramentas de anlise. Kimball (KIMBALL 2002) refere-se a rea de apresentao de dados como uma srie de data marts integrados, sendo um data mart uma parte do todo que compe a rea de apresentao e define ainda o data mart como uma representao dos dados de um nico processo de negcio. Santos e Gutierrez (SANTOS e GUTIERREZ, 2008) tambm referenciam a rea de apresentao como representao de negcios e citam o SIASUS e SIHSUS como exemplos de negcios do Sistema nico de Sade. Cabe ressaltar que a utilizao do termo negcio significa a representao de uma rea de interesse e no necessariamente o ato de comercializao de produtos ou servios. O quarto e ltimo componente do diagrama apresentado na Figura 3.2 a rea designada para as ferramentas de acesso aos dados. Segundo Kimball (KIMBALL, 2002), uma ferramenta de acesso a dados pode ser to simples com uma ferramenta de consulta especfica ou to complexa quanto uma aplicao sofisticada de modelagem ou explorao de dados. Reviso da Literatura 37
Goldschmidt (GOLDSCHMIDT, 2005) apresenta algumas caractersticas bsicas que as ferramentas de acesso a dados devem disponibilizar: Drill up/down Utilizado para aumentar ou reduzir o nvel de detalhe da informao acessada. Exemplo: Diagnsticos estabelecidos por unidade da federao, diagnsticos estabelecidos por municpio; Slicing Utilizado para selecionar as dimenses a serem consideradas na consulta. Exemplo: Visualizar a quantidade de diagnsticos estabelecidos separado pelas dimenses unidades da federao e ano; Dicing Utilizado para limitar o conjunto de valores a serem exibidos atravs de filtros nas dimenses. Exemplo: Quantidade de Infarto agudo do miocrdio, no ano de 2002 e no estado de So Paulo; Pivoting Utilizado para inverter as dimenses entre linhas e colunas. Exemplo: Aps ter visualizado a quantidade de Infarto agudo do miocrdio por unidade da federao (coluna) e ano (linha) a inverso das dimenses ir apresentar a quantidade de Infarto agudo do miocrdio por ano (coluna) e por unidade da federao (linha); Data Surfing Executar uma mesma anlise em outro conjunto de dados. Exemplo: Aps ter visualizado a Reviso da Literatura 38
distribuio do Infarto agudo do miocrdio, por ano e por unidade da federao, mantm-se a mesma anlise substituindo o diagnstico por insuficincia coronariana. Santos e Gutierrez (SANTOS e GUTIERREZ, 2008), atribuem o termo Informaes Analticas para o componente ferramentas de acesso aos dados e caracteriza este componente como mecanismo responsvel pela leitura dos dados do DW e pela produo da informao analtica.
3.4.3.2 Modelagem Multidimensional Kimball (KIMBALL, 2002) relata que os termos dimenses e fatos no so recentes, nem to pouco tenha sido ele o primeiro a descrev-los. Segundo Kimball, esses termos foram descritos pela primeira vez em um projeto de pesquisa realizado conjuntamente pela General Mills e pela Dartmouth University na dcada de 1960. Segundo Goldschmidt (GOLDSCHMIDT, 2005), a modelagem multidimensional uma forma de Modelagem de Dados voltada para a concepo e visualizao de conjuntos de medidas que descrevem aspectos comuns de um determinado assunto. utilizada especialmente para sumarizar e reestruturar dados, apresentando-os em vises que suportem a anlise dos valores envolvidos. Goldschmidt (GOLDSCHMIDT, 2005) e Kimball (KIMBALL, 2002) descrevem, de forma similar, os componentes bsicos de um modelo multidimensional como: Reviso da Literatura 39
Fatos Um fato uma coleo de itens de dados, composta de dados de medida e de contexto. Representa um item, uma transao ou um evento associado ao assunto da modelagem. Um exemplo de uma tabela do tipo fato esta representado na Figura 3.3; Dimenses Uma dimenso um tipo de informao que participa da definio de um fato. As dimenses determinam o contexto do assunto e normalmente so descritivas ou classificatrias. As perguntas O qu?, Quem? e Quando? ajudam a identificar as dimenses de um assunto. Um exemplo de uma tabela do tipo dimenso esta representado na Figura 3.4; Medidas Uma medida um atributo ou varivel numrica que representa um fato. Exemplos: nmero de casos de uma determinada doena, nmero de nascidos vivos ou nmero bitos.
Figura 3.3 Tabela Fato Figura 3.4 Tabela Dimenso Reviso da Literatura 40
Uma das formas mais populares de modelagem dimensional o formato denominado de esquema estrela (star schema), a Figura 3.5 demonstra um exemplo deste esquema. Nesse esquema, um conjunto central de fatos cercado por relaes que correspondem s dimenses do assunto. As dimenses no esquema estrela so usualmente chamados de pontos cardeais.
Figura 3.5 Modelo Dimensional: Star Schema No contexto da sade, Santos et al. (SANTOS, 2010) apresentam um exemplo do modelo multidimensional, Figura 3.6, para o fato (assunto) leito disponveis ao qual so ligadas as dimenses perodo, estabelecimentos de sade (hospitais), tipo do leito, municpio, regies de sade e turnos de atendimento. As Figuras 3.7 e 3.8 so exemplos simples das possibilidades de extrao de informaes do modelo dimensional sobre o assunto leitos disponveis. Na Figura 3.7 foram escolhidas as dimenses municpio e perodo (ano) para rea denominada linha e a dimenso tipo de leito para a rea denominada coluna alm das mtricas quantidade de leitos disponveis e quantidade de leitos contratados SUS que so dispostas na rea denominada como resultado da extrao. Na Figura 3.8, demonstrado a caracterstica pivoting que as ferramentas de acesso a dados Reviso da Literatura 41
devem disponibilizar. Neste exemplo, foi mantido o mesmo conjunto de dados e reposicionado a dimenso tipo de leito para a rea denominada linha, que anteriormente estava na rea denominada coluna .
Figura 3.6 Exemplo de um modelo multidimensional sobre o assunto leitos disponveis
Figura 3.7 Relatrio extrado do modelo dimensional sobre o assunto leitos disponveis. (Duas dimenses na rea linha e uma dimenso na coluna) Reviso da Literatura 42
Figura 3.8 Relatrio extrado do modelo dimensional sobre o assunto leitos disponveis. (Trs dimenses na rea linha)
3.4.4 Data Mining Os constantes avano na rea da Tecnologia da Informao e a reduo dos custos de armazenamento de dados tem proporcionado a criao de grandes bancos de dados nas diversas reas do conhecimento. Diariamente, as instituies acumulam dados sobre diversos processos nas Reviso da Literatura 43
suas diversas reas de atuao (financeira, faturamento, contabilidade, atendimentos de sade) com o objetivo de gerenciar suas operaes. As informaes armazenadas atravs destes processos so utilizadas para verificaes de processos do passado e como fonte de informao para pesquisas e anlises operacionais. Entretanto, com o crescimento do volume de informaes armazenadas, anlises atravs de mtodos tradicionais (relatrios ad hoc, histogramas, estatsticas, planilhas eletrnicas), apesar de possvel, tornaram-se difceis e complexas. Segundo Fayyad (FAYYAD, 1996), o crescimento expansivo dos bancos de dados empresarias, governamentais e cientficos , ultrapassa a capacidade humana de interpretar e assimilar a informao, dando assim origem necessidade de uma nova gerao de metodologias e ferramentas capazes de realizar o tratamento, anlises e extrao de conhecimento. As reas de Data Mining e Descoberta de Conhecimento em Bases de Dados esto em grande evoluo e expanso nas diversas reas do conhecimento. Esta expanso tem apoio na premissa de que os grandes volumes de dados disponveis nos diversos bancos de dados, podem ser fonte de conhecimento til e com aplicabilidade em diversos segmentos da sociedade. Segundo Santos e Azevedo (SANTOS e AZEVEDO, 2005), os seguintes termos tem sido utilizados como sinnimos do termo Data Mining: Data Archeology, Information Harvesting , Data Dredging alm dos termos em portugus: Minerao de Dados, Arqueologia de Dados, Colheita de Reviso da Literatura 44
Informaes e Extrao de Conhecimento. Ainda segundo os autores, h vrias definies para o termo Data Mining, os mais comuns aceitos so: Data Mining significa a aplicao de algoritmos para a extrao de padres dos dados sem os passos adicionais do processo de descoberta de conhecimento em bancos de dados; Data Mining: Procura de padres de interesse numa determinada forma de representao, ou conjunto de representaes: classificao, rvore de deciso, regras de induo, regresso, segmentao; Data Mining o processo de encontrar padres e relaes em banco de dados de grandes dimenso, previamente desconhecidos e potencialmente interessantes; Data Mining o processo de extrair informao ou conhecimento de conjuntos de dados para os propsitos da tomada de deciso. Sintetizando as definies sobre o termo, podemos concluir que Data Mining a aplicao de mtodos e tcnicas em grandes bancos de dados, com o objetivo de encontrar tendncias ou padres com o intuito de descobrir conhecimento. Chen (CHEN, 2001) ilustra um simples caso do uso da minerao de dados com o objetivo de demonstrar uma aplicao prtica das tcnicas de Data mining. A Tabela 3.1 demonstra um exemplo simples de transaes de Reviso da Literatura 45
compras em um supermercado. A coluna Nmero da transao de compra corresponde ao nmero do ticket impresso pelo caixa do supermercado no momento do pagamento das mercadorias pelo cliente. Uma vez que esto armazenados milhares de transaes de compras no banco de dados do supermercado, seria interessante avaliar o perfil de consumo dos clientes. Por exemplo, o que mais o cliente que compra sorvete estaria propenso a comprar? Descobrir certas regularidades ou tendncias seria de grande valia para a realizao de promoes ou at mesmo no formato da disposio das gndolas das mercadorias. Tabela 3.1 Amostra de transaes de um supermercado armazenadas no banco de dados
Seguindo ainda o exemplo proposto por Chen (CHEN, 2001), para o banco de dados proposto na Tabela 3.1, algumas regras mineradas so demonstradas na Tabela 3.2. Por exemplo, o cliente que compra chocolate, propenso a comprar tambm balas, o cliente que compra fraldas propenso a comprar cerveja. Com o exemplo, o autor chama a ateno para um das tcnicas de Data Mining, a associao. Reviso da Literatura 46
Tabela 3.2 Exemplo de regras descobertas atravs de tcnicas de Data Mining
Segundo Santos e Azevedo (SANTOS e AZEVEDO, 2005), novos domnios de minerao de dados tais como: MobiMine, Clinical Data Mining, BiblioMining, TextMining e WebMining, esto despertando o interesse em pesquisadores, os termos vm sendo citados em artigos de investigao sobre o tema. Goebel e Gruenwald (GOEBEL e GRUENWALD, 1999) argumentam que o processo de Data Mining visto como um processo enfadonho e a recomendao em geral, ainda, a aplicao experimental, atravs de mtodos de tentativa e seleo dos melhores resultados. Goldschmidt (GOLDSCHMIDT, 2005) e Santos e Azevedo (SANTOS e AZEVEDO, 2005), descrevem os principais objetivos utilizados no uso das tcnicas de minerao da seguinte forma: Associao: Abrange a busca por itens que frequentemente ocorram de forma simultnea em transaes do banco de dados. Um exemplo clssico da utilizao desta tcnica, o caso de uma grande rede de supermercado norte-americana que percebeu que um nmero razovel de compradores de fralda tambm compravam cerveja na vspera de finais de semana. Reviso da Literatura 47
Atravs de uma anlise mais detalhada sobre os dados, pode-se perceber que tais compradores eram, na realidade, homens que, ao comprarem fraldas para seus filhos, compravam tambm cerveja para o consumo no final de semana. Com o novo conhecimento, a rede de supermercado aproximou as gndolas de cervejas e fraldas. Classificao: Consiste em descobrir uma funo que associe um conjunto de registros a um conjunto de rtulos categricos predefinidos, denominados classes. As tcnicas utilizadas na classificao utilizam conjuntos de treino com exemplos pr- classificados com a finalidade de construir modelos adequados descrio classes, que posteriormente so aplicados a dados no classificados. Um exemplo comumente utilizado na aplicao desta tcnica referente a concesso de emprstimos bancrios. A Figura 3.9 demonstra vinte e um casos de pedidos de emprstimo, como variveis so consideradas o valor do emprstimo e os rendimentos do solicitante. Os dados foram classificados em duas classes: x maus pagadores e o bons pagadores. Atravs do modelo, o banco poder decidir sobre a solicitao de emprstimos futuros. Segundo os autores, a classificao um dos objetivos mais comum em Data Mining. Reviso da Literatura 48
Figura 3.9 - Classificao de emprstimos bancrios
Regresso: Compreende a busca por uma funo que associe os registros de um banco de dados valores reais. Este objetivo similar ao objetivo de classificao, sendo restrito apenas a variveis numricas. Segmentao (Clusters): Utilizada para separar os registros de um banco de dados em subconjuntos ou clusters, de tal forma que os elementos de um cluster compartilhem de propriedades comuns que os distingam de elementos de outros clusters. Diferente da tarefa de classificao, que tem rtulos predefinidos, a clusterizao precisa automaticamente identificar a qual cluster pertence o elemento que esta sendo analisado, o nico pr- requisito e informar a quantidade de clusters a serem formados. Ainda no exemplo de pedidos de emprstimos, a Figura 3.10 demonstra a distribuio de elementos em trs clusters, sendo Reviso da Literatura 49
que alguns elementos pertencem a mais do que um cluster, devido a interseco destes.
Figura 3.10 - Clusters de emprstimos bancrios
Sumarizao: Esta tarefa consiste em identificar e indicar caractersticas comuns entre conjunto de dados. Considerando um banco de dados que contenha informaes sobre clientes que so assinantes de uma determinada revista. Segundo a sumarizao, um dos perfis dos assinantes encontrado foi: homens na faixa etria de 25 a 45 anos, com nvel superior e que trabalham na rea de finanas. Deteco de Desvios: Consiste em identificar registros no banco de dados cujas as caractersticas no sejam compatveis aos padres considerados normais para o contexto em questo. Tais registros so denominados outliers. Em um banco de dados que contenha informaes sobre compras de clientes realizadas atravs de carto de crdito, a compra representada pelo x Reviso da Literatura 50
marcado pelo circulo na Figura 3.11 uma deteco de desvio no perfil de compra do cliente.
Figura 3.11 Deteco de desvio no perfil de compras pagas atravs de carto de crditos
Rouquayrol (ROUQUAYROL, 1994) relata inconsistncias encontradas em bases de dados do Sistema nico de Sade que indicam irregularidades desses registros. Segundo Rouquayrol, foram encontrados casos de cirurgias de extirpao de ovrios em indivduos do sexo masculino, cirurgias cesarianas realizadas em meninas de 9 anos de idade e at cirurgias cardacas em pacientes que j haviam falecido quatro anos antes da data de ocorrncia da mesma. Mtodos de deteco de desvios como o descrito acima, podem auxiliar na deteco de problemas como os relatados por Rouquayrol, independentemente destes serem fraudes ou simplesmente erros de digitao. Reviso da Literatura 51
No contexto da Sade Pblica, Santos e Gutierrez (SANTOS e GUTIERREZ, 2008) implementaram um ambiente computacional para extrao de informaes para gesto da Sade Pblica por meio da minerao de dados dos sistemas de informao do Sistema nico de Sade (SUS). A Figura 3.12 demonstra a arquitetura computacional proposta pelos autores contendo os principais elementos para a produo de informao analtica. Segundo os autores, os principais desafios encontrados para a implantao de ferramenta que possibilite a extrao de informao na rea da Sade Pblica so: Dados so provenientes de unidades distintas com gestes autnomas, como hospitais, postos de vacinao, secretarias de sade. Dificuldade e demora na obteno dos dados so os pontos crticos; Dados armazenados em diversos formatos; Limitao de recursos financeiros para investimento em infra- estrutura; Mudana de cultura para os usurios. Planilha do MS-Excel a ferramenta amplamente difundida para a produo da informao analtica atual; Os dados disponveis pelo DATASUS apresentam problemas de integridade referencial e de preenchimento; Falta de documentao tcnica de apoio para os dados produzidos pelos sistemas de informao do SUS; Reviso da Literatura 52
Existncia de tabelas, como a CID (Classificao Internacional de Doenas), que sofrem frequentes revises, resultando em diferentes verses da mesma tabela.
Figura 3.12 Arquitetura do ambiente computacional. (adaptado de SANTOS e GUTIERREZ, 2008)
O ambiente computacional proposto por Santos e Gutierrez, como demonstrado na Figura 3.12, integra duas tecnologias de produo de informao analtica: OLAP (On-line Analytical Processing) e OLAM (On-line Analytical Mining). Desta forma, possvel produzir uma consulta OLAP, como por exemplo: bitos por municpio, faixa etria, sexo e grupo tnico e Reviso da Literatura 53
em seguida utilizar esta consulta para aplicar tcnicas de minerao, agrupamentos, associao e classificao. Ainda segundo os autores, a avaliao realizada por usurios confirmou a coerncia da informao produzida pelo ambiente computacional proposto, demonstrando a capacidade do ambiente em extrair informaes teis gesto da Sade Pblica atravs de tcnicas de minerao de dados. Outro estudo na rea de sade que utilizou tcnicas de Data Mining para extrao de padres foi o realizado por Semenova (SEMENOVA, 2004). Uma caracterstica interessante deste estudo a aplicao de tcnicas de minerao de dados com foco em episdios de sade. Segundo Semenova, em vrios pases, o setor sade esta constantemente em alerta devido ao crescimento dos custos associados utilizao de novos tratamentos, tcnicas diagnsticas ou ainda por condutas ineficientes que s aumentam os custos sem nenhum benficos adicional para os pacientes. Semenova utilizou a base de dados de sade do Medicare (Sistema Universal de Sade da Austrlia), que contm registros administrativos dos atendimentos de pacientes, com o objetivo de estudar mtodos para descobrir padres na conduta mdica. A autora defini dois termos para agrupar cuidados dispensados ao paciente e que foram utilizados no estudo da seguinte forma: Reviso da Literatura 54
Episdios de cuidado: conjunto de um ou mais servios mdicos recebidos por um indivduo durante um perodo de contato relativamente contnuo, por um ou mais prestadores de servios, em relao a um problema mdico particular ou situao. Episdio de cuidado de sade: um grupo de exames solicitados para um paciente pelo mesmo mdico no mesmo dia. Transformando esta definio para caractersticas de base dados teremos, um conjunto de todos os registros para o mesmo nmero de identificao do paciente, referindo o mesmo prestador de servio e tendo a mesma data de referncia. A autora ressalta a importncia para a difereniao entre episdios de cuidados e episdios de doenas. Segundo Semenova, episdios de cuidados so direcionados para os cuidados de sade que foram dispensados ao paciente. Por outro lado, episdios de doena focam as exprecincias dos pacientes. Na base de dados do Medicare esto presentes variais combinaes de itens tais como, consultas mdicas, diagnsticos, ordens mdicas e procedimentos realizados pelos prestadores de servios de sade para os diversos pacientes. Entretanto, os registros contidos na base de dados do Medicare no apresentam informaes sobre os efeitos dos tratamentos clnicos, nem contm informaes sobre as pr-condies dos tratamentos ou a durao da doena. Reviso da Literatura 55
A base de dados utilizada para o estudo tinha um total de 3.617.556 pacientes distintos e 13.192.295 transaes (consultas, procedimentos, prescries). Aplicando as definies de episdio de cuidado, encontrou- se 368.337 histrias, ou seja, aproximadamente 10% do total de pacientes e aplicando as definies de episdio de cuidado de sade encontrou-se 2.145.864 eventos, aproximadamente 16% do total. Episdios de cuidado de sade foram definidos atravs da composio do identificador nico do prestador de sade e o identificador nico do paciente os quais esto ligados informaes sobre a conduta mdica e caractersticas do paciente. Segundo Semenova, os conjuntos de itens resultantes pelas tcnicas de episdios foram considerados uma excelente forma de resumir episdios de cuidados na base de dados do Medicare. A combinao organizada de itens num contexto de um perodo de tempo proporcionou significado financeiro e clnico e, portanto, representa padres da prtica de cuidados de sade. Ainda, segundo a autora, atravs do contexto de episdios, possvel extrair uma fotografia detalhada dos servios de sade fornecidos e consumidos e cita como exemplo o achado onde foi prescrito um nmero de exames de sangue, no mesmo dia, para o mesmo paciente e pelo mesmo mdico indicando, pelo menos, uma raridade no tratamento mdico. Semenova conclui que aplicar tcnicas de minerao na base de dados do Medicare uma forma eficiente de descoberta de padres da prtica mdica. Entretanto, a autora ressalta a necessidade de interpretar Reviso da Literatura 56
esses padres a fim de possibilitar a avaliao correta das necessidades dos servios prestados. As caractersticas da base de dados do Medicare australiano so semelhantes s caractersticas da base de dados do Sistema nico de Sade brasileiro. Porm, a inexistncia de um identificador nico para o paciente do SUS implica em um desafio maior na aplicao do conceito de episdios e consequentemente a aplicao de tcnicas de Data Mining neste contexto.
Assim como outros autores, Kriegel et al. (KRIEGEL, 2007) chamam a ateno para o volume gigantesco de informao que gerado atualmente. Os sistemas de captura esto cada vez mais sofisticados, complexos e interdisciplinares. Entretanto, extrair automaticamente informaes preciosas destes sistemas continua sendo um desafio. Segundo Kriegel, nos ltimos anos, a minerao de dados vem se firmando como uma das principais disciplinas em cincias da computao com o crescente impacto industrial e com tendncia de crescimento nas prximas dcadas. Para os autores, a descoberta de conhecimento deve ser mais do que o reconhecimento puro de padres, apresentar os dados de maneira que permita anlise clara e objetiva uma tarefa fundamental. Ainda segundo os autores, as tendncias futuras para a minerao de dados apontam para as seguintes caractersticas: Tornar a aplicao de algoritmos de minerao uma atividade acessvel a no-especialista em minerao de dados, ou Reviso da Literatura 57
seja, baseado nas caractersticas da base de dados, as ferramentas devero auxiliar inclusive na escolha do algoritmo; A apresentao dos resultados da minerao de dados dever facilitar a interpretao dos mesmos; A etapa de pr-processamento dever torna-se mais eficiente, mais rpida e mais transparente do que atualmente. Sistemas especialistas devero, automaticamente, realizar o pr-processamento em vrias formas diferentes e relatar os resultados e possveis diferenas entre as diversas tcnicas. Os autores concluem que os desafios que a minerao de dados enfrenta e continuar enfrentando para o aumento da usabilidade so: tornar os mtodos de minerao de dados mais amigveis; desenvolver formas de apresentao para que a descoberta de novos tipos de padres sejam fceis de interpretar, mesmo que os dados de entrada sejam complexos .
3.4.5 Relacionamento de Registros (Record Linkage) O relacionamento de bases de dados, na literatura internacional conhecido como Record Linkage, pode ser definido como uma rea do conhecimento voltada para o estudo do mtodo de busca de pares ou registros duplicados dentro de um mesmo arquivo ou entre arquivos. Este processo pode ser feito por meio de duas abordagens, a determinstica e a probabilstica. Denomina-se relacionamento determinstico quando a busca feita por uma concordncia exata entre uma ou mais variveis existentes em Reviso da Literatura 58
um ou mais arquivos formando um cdigo ou identificador unvoco comum entre as bases. J o relacionamento probabilstico de bases de dados pode ser definido como um processo de pareamento de duas ou mais bases de dados utilizando probabilidades de concordncia e discordncia entre um conjunto de variveis comuns s duas bases. Newcombe e Kennedy (NEWCOMBE , 1962) aparecem como um dos pioneiros em 1962, seguidos por Fellegi e Sunter (FELLEGI, 1969) com a publicao A Theory for Record Linkage. O relacionamento determinstico aplicado para bancos de dados que permitam relacionar seus registros baseados em um determinado identificador ou conjunto de identificadores unvocos, como exemplos podemos citar o CPF (cadastro nacional de pessoa fsica) e a CNH (carteira nacional de habilitao) (ROMERO, 2008). Na ausncia desses identificadores, a alternativa o uso do relacionamento probabilstico, o qual se utiliza de combinaes de variveis para classificar o relacionamento como provvel, duvidoso ou improvvel (CLARK, 1995). Essa classificao baseada na semelhana das variveis utilizadas para comparao. Consideremos os seguintes registros como exemplo: Tabela 3.3 Amostra de registros de pessoas Registro Nome Nascimento Sexo 1 Fbio Antero Pires 26/08/1968 Masculino 2 Fbio Antero Pires 26/08/1968 Masculino 3 Fbio Antero Pires 26/08/1986 Masculino 4 Fbio Antero Pires 17/05/1948 Masculino
Reviso da Literatura 59
Quando comparados, os registros 1 e 2 apresentam uma grande possibilidade de pertencerem ao mesmo individuo, pois o contedo de todas variveis so idnticas. Sendo assim, a associao desse par ser classificada como provvel. Por outro lado, o par formado pelos registros 1 e 4 ter a associao classificada como improvvel. Apesar dos contedos das variveis <nome>e <sexo>serem idnticos, os contedos da varivel <data de nascimento> so completamente diferentes. Por ltimo, o par formado pelos registros 1 e 3 ter a associao classificada como duvidosa, pois a diferena no ano, apresentada nos contedos da varivel <data de nascimento>pode ser um erro de digitao, ou seja, uma inverso de posio entre os caracteres 8 e 6. No Brasil, h diversos trabalhos na rea da Sade Pblica que esto estudando mtodos determinsticos e probabilsticos visando ter sucesso no relacionamento de registros para estudos epidemiolgicos. Ges et al. (GES, 2006 ) e Lucena et al. (LUCENA, 2006), aplicaram a metodologia de relacionamento probabilstico para a realizao de estudos de vigilncia de AIDS utilizando as bases de dados do Sistema de Controle de medicamentos (SICOM/SMS e SICLOM), do Sistema de Informao de Agravos de Notificao (SINAN) e do Sistema de Controle de Exames Laboratoriais (SISCEL). Com o objetivo de estudar a mortalidade hospitalar e mortalidade ocorrida em 30 dias aps a alta hospitalar, em pacientes com fratura proximal de fmur, Pinheiro et al. (PINHEIRO, 2006) relacionaram os dados do Sistema de Informao sobre Mortalidade (SIM) e Informaes Reviso da Literatura 60
Hospitalares (SIHSUS). O perodo estudado compreendeu bitos ocorridos nos anos de 1995 e 1996 e internaes ocorridas em 1995, para pacientes com 60 anos ou mais residentes no municpio do Rio de J aneiro. Utilizando somente os dados do SIHSUS, a mortalidade foi de 3,6% (22 bitos; IC 95%: 2,4 5,4%). Com a aplicao do relacionamento entre as bases de dados dos dois sistemas, foram recuperados oito bitos no SIM cuja data do bito foi igual data da alta hospitalar e no haviam sido computados no SIHSUS como bito hospitalar. Incluindo esses casos, a taxa de mortalidade hospitalar aumentou para 5,0% (30 bitos; IC 95%: 3,5 7,0%). Considerando a mortalidade em 30 dias aps a admisso, verificou- se a ocorrncia de 46 bitos (7,6%; IC 95% 5,710,0%), 16 bitos a mais se considerarmos a mortalidade hospitalar corrigida pelo SIM. Em outro trabalho, Teixeira et al. (TEIXEIRA, 2006) utilizaram tcnicas de relacionamento de registros nas informaes disponveis no Sistema de Informaes sobre Mortalidade (SIM) e no Sistema de Autorizao de Internao Hospitalar (AIH) com o objetivo de estudar as ocorrncias de causas de bitos mal definidas e a existncia de assistncia mdica prestada no perodo que antecede o bito. Observando o interesse de relacionar registros de diferentes bancos de dados na rea da sade, Camargo e Coeli (CAMARGO, 2000) desenvolveram um aplicativo denominado Reclink, o qual implementa o mtodo probabilstico de relacionamento de registro. Por ser um aplicativo Reviso da Literatura 61
de fcil uso e no necessitar de conhecimentos avanados de informtica, esta sendo utilizado em diversos trabalhos nesta rea (COUNTINHO, 2008), (MACHADO, 2008) e (SOUSA, 2008). Pacheco et al. (PACHECO, 2008) utilizaram trs bases de dados com o objetivo de validar um algoritmo de relacionamento de registro determinstico baseado em regras hierrquicas. As bases de dados utilizadas foram: a) Coorte de pacientes portadores do HIV em seguimento no Hospital Universitrio Clementino Fraga Filho, contendo 2.666 pacientes; b) Coorte de pacientes pertencentes ao estudo TB-HIV (THRio) - pacientes portadores de HIV e tuberculose contendo mais de 15.000 pacientes; c) Sistema de Informaes sobre Mortalidade (SIM), contendo dados referente ao perodo de 2000 a 2006. Segundo os autores, a performance alcanada pelo algoritmo foi considera excelente, com a sensibilidade acima de 90%. Silveira e Artmann (SILVEIRA, 2009), em recente estudo de reviso sistemtica, identificaram que o nmero de estudos voltados ao desenvolvimento e aprimoramento de mtodos de relacionamento nominal de bases de dados vem crescendo nos ltimos anos. A maior parte dos trabalhos foram conduzidos e publicados nos EUA, Reino Unido e Nova Zelndia. Segundo os autores, no Brasil, apesar de uma extensa difuso e aplicao deste mtodo em estudos de diversas reas de conhecimento, em especial na epidemiologia, ainda so poucos os trabalhos que visam a identificar um mesmo indivduo em duas ou mais bases de dados nominais.
Reviso da Literatura 62
Uma considerao importante feita por Scheuren (SCHEUREN, 1999), e que deve ser reforada, a definio clara da finalidade do resultado do relacionamento das bases de dados. Todas as operaes de relacionamento de registros, determinsticas ou probabilsticas, esto sujeitas a dois tipos de erros: O primeiro, denominado falso-negativo ou Tipo I, o mais comum e ocorre quando o algoritmo no consegue agrupar registros referentes ao mesmo indivduo. O segundo, denominado falso- positivo ou Tipo II, potencialmente mais grave e ocorre quando o algoritmo agrupa registros referente a indivduos diferentes.
3.4.5.1 Blocagem Segundo Coeli et al. (COELI, 2002) o nmero de pares possveis com a combinao de duas bases de dados igual ao produto entre o nmero de registros na primeira base e o nmero de registros na segunda base. Por exemplo, o relacionamento de duas bases de dados com 10 x 10 3 registros cada implicaria na necessidade de comparao de 100 x 10 6 de pares de registros, o que demandaria um alto custo para o processamento das comparaes. A blocagem permite que as bases de dados sejam logicamente divididas em blocos mutuamente exclusivos, sendo as comparaes limitadas aos registros pertencentes a um mesmo bloco. Os blocos so constitudos de forma a aumentar a probabilidade de que os registros neles contidos representem pares verdadeiros. Reviso da Literatura 63
O processo consiste na indexao dos arquivos a serem relacionados segundo uma chave formada por uma varivel ou atravs da combinao de duas ou mais variveis. Os registros de um determinado bloco apresentam o mesmo valor para a chave escolhida. A Figura 3.13 demonstra um exemplo hipottico de blocagem, na qual o prenome foi considerado para formao dos blocos, conforme descrito nos campos CHAVE A e CHAVE B.
Figura 3.13 Exemplo hipottico da tcnica de blocagem, considerando o prenome como chave para constituio dos blocos
Coeli et al. (COELI, 2002) sugere a utilizao de diferentes chaves em passos sequenciais, ou seja, emprega-se uma determinada chave para blocagem e procede-se comparao dos registros. Os registros no pareados na primeira etapa so novamente comparados empregando-se uma nova chave. Reviso da Literatura 64
A chave para a blocagem deve apresentar um grande nmero de valores que se distribuem de modo relativamente uniforme, buscando desta maneira alcanar a diviso ideal do arquivo: um nmero grande de blocos com tamanhos reduzidos (poucos registros por bloco). Adicionalmente, as variveis que formam a chave devem apresentar baixa probabilidade de ocorrncia de erros. A ocorrncia de erros fazem com que os registros relativos a um mesmo indivduo sejam alocados em blocos diferentes, impossibilitando a comparao dos registros e levando a classificao dos mesmos como falsos no pares. Os blocos 5 e 6 da Figura 3.14 demonstra o problema de uma chave de blocagem muito restritiva.
Figura 3.14 Exemplo hipottico da tcnica de blocagem restritiva
Mtodos
Mtodos
66
4. MATERIAIS E MTODOS
4.1 Fonte de Dados Neste trabalho foram utilizadas trs fontes de dados diferentes, a primeira pblica e esta disponvel no stio do Departamento de Informtica do SUS (DATATUS). A segunda foi conseguida graas colaborao do Grupo de Informtica em Sade da Secretaria Estadual da Sade de So Paulo (SES/SP) e a terceira e ltima com o apoio das reas de Tecnologia da Informao do Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo (HCFMUSP). O perodo dos arquivos compreende os anos entre 2000 2009 e somente para pacientes que foram atendidos no estado de So Paulo.
4.1.1 Bases de Dados do DATASUS As bases de dados utilizadas neste trabalho so referentes aos sistemas SIHSUS, SIASUS, SIM, SINASC e CNES e foram obtidas atravs de download dos arquivos disponibilizados pelo DATASUS (http://www.datasus.gov.br). Para este trabalho, foi utilizado somente os arquivos que j encontravam-se consolidados, ou seja, no seriam realizadas novas publicaes contendo alteraes. Sendo assim, para os sistemas SIHSUS, SIASUS, SIM e SINASC o perodo utilizado foi de 2000 2007. Como objetivo deste trabalho deixar o ambiente para pesquisas futuras, assim que Mtodos
67 os anos de 2008 e 2009 estiverem consolidados, estes sero includos no ambiente. No decorrer deste trabalho, as bases de dados do DATASUS sero descritas como BD-DATASUS.
4.1.2 Bases de Dados da SES/SP
Como um dos objetivos principais deste trabalho foi permitir a comparao de populaes, era fundamental ter o seguimento dos pacientes baseados nos episdios de assistncias dispensadas aos mesmos e isto somente seria possvel tendo a base de dados com os atendimentos identificados, ou seja, estar contido na base de dados os atributos que possibilitem a identificao do paciente. As bases de dados disponibilizadas pela SES/SP, que continham dados demogrficos dos pacientes, foram as dos sistemas: 1) SIHSUS, referente ao perodo de 2000 2005; 2) APAC do SIASUS, referente ao perodo de 2000 2007; 3) SIM, referente ao perodo 2000 2008. Segundo a SES/SP, devido alterao no processo de envio de arquivos do SUS, os dados do SIHSUS, a partir de 2006 foram enviados pelos municpios diretamente para o DATASUS o mesmo ocorrendo para o SIASUS a partir de 2008. O mesmo pedido de disponibilizao das bases de dados contendo a identificao dos pacientes, foi encaminhado ao Ministrio da Sade. Porm, at o presente momento, o pedido encontra-se em avaliao pelo Mtodos
68 DECIT (Departamento de Cincia e Tecnologia do Ministrio da Sade). Da mesma forma que ser includo no ambiente os dados do DATASUS, referente aos anos de 2008 e 2009, quando estiverem consolidados, tambm ser includo e trabalhado os dados individuais, caso o haja liberao do DECIT. As bases de dados da SES/SP, utilizadas neste trabalho sero descritas como BD-SES/SP.
4.1.3 Bases de Dados do Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo.
A base de dados fornecida pelo HCFMUSP teve como objetivo recuperar pacientes atendidos no hospital no perodo 2000 2007 e que faziam parte da BD-SES/SP. O relacionamento entre as duas bases de dados permitiu a criao de uma base de dados denominada BD-Controle, a qual foi utilizada para avaliar o algoritmo de relacionamento de registros (Record Linkage). Foram disponibilizados os atendimentos de pacientes internados, os quais faziam parte do sistema SIHSUS, bem como os atendimentos ambulatoriais considerados de alta complexidade (BRASIL, 2010a e BRASIL, 2010b), incluindo os medicamentos dispensados atravs da farmcia do HCMFUSP para o tratamento da alta complexidade, os quais faziam parte do mdulo de APAC do sistema SIASUS . As bases de dados do Hospital das Clnicas da Faculdade de Medicina da Universidade de So Paulo, sero identificadas no decorrer deste trabalho como BD-HCFMUSP. Mtodos
69
A Figura 4.1 demonstra o relacionamento das bases de dados utilizadas neste trabalho. Apesar da caracterizao individual de cada base de dados, a base de dados BD-HCFMUSP um subconjunto da base de dados BD-SES/SP que por sua vez um subconjunto da base de dados BD- DATASUS. A utilizao dos subconjuntos foram necessrios para complementar variveis que no estavam disponveis na base de dados BD- DATASUS. A base de dados BD-HCFMUSP, contribuiu com a varivel <RGHC>, identificador unvoco do paciente no HCFMUSP, a base de dados BD-SES/SP contribuiu com as variveis de identificao e demogrficas do paciente, as demais variveis foram adquiridas da base de dados BD- DATASUS. O relacionamento entre as bases de dados foram realizadas atravs das variveis <nmero da AIH> e <nmero da APAC>, identificadores unvocos para os sistemas de internao e atendimento de alta complexidade, respectivamente.
Figura 4.1 Bases de dados utilizadas como fonte de dados Mtodos
70 4.2 Extrao e Transformao dos Dados de Origem A estratgia adotada para a carga dos dados consistiu na criao de duas bases de dados distintas, uma contendo os dados no seu formato original , conforme disponibilizado pelas fontes de dados , e outra, contendo os dados no modelo multidimensional, conforme modelo proposto por Kimball (KIMBALL, 2002) e Santos e Gutierrez (SANTOS e GUTIERREZ, 2008). Na carga inicial, os dados das fontes originais foram carregados em uma base de dados intermediria denominada STAGE, onde ocorreram validaes, limpezas e algumas transformaes de dados visando a resoluo dos rudos. A Figura 4.2 demonstra os principais elementos do DW e suas inter-relaes. A STAGE servir como a fonte de dados para a carga da base multidimensional, denominada DW, e que ser descrito nas prximas sees.
Figura 4.2 Diagrama dos elementos do DW: Bases de Dados (fontes de dados originais), STAGE (cpia das fontes de dados originais e pr- processamento) e Apresentao dos dados (modelos dimensionais processados e dicionrio de metadados) . Mtodos
71 4.2.1 Dados do DATASUS A primeira etapa da carga ocorreu na STAGE no sendo aplicada nenhuma alterao na estrutura dos arquivos, nem regras de transformaes de dados, ou seja, os arquivos disponibilizados pelo DATASUS foram carregados na STAGE, em tabelas com estrutura semelhante aos arquivos e com o mesmo contedo. Para garantir a qualidade dos dados, procedimentos de anlise volumtrica e anlise de integridade referencial foram realizados, conforme descrito a seguir: A anlise volumtrica correspondeu contagem das linhas carregadas na STAGE e a comparao com a quantidade de registros existentes nos arquivos de origem. Apesar de ser uma anlise simples ela fundamental para garantir que nenhum dado deixe de ser carregado no DW. O custo de retrabalho e credibilidade do DW podem ser comprometidos por falta de dados que no foram carregados. A anlise da integridade referencial correspondeu verificao de registros existentes que sero carregados nas tabelas fato, sem os registros correspondentes que sero carregados nas dimenses relacionadas. A Figura 4.3 demonstra um exemplo de violao de integridade referencial, ou seja, o registro do paciente J urandir dos Santos indica o contedo 9 para o cdigo do sexo, e como pode ser visto, Mtodos
72 este cdigo no existe na tabela de sexo. Para os registros onde no havia um contedo na dimenso correspondente, foi criado um registro na dimenso com o contedo ??. Posteriormente, estes contedos foram analisados por especialistas que conheciam os termos utilizados na Sade Pblica visando reconhecer uma fonte de informao vlida para o contedo em questo. Por ltimo, para os casos onde no foi possvel encontrar uma fonte vlida, foi inserido um registro na dimenso com o valor No identificado e associado ao fato em questo. Este processo visa no perder o registro de um fato por no ter o valor correspondente a uma das diversas dimenses associadas a este.
Figura 4.3 Exemplo de tabelas com violao de integridade referencial
4.2.2 Dados da SES/SP O mesmo mtodo utilizado na primeira etapa para a carga dos dados do DATASUS foi aplicado nas fontes de dados da SES/SP. As bases Mtodos
73 de dados do SIHSUS e SIASUS fornecidas pela SES/SP estavam representadas no formato de tabela nica para cada sistema, ou seja, uma nica tabela para o SIHSUS contendo as variveis da AIH com contedo referente ao perodo de 2000 2005 e outra tabela nica para SIASUS contendo as variveis da APAC com o contedo referente ao perodo de 2000 2007. Estas tabelas estavam no formato de banco de dados relacional, e foram simplesmente carregadas na STAGE no mesmo formato fornecido pela SES/SP. O objetivo das tabelas contidas na BD-SES/SP permitir a recuperao das variveis de identificao, incluindo dados demogrficos, dos pacientes para a aplicao da tcnica de associao de registros (Record Linkage) e vincular as diversas internaes ou atendimentos de alta complexidade a um determinado paciente. Sendo assim, somente as variveis de identificao, do paciente, as demogrficas e o nmero da AIH ou nmero da APAC foram trabalhadas na STAGE. Alm do processo de seleo das variveis de interesse, tambm foi aplicado o processo de limpeza destas tabelas. Os registros do SIHSUS (BD-SES/SP) que no tiveram um correspondente no SIHSUS (BD- DATASUS) foram eliminados, isto resultou na excluso de 2,95% do total de registros. A comparao desses registros foram realizados atravs da varivel considerara chave (<nmero da AIH>) nesse sistema. O mesmo processo realizado no SIHSUS foi aplicado no SIASUS, ou seja, os registros do SIASUS (BD-SES/SP), que no tiveram um Mtodos
74 correspondente no SIASUS (BD-DATASUS) foram eliminados, isto resultou na excluso de 11,70% do total de registros. A comparao deste registros, foi realizada atravs da varivel <nmero da APAC>, considerada chave do mdulo de autorizao de procedimentos de alta complexidade. A existncia de registros de AIH e de APAC na base de dados BD- SES/SP, sem correspondncia na base de dados BD-DATASUS justifica-se pelo fato destas terem sido rejeitas nos processos de validao, no nvel estadual, antes do envio para o nvel federal. Os dados do SIM, disponibilizadas na BD-SES/SP, estavam particionados em oito arquivos, um por ano e no formato dbf. Assim, como nos processos anteriores, este arquivos seriam carregados no formato original para a STAGE. Entretanto, durante a verificao das estruturas dos arquivos para a criao das estruturas na STAGE, percebeu-se que os mesmos tinham estruturas (definio das variveis) diferentes. Uma anlise mais detalhada revelou que os arquivos do perodo de 2000 2005 no continham variveis de identificao do paciente. Atravs de uma consulta aos tcnicos da SES/SP, foi confirmado que os dados do SIM, que contm dados demogrficos dos pacientes, esto limitados ao perodo de 2006 2008. Sendo assim, foi criado na STAGE uma tabela consolidando os dados do SIM referentes aos anos de 2006, 2007 e 2008. Por fim, foram aplicados os mesmos procedimentos de anlise referencial realizados nos dados da BD-DATASUS.
Mtodos
75 4.2.3 Dados do HCFMUSP Quatro arquivos, com os dados de faturamento, foram fornecidos pelos grupos de TI do HCFMUSP, dois com dados que haviam sido apresentados pela Fundao Faculdade de Medicina e outros dois com dados que haviam sido apresentados pela Fundao Zerbini. As estruturas dos arquivos foram divididas em apresentaes de AIH e de APAC. A primeira estrutura continha o nmero da AIH e o nmero do RGHC (nmero de matrcula do paciente no HCFMUSP) e a segunda estrutura continha o nmero da APAC e o nmero do RGHC. Segundo os tcnicos de TI do HCFMUSP, o nmero RGHC composto de nmeros mais um dgito verificador no formato de letra. A formula matemtica para calculo deste dgito foi fornecida para que fosse aplicada na varivel <RGHC>contida nos arquivos encaminhados. Todos arquivos foram carregados na STAGE no formato original e foram submetidos a etapa de consistncia, tanto na varivel <RGHC>, bem como nas variveis <nmero de AIH> e <nmero de APAC>. Foram excludos, da STAGE, os registros onde o RGHC no pode ser validado atravs do digito verificador (assim como ocorre no CPF o RGHC contempla um digito verificador, utilizado para validar um nmero de matrcula de paciente). Os registros excludos nessas condies contemplaram 4,58% do total de registros da STAGE. Tambm foram excludos os registros que no tiveram correspondncia na BD-DATASUS, ou seja, quando o nmero da AIH ou o Mtodos
76 nmero da APAC no foi encontrado nas tabelas que haviam sido carregadas previamente para o STAGE. Esses registros corresponderam a 22,06% do total de registros na STAGE.
4.3 Associao de Registros (Record Linkage)
A Tabela 4.1 relaciona os mtodos e dicionrios desenvolvidos para as etapas de anlise, consistncia e padronizao das variveis das bases de dados BD-SES e BD-Controle. O detalhamento de cada mtodo e dicionrio sero apresentados ao longo deste captulo.
Tabela 4.1 Mtodos desenvolvidos para anlise, consistncias e padronizao de variveis Mtodo / Dicionrio Utilizao Avaliar a repetio de caracteres e a quantidade distinta de caracteres no contedo de uma varivel Anlise do preenchimento e consistncia das variveis Avaliar abreviaes no incio da varivel Anlise do preenchimento e consistncia das variveis Avaliar a presena de caracteres especiais no contedo da varivel Anlise do preenchimento e consistncia das variveis Avaliar a presena de caracteres numricos no contedo da varivel Anlise do preenchimento e consistncia das variveis Padroniza logradouro Padronizao das variveis Fonetiza strings Padronizao das variveis Reduz strings Padronizao das variveis Dicionrio: Nomes invlidos Padronizao das variveis Dicionrio: Prefixos Padronizao das variveis Dicionrio: Abreviaes Padronizao das variveis
Mtodos
77 4.3.1 Identificao das Variveis Os dados do SIASUS, armazenados na BD-SES/SP, estavam distribudos em 116 variveis, das quais 11 foram elegveis para utilizao no processo associao de registros. A Tabela 4.2 demonstra as variveis selecionadas. Os dados do SIHSUS, armazenados na BD-SES/SP estavam distribudos em 123 variveis, das quais 9 foram elegveis para utilizao no processo associao de registros. A Tabela 4.3 demonstra as variveis selecionadas. As variveis <Nome da Me> e <CPF> no estavam presentes nos dados do SIHSUS. Os dados do SIM, armazenados na BD-SES/SP estavam distribudos em 72 variveis, das quais 10 foram elegveis para utilizao no processo associao de registros. A Tabela 4.4 demonstra as variveis selecionadas. A varivel <CPF>no estava presente nos dados do SIM. Tabela 4.2 Variveis do SIASUS, armazenadas na BD-SES/SP, utilizadas no processo de associao de registros Varivel Descrio AUX_NOMEPC Nome do Paciente AUX_NASCPC Data de Nascimento AUX_NOMEMA Nome da Me AUX_SEXOPC Sexo AUX_CPFPCN CPF do Paciente AUX_NUMPCN Municpio de Residncia do Paciente AUX_LOGPCN Logradouro de Residncia do Paciente AUX_MUNPN Nmero do Logradouro de Residncia do Paciente AUX_CPLPCN Complemento do Logradouro de Residncia do Paciente AUX_CEPPCN CEP da Residncia do Paciente APAC Nmero da APAC Mtodos
78 Tabela 4.3 Variveis do SIHSUS, armazenadas na BD-SES/SP, utilizadas no processo de associao de registros Varivel Descrio NOME_PAC Nome do Paciente NASC Data de Nascimento SEXO Sexo MUNIC_RES Municpio de Residncia do Paciente LOGR Logradouro de Residncia do Paciente NUMERO Nmero do Logradouro de Residncia do Paciente COMPL Complemento do Logradouro de Residncia do Paciente CEP CEP da Residncia do Paciente N_AIH Nmero da AIH
Tabela 4.4 Variveis do SIM, armazenadas na BD-SES/SP, utilizadas no processo de associao de registros Varivel Descrio NOME Nome do Indivduo DTNASC Data de Nascimento NOMEMAE Nome da Me SEXO Sexo CODMUNRES Municpio de Residncia do Indivduo ENDRES Logradouro de Residncia do Indivduo NUMRES Nmero do Logradouro de Residncia do Indivduo COMPLRES Complemento do Logradouro de Residncia do Indivduo CEPRES CEP da Residncia do Indivduo DTOBITO Data de bito do Indivduo
Mtodos
79 4.3.2 Anlise do Preenchimento e Consistncia das Variveis
Atravs de anlises exploratrias nas bases de dados, buscou-se conhecer padres de preenchimento e consistncia das variveis e entre variveis, quando aplicvel. Devido ao grande volume de registros contido na base de dados BD-SES/SP, foi necessrio desenvolver alguns mtodos para auxiliar estas anlises, os quais so descritos a seguir: Mtodo para avaliar a repetio de caracteres e a quantidade distinta de caracteres no contedo de uma varivel. Por exemplo, uma varivel com contedo igual a NONONONO NONONO, submetido a este mtodo, retorna como resultado 2=N(7) O(7). Ou seja, o contedo desta varivel contm somente 2 caracteres diferentes, sendo 7 caracteres N e 7 caracteres O Mtodo para avaliar abreviaes no incio da varivel. Por exemplo, uma varivel com contedo igual a AV. ENEAS DE CARAVALHO submetida a este mtodo, retorna como resultado AV. Mtodo para avaliar a presena de caracteres especiais no contedo da varivel. Por exemplo, uma varivel com contedo igual a M DA SILVA submetida a este mtodo, retorna como resultado . Mtodo para avaliar a presena de caracteres numricos no contedo da varivel. Por exemplo, uma varivel com contedo igual a RUA 25 DE MARO submetida a este Mtodos
80 mtodo, retorna como resultado verdadeiro, ou seja, h caracteres numricos nessa varivel. Para as variveis <Nome do Paciente>e <Nome da Me>, foram aplicado os mtodos descritos acima com o objetivo de avaliar o contedo anmalo nestas variveis. Ainda para estas variveis, foi criado um ranking com os nomes, considerando sua frequncia relativa, com o objetivo de descobrir padres que deveriam ser desconsiderados, as Tabelas 4.5 e 4.6 demonstram alguns exemplos de nomes. Outra anlise realizada objetivou descobrir se havia variabilidade do contedo das variveis <sexo> e <data de nascimento> para o mesmo paciente. Assim, foram considerados todos registros que, atravs da comparao determinstica simples fossem exatamente iguais. Para a anlise da varivel <sexo>, o conjunto de variveis estabelecido foi: <nome do paciente>, <data de nascimento>, <nome da me>, <logradouro>e <CEP>. Foram encontradas 64.895 ocorrncias com variao do sexo. Para a anlise da varivel <data de nascimento>, o conjunto de variveis estabelecido foi: <nome do paciente>, <sexo>, <nome da me>, <logradouro> e <CEP>. Foram encontradas 215.999 ocorrncias com variao da data de nascimento. A varivel <CPF> pode ser considera como uma varivel de identificao unvoca do indivduo. Mesmo essa varivel estando presente somente nos registros do SIASUS j seria de extrema utilidade para a Mtodos
81 identificao da alta complexidade. Para validar esta informao trs verificaes foram realizada: Aplicao do mtodo para avaliar a repetio de caracteres, citado anteriormente, com o objetivo de encontrar nmeros que so considerados vlidos pela frmula matemtica de verificao do dgito verificador do CPF, porm no so nmeros atribudos indivduos como por exemplo, 00000000000, 11111111111 ... 99999999999. Foram encontrados registros nesta situao. Verificar se existia, para o mesmo paciente, mais de um CPF. Para esta verificao foi utilizada a definio de mesmo paciente citada anteriormente. Foram encontrados registros nesta situao. Verificar se existia, para o mesmo CPF, mais de um paciente. Para esta verificao foi utilizada a definio de mesmo paciente citada anteriormente. Foram encontrados registros nesta situao. Analisando os resultados das verificaes para a varivel <CPF>, foi possvel concluir que a existncia de nmeros invlidos justifica-se para atendimentos onde pessoas de baixa renda no tenham tal documento e sendo esta varivel obrigatria, o sistema encontrou uma forma de ultrapassar esta barreira. Para pacientes, onde foi encontrado mais de um CPF, foi possvel concluir que estes eram nmeros de CPF de pais ou responsveis, quando o atendimento foi realizado a um menor ou de filhos, Mtodos
82 quando o atendimento foi realizado a um idoso. O mesmo pode ser concludo para a incidncia do mesmo nmero de CPF para mais de um paciente, ou seja, o CPF de pais ou responsveis para mais de um filho. Uma ltima anlise foi realizada para as variveis <CEP> e <logradouro>com o objetivo de avaliar a consistncia da varivel <CEP>, quando comparada com o banco de dados dos Correios e a consistncia entre a varivel <CEP>e a varivel <logradouro>. Para a varivel <CEP>, aplicou-se o mtodo de comparao determinstica simples, comparando esta varivel com o banco de dados dos Correios. Em 21,5% dos registros, no foi encontrada correspondncia no banco de dados dos Correios. Para verificar se o contedo da varivel <logradouro> correspondia ao contedo da varivel <CEP>, foi selecionado aleatoriamente uma amostra com 300 registros, onde foi encontrada correspondncia entre a varivel <CEP> e o banco de dados dos Correios. A comparao entre esses registros foi realizada manualmente, pois abreviaes no preenchimento poderiam ser consideradas como divergncia na comparao determinstica. Houve divergncia em 46% dos registros analisados.
Mtodos
83 Tabela 4.5 - Amostra de nomes de pacientes invlidos encontrados nos registros do SIHSUS e SIASUS (BD-SES/SP)
00000000000 Desconhecido ignorado - preenchido de acordo com port.84 de 24/06/97 * desconhecido * desconh.calca jeans blusa azul ignorado pinguin
desconh.moreno cabelo grisalho joao mudo branco ignorado ignorado preenchido de acordo com port ministerial ++ desconhecida muda surda branca cabelos encaracolados mulher desconhecida desconhecida saia amarela camisa clara desconhecido branco nao identificado desconhecido bebe desconhecido desconhecido desconhecido nc
branco ignorado desconhecido i c desconhecido joao trezentos cl desconhecida maria quatorze desconhecido negro politruma desconhecida branca cliente whisky treze cliente descon desconhecido pardo quebec cinco cliente desconhecido cd desconheci joao cento vinte geraldo de tal desconhecido preso desconhecido das 20:30 desconhecido filha de desconhecida Xxxxxxxxxxxx
Tabela 4.6 - Amostra de nomes de mes invlidos encontrados nos registros do SIHSUS e SIASUS (BD-SES/SP) a confirmar no amores nao declarou (conf.rg.estrang) a me no apresentou nao encontrado a mesma no asanome nao especificada a propria nao cadastrado nao fomos infomados Ausente Desconhecida nao huehara Cadastrar nao colocou nao ignorado nao informado pelo medico Alex nao conhece nao informado mae ou resp/sigh Falecida nao consta nada nao infornada Idem nao consta em documento nao liberar falar com dr nelso Ignorada nao consta (asilo est. renasc) nao pode receber em junho med Ilegvel n+o tem nao sabe informar Inexistente nao consta lme sem descricao no laudo medico n c nao consta na certido nao mesma n consta nao consta no laudo da apac nao nada Nada nao consta no sigh nao tem apac nao fornecido nao consta no sistema nao tem na sme nao trouxe nao consta00000000000000000000 sem informacao na apac
Mtodos
84 A realizao dessas anlises foi fundamental para a orientao e conduo do desenvolvimento do mtodo de associao de registros (Record Linkage).
4.3.3 Padronizao das Variveis
Os mtodos desenvolvidos na seo 4.3.2, para auxiliar nas anlises de preenchimento, foram utilizados para a criao de trs dicionrios, os quais sero utilizados nesta seo. O primeiro dicionrio, denominado nomes invlidos contm as strings consideradas invlidas para representao de nomes, como exemplificado nas Tabelas 4.5 e 4.6. Uma string pode ser definida como um conjunto de caracteres consecutivos atribudos como contedo de uma varivel. O segundo dicionrio denominado prefixos, contm prefixos utilizados em logradouros extrados da base de dados dos Correios, por exemplo: RUA, AVENIDA, TRAVESSA, PRAA entre outros. O terceiro dicionrio denominado abreviaes, contm abreviaes e a correspondente forma por extenso, por exemplo: R. RUA, M Maria, NSA Nossa Senhora. Um dos principais problemas em processos de comparao de nomes so as possveis formas de grafias. Erros na grafia, abreviaes ou ainda a forma da coleta do dado imposta por formulrios em papel ou eletrnico so alguns dos possveis problemas. comum encontrar fichas de atendimento que seguiram o padro americano de registro do nome do paciente, ou seja, primeiro informado o Mtodos
85 sobrenome (nome da famlia) e em seguida o prenome de batismo. Por exemplo, para o nome "J OS J OAQUIM DA SILVA XAVIER", a ficha apresentaria a seguinte forma: "XAVIER, J OS J OAQUIM DA SILVA". Vrios pesquisadores trabalharam em algoritmos para comparao de strings visando resolver o problema de comparao determinstica simples entre duas strings, ou seja, incluir um grau de incerteza ao invs de uma deciso binria. Os algoritmos mais citados em trabalhos cientficos para comparao de strings so: Levenshtein Distance (LEVENSHTEIN, 2007) e Jaro-Winkler (PORTER e WINKLER, 1997). A Tabela 4.7 ilustra alguns exemplos de comparao de strings atravs dos algoritmos de Levenshtein e Jaro-Winkler. Tabela 4.7 - Comparao de strings atravs dos algoritmos de Levenshtein e Jaro-Winkler
O algoritmo de Jaro-Winkler tem demonstrado resultados mais satisfatrios, entretanto, mesmo esses resultados ainda so insuficientes para garantir uma faixa de segurana aceitvel, sem perda de registros. A grande maioria dos trabalhos publicados utiliza 91% de semelhana, como valor mnimo para aceitar, com um grau de incerteza, que a string seja considerada similar. Mtodos
86 Uma alternativa para melhorar o percentual de semelhana e que foi aplicado neste trabalho, submeter a string ao um mtodo de fonetizao (INCOR, 2010) que tem como objetivo substituir a forma escrita pela forma de fonemas e com isto minimizar erros de grafias. A Tabela 4.8 ilustra os mesmos exemplos citado na Tabela 4.7 adicionando um linha fonetizada correspondente ao registro original. possvel perceber, claramente, o aumento no percentual de semelhana.
Tabela 4.8 - Comparao de strings atravs dos algoritmos de Levenshtein e Jaro-Winkler incluindo registros fonetizados
Durante as anlises exploratrias, citadas anteriormente, foi percebido que para a varivel <logradouro> haviam algumas formas de preenchimento para o mesmo logradouro (Tabela 4.9). Quando submetido ao mtodo de comparao de strings os exemplos de preenchimento na Mtodos
87 Tabela 4.9 tero um percentual de similaridade muito baixo e logo sero considerados como logradouros diferentes. Tabela 4.9 Exemplos de preenchimento da varivel <logradouro>
Para resolver esse problema foi criado o mtodo padroniza logradouro com as seguintes caractersticas: Identificar e desmembrar logradouros que tenham o nmero e ou complemento juntos na varivel <logradouro>; Identificar e retirar prefixos do logradouro, por exemplo, RUA, R., AVENIDA. Esse item utiliza-se dos dicionrios prefixos e abreviaes; Transformar nmeros no logradouro por correspondente grafia em extenso, por exemplo, 25 ser transformado para vinte e cinco
Mtodos
88 A Tabela 4.10 ilustra o exemplo citado na Tabela 4.9 aps a aplicao do mtodo de padroniza logradouro. Tabela 4.10 Exemplos de preenchimento da varivel <logradouro> aps aplicao do mtodo padroniza logradouro
Para resolver o problema de grafia das variveis <nome do paciente>, <nome da me> e <logradouro> foi desenvolvido o mtodo fonetiza strings com as seguintes caractersticas: Substituir a forma escrita pela forma de fonemas. Por exemplo, os nomes "J OS J OAQUIM DA SILVA XAVIER" e "J OZ J OAQUIM DA SILVA CHAVIER" sendo submetido ao mtodo, retornaro o mesmo resultado, ou seja, "GIUZI GIUAKIN SIUVA XAVIR". Identificar e substituir abreviaes, por exemplo, M - Maria. Esse item utiliza-se do dicionrio abreviaes; Particionamento da varivel em cinco novas variveis diferentes e que sero utilizados nos processos de blocagem e pareamento conforme detalhado na Tabela 4.11.
Mtodos
89 Tabela 4.11 Detalhamento do mtodo fonetiza strings aplicado nas variveis <nome do paciente>, <nome da me> e <logradouro> Varivel Contedo PRI Cdigo fontico do primeiro nome, no nosso exemplo "GIUZI". PRI_ULT Cdigo fontico do primeiro e ltimo nome, no nosso exemplo "GIUZI XAVIR". ULT Cdigo fontico do ltimo nome, no nosso exemplo "XAVIR" SEG Cdigo fontico do segundo nome, no nosso exemplo "GIUAKIN".
TODOS Cdigo fontico do nome completo, no nosso exemplo "GIUAKIN GIUZI SIUVA XAVIR"
Nesta parte do mtodo existe uma particularidade. Para que fosse possvel tratar o nome independente da forma que foi coletado, os nomes so separados, fonetizados e posteriormente ordenados antes de ser retornado como resultado.
No nosso exemplo, o nome "J OS J OAQUIM DA SILVA XAVIER" poderia estar representado de qualquer forma, ou seja, alm de "J OS J OAQUIM DA SILVA XAVIER", poderia ser "XAVIER, J OS J OAQUIM DA SILVA" ou ainda "XAVIER DA SILVA J OS J OAQUIM" que o resultado ser sempre o mesmo "GIUAKIN GIUZI SIUVA XAVIR".
Com o desenvolvimento dos mtodos citados, as variveis <nome do paciente>, <data de nascimento>, <CPF>, <nome da me>, <logradouro>, <nmero do logradouro>, <nmero da APAC> e <data do bito>foram submetidas padronizao, conforme descrito na Tabela 4.12.
Mtodos
90 Tabela 4.12 Mtodo de padronizao aplicado por varivel Varivel Mtodo de padronizao aplicado Nome do Paciente Foram eliminados registros onde o contedo foi encontrado no dicionrio nomes invlidos, os demais registros foram submetidos ao mtodo fonetiza strings. Data de Nascimento A data de nascimento esta representada por dois formatos, AAAAMMDD e DDMMAAAA onde DD refere-se ao dia, MM refere-se ao ms e AAAA refere-se ao ANO. Esta varivel foi padronizada no formado DD/MM/AAAA. Foram encontradas datas onde o ano estava representado somente com 3 dgitos vlidos, por exemplo, 0960. Nestes casos, foi substitudo o primeiro 0 por 1. CPF Substituio dos valores '00000000000', '11111111111', '22222222222', '33333333333', '44444444444', '55555555555', '66666666666', '77777777777', '88888888888', '99999999999' pelo valor nulo, pois foi percebido que esses valores so utilizados em diversos pacientes e esta varivel ter um peso importante no processo de pareamento. Nome da Me Registros onde o contedo foi encontrado no dicionrio nomes invlidos foram substitudo pelo valor nulo, os demais registros foram submetidos ao mtodo fonetiza strings. Logradouro Registros onde o contedo foi encontrado no dicionrio nomes invlidos foram substitudo pelo valor nulo, os demais registros foram submetidos aos mtodos padroniza logradouro e fonetiza strings. Nmero do Logradouro Retirado os caracteres 0 que havia a esquerda da varivel, no foi realizado uma transformao simples para nmero, pois haviam diversos endereos representados por nmero seguido de letra, por exemplo, 123A APAC representada nos arquivos do SIASUS pelos campos <AUX_NUMANT>(at 09/2005) e <AUX_NUM>(10/2005 em diante), desta forma foi criado a varivel <APAC> para normalizar este contedo em uma nica varivel. Data do bito A data do bito representada pelo formato, DDMMAAAA onde DD refere-se ao dia, MM refere-se ao ms e AAAA refere-se ao ANO. Desta forma foi padronizado o formado DD/MM/AAAA.
Um ltimo mtodo, denominado reduz strings, foi desenvolvido nesta etapa. O objetivo deste mtodo possibilitar uma segunda comparao de strings quando a primeira comparao obtiver um percentual Mtodos
91 de semelhana abaixo do limite mnimo estabelecido. O mtodo tem as seguintes caractersticas:
Retirar os sufixos J UNIOR, J R, NETO, NETA, FILHO, FILHA, SOBRINHO e SOBRINHA; Retirar as preposies DA, DAS, DO, DOS e DE; Abreviar os nomes entre o primeiro e o ltimo nome aps a retirada dos sufixos e preposies, por exemplo, o nome J OS J OAQUIM DA SILVA XAVIER submetido a este mtodo ir retornar J OS J S XAVIER.
Como resultado da etapa de padronizao, foram criadas duas tabelas, a primeira unindo os registros do SIHSUS e SIASUS e a segunda contendo os bitos. Alm das variveis pertencentes aos bancos de dados originais tambm foram includas variveis exclusivas para uso das etapas de blocagem, pareamento e associao de registros. Os contedos de cada tabela esto descritos nas Tabelas 4.13 e 4.14.
Mtodos
92 Tabela 4.13 Tabela dos dados demogrficos dos pacientes contido nos registros dos sistemas SIHSUS e SIASUS Item Descrio 1 Chave nica de identificao do registro. 2 Nome do paciente 3 Data de nascimento do paciente 4 Sexo do paciente 5 Nmero do CPF do paciente 6 Nome da me do paciente 7 Cdigo do municpio de residncia do paciente (padro IBGE) 8 Nmero do CEP da residncia do paciente 9 Logradouro da residncia do paciente (sem o nmero ou complemento) 10 Nmero do logradouro da residncia do paciente 11 Complemento do nmero do logradouro da residncia do paciente 12 Data do atendimento do paciente 13 Nmero da AIH 14 Nmero da APAC 15 Nome abreviado do paciente 16 Nome abreviado da me do paciente 17 Logradouro abreviado 18 Cdigo fontico do primeiro nome do paciente 19 Cdigo fontico do primeiro e ltimo nome do paciente 20 Cdigo fontico do ltimo nome do paciente 21 Cdigo fontico do segundo nome do paciente 22 Cdigo fontico do nome completo do paciente 23 Cdigo fontico do primeiro nome da me do paciente 24 Cdigo fontico do primeiro e ltimo nome da me do paciente 25 Cdigo fontico do ltimo nome da me do paciente 26 Cdigo fontico do segundo nome da me do paciente 27 Cdigo fontico do nome completo da me do paciente 28 Cdigo fontico do primeiro nome do logradouro 29 Cdigo fontico do primeiro e ltimo nome do logradouro 30 Cdigo fontico do ltimo nome do logradouro 31 Cdigo fontico do segundo nome do logradouro 32 Cdigo fontico do nome completo do logradouro 33 Cdigo fontico do nome abreviado do paciente 34 Cdigo fontico do nome abreviado da me do paciente 35 Cdigo fontico do nome abreviado do logradouro
Mtodos
93 Tabela 4.14 Tabela dos dados demogrficos dos pacientes contido nos registros do sistema SIM Item Descrio 1 Chave nica de identificao do registro. 2 Nome do paciente 3 Data de nascimento do paciente 4 Sexo do paciente 5 Nome da me do paciente 6 Cdigo do municpio de residncia do paciente (Padro IBGE) 7 Nmero do CEP da residncia do paciente 8 Logradouro da residncia do paciente (sem o nmero ou complemento) 9 Nmero do logradouro da residncia do paciente 10 Complemento do nmero do logradouro da residncia do paciente 11 Data do bito. 12 Nmero do bito 13 Cdigo CID da causa bsica no bito. 14 Cdigo CID contidas nas demais linhas do atestado de bito 15 Nome abreviado do paciente 16 Nome abreviado da me do paciente 17 Logradouro abreviado 17 Cdigo fontico do primeiro e ltimo nome do paciente 18 Cdigo fontico do nome completo do paciente 19 Cdigo fontico do primeiro nome da me do paciente 20 Cdigo fontico do primeiro e ltimo nome da me do paciente 21 Cdigo fontico do ltimo nome da me do paciente 22 Cdigo fontico do segundo nome da me do paciente 23 Cdigo fontico do nome completo da me do paciente 24 Cdigo fontico do primeiro nome do logradouro 25 Cdigo fontico do primeiro e ltimo nome do logradouro 26 Cdigo fontico do ltimo nome do logradouro 27 Cdigo fontico do segundo nome do logradouro 28 Cdigo fontico do nome completo do logradouro 29 Cdigo fontico do nome abreviado do paciente 30 Cdigo fontico do nome abreviado da me do paciente 31 Cdigo fontico do nome abreviado do logradouro
Mtodos
94 4.3.4 Blocagem
No final da fase de padronizao, foi obtida uma tabela com a unio dos atendimentos do SIH e SIA, totalizando 33.805.755 registros e outra tabela, totalizando 733.910 registros, referentes aos bitos, ambas padronizadas e preparadas para a fase de blocagem e pareamento. O nmero possvel de pares para a unio do SIH e SIA o produto 33.805.755 x 33.805.755, ou seja, 1,14 x 10 15 pares, uma vez que ser utilizado o mesmo conjunto de dados para a blocagem e para o pareamento. O nmero de pares possveis entre o SIM e a unio do SIH e SIA o produto 33.805.755 x 733.910, ou seja, 2,48 x 10 13 pares. A comparao simples entre os nmeros de pares possveis, sem a distribuio em blocos demandaria um tempo enorme para o processamento, mesmo para computadores com grandes capacidades. Para tornar vivel a comparao dos pares, foi utilizada a tcnica de blocagem (COELI, 2002), com objetivo de dividir os registros em blocos lgicos. A combinao de elementos de um bloco dada pela expresso matemtica )! !*( ! , p n p n C p n
, onde n a quantidade de elementos
pertences a um bloco e p a quantidade de elementos agrupados. Aplicando-se essa equao em um exemplo hipottico de blocagem atravs do primeiro nome do paciente, onde um bloco contenha 5.000 registros, o nmero de pares distintos que teriam que ser analisados corresponde a 12.497.500 (n=5.000 e p=2). Essa exploso combinatria Mtodos
95 torna a pesquisa invivel quando se trata de bancos de dados com milhes de registros e no apenas milhares como no exemplo anterior. Baseado no volume de registros contido na tabela resultante dos atendimentos, foram estabelecidas trs etapas de blocagem sequenciais e dependentes. A primeira etapa de blocagem foi realizada pelo cdigo fontico do nome abreviado do paciente (item 33 da Tabela 4.13). A segunda etapa de blocagem foi iniciada ao final da primeira e utilizou o cdigo fontico do primeiro e ltimo nomes do paciente (item 19 da Tabela 4.13) mais a data de nascimento do paciente (item 3 da Tabela 4.13). A ltima etapa de blocagem foi iniciada ao final da segunda e utilizou cdigo fontico do primeiro nome do paciente (item 18 da Tabela 4.13) mais a data de nascimento do paciente (item 3 da Tabela 4.13).
4.3.5 Pareamento
A etapa de pareamento tem como objetivo comparar os registros do banco A com os registros do banco B e determinar se o par formado entre os registros de cada banco so pertencentes ao mesmo paciente. No havendo uma varivel que, univocamente, possa garantir que o par pertena ao mesmo paciente, deve-se eleger um conjunto de variveis que possam estabelecer a semelhana entre os registros ao ponto de pod-los classificar em provvel, improvvel ou duvidoso (CLARK, 1995). Mtodos
96 Cada varivel possui um poder de discriminao diferente na comparao dos registros. Para uma melhor compreenso do processo de comparao de contedo das variveis e seu poder discriminatrio, considere o seguinte exemplo hipottico: NR Nome Endereo 1 Fbio Antero Pires Rua das Palmeiras, 36 2 Maria da Silva Rua das Palmeiras, 36 3 Fbio Antero Pires Av. Pompia, 325 4 Fbio Antero Pires Rua das Palmeiras, 36
Os registros NR1 e NR2 tm exatamente o mesmo endereo, porm no correspondem ao mesmo indivduo. Os registros NR1 e NR3 tm exatamente o mesmo nome, entretanto o endereo diferente, ou seja h uma dvida se o registros pertencem ao mesmo individuo. Os registros NR1 e NR4 so exatamente iguais no nome e no endereo, podemos concluir que h uma grande probabilidade de pertencer ao mesmo indivduo. As variveis utilizadas para a comparao de pares foram: <Nome do Paciente>, <Data do Nascimento>, <Nome da Me>, <CPF>, <Municpio de Residncia>, <CEP>, <Logradouro>, <Nmero do Logradouro>, <Complemento do Logradouro>, <Nmero da AIH>e <Nmero da APAC>. Para essas variveis foi criado um dicionrio de pesos que permite a configurao de pesos de concordncia e discordncia para cada varivel a ser comparada no processo de pareamento. Os possveis pesos para cada varivel, para os casos de concordncia total, concordncia parcial e discordncia esto descritos na Tabela 4.15. Mtodos
97 Os pesos individuais atribudos para cada varivel so somados e comparado com o limite inferior, que tambm foi configurado no dicionrio de pesos. Caso a soma dos pesos seja inferior ao limite, este par descartado. Caso contrrio, este par armazenado, na tabela de pares Tabela 4.16, com o peso total e o peso individual de cada varivel comparada no par. Os achados durante a anlise exploratria realizada na seo 4.3.2, foram fundamentais para a deciso do particionamento das variveis em novos fragmentos, conforme descrito nas Tabelas 4.13 e 4.14. A utilizao de fragmentos das variveis para comparao minimiza a perda de pares por problemas de preenchimentos parciais, abreviaes ou erros de digitao. Tabela 4.15 Dicionrio de pesos (concordncia e discordncia), por varivel, utilizados para associao de registros
Mtodos
98 Tabela 4.16 Tabela de pares com os pesos por varivel ITEM DESCRIO ID_PAC_A Identificador do paciente banco A ID_PAC_B Identificador do paciente banco B P_NOME Peso do nome do paciente P_NASC Peso da data de nascimento P_CPF Peso do CPF P_MAE Peso do nome da me P_LOGR Peso do logradouro P_NUMERO Peso do nmero do logradouro P_COMPL Peso do complemento do logradouro P_CEP Peso do CEP P_MUNI_RES Peso do municpio da residncia P_AIH Peso do nmero da AIH P_APAC Peso do nmero da APAC V_TOT Peso total (soma dos pesos individuais)
Visando obter uma melhor compreenso do processo de comparao das variveis, optou-se por descrever esses processos em formato de anlise condicional estruturada. O processo de comparao segue uma hierarquia de comparao partindo de uma concordncia perfeita at a discordncia total. Os detalhamentos do processo de cada varivel esto descritos nos Quadros 4.1 4.11. A varivel s foi submetida a comparao quando essa estivesse com preenchimentos nos dois registros. Para os casos de ausncia de preenchimento em um dos registros, foi atribudo zero (0) como valor para peso desta varivel.
Mtodos
99
Varivel: Nome do Paciente Se A comparao do cdigo fontico do nome completo igual. Ento: Atribuir o peso referente ao mnemnico NPC do dicionrio de pesos. Seno A comparao do cdigo fontico do nome abreviado igual. Ento: Atribuir o peso referente ao mnemnico NPC do dicionrio de pesos. Seno A comparao do cdigo fontico do primeiro e ltimo nome igual. Ento: Atribuir o peso referente ao mnemnico NPPU do dicionrio de pesos. Seno A comparao pelo mtodo jaro-winkler do nome completo maior que 90. Ento: Atribuir o peso referente ao mnemnico NPPU do dicionrio de pesos. Fim do Se; Quadro 4.1 Processo de comparao da varivel <Nome do Paciente>
Varivel: CPF Se A comparao do CPF igual. Ento: Atribuir o peso referente ao mnemnico CPFI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico CPFD do dicionrio de pesos. Fim do Se; Quadro 4.2 Processo de comparao da varivel <CPF>
Mtodos
100
Varivel: Data de Nascimento Se A comparao da data de nascimento igual. Ento: Atribuir o peso referente ao mnemnico DTC do dicionrio de pesos. Seno Se A comparao do Dia da data de nascimento igual. Ento: Atribuir o peso referente ao mnemnico DTD do dicionrio de pesos. Fim do Se; Se A comparao do Ms da data de nascimento igual. Ento: Atribuir o peso referente ao mnemnico DTM do dicionrio de pesos. Fim do Se; Se A comparao do Ano da data de nascimento igual. Ento: Atribuir o peso referente ao mnemnico DTA do dicionrio de pesos. Fim do Se; Se A comparao da data de nascimento completamente diferente. Ento: Atribuir o peso referente ao mnemnico DTDI do dicionrio de pesos. Fim do Se; Fim do Se; Quadro 4.3 Processo de comparao da varivel <Data de Nascimento>
Mtodos
101
Varivel: Nome do Me Se A comparao do cdigo fontico do nome completo igual. Ento: Atribuir o peso referente ao mnemnico NMC do dicionrio de pesos. Seno A comparao do cdigo fontico do nome abreviado igual. Ento: Atribuir o peso referente ao mnemnico NMC do dicionrio de pesos. Seno A comparao do cdigo fontico do primeiro e ltimo nome igual. Ento: Atribuir o peso referente ao mnemnico NMPU do dicionrio de pesos. Seno A comparao pelo mtodo jaro-winkler do nome completo maior que 91. Ento: Atribuir o peso referente ao mnemnico NMPU do dicionrio de pesos. Seno Se Alguma parte do nome completo igual e a comparao pelo mtodo jaro-winkler do nome completo no menor que 90. Ento: Atribuir o peso referente ao mnemnico NMU do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico NMDI do dicionrio de pesos. Fim do Se; Fim do Se; Quadro 4.4 Processo de comparao da varivel <Nome da Me>
Mtodos
102
Varivel: Logradouro Se A comparao do cdigo fontico do nome completo igual. Ento: Atribuir o peso referente ao mnemnico LOGC do dicionrio de pesos. Seno A comparao do cdigo fontico do nome abreviado igual. Ento: Atribuir o peso referente ao mnemnico LOGC do dicionrio de pesos. Seno A comparao do cdigo fontico do primeiro e ltimo nome igual. Ento: Atribuir o peso referente ao mnemnico LOGPU do dicionrio de pesos. Seno A comparao pelo mtodo jaro-winkler do nome completo maior que 91. Ento: Atribuir o peso referente ao mnemnico LOGPU do dicionrio de pesos. Seno Se Alguma parte do nome completo igual e a varivel <CEP>e a varivel <Municpio de Residncia>so iguais. Ento: Atribuir o peso referente ao mnemnico LOGU do dicionrio de pesos. Seno Alguma parte do nome completo igual e a varivel <CEP>ou a varivel <Municpio de Residncia>so diferente. Ento: Atribuir a metade do peso referente ao mnemnico LOGU do dicionrio de pesos. Fim do Se; Seno Ento: Atribuir o peso referente ao mnemnico LOGD do dicionrio de pesos. Fim do Se; Quadro 4.5 Processo de comparao da varivel <Logradouro>
Mtodos
103
Varivel: Nmero do Logradouro Se A comparao pelo mtodo jaro-winkler do nmero maior que 92. Ento: Atribuir o peso referente ao mnemnico NULOI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico NULOD do dicionrio de pesos. Fim do Se; Quadro 4.6 Processo de comparao da varivel <Nmero do Logradouro>
Varivel: Complemento do Logradouro Se A comparao pelo mtodo jaro-winkler do complemento maior que 92. Ento: Atribuir o peso referente ao mnemnico COLOI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico COLOD do dicionrio de pesos. Fim do Se; Quadro 4.7 Processo de comparao da varivel <Complemento do Logradouro>
Varivel: CEP Se A comparao dos cinco primeiros nmeros do CEP so iguais. Ento: Atribuir o peso referente ao mnemnico CEPI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico CEPD do dicionrio de pesos. Fim do Se; Quadro 4.8 Processo de comparao da varivel <CEP>
Mtodos
104
Varivel: Municpio de Residncia Se A comparao do cdigo igual. Ento: Atribuir o peso referente ao mnemnico MUI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico MUD do dicionrio de pesos. Fim do Se; Quadro 4.9 Processo de comparao da varivel <Municpio de Residncia>
Varivel: AIH Se A comparao do nmero igual. Ento: Atribuir o peso referente ao mnemnico NAAI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico NAAD do dicionrio de pesos. Fim do Se; Quadro 4.10 Processo de comparao da varivel <Nmero da AIH>
Varivel: APAC Se A comparao do nmero igual. Ento: Atribuir o peso referente ao mnemnico NAAI do dicionrio de pesos. Seno Ento: Atribuir o peso referente ao mnemnico NAAD do dicionrio de pesos. Fim do Se; Quadro 4.11 Processo de comparao da varivel <Nmero da APAC>
Mtodos
105 Com o objetivo de minimizar associaes indevidas, foi criado um redutor para ser deduzido do peso total quando houver discordncia em pelo menos duas das seguintes variveis: <data de nascimento>, <nome da me> e <CPF>. Quando duas variveis discordam, atribudo -4 ao redutor. Caso haja discordncia nas trs variveis, o valor atribudo ao redutor -6.
4.3.6 Caracterizao da base de dados Controle
Com o objetivo de avaliar o mtodo de associao de registros, foi construda uma base de dados denominada BD-Controle. Esta base de dados foi composta pela associao da base de dados BD-HCMFUSP e da base de dados BD-SES/SP j padronizada. As duas bases de dados, utilizadas para criar a base de dados BD- Controle, contm o nmero da AIH ou o nmero da APAC, os quais so identificadores nicos do atendimento dispensado ao paciente. Desta forma, atravs da comparao determinstica destas variveis foi possvel associar os atendimentos da base de dados BD-SES/SP ao identificador do paciente (RGHC) da base de dados BD-HCFMUSP. A base de dados resultante, BD-Controle, ficou com a estrutura semelhante a Tabela 4.13 acrescido do identificador do paciente, varivel <RGHC> da base de dados BD-HCFMUSP. Sendo assim, foi possvel Mtodos
106 aplicar os mtodos descritos nas sees 4.3.4 e 4.3.5 e comparar os resultados com os atendimentos vinculados atravs da varivel <RGHC>.
4.3.7 Teste de Perturbao Com o objetivo de avaliar o comportamento do algoritmo de associao de registro, foi desenvolvido um algoritmo denominado perturbador. O algoritmo perturbador seleciona aleatoriamente, atravs da funo de randomizao DBMS_RANDON da Oracle Corporation (ORACLE a), um registro e executa vinte e oito (28) comparaes, sendo a primeira uma cpia fiel do registro original. Nas demais vinte e sete (27) comparaes, so inseridas perturbaes na cpia do registro original antes da realizao da comparao. H trs tipos de perturbaes realizadas pelo algoritmo: 1) Abreviaes das variveis <nome do paciente>, <nome da me> e <logradouro>; 2) Supresso das variveis <CPF>e <nome da me>; 3) Mesclar o contedo das variveis do registro original com variveis de um segundo registro selecionado aleatoriamente atravs da funo citada anteriormente. A Tabela 4.17 ilustra um exemplo das perturbaes realizadas em um registro fictcio com dados do autor. Atravs do algoritmo perturbador, foram selecionados mil (1000) registros os quais foram perturbados conforme os tipos de perturbaes descritas anteriormente. Por motivo de sigilo, os dados dos pacientes no Mtodos
107 sero apresentados. Entretanto, conhecendo os tipos de perturbaes descritas na Tabela 4.17 e analisando o Grfico 4.1, onde so demonstradas as curvas dos resultados obtidos atravs das comparaes dos mil (1000) registros selecionados e suas perturbaes, podemos concluir que:
1. A semelhana das curvas demonstram que o comportamento do algoritmo de associao de registro foi similar em todos os registros; 2. As perturbaes das variveis de endereo do paciente <municpio>, <CEP>, <logradouro>, <nmero> e <complemento>so as que influenciaram menos no resultado da associao entre os registros; 3. As perturbaes de supresso de varivel, tambm conhecidas como missing, tem um impacto menor, na associao, quando comparadas com perturbaes onde a varivel tem contedo completamente diferente. Os registros 15, 16, 25 e 26, identificados atravs da coluna TP, da Tabela 4.17 so exemplos dessa concluso;
Mtodos
108
Tabela 4.17 Comparao entre um registro original e perturbaes inseridas no mesmo registro
Nota: %CONF., significa o percentual de confiana entre o registro original e o registro perturbado considerado pelo algoritmo.
Mtodos
109 As pequenas variaes existentes entre as curvas do Grfico 4.1 so resultados das perturbaes geradas aleatoriamente pelo algoritmo perturbador, ou seja, se cada registro fosse perturbado com o mesmo contedo, todas as curvas seriam exatamente iguais e no semelhantes. A linha vermelha na horizontal do Grfico 4.1 representa o limite mnimo para associao do par.
Grfico 4.1 Resultado da perturbaes geradas em mil (1000) registros
4.4 Estrutura do Data Warehouse
O desenho dimensional do Data Warehouse adotado foi o esquema estrela star scheme, o mesmo utilizado por Santos e Gutierrez (SANTOS e GUTIERREZ, 2008) em trabalho semelhante na rea da Sade Pblica. Foram criados quatro cubos representando os fatos bito (Figura 4.4), Mtodos
110 nascimento (Figura 4.5), internao (Figura 4.6) e atendimento ambulatorial (Figura 4.7). Atravs do cubo BITO possvel extrair a mtrica quantidade de bitos por qualquer dimenso descrita na Tabela 4.18 ou pela combinao delas. Atravs do cubo NASCIMENTO possvel extrair a mtrica quantidade de nascimentos por qualquer dimenso descrita nas Tabelas 4.19 4.22 ou pela combinao delas. Atravs de qualquer dimenso descrita nas Tabelas 4.23 e 4.24 ou pela combinao delas possvel extrair do cubo INTERNAO as seguintes mtricas: Valor gasto com servios hospitalares Valor gasto com servios profissionais Valor gasto com SADT Valor gasto com o recm nato (internaes de parto) Valor gasto com o acompanhante do paciente (menores e idosos) Valor gasto com rteses e prteses Valor gasto com sangue (hemoterapia) Valor gasto com tomografia / Ressonncia Valor gasto com transplantes Valor gasto com analgesia obsttrica Valor gasto com pediatria (internaes de parto) Valor gasto com dirias de UTI Valor gasto total com a internao Valor gasto total com a internao convertido para US$ Mtodos
111 Quantidade de dias internado em UTI Quantidade de dirias de acompanhantes (menores e idosos) Quantidade de dias de internao Quantidade de AIHs
O ltimo cubo, ATENDIMENTO AMBULATORIAL , permite extrao das mtricas quantidade apresentada, valor apresentado, quantidade aprovada e valor aprovado por qualquer dimenso descrita nas Tabelas 4.25 e 4.26 ou pela combinao delas.
Figura 4.4 Cubo dimensional para representar o fato BITO
Mtodos
112 Tabela 4.18 Dimenses utilizadas para representao do Fato bito, segundo informaes contidas na declarao de bito Descrio das dimenses do Fato : BITO Dimenso Significado Exemplo MUNICPIO Municpio onde ocorreu o bito. guas da Prata; So Paulo; REGIES SADE So recortes territoriais de um espao geogrfico contnuo, identificados pelos gestores municipais e estaduais. I Regional de Sade; II Regional de Sade; DIAGNSTICOS Diagnstico principal da causa do bito (Padro CID10) I25.1; J 42; B57.2; SEXO Sexo do indivduo. No identificado; Masculino; Feminino; FAIXA ETRIA (IBGE) Faixa etria do indivduo (Padro IBGE). Menor de 1 ano; 05 a 09 anos; 60 a 64 anos ; PERODO Ms / Ano da ocorrncia do bito, conforme data do bito. 01/2000; 05/2004; 08/2005; FAIXA ETRIA (SIA) Faixa etria do indivduo (Padro DATASUS). 05 a 06 anos incompletos; 30 a 35 anos incompletos; ESTADO CIVIL Estado civil do indivduo. No Informado; Solteiro; Casado; ESCOLARIDADE Escolaridade do indivduo. de 1 a 3 anos; de 4 a 7 anos; de 12 acima; RAA/COR Raa / Cor do indivduo. Branca; Negra; Indgena; LOCAL DE OCORRNCIA Local de ocorrncia do bito. Hospital; Outros Estab. Sade; via Pblica;
Mtodos
113
Figura 4.5 Cubo dimensional para representar o fato NASCIMENTO
Tabela 4.19 Dimenses utilizadas (dados do beb) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos Descrio das dimenses (dados do beb) do Fato : NASCIMENTO Dimenso Significado Exemplo DIAGNSTICO Diagnstico de anomalia detectado no nascimento do beb (Padro CID10). Q92.9; Q69.0; Q05.7; PESO Peso do beb ao nascer. 100 gramas ou menos; 101 a 500 gramas; 8000 ou mais gramas; SEXO Sexo do beb. No identificado; Masculino; Feminino; RAA/COR Raa / Cor do beb. Branca; Negra; Indgena;
Mtodos
114 Tabela 4.20 Dimenses utilizadas (dados da me) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos Descrio das dimenses (dados da me) do Fato : NASCIMENTO Dimenso Significado Exemplo ESTADO CIVIL Estado civil da parturiente. No Informado; Solteira; Casada; ESCOLARIDADE Quantidade de anos de escolaridade da parturiente (representado por faixas). de 1 a 3 anos; de 4 a 7 anos; de 12 acima; FAIXA ETRIA (IBGE) Faixa etria da parturiente no momento do parto (Padro IBGE). Menor de 1 ano; 05 a 09 anos; 60 a 64 anos; FAIXA ETRIA (SIA) Faixa etria da parturiente no momento do parto (Padro DATASUS). 05 a 06 anos incompletos; 30 a 35 anos incompletos;
Tabela 4.21 Dimenses utilizadas (dados do parto) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos Descrio das dimenses (dados do parto) do Fato : NASCIMENTO Dimenso Significado Exemplo TIPO DE PARTO Tipo de parto realizado. Vaginal; Cesrio; TIPO DE GRAVIDEZ Quantidade de bebs na gestao. nica; Dupla; Tripla e mais; TEMPO DE GESTAO Durao da gestao representada em semanas. Menos de 22 semanas; de 42 semanas acima; QUANTIDADE CONSULTAS Quantidade de consultas que a parturiente compareceu no pr-natal (representado por faixas) Nenhuma; 1 a 3 vezes; 4 a 6 vezes; 7 vezes ou mais;
Mtodos
115 Tabela 4.22 Dimenses utilizadas (dados do local) para representao do Fato Nascimento, segundo informaes contidas na declarao de nascidos vivos Descrio das dimenses (dados do local ) do Fato : NASCIMENTO Dimenso Significado Exemplo MUNICPIO Municpio onde ocorreu o nascimento. guas da Prata; So Paulo; REGIES SADE So recortes territoriais de um espao geogrfico contnuo, identificados pelos gestores municipais e estaduais. I Regional de Sade; II Regional de Sade; PERODO Ms / Ano da ocorrncia do parto. 01/2000; 05/2004; LOCAL DE OCORRNCIA Local de ocorrncia do parto. Hospital; Outros Estab. Sade; Via Pblica;
Figura 4.6 Cubo dimensional para representar o fato INTERNAO
Mtodos
116
Tabela 4.23 Dimenses utilizadas (dados do paciente) para representao do Fato Internao, segundo informaes contidas na Autorizao de Internao Hospitalar
Descrio das dimenses (dados do paciente) do Fato : INTERNAO Dimenso Significado Exemplo NACIONALIDADE Nacionalidade do paciente (padro DATASUS). brasileiro; britnico; GRAU DE INSTRUO Instruo escolar do paciente (padro DATASUS) Analfabeto; 1. Grau; 2. Grau; FAIXA ETRIA (SIA) Faixa etria do paciente (Padro DATASUS). 05 a 06 anos incompletos; 30 a 35 anos incompletos; FAIXA ETRIA (IBGE) Faixa etria do paciente (Padro IBGE). Menor de 1 ano; 05 a 09 anos; 60 a 64 anos; MUNICPIO PACIENTE Municpio de residncia do paciente. guas da Prata; So Paulo; REGIES SADE PACIENTE Regio de Sade da residncia do paciente. I Regional de Sade; II Regional de Sade; SEXO Sexo do paciente. No identificado; Masculino; Feminino; PACIENTE Identificador do paciente (Nmero de anonimizao atribudo ao paciente). 12893; 22324;
Mtodos
117 Tabela 4.24 Dimenses utilizadas (dados da internao) para representao do Fato Internao, segundo informaes contidas na Autorizao de Internao Hospitalar Descrio das dimenses (dados da internao) do Fato : INTERNAO Dimenso Significado Exemplo TIPO DE GESTO Tipo da gesto do hospital onde o paciente foi internado. Gesto Municipal Semiplena; Gesto Estadual Plena; PROCEDIMENTO Procedimento principal da internao do paciente. Implantao de Prtese Antiglaucomatosa; GRUPO DE PROCEDIMENTO Agrupamento de procedimentos (padro DATASUS) Alergia (Sadt); Cardiologia (Sadt); Grupo 92; ESPECIALIDADE Especialidade responsvel pelo internao do paciente. Cirurgia; Obstetrcia; Clinica mdica; TIPO AIH Caracterizao da AIH (s h dois tipos e esto descritos na coluna de exemplo) AIH normal; AIH de longa permanncia e FPT; TIPO UTI Tipo de UTI utilizado pelo paciente. UTI adulto nvel II; Transplante peditrico; UTI de queimados; Leito sem especialidade ou no utilizou UTI; TIPO COBRANA Tipo de cobrana da AIH (motivo da cobrana). Alta- curado; Permanncia por doena crnica; NATUREZA HOSPITAL Caracterizao do tipo da natureza do hospital segundo padro do DATASUS. Hospital federal; Hospital filantrpico; Universitrio Ensino; TIPO DE INTERNAO Caracterstica do tipo de internao (padro DATASUS). Urgncia/Emergncia em Unidade de Referncia; Eletiva; DIAGNSTICO PRINCIPAL Diagnstico principal da internao (Padro CID10). I42.6; I61.1; DIAGNSTICO SECUNDRIO Diagnstico secundrio da internao (Padro CID10). A48.1; G55.2; MUNICPIO ATENDIMENTO Municpio onde ocorreu o atendimento. guas da Prata; So Paulo; REGIES SADE ATENDIMENTO Regio de Sade onde o atendimento ao paciente foi prestado. I Regional de Sade; II Regional de Sade; HOSPITAL Hospital onde o paciente foi internado. Santa Casa de Misericrdia de Barretos; PERODO Ms / Ano da ocorrncia da internao. 01/2000; 05/2004; Mtodos
118
Figura 4.7 Cubo dimensional para representar o fato ATENDIMENTO AMBULATORIAL
Tabela 4.25 Dimenses utilizadas (dados do paciente) para representao do Fato Atendimento Ambulatorial, segundo informaes contidas na APAC e no BPA Descrio das dimenses (dados do paciente) do Fato : ATENDIMENTO AMBULATORIAL Dimenso Significado Exemplo FAIXA ETRIA (SIA) Faixa etria do paciente (Padro DATASUS). 05 a 06 anos incompletos; 30 a 35 anos incompletos; MUNICPIO PACIENTE Municpio de residncia do paciente. guas da Prata; So Paulo; REGIES SADE PACIENTE Regio de Sade da residncia do paciente. I Regional de Sade; II Regional de Sade; PACIENTE Identificador do paciente (Nmero de anonimizao atribudo ao paciente). 12893; 22324;
Mtodos
119 Tabela 4.26 Dimenses utilizadas (dados do atendimento) para representao do Fato Atendimento Ambulatorial, segundo informaes contidas na APAC e no BPA Descrio das dimenses (dados do atendimento) do Fato : ATENDIMENTO AMBULATORIAL Dimenso Significado Exemplo PERODO Ms / Ano do atendimento. 01/2000; 05/2004; TIPO DE GESTO Tipo da gesto da unidade de atendimento. Gesto Plena do Sistema Municipal (NOAS); PROCEDIMENTO Procedimento do atendimento. Consulta em Cardiologia; Tomografia Craniana; TIPO ATENDIMENTO Caracterizao do motivo do tipo de atendimento Primeira Consulta; Sem Restrio de Tipo; GRUPO DE ATENDIMENTO Definio do grupo de atendimento que o paciente pertence. ao diabtico; ao hipertenso (arterial); ao idoso; ESPECIALIDADE Especialidade do profissional responsvel pelo atendimento. Enfermeira; Nutricionista; Cardiologia; TIPO PRESTADOR Caracterizao do tipo de prestador que realizou o atendimento ao paciente. unidades administradas por rgos do ministrio da sade; privado sem fins lucrativos; DIAGNSTICO PRINCIPAL Diagnstico principal do atendimento (Padro CID10). I42.6; I61.1; DIAGNSTICO SECUNDRIO Diagnstico secundrio do atendimento (Padro CID10). A48.1; G55.2; CID MORFOLOGIA CID de morfologia do atendimento (quando aplicvel). M82611; M83700; M900-M UNIDADES Unidade que atendeu o paciente (padro CNES). UBS Mussolini; Centro Municipal de Fisioterapia; MUNICPIO ATENDIMENTO Municpio onde ocorreu o atendimento. guas da Prata; So Paulo; REGIES SADE ATENDIMENTO Regio de Sade onde o atendimento ao paciente foi prestado. I Regional de Sade; II Regional de Sade; TIPO OCORRNCIA Tipo de ocorrncia do atendimento (caracterizao de ocorrncias durante o seguimento do paciente) exame(s) realizado(s); paciente no compareceu para o tratam; alta para transplante;
Mtodos
120
Nos cubos INTERNAO e ATENDIMENTO_AMBULATORIAL foi adicionada uma varivel denominada <PER_CONFIANCA>, onde armazenada o percentual de confiabilidade entre o registro em questo e o paciente que esta indicado pela dimenso PACIENTE. O valor atribudo para a varivel baseado no escore calculado na etapa de pareamento e na faixa de escores da Tabela 4.27. O valor equivalente a 100% de confiabilidade s foi atribudo quando este representava o prprio registro. O clculo do percentual de confiabilidade da Tabela 4.27 foi baseado em regra de trs simples, utilizando-se da coluna escore final da tabela e tendo como base o maior escore (45) correspondendo a 95%. Para tornar a compresso mais simples na etapa de apresentao, os valores foram aproximados, ou seja, o valor calculado em 73,88% foi aproximado para 75%. Tabela 4.27 Faixa de escores para definio do percentual de confiabilidade entre o registro e o paciente
O MinerSUS parte do projeto de pesquisa para extrao de informaes para a gesto da Sade Pblica por meio da minerao dos dados do SUS. A primeira verso da ferramenta foi disponibilizada em 2008 (SANTOS e GUTIERREZ, 2008). Para ampliar os recursos existentes no MinerSUS, neste trabalho, foi desenvolvido um novo recurso denominado filtro global. Esse recurso permite definir filtros dimensionais para que sejam utilizados na gerao de relatrios analticos (OLAP) e que posteriormente podero ser submetidos a ferramentas de minerao. Considerando um caso hipottico onde se deseja estudar caractersticas (diagnsticos, tempos de internao, quantidades de internao, custo com o paciente) de uma populao, como por exemplo: pacientes que tenham sido submetidos cirurgia de troca valvar, a primeira etapa a seleo prvia desses pacientes. Para este cenrio, dever ser configurado o filtro global paciente atravs da seleo de pacientes que foram submetidos cirurgia de troca valvar. Uma vez definido, o filtro fica disponvel para ser utilizado durante a gerao de um relatrio analtico. No exemplo citado, seriam selecionados as mtricas Quantidade de AIH, Quantidade de dias de internao, Valor gasto total com a internao do fato INTERNAO, as dimenses PACIENTE e DIAGNOSTICO PRINCIPAL, e filtro global PACIENTE. O resultado do relatrio apresentar somente os registros que atenderem a Mtodos
122 condio especificada no filtro, neste caso, paciente que foram submetidos cirurgia de troca valvar.
4.6 Consideraes ticas
Este trabalho faz parte dos projetos de pesquisa Ambiente para extrao de informao epidemiolgica a partir da minerao de 10 anos de dados do SUS e Monitoramento de Intervenes de Alta Complexidade em Cardiologia no mbito do Sistema Pblico de Sade, Utilizando Tcnicas de Minerao de Dados, os quais contaram com financiamento da Fundao de Amparo Pesquisa do Estado de So Paulo (FAPESP, Processo 2006/61279-9) e do Conselho Nacional de Pesquisa e Desenvolvimento (CNPq, Processo 551473/2007-0), respectivamente. Ambos projetos foram submetidos e aprovados pela Comisso de tica para Anlise de Projetos de Pesquisa CAPPesq da Diretoria Clnica do Hospital das Clnicas e da Faculdade de Medicina da Universidade So Paulo, por meio do protocolo 0050/09 (Anexo 1). Como as bases de dados fornecidas pela SES/SP continham informaes de identificao dos pacientes, o computador onde foram armazenadas e processadas as informaes identificadas, no esteve disponvel na rede e somente o pesquisador Fbio Antero Pires teve acesso a esse computador. Ao final do trabalho, o banco de dados foi copiado em mdias de back-up e eliminado do servidor. A solicitao dessas bases de dados foi realizada por meio de carta Secretaria de Estado da Sade do Estado de So Paulo (Anexo 2).
Resultados
Resultados
124
5. RESULTADOS Este capitulo apresenta os resultados obtidos na preparao e caracterizao das bases de dados resultantes, base de dados BD- Controle, base de dados BD-SES/SP e o resultado final da base de dados para pesquisas epidemiolgicas.
5.1 Aplicao do mtodo de associao de registros na base de dados BD-Controle
O objetivo da criao da base de dados denominada BD-Controle foi avaliar o mtodo de associao de registros (Record Linkage) em uma base de dados controlada. O total de registros de atendimentos, contidos nos arquivos fornecidos pelos grupos de TI do HCFMUSP, foi de 872.201. Aps as anlises de consistncias das variveis <RGHC>, <nmero da AIH>, <nmero da APAC>e duplicidades de registros, foram desprezados 164.241 (18,83%) registros da base de dados BD-HCFMUSP. A Tabela 5.1 ilustra o preenchimento, por varivel, das variveis utilizadas no mtodo de associao de registros. Analisando-se os resultados, foi possvel observar que somente a varivel <Complemento do logradouro>teve o percentual de preenchimento baixo, 36,4% para internao e 24,4% para ambulatrio. Entretanto, esta varivel no esperada em todos os logradouros, ou seja, os endereos de casas trreas, na grande maioria, no possuem complemento do logradouro. Resultados
125 As variveis <CPF>e <Nome da me>estavam presentes somente no nos registros de APAC. Desta forma, o percentual de preenchimento pode ser considerado adequado, quando observados os registros no atendimento do ambulatrio, sendo 88,3% para a varivel <CPF>e 99,6% para a varivel <Nome da me>.
Tabela 5.1 Distribuio das frequncias absoluta e relativa do preenchimento por varivel, segundo tipo de atendimento (base de dados BD-Controle) Registros Varivel Internao (N=241.499) Ambulatrio (N=466.461) Quantidade % Quantidade % Nome do Paciente 241.499 100,0 466.461 100,0 Data de nascimento 241.499 100,0 466.461 100,0 Sexo 241.499 100,0 466.461 100,0 CPF 0 0,0 411.800 88,3 Nome da me 0 0,0 463.409 99,6 Logradouro 214.014 88,6 466.323 99,9 Nmero do logradouro 241.218 99,9 466.461 100,0 Complemento do logradouro 87.911 36,4 113.736 24,4 CEP 241.499 100,0 466.461 100,0 Municpio da residncia 241.499 100,0 466.461 100,0 Nmero da AIH 241.499 100,0 - Nmero da APAC - 466.461 100,0 Fonte: BD-Controle (N =707.960) - Pacientes atendidos no HCFMUSP.
Em termos quantitativos, o preenchimento das variveis para aplicao do mtodos de relacionamento de registros foi considerado satisfatrio com o percentual de preenchimento superior a oitenta e oito por cento.
Resultados
126
5.1.1 Avaliao da acracia do processo de associao de registros
Os resultados obtidos com a aplicao do mtodo de associao de registros (Record Linkage) na base de dados BD-Controle, esto sumarizados na Tabela 5.2. Os valores para comparao com o mtodo proposto foram obtidos atravs do relacionamento determinstico aplicado na varivel considerada como identificador nico do paciente no HCFMUSP (RGHC).
Tabela 5.2 - Classificao dos pares de registros na base de dados BD-Controle, considerando o relacionamento determinstico como padro ouro Relacionamento Determinstico Mtodo Proposto Verdadeiro Falso Total Concordante 569.538 2.811 572.349 No Concordante 1.844 133.767 135.611 Total 571.382 136.578 707.960 Fonte: BD-Controle (N=707.960) - Pacientes atendidos no HCFMUSP.
A partir dos valores da Tabela 5.2 foi possvel calcular as medidas de avaliao apresentadas na Tabela 5.3 dos resultados obtidos com a aplicao do mtodo proposto.
Resultados
127 Tabela 5.3 - Resultados da avaliao do mtodo de relacionamento de registro na base de dados BD-Controle Medidas de avaliao dos resultados do mtodo proposto Valores em percentual SENSIBILIDADE 99,68% ESPECIFICIDADE 97,94% VALOR PREDITIVO POSITIVO 99,51% PROPORO DE FALSO-POSITIVOS 0,49% PROPORO DE FALSO-NEGATIVOS 1,36% ACURCIA 99,34% Fonte: BD-Controle (N =707.960) - Pacientes atendidos no HCFMUSP.
A associao de registros aplicada na base de dados BD-Controle apresentou uma acracia de 99,34%, uma sensibilidade de 99,68% e uma especificidade de 97,94%. Do total de pares associados, 99,51% dos pares foram classificados corretamente como concordantes (valor preditivo positivo), a proporo de falso-positivos foi 0,49% enquanto a proporo de falso negativo foi de 1,36%.
5.2 Aplicao do mtodo de associao de registros na base de dados BD-SES/SP
O total de registros de atendimentos contidos nos arquivos fornecidos pelo grupo de TI da SES/SP foi de 37.639.020. Aps as anlises de consistncias das variveis <nmero da AIH>, <nmero da APAC>e <nome do paciente>, foram desprezados 3.839.789 (10,20%) registros da base de dados BD-SES/SP. A tabela 5.4 ilustra o preenchimento, por varivel, das variveis utilizadas no mtodo de associao de registros. Resultados
128 Analisando-se os resultados, foi possvel observar que o preenchimento quantitativo no atendimento de internao foi superior, em todas as variveis, quando comparado com a base de dados BD-Controle. Para os atendimentos ambulatoriais, houve uma ligeira queda nas variveis <CPF> (9,36 pontos percentuais) e <nome da me> (3,41 pontos percentuais) quando comparado com os resultados da base de dados BD- Controle. Em termos quantitativos, o preenchimento das variveis para aplicao do mtodos de relacionamento de registros foi considerado satisfatrio com o percentual de preenchimento, da maioria das variveis, prximo a cem por cento.
Tabela 5.4 - Distribuio das frequncias absoluta e relativa do preenchimento por varivel, segundo tipo de atendimento (base de dados BD-SES/SP) Registros Varivel Internao (N=8.103.189) Ambulatrio (N=25.696.042) Quantidade % Quantidade % Nome do Paciente 8.103.189 100,00 25.696.042 100,00 Data de nascimento 8.103.189 100,00 25.696.042 100,00 Sexo 8.103.124 100,00 25.696.042 100,00 CPF 0 0,00 20.278.555 78,92 Nome da me 0 0,00 24.651.323 95,93 Logradouro 8.040.168 99,22 25.661.770 99,87 Nmero do logradouro 8.090.611 99,84 25.696.042 100,00 Complemento do logradouro 4.064.472 50,16 8.027.075 31,24 CEP 8.103.189 100,00 25.696.042 100,00 Municpio da residncia 8.103.189 100,00 25.696.042 100,00 Nmero da AIH 8.103.189 100,00 - Nmero da APAC - 25.696.042 100,00 Fonte: BD-SES/SP (N =33.799.231) - Pacientes atendidos no Estado de So Paulo entre 2000 a 2007.
Resultados
129 5.2.1 Anlise comparativa entre a base de dados BD-Controle e a base de dados BD-SES/SP
As distribuies comparativas das variveis <sexo>, <primeiro nome>, <ltimo nome>e <data de nascimento>entre a base de dados BD- SES/SP e a base de dados BD-Controle esto apresentadas nas Tabelas 5.5, 5.6, 5.7 e no Grfico 5.1 , respectivamente. O Grfico 5.2 apresenta a distribuio dos escores atribudos aos pares, aps a aplicao do mtodo de associao de registros nas bases de dados BD-Controle e BD-SES/SP. Em todas as anlises, h semelhanas considerveis entre os resultados obtidos e caractersticas das bases de dados BD-Controle e BD- SES/SP. Na distribuio por sexo, a diferena foi de 5,52% (Tabela 5.5). Observando a distribuio dos dez prenomes mais frequentes nas bases de dados (BD-SES-SP e BD-Controle), percebe-se que a maior diferena foi de 1,07% (Tabela 5.6). A mesma anlise para os sobrenomes revela que a maior diferena foi de 0,59% (Tabela 5.7). Quando observada a distribuio por faixa de ano de nascimento, a maior diferena encontrada foi de 1,99% (Grfico 5.1). Por ltimo, h uma semelhana significativa entre as curvas de distribuio de escores (Grfico 5.2), sendo o pico no escore 22 a nica exceo.
Resultados
130
Tabela 5.5 - Distribuio do sexo, segundo as bases de dados BD-SES/SP e BD-Controle SES/SP Controle Sexo % % Masculino 45,29 50,81 Feminino 54,71 49,19 No Informado 0,0002 Fonte: BD-Controle (N = 707.960) - Pacientes atendidos no HCFMUSP e BD-SES/SP (N = 33.799.231).
Tabela 5.6 - Distribuio do primeiro nome mais frequente, segundo as bases de dados BD-SES/SP e BD- Controle SES/SP Controle Primeiro Nome % % MARIA 9,37 8,30 J OSE 4,32 4,76 ANTONIO 2,15 2,15 J OAO 1,84 1,78 ANA 1,41 1,25 LUIZ 1,32 1,45 APARECIDA 0,81 0,40 FRANCISCO 0,79 0,92 PAULO 0,77 0,95 CARLOS 0,73 0,92 Fonte: BD-Controle (N =707.960) - Pacientes atendidos no HCFMUSP e BD-SES/SP (N = 33.799.231). Tabela 5.7 - Distribuio do ltimo nome mais frequente, segundo as bases de dados BD-SES/SP e BD- Controle SES/SP Controle ltimo Nome % % SILVA 11,41 12,00 SANTOS 6,92 7,25 OLIVEIRA 4,11 4,05 SOUZA 3,72 3,95 LIMA 1,68 1,97 PEREIRA 1,59 1,57 FERREIRA 1,39 1,37 RODRIGUES 1,20 1,06 COSTA 1,18 1,26 ALMEIDA 0,95 1,01 Fonte: BD-Controle (N =707.960) - Pacientes atendidos no HCFMUSP e BD-SES/SP (N = 33.799.231).
Resultados
131
Grfico 5.1 Comparativo da distribuio de pacientes por faixa de ano de nascimento entre base de dados BD-Controle e base de dados BD-SES/SP
Grfico 5.2 Distribuio dos escores dos pares Comparao entre as base de dados BD-Controle e BD-SES/SP
Resultados
132
5.2.2 Anlise da etapa de blocagem
A utilizao do mtodo de fonetizao aplicado nas variveis <nome do paciente>, <nome da me>e <logradouro>demonstrou um resultado extremamente satisfatrio. A Tabela 5.8 demonstra um percentual acima de 99% para pares associados, atravs da comparao do nome completo ou nome abreviado. Tabela 5.8 - Distribuio de pares, segundo critrio de associao % Critrio BD-SES/SP BD-Controle Nome completo 92,47 95,68 Nome abreviado 6,67 4,04 Primeiro e ltimo nome 0,60 0,19 Associado pelo mtodo J aro Winkler (semelhana >92%) 0,26 0,09 Primeiro nome e data nascimento 0,0002 - Fonte: BD-Controle (N = 707.960) - Pacientes atendidos no HCFMUSP e base de dados BD-SES/SP (N =33.799.231).
A proposta de blocagem em trs etapas, realizada pelo cdigo fontico do nome abreviado do paciente, cdigo fontico do primeiro e ltimo nome do paciente, mais a data de nascimento e por ltimo atravs do cdigo fontico do primeiro nome do paciente, mais a data de nascimento, tambm demonstrou-se adequada. A Tabela 5.9 demonstra que aproximadamente 96% dos blocos apresentaram, no mximo, 40 pares por bloco.
Resultados
133 Tabela 5.9 - Quantidade de registros por bloco - Etapa de blocagem Pares por bloco Quantidade de blocos % |1 -- 20| 2.864.426 90,737 |21 -- 40| 188.253 5,963 |41 -- 60| 53.782 1,704 |61 -- 80| 22.609 0,716 |81 -- 100| 9.398 0,298 |101 -- 120| 4.780 0,151 |121 -- 140| 3.757 0,119 |141 -- 160| 3.031 0,096 |161 -- 180| 2.160 0,068 |181 -- 200| 1.560 0,049 |201 -- 220| 1.287 0,041 |221 -- 240| 995 0,032 |241 -- 260| 572 0,018 |261 -- 280| 153 0,005 |281 -- 300| 31 0,001 |301 -- 45 0,001 Total 3.156.839 Fonte: BD-SES/SP (N = 33.799.231) atendimentos entre 2000 e 2007 para o Estado de So Paulo.
5.3 A base de dados para pesquisas epidemiolgicas
Aps o processamento dos cubos, os dados no modelo dimensional apresentados na seo 4.4 foram armazenados em um servidor Dell PowerEdge R900 com dois processadores Xeon SixCore com velocidade de 2.4 gigahertz, memria de 16 gigabytes e capacidade de armazenamento em disco de 9.6 Terabytes utilizando sistema operacional Linux SUSE Enterprise 10 Service Pack 2 release 64 bits. O banco de dados escolhido foi o Oracle Database 10g release 10.2.0.4.0 64 bits. Resultados
134 Atravs desses modelos, possvel realizar pesquisas diretamente atravs da linguagem SQL (Structured Query Language), a qual um padro para acesso em bancos de dados (SQL, 1992), ou atravs de ferramentas de apresentao disponveis no mercado tais como SAS Business Analytics and Business Intelligence (www.sas.com), QlikView Business Intelligence Software Solutions (www.qlikview.com/), Oracle Enterprise Performance Management & Business Intelligence (http://www.oracle.com/us/solutions/ent-performance-bi/index.html) entre outras. As Tabelas 5.10 5.14 demonstram as quantidades de registros carregados nos fatos BITO, NASCIMENTO, INTERNAO e ATENDIMENTO AMBULATORIAL. No Grfico 5.3, possvel observar uma estabilidade nas curvas de nmero de bitos, nmero de nascidos vivos e nmero de internaes para o perodo de 2000 2007. Por outro lado, para o mesmo perodo, o atendimento ambulatorial tem crescido a uma taxa mdia de 1,3 pontos percentuais por ano. Observando os atendimentos de alta complexidade no ambulatrio, medido atravs do instrumento APAC, a taxa mdia de crescimento ainda maior, aproximadamente 2,3 pontos percentuais por ano.
Resultados
135 Tabela 5.10 - Distribuio de bitos, segundo ano do bito
Ano Quantidade % 2000 238.959 12,43 2001 235.987 12,28 2002 240.253 12,50 2003 236.456 12,30 2004 244.653 12,73 2005 237.741 12,37 2006 243.984 12,69 2007 243.955 12,69 Total 1.921.988 Fonte: BD-DATASUS - Estrato para estado de So Paulo Tabela 5.11 Distribuio de nascidos vivos, segundo ano do nascimento Ano Quantidade % 2000 687.779 13,78 2001 632.483 12,68 2002 623.302 12,49 2003 610.555 12,24 2004 618.080 12,39 2005 618.880 12,40 2006 603.368 12,09 2007 595.408 11,93 Total 4.989.855 Fonte: BD-DATASUS - Estrato para estado de So Paulo
O crescimento no nmero de atendimentos atravs do instrumento APAC, o qual obriga a identificao do paciente, teve um crescimento expressivo no perodo estudado e aparece como uma tendncia clara de crescimento. Esse crescimento no significa necessariamente um aumento na quantidade de exames realizados na mesma populao, houveram diversas portarias do Ministrio da Sade incluindo novos itens (exames de SADT e medicamentos) nesse instrumento de cobrana, os quais eram cobrados atravs do instrumento BPA. Nesse instrumento (APAC), a varivel <CPF> obrigatria. Mesmo que haja o preenchimento da informao de forma inadequada, casos onde o CPF dos pais ou responsveis por um menor, haver uma grande quantidade de registros que esto e estaro com a representao correta dessa varivel, ou seja correspondendo de fato ao paciente que recebeu a assistncia mdica ou farmacolgica.
Resultados
136
Tabela 5.12 - Distribuio de atendimentos ambulatoriais, segundo ano do atendimento Ano Quantidade % 2000 9.886.643 8,13 2001 11.801.513 9,71 2002 13.518.709 11,12 2003 14.757.113 12,14 2004 14.504.819 11,93 2005 17.269.952 14,21 2006 18.862.452 15,52 2007 20.966.945 17,25 Total 121.568.146 Fonte: BD-DATASUS - Estrato para estado de So Paulo Tabela 5.13 - Distribuio de atendimentos alta complexidade, segundo ano do atendimento Ano Quantidade % 2000 2.579.618 5,33 2001 3.578.747 7,39 2002 4.519.715 9,33 2003 5.326.480 11,00 2004 5.675.287 11,72 2005 7.650.803 15,80 2006 8.764.005 18,10 2007 10.333.411 21,34 Total 48.428.066 Fonte: BD-DATASUS - Estrato para estado de So Paulo
Atravs da comparao determinstica simples na varivel <CPF>, possvel identificar todos os atendimentos realizados para um mesmo CPF. Desta forma, as anlises de custos por paciente ou buscas de fraudes no atendimento de alta complexidade tornam-se uma atividade simples. Entretanto, deve-se considerar a taxa de erro intrnseca no preenchimento do instrumento, conforme observado na seo 4.3.2.
Tabela 5.14 - Distribuio de internaes, segundo ano da internao Ano Quantidade % 2000 2.398.344 12,47 2001 2.345.199 12,19 2002 2.360.210 12,27 2003 2.376.517 12,35 2004 2.400.029 12,48 2005 2.443.863 12,70 2006 2.431.106 12,64 2007 2.480.249 12,89 Total 19.235.517 Fonte: BD-DATASUS - Estrato para estado de So Paulo Resultados
Grfico 5.3 Evoluo do nmero de ocorrncias, segundo fato do modelo dimensional
Tabela 5.15 Quantidade de inconsistncias por cubo e dimenso
Fonte: BD-DATASUS - Estrato para estado de So Paulo
Resultados
138 A coluna Recuperado da Tabela 5.15 representa os registros que foram cadastros nas Dimenses por terem sido encontrados correspondentes no Repositrio de Tabelas Corporativas do Ministrio da Sade ou em alguma fonte alternativa (Dirio Oficial da Unio ou arquivos com extenso CNV do DATASUS). Todos os demais valores inconsistentes, os quais no foram possveis encontrar correspondentes nas diversas fontes pesquisadas, foram alterados para um valor padro e acrescidos em cada Dimenso correspondente para que fosse possvel manter a integridade entre os dados carregados nos Cubos e suas respectivas dimenses.
5.3.1 A extrao de informao atravs do MinerSUS
Os modelos dimensionais criados nesse trabalho, foram configurados na ferramenta MinerSUS, possibilitando sua utilizao para a gerao de relatrios analticos e aplicao de ferramentas de minerao disponveis na ferramenta. A seguir, esto listados alguns exemplos utilizando os fatos BITO, NASCIMENTO, INTERNAO e ATENDIMENTO AMBULATORIAL.
Resultados
139 5.3.1.1 Caractersticas bsicas da ferramenta MinerSUS
Caso de Uso: Nmero de bitos e Nascidos Vivos no Estado de So Paulo Fatos: BITO (Sistema de Informao sobre Mortalidade) NASCIMENTO (Sistema de Informao sobre Nascidos Vivos) Mtricas: Quantidade de bitos Quantidade de nascimentos Dimenses: Perodo: 2000 2007 Raa/Cor: Todas
Atravs da ferramenta OLAP do MinerSUS, foi criado o relatrio que demonstra a distribuio conjunta das quantidades de bitos e quantidade de nascimentos com visualizao atravs das dimenses PERODO e RAA/COR (Figura 5.1). As principais caractersticas de uma ferramenta OLAP foram implementadas no MinerSUS, uma delas (drill-down and drill- up) pode ser visualizado na prpria Figura 5.1, atravs da varivel <Ano>da dimenso PERODO, ou seja, para o ano de 2000 e 2007, foi realizada a operao drill-down onde foi possvel obter o detalhamento pela dimenso RAA/COR. Outra caracterstica implementada a Pivoting, a qual possibilita a inverso posicional das dimenses e consequentemente os detalhamentos por cada dimenso. A Figura 5.2 mostra o detalhamento do Pivoting e a Figura 5.3 mostra o resultado aps a inverso das dimenses.
Resultados
140
Figura 5.1 Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses PERODO e RAA/COR
Ainda atravs da ferramenta, possvel gerar grficos para anlises visuais. O Grfico 5.4 foi construdo a partir do relatrio OLAP apresentado na Figura 5.3. Os grficos gerados consideram sempre o contedo da dimenso que esta na primeira coluna do relatrio OLAP para o detalhamento das mtricas. Nesse exemplo, as mtricas Quantidade de bitos e Quantidade de Nascimentos, esto detalhados pela dimenso RAA/COR. Resultados
141
Figura 5.2 Inverso das dimenses Raa/Cor e Perodo do Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses PERODO e RAA/COR
Figura 5.3 Resultado final da Inverso das dimenses Raa/Cor e Perodo do Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses PERODO e RAA/COR
Resultados
142
Grfico 5.4 Relatrio OLAP dos fatos BITO e NASCIMENTO utilizando as dimenses RAA/COR e PERODO
Observando a distribuio conjunta do nmero de bitos e o nmero de nascidos vivos, para o perodo de 2000 2007, segundo a raa / cor e para o Estado de So Paulo, possvel verificar que houve um crescimento na populao Branca em 17,24% e 5,11% na populao Parda. Por outro lado, possvel verificar uma estabilizao nas populaes Indgena (crescimento de 0,03%), Amarela (reduo de 0,20%) e Negra (reduo de 0,43%). Do total de bitos (1.921.988), 3,98% foram registrados como raa / cor no identificada e do total de nascimentos (4.989.855), 19,43% tambm foram registrados como no identificada.
B Br ra an nc ca a 1 17 7, ,2 24 4% % P Pa ar rd da a 5 5, ,1 11 1% % N Ne eg gr ra a 0 0, ,4 43 3% % A Am ma ar re el la a 0 0, ,2 20 0% % I In nd d g ge en na a 0 0, ,0 03 3% % Resultados
143 5.3.1.2 Configurando o filtro global da ferramenta MinerSUS
Caso de Uso: Pacientes que foram submetidos a cirurgia de troca valvar no Estado de So Paulo
Fatos: INTERNAO (Sistema de Informao sobre Internao Hospitalar)
Esta nova caracterstica (filtro global) que foi implementada na ferramenta MinerSUS, fundamental para a gerao de anlises com o foco no paciente. As Figuras 5.8, 5.9 e 5.10 mostram as etapas de parametrizao do filtro para a utilizao nos relatrios OLAP, as quais sero detalhadas a seguir. Na primeira etapa da parametrizao, item 1 da Figura 5.4, selecionada uma mtrica de um fato onde contenha a dimenso que deseja- se utilizar como filtro. Nesse exemplo, foi escolhida a mtrica Qtde AIH do fato INTERNAO e a varivel <procedimento>, que representa o nome do procedimento, da dimenso PROCEDIMENTO, representada pelo sinnimo Procedimentos Unificados da Figura 5.4. Resultados
144 Logo aps a seleo do fato e da dimenso, o resultado da combinao apresentado automaticamente, item 2 da Figura 5.4. Nesse exemplo, pode-se visualizar a quantidade total de AIHs para todos os procedimentos, pois ainda no foi realizado nenhum filtro, operao conhecida como Dicing, ou seja, limitar o conjunto de valores a serem exibidos atravs de filtros nas dimenses. Ao clicar no cone (item 2 da Figura 5.4) apresentada a tela para seleo de itens da dimenso (operao Dicing), representada pelo item 3 da Figura 5.4, onde possvel executar a busca de itens atravs de um conjunto de caracteres. Nesse exemplo, o conjunto pesquisado foi TROCA VALVAR. O resultado da busca apresentado na tela para a escolha do itens (item 4 da Figura 5.4). O processo de busca pode ser repetido quantas vezes forem necessrias, sendo que no final deve-se clicar no boto OK para confirma a seleo dos itens. Aps a realizao da seleo, na dimenso PROCEDIMENTO, item 1 Figura 5.5, a string All substituda pela string contendo os procedimentos selecionados. O prximo passo incluir a dimenso PACIENTE, item 2 Figura 5.5. Nesse caso, necessrio selecionar a varivel <Identificador>, pois esta a varivel de ligao com os fatos do DW. Neste momento, a lista de identificadores de pacientes que foram submetidos aos procedimentos selecionados atravs do filtro da dimenso PROCEDIMENTO, apresentada na tela (item 3 da Figura 5.5). Para confirmar a seleo dos parmetros para o filtro global, basta clicar no cone Resultados
145 . O identificador com valor 0, item 4 da Figura 5.5, significa que so AIHs onde no foi possvel identificar o paciente. Esses registros no devero ser considerados nas tcnicas de minerao, pois no representam a realidade de atendimento a um paciente especfico.
Figura 5.4 Utilizando o filtro de procedimentos para a parametrizao do filtro global
1 2 3 4 Resultados
146
Figura 5.5 Lista de identificadores de pacientes que ser carregada para a parametrizao do filtro global
A Figura 5.6 mostra a etapa final da parametrizao do filtro global. Os identificadores dos pacientes que estavam na etapa de seleo, Figura 5.5, so carregados nesta ltima etapa, possibilitando ainda desmarcar algum item, o que deve ser feito com o identificador 0, item 1 Figura 5.6, devido ao fato explicado anteriormente.
3 2 1 4 Resultados
147
Figura 5.6 Concluso da parametrizao do filtro global para ser utilizado para dimenso PACIENTE
5.3.1.3 Utilizando o filtro global da ferramenta MinerSUS
Caso de Uso: Quantidade de internaes, tempo de permanncia, custo com internaes e atendimentos de alta complexidade, por pacientes, que foram submetidos a cirurgia de troca valvar no Estado de So Paulo. Fatos: INTERNAO (Sistema de Informao sobre Internao Hospitalar) ATENDIMENTO AMBULATORIAL (Sistema de Informaes Ambulatoriais) Mtricas: Quantidade de AIHs Quantidade de dias de permanncia Valor total das AIHs Valor aprovado SIA
1 Resultados
148 Dimenses: Perodo: 2000 2007 Paciente: Filtrados Diagnstico: Todos Procedimento: Todos
Aps a configurao do filtro global, possvel utiliz-lo em qualquer relatrio OLAP. No exemplo mostrado na Figura 5.7, foram selecionadas as mtricas, quantidade de internaes (Qtde AIH), total de dias de internao (Dias Permanncia), custo total das internaes (Valor Total AIH) e custo total da alta complexidade no ambulatrio (Valor Aprovado SIA), as dimenses PACIENTE (item 2) e DIAGNSTICO (item 3) e o filtro global FILTRO_GLOBAL_PACIENTE (item 1). Com a gerao do relatrio OLAP, que contm o conjunto de pacientes que foram submetidos cirurgia de troca valvar, possvel estudar cada paciente. Por exemplo, o paciente com o identificador 120191 teve um gasto no atendimento ambulatorial de alta complexidade de R$ 608,22 e um gasto de R$ 9.660,52, correspondente a 5 internaes totalizando 36 dias de hospitalizao. Outro exemplo, o paciente com identificador 173164, onde o custo foi detalhado por diagnstico. Do custo total com internao (R$ 7.924,24), 89,72% foi consumido pela internao para o tratamento do diagnstico I05.0 Estenose Mitral. Entretanto, do tempo total que o paciente ficou internado (70 dias), somente 37,14% (26 dias) foi consumido na internao para o tratamento mencionado. Resultados
149
Figura 5.7 Relatrio OLAP (utilizando filtro global), quantidade de internaes, quantidade de dias de permanncia, valor total das internaes e valor alta complexidade (ambulatrio) segundo dimenso PACIENTE e DIAGNSTICO
Para um complemento da anlise sobre o paciente com identificador 173164, no mesmo relatrio OLAP, foram includas as dimenses PERODO e PROCEDIMENTO e realizada a operao drill-down para esse paciente (Figura 5.8). Foi possvel verificar que a internao que tem o custo mais elevado foi justamente a internao na qual ocorreu a cirurgia de troca valvar. H ainda uma curiosidade revelada pelo detalhamento da dimenso PROCEDIMENTO, a ltima internao do paciente, que foi de hospital-dia (tempo de permanncia igual a zero), apresenta como procedimento RETIRADA DE CORPO ESTRANHO INTRA-OSSEO 20 meses aps o evento da cirurgia. 1 3 2 Resultados
150
Figura 5.8 Relatrio OLAP (utilizando filtro global), quantidade de internaes, quantidade de dias de permanncia, valor total das internaes e valor alta complexidade (ambulatrio) segundo dimenso PACIENTE e PROCEDIMENTO
No relatrio OLAP, possvel realizar qualquer combinao de dimenses que esto descritas na seo 4.4, assim como possvel configurar o filtro global utilizando qualquer dimenso associada ao fato que deseja-se estudar. A aplicao do filtro global para os procedimentos PLASTICA VALVAR E/OU TROCA VALVAR MULTIPLA e TROCA VALVAR C/ REVASCULARIZACAO MIOCARDICA encontrou 7.713 pacientes distintos que foram submetidos a esta cirurgia.
Discusso
Discusso
152
6. DISCUSSO
A utilizao de bases de dados, denominadas secundrias ou administrativas, para anlises epidemiolgicas, avaliao da qualidade e quantidade dos servios de sade e auxlio da vigilncia epidemiolgica, vem despertando a ateno de pesquisadores no contexto da Sade Pblica. Entretanto, devido s restries de acesso e ausncia de ferramentas para extrao de informao e conhecimento, o uso dessas bases em larga escala ainda limitado. Nesse sentido, ferramentas que possibilitem a extrao de informao de modo intuitivo e cobrindo populaes, tanto nos aspectos espaciais como temporais devem ser perseguidas. Por outro lado, para alguns pesquisadores, o fato desses dados serem considerados uma fonte "secundria", implica que eles sempre sero vistos com desconfiana, ou seja, se os dados no foram gerados com a finalidade especfica para a qual eles so usados, a sua validade ser sempre suspeita. O argumento de desconfiana em dados secundrios no deve ser o fator decisrio em sua utilizao como fonte de pesquisa. Deve-se considerar que resultados obtidos atravs de pesquisas em dados secundrios podem e, em algumas propostas devem, sofrer um processo de ratificao detalhada do achado, seja atravs de dados primrios ou atravs Discusso
153 de estruturao de novos inquritos clnicos / epidemiolgicos na populao de interesse. Tambm deve ser considerada, a possibilidade da estimulao de novos desenhos clnicos visando ratificar ou afastar hipteses reveladas atravs das pesquisas realizadas em dados secundrios e que aguarem a sensibilidade do pesquisador. A realizao de anlises exploratrias com o objetivo de conhecer as limitaes e os potenciais dessas bases de dados uma tarefa fundamental. O sucesso no uso dessas bases de dados para aplicaes na Sade Pblica, incluindo rastreabilidade e vigilncia, depende fortemente do conhecimento e contexto de aplicao. No Brasil, os dados de Sade Pblica so coletados e disponibilizados pelo Ministrio da Sade atravs do DATASUS. Para a etapa de coleta, diversos instrumentos so utilizados, alguns com a identificao do paciente outros no. Para o processo de internao, o instrumento utilizado para a coleta de informaes a Autorizao de Internao Hospitalar (AIH), a qual sempre conteve os dados demogrficos de identificao do paciente. O atendimento ambulatorial e o pronto atendimento ou pronto socorro, originalmente tinham um nico instrumento de coleta, Boletim Atendimento Ambulatorial (BPA), que no identificavam o paciente, ou seja, os estabelecimentos de sade indicavam somente quantidade mensal de atendimentos realizados. Discusso
154 No final da dcada de 1990, o Ministrio da Sade estabeleceu o instrumento de coleta denominado Autorizao de Procedimentos de Alta Complexidade (APAC) para alguns itens do atendimento ambulatorial, incluindo medicamentos. Neste instrumento, obrigatrio o preenchimento de dados demogrficos do paciente incluindo o nmero do CPF. No entanto, cabe ressaltar que em diversos atendimentos o CPF no corresponde ao paciente e sim aos pais ou responsvel pelo paciente que recebeu o atendimento e, em outros casos, o preenchimento incorreto, como exemplo 99999999999. Recentemente, o Ministrio da Sade estabeleceu um novo instrumento denominado Boletim Atendimento Ambulatorial Individualizado (BPA-I), com o objetivo de incluir novos itens do atendimento ambulatorial e pronto atendimento, os quais identificam o paciente, porm sem a necessidade de autorizao prvia do gestor como so os casos da APAC e AIH. H uma tendncia clara do Ministrio da Sade e das Secretaria Estaduais em utilizar instrumentos de coletas com a identificao do paciente, os quais permitem estudar episdios de sade dispensado ao paciente. Entretanto, para que seja possvel estudar os episdios de um paciente fundamental poder identific-lo de forma unvoca. Entre o final da dcada de 80 e incio da dcada de 90, o Ministrio da Sade fracassou na tentativa de estabelecer o CPF como identificador obrigatrio do paciente para os instrumentos AIH e APAC. Discusso
155 Em 2000, com a criao do Carto Nacional de Sade do SUS (CNS), uma nova tentativa para a identificao do paciente, tendo como o fim especfico a Sade Pblica, foi coloca em prtica. Segundo o Ministrio da Sade (BRASIL, 2010c), mesmo com a interrupo na distribuio nacional do CNS em 2006, h cerca de 145 milhes de cartes cadastrados. Ainda segundo o Ministrio da Sade, mesmo considerando as duplicidades, acredita-se que aproximadamente 130 milhes de indivduos esto identificados de forma correta. Apesar desses esforos, ainda no h disponibilizao, mesmo que anonimizada, de bases de dados que permitam os estudos com foco no paciente. Ainda que o objetivo de estabelecer um documento de identificao que possibilite a identificao unvoca do paciente em todo atendimento seja atingido, restar um legado com mais de vinte anos de atendimentos contendo dados de identificao do paciente sem um identificador unvoco do mesmo. A utilizao de tcnicas de associao de registro (Record Linkage) vem sendo utilizada por diversos pesquisadores e em diversos pases com o objetivo de associar registros de duas bases dados. O sucesso dessas tcnicas depende fortemente da qualidade dos dados que sero comparados. A falta de um instrumento nico, ou do estabelecimento de padres que qualifiquem o paciente que recebeu a assistncia um fator crtico nos registros do Sistema nico de Sade brasileiro. Discusso
156 A limpeza e padronizao das variveis so as etapas que mais consomem recursos computacionais e humanos em um projeto de criao ou manuteno do Data Warehouse. A limpeza pode ser caracterizada como uma atividade de transpirao, ou seja, no so necessrias grandes idias ou algoritmos complexos, normalmente h um grande esforo de desenvolvimento de scripts que realizam as atividades de inspeo da integridade dos dados entre os fatos e as dimenses. Por outro lado, a etapa de padronizao, que pode ser dividida em duas sub-etapas, identificao de padres e transformao, demanda grande esforo de inspirao, elaborao de idias e estratgias que resultam em grande esforo de transpirao, desenvolvimento de algoritmos complexos para a realizao das sub-etapas. Essas etapas se caracterizaram na criao do Data Warehouse como um todo, entretanto com um grande destaque no processo de associao de registros (Record Linkage). impraticvel a realizao de trabalhos que manipulem grandes volumes de dados sem aplicao de mtodos automatizados como os que foram descritos nas sees 4.3.2 (Anlise do Preenchimento e Consistncia das Variveis) e 4.3.3 (Padronizao das Variveis). A especificidade e sensibilidade desses mtodos so fatores fundamentais para o sucesso da associao de registros. Queiroz et al. (QUEIROZ, 2010) consideraram o algoritmo de J aro- Winkler inadequado para a comparao de logradouros devido ao mtodo de atribuio de maior peso, aplicada pelo o algoritmo, para o incio da Discusso
157 string. Por exemplo, os logradouros AVENIDA J OAO e AVENIDA J OSE, ao serem submetidos avaliao do algoritmo, apresentam 92% de semelhana devido ao incio das strings serem idnticas, ou seja, AVENIDA. No caso de abreviao no prefixo do logradouro, ou seja, AV. J OAO e AV. J OSE o percentual de semelhana de 88%. A alternativa utilizada nesse trabalho, foi a retirada do prefixo do logradouro na etapa de padronizao, e assim potencializar o uso do algoritmo. O exemplo dos logradouros citado anteriormente, ficaria J OAO e J OSE e o percentual de semelhana atribudo pelo algoritmo passa a ser de 73%. Desse modo, a aplicabilidade do algoritmo para a varivel <logradouro>torna-se totalmente segura. Outra importante estratgia utilizada e que potencializou o uso do algoritmo de J aro-Winkler, no s na varivel <logradouro>, foi a aplicao do mtodo de fonetizao nas variveis do tipo string. Nos exemplos demonstrados na Tabela 4.7, houve aumento de sensibilidade do mtodo em at 40%. Apesar do relato de sucesso, descrito por Bing Li et al. (LI, 2006), utilizando a abordagem determinstica, no contexto da sade, para relacionamento de trs base de dados Canadense sem um identificador nico do paciente, a grande maioria dos estudos para o relacionamento de bases de dados no contexto da sade, utilizou a abordagem probabilstica. Para o relacionamento determinstico, normalmente, so utilizadas duas estratgias: full e N-1, ou seja, full, significa que todas as variveis devem coincidir para que o par seja considerado pertencente ao mesmo Discusso
158 elemento. A estratgia N-1 considera que mesmo havendo discordncia em uma das N variveis o par considerado pertencente ao mesmo elemento. O principal problema na abordagem determinstica a no associao de um par verdadeiro, devido a no coincidncia das variveis utilizadas para a comparao, mesmo quando se utiliza a estratgia N-1. A simples falta de preenchimento ou a abreviao de contedo em uma das variveis em um dos registros que esto sendo comparados o suficiente para que o par seja considerado como no par. Miranda Tromp et al. (Tromp, 2010) utilizaram duas bases de dados, com insero de erros, contendo quatro variveis (<data de nascimento>, <CEP>, <sexo>e <cdigo do hospital>onde o atendimento foi realizado) com o objetivo de comparar os resultados do relacionamento probabilstico e o relacionamento determinstico. O relacionamento determinstico, utilizando a estratgia full, resultou em aproximadamente trs (3) vezes mais erros (falso-negativos), quando comparado com o relacionamento probabilstico. A estratgia N-1 resultou entre duas (2) e seis (6) vezes mais erros quando comparado com o relacionamento probabilstico. Nesse caso, quanto maior foi o poder de discriminao da varivel que no coincidiu, maior foi a taxa de erro observada. Apesar do relacionamento determinstico ter a vantagem de simplicidade de implementao, o relacionamento probabilstico tem apresentando maior aderncia devido s menores taxas de falso-negativos. Estimar valores de concordncia e discordncia para as variveis em grandes bases de dados, na abordagem probabilstica, no uma tarefa Discusso
159 trivial. Queiroz et al. (QUEIROZ, 2010) utilizaram diversas tcnicas para essa tarefa e concluram que nenhuma foi imune a falhas. Esse trabalho tambm utilizou o conceito de pesos de concordncia e discordncia para comparao das variveis. No entanto, diferente da tcnica tradicional de atribuio de um valor para concordncia, foi adicionado o conceito de valor varivel baseado em comparaes hierrquicas e fragmentadas, partindo de uma similaridade perfeita at uma similaridade mnima aceitvel. Essa variao na tcnica foi importante uma vez que alm de classificar em par ou no par, tambm possibilitou quantificar a confiabilidade do par com maior simplicidade. Outra caracterstica implementada nesse trabalho e que no foi encontrada em nenhum outro estudo, foi a criao de um redutor objetivando minimizar associaes indevidas. As caractersticas dos nomes brasileiros, tais como a grande incidncia de homnimos, a grande repetio de logradouros distribudos nas diversas cidades brasileiras e, a grande concentrao de atendimento de alta complexidade nos grandes centros, poderiam provocar a gerao de um grande nmero de falso-positivos. Para avaliar o desempenho do algoritmo de relacionamento de registros proposto nesse trabalho, foi utilizada uma base de dados denominada BD-Controle com 707.960 registros. No final do processo, de um total de 574.193 pares relacionados, 4.655 (0,81%) foram classificados de forma errada, sendo 2.811 como falso positivo e 1.844 como falso negativo. Discusso
160 Analisando os registros identificados como falso-positivos verificou- se que 44,26% so correspondentes aos cadastros duplicados de pacientes, 25,65% dos registros tem uma alta probabilidade de corresponder aos cadastros duplicados de pacientes e 30,09% no tem variveis suficientes para uma concluso, ou seja, podem ser cadastros duplicados ou ento homnimos de pacientes. Analisando os registros identificados como falso-negativos verificou- se que 25,54% so correspondente aos registros que foram alocados em blocos distintos na etapa de blocagem e 74,46% correspondem aos registros que tiveram alteraes no contedo das variveis. Portanto, na comparao de pares o escore final foi inferior ao limite estabelecido. A sensibilidade alcanada pelo algoritmo proposto foi de 99,68% e a especificidade de 97,94%. Considerando as duplicidades encontradas nos falso-positivos, a especificidade recalculada seria de 99,37%. Silveira e Artmann (Silveira, 2009) em um estudo de reviso sistemtica para avaliar a acurcia dos mtodos de relacionamento probabilstico, encontraram sensibilidades que variaram de 74% 98% e especificidade que variaram de 99% 100%. Previa-se inicialmente a carga de 10 anos (2000 2009) de informaes dos atendimentos dispensados aos pacientes no estado de So Paulo, provenientes das base de dados que contm identificao dos pacientes. O pedido solicitando o acesso a essas bases de dados, foi encaminhado ao Ministrio da Sade, porm, at o presente momento, o pedido encontra-se em avaliao pelo Departamento de Cincia e Discusso
161 Tecnologia em Sade (DECIT) da Secretaria de Cincia, Tecnologia e Insumos Estratgicos do Ministrio da Sade (SCTIE/MS). Como alternativa essa limitao, foram utilizadas bases de dados cedidas pela Secretaria de Estado da Sade do Estado de So Paulo. No entanto, essas bases de dados continham parte do perodo desejado, ou seja, 2000 2005 para a SIH (Sistema de Informao Hospitalar), 2000 2007 para SIA-APAC (Sistema de Informao Ambulatorial Autorizao de Procedimentos de Alta Complexidade) e 2006 2008 para o SIM (Sistema de Informao sobre Mortalidade). Outra limitao encontrada, foi a ausncia da varivel <nome da me>na base de dados referente ao SIH. Mesmo com a ausncia dessa varivel foi possvel a aplicao do mtodo proposto, devido a existncia de outras variveis que contriburam com o relacionamento dos registros. A presena dessa varivel provavelmente aumentaria o percentual da confiabilidade do par. Assim como este trabalho, h diversos pesquisadores no Brasil (apresentados na seo 3.4.5) estudando mtodos determinsticos, probabilsticos e mistos de relacionamento de registros, com o foco nas bases de dados do Ministrio da Sade, tendo como o objetivo vincular os atendimentos dispensados a determinado paciente. O crescente interesse nessas bases de dados e nas tcnicas de relacionamento de registros demonstram o potencial das bases de dados consideradas secundrias para estudos da Sade Pblica brasileira. Discusso
162 Finalmente, devido ao interesse de continuidade dessa linha de pesquisa, alguns pontos continuaro sendo estudados aps a concluso dessa tese: 1. Atualizao do DW com novos dados do DATASUS:Para a carga do DW com os dados pblicos, aqueles que esto disponveis no site do DATASUS e que no contm dados identificados do paciente, foram utilizados somente os arquivos que j haviam sido consolidados, ou seja, no seriam realizadas novas publicaes contendo alteraes. Sendo assim, para os sistemas SIHSUS, SIASUS, SIM e SINASC o perodo utilizado foi de 2000 2007. Assim que os anos de 2008 e 2009 estiverem consolidados, estes sero includos do ambiente. 2. Base com identificao do paciente: Caso o pedido de disponibilizao das bases de dados, contendo a identificao dos pacientes seja aprovado pelo Ministrio da Sade, esses dados sero organizados e o processo de associao de registros (Record Linkage) ser reprocessado e recarregado no DW. 3. Novas estratgias de blocagem: Avaliao de etapas complementares de blocagem com o objetivo de reduzir ainda mais os casos de falso-negativos. 4. Novas tcnicas para minerao de dados: Avaliao de outras ferramentas e tcnicas de minerao no ambiente construdo.
Concluses
Concluso
164
7. CONCLUSES
A dificuldade para comparar informaes, conhecer a evoluo de pacientes no tempo e a extrao de informao gerencial, a partir da explorao das bases de dados do SUS, foi a questo motivadora deste trabalho. Esta questo conduziu hiptese da criao de um ambiente para extrao de informao, a partir da minerao das bases de dados do SUS para os pacientes atendidos no Estado de So Paulo. A partir desta conjectura, foi definido, implantado e avaliado um ambiente adequado s peculiaridades da Sade Pblica e dos sistemas de informaes do SUS. Um conjunto de objetivos especficos e premissas foram estabelecidos e atendidos pelo ambiente proposto: 1. Definio e implantao de um Data Warehouse, reunindo e integrando dados dos principais sistemas de informao do SUS: SIA, SIH, SIM e SINASC. Esse Data Warehouse foi carregado com dados dos respectivos sistemas, correspondentes ao perodo de 2000 2007, o que resultou numa base com mais de 278 milhes de registros. 2. Desenvolvimento do mtodo para associao de registros ao paciente. O mtodo desenvolvido e aplicado nas base de dados que continham os atendimentos (N =33.799.231), com dados demogrficos dos pacientes, reconheceu 8.406.387 pacientes distintos. Concluso
165 3. Construo da base de dados BD-Controle visando verificar a eficcia do mtodo de associao de registros. A aplicao do mtodo em um base de dados controlada era fundamental para avaliar o mtodo de forma automtica. 4. Implantao de ferramentas que permitiram a extrao de informao no contexto da Sade Pblica. A adaptao da ferramenta MinerSUS, criando a opo do filtro global, possibilitou a extrao de informao de pacientes que compartilham determinadas caractersticas, por exemplo, pacientes que foram submetidos a procedimentos especficos, bem como avaliar a evoluo clnica dos mesmos a partir das bases de dados de internao e atendimento ambulatorial (alta complexidade). Os resultados desta tese podem contribuir com a metodologia para a construo de ambientes similares ao aqui proposto, na estimulao do uso das tcnicas de relacionamento de registros em grandes bases de dados e na criao de uma ambiente que possibilite a extrao de informaes epidemiolgica baseado na integrao dos principais sistemas do Ministrio da Sade.
Anexos
Anexo
167 8. ANEXOS Anexo 1. Aprovao da Comisso Cientfica.
Anexo
168 Anexo 2. Carta de solicitao da base de dados Identificada.
Referncias Bibliogrficas
Referncia Bibliogrfica
170 9. REFERNCIAS BIBLIOGRFICAS
ACHESON Report. Independent inquiry into inequalities in health: report. (Acheson Report). London: Department of Health, The Stationery Office, 1998.
AGGARWAL , Charu C.; YU, Philip S. A framework for condensation-based anonymization of string data. Data Mining and Knowledge Discovery, v. 16, n. 3, p.251-275, J un. 2008.
ALMEIDA FILHO, Naomar de. Bases histricas da Epidemiologia. Cad. Sade Pblica, Rio de J aneiro, v. 2, n. 3, Set. 1986. Disponvel em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102- 311X1986000300004&lng=en&nrm=iso>. Acessado em 04 Maro 2010. doi: 10.1590/S0102-311X1986000300004.
BARATA, Rita Barradas. Tendncias no ensino da epidemiologia no Brasil. Rev Panam Salud Publica, Washington, v. 2, n. 5, 1997. Disponvel em <http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S1020- 49891997001100006&lng=en&nrm=iso>. Acessado em 05 Maio 2010. doi: 10.1590/S1020-49891997001100006.
BARRETO, Mauricio L.. Papel da epidemiologia no desenvolvimento do Sistema nico de Sade no Brasil: histrico, fundamentos e perspectivas. Rev. bras. epidemiol., So Paulo, 2002 . Disponvel em <http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S1415- 790X2002000400003&lng=pt&nrm=iso>. Acessado em 01 Setembro 2010. doi: 10.1590/S1415-790X2002000400003. Referncia Bibliogrfica
171
BEAGLEHOLE, R & BONITA, R. Public Health at the Crossroads Achievements and Prospects, Second Edition, Cambridge University Press, 2004.
BITTENCOURT, S.A., CAMACHO, L.A.B., LEAL, M.C. O Sistema de Informao Hospitalar e sua aplicao na sade coletiva. Cad. Sade Pblica, Rio de J aneiro, v. 22, n. 1, pp. 19-30, J an, 2006. Disponvel em <http://www.scielo.br/pdf/csp/v22n1/03.pdf>. Acessado em 07 J unho 2010.
BLANE, D. Health inequality and public policy: one year on from the Acheson report. J ournal of Epidemiology and Community Health, v. 53, p. 748, 1999.
BRASIL, 1986, Ministrio da Sade, Conferncias Nacionais de Sade. VIII Conferncia Nacional de Sade. Disponvel em http://conselho.saude.gov.br/biblioteca/Relatorios/relatorio_8.pdf. Acessado em 20 Agosto 2010.
BRASIL, 1988, Presidncia da Repblica, Casa Civil. Constituio da Repblica Federativa do Brasil de 1988. Disponvel em http://www.planalto.gov.br/ccivil_03/constituicao/constitui%C3%A7ao .htm. Acessado em 20 Maro 2010.
BRASIL, 1990, Ministrio da Sade, Conselho Nacional de Sade. Sistema nico de Sade Lei 8.080/90. Disponvel em http://conselho.saude.gov.br/legislacao/lei8080_190990.htm. Acessado em 11 abril 2010.
Referncia Bibliogrfica
172 BRASIL, 2002, Ministrio da Sade, Fundao Nacional de Sade. Textos de epidemiologia para vigilncia ambiental em sade. Disponvel em http://bvsms.saude.gov.br/bvs/publicacoes/funasa/textos_vig_ambien tal.pdf. Acessado em 08 fevereiro 2010.
BRASIL, 2009, Ministrio da Sade, Secretaria Executiva. Departamento de Informtica do SUS. Disponvel em http://www2.datasus.gov.br/DATASUS/index.php?area=01. Acessado em 12 abril 2010.
BRASIL, 2010, Ministrio da Sade. Atendimento: O que o SUS. Disponvel em http://www.brasil.gov.br/sobre/saude/atendimento/o- que-e-sus. Acessado em 12 J ulho 2010.
BRASIL, 2010a, Ministrio da Sade. Alta Complexidade. Disponvel em http://dtr2004.saude.gov.br/susdeaz/topicos/topico_det.php?co_topic o=276&letra=A. Acessado em 18 Setembro 2010.
BRASIL, 2010b, Ministrio da Sade. Mdia e Alta Complexidade. Disponvel em http://portal.saude.gov.br/portal/sas/mac/area.cfm?id_area=835#. Acessado em 18 Setembro 2010.
BRASIL, 2010c, Ministrio da Sade. Novo Carto Nacional de Sade . Disponvel em http://portal.saude.gov.br/portal/arquivos/pdf/apresentacao_cns_versao1.pd f. Acessado em 18 Setembro 2010.
Referncia Bibliogrfica
173
CAMARGO J R, K.R.; COELI, C.M. Reclink: aplicativo para o relacionamento de bases de dados, implementando o mtodo probabilistic record linkage. Cad. Sade Pblica, Rio de J aneiro. 2000 Abr- J un;16(2):439-4.
CARDOSO, Andrey Moreira; SANTOS, Ricardo Ventura; COIMBRA J R., Carlos E. A.. Mortalidade infantil segundo raa/cor no Brasil: o que dizem os sistemas nacionais de informao?. Cad. Sade Pblica, Rio de J aneiro, v. 21, n. 5, Oct. 2005. Disponvel em <http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0102- 311X2005000500035&lng=en&nrm=iso>. Acessado em 07 J unho 2010. doi: 10.1590/S0102-311X2005000500035.
COELI, C.M.; CAMARGO J R, K.R.; Avaliao de diferentes estratgias de blocagem no relacionamento probabilstico de registros. Revista Brasileira de Epidemiologia, So Paulo, v. 5, n. 2, 2002. Disponvel em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415- 790X2002000200006&lng=en&nrm=iso>. Acessado em 08 J ulho 2010. doi: 10.1590/S1415-790X2002000200006.
COELI, C.M.; CAMARGO J R, K.R.; SANCHES, K.R.B.; CASCO, A.M. Sistemas de Informao em Sade. Em: MEDRONHO, Roberto A. [et al.]. Epidemiologia 2 Edio. So Paulo: Editora Atheneu, 2009.
Referncia Bibliogrfica
174
COSTA, Maria da Conceio Nascimento; TEIXEIRA, Maria da Glria Lima Cruz. A concepo de "espao" na investigao epidemiolgica. Cad. Sade Pblica, Rio de J aneiro, v. 15, n. 2, Abril 1999. Disponvel em <http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0102- 311X1999000200012&lng=en&nrm=iso>. Acessado em 17 Maio 2010. doi: 10.1590/S0102-311X1999000200012.
COUNTINHO, R.G.M; COELI, C.M.; FAERSTEIN, E; CHOR, D. Sensibilidade do linkage probabilstico na identificao de nascimentos informados: Estudo Pr-Sade. Rev Sade Publica. 2008;42(6):1097-100.
CHAE, Young Moon; HO, Seumg Hee; CHO, Won Kyoung; LEE, Dong Ha; J I, Sun Ha. Data Mining approach to policy analysis in health insurance domain, International J ournal of Medical Informatics, v. 62, pp. 103-111, 2001.
CHEN, Zhengxin. Data Mining and Uncertain Reasoning: an integrated approach. USA, New York: Wiley-Interscience, 2001.
CLARK , D. E.; HAHN, D. R. Comparison of Probabilistic and Deterministic Record Linkage in the Development of a Statewide Trauma Registry. Proc Annu Symp Comput Appl Med Care, pp. 397401, 1995.
Referncia Bibliogrfica
175
ESCOSTEGUY, C.C.; PORTELA, M.C.; MEDRONHO, R.A.; VASCONCELLOS, M.T.L. O Sistema de Informaes Hospitalares e a assistncia ao infarto agudo do miocrdio. Rev. Sade Pblica, So Paulo, v. 36, n. 4, Abr. 2002. Disponvel em < http://www.scielo.br/pdf/rsp/v36n4/11769.pdf >. Acessado em 02 Abril 2010
FAYYAD, U.M.; PIATETSKY-SHAPIRO, G.; SMYTH, P; UTHURUSAMY, R. Advances in Knowledge Discovery and Data Mining. USA, California: AAAI Press / MIT Press , 1996.
FELLEGI I.P.; SUNTER A.B. A Theory for Record Linkage. J ournal of the American Statistical Association. Dec, 1969; 64(328): 1183-210. Disponvel em <http://www.jstor.org/stable/2286061>. Acessado em 08 Outubro, 2009.
GIROTTO, Edmarlon; ANDRADE, Selma Maffei de; CABRERA, Marcos Aparecido Sarri. Anlise de trs fontes de informao da ateno bsica para o monitoramento da hipertenso arterial. Epidemiol. Serv. Sade, Braslia, v. 19, n. 2, jun. 2010. Disponvel em <http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679- 49742010000200006&lng=pt&nrm=iso>. Acessado em 08 Agosto 2010.
GOEBEL, M; GRUENWALD, L; A Survey of Data Mining and Knowledge Discovery Software Tools. ACM SIKDD Explorations v. 1, n. 1, pp 20-33, jun. 1999.
Referncia Bibliogrfica
176 GES, S.M.C.; COELI, C.M.; MEDRONHO, R.A. Relacionamento probabilstico entre bases de dados sobre medicamentos e notificao: Uma aplicao na vigilncia da AIDS. Cadernos Sade Coletiva, Rio de J aneiro. 2006 Abr-J un;14(2):313-26.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: um guia prtico. Rio de J aneiro: Elsevier, 2005 4 impresso.
GONALVES DE S, J oo Henrique; BRENTANI, Alexandra; GRISI, Sandra; REBELO, Marina de S; GUTIERREZ, Marco Antnio. GeoHealth: Sistema de Georreferenciamento para Coleta de Dados das Famlias na Ateno Bsica. Anais do XII Congresso Brasileiro de Informtica em Sade CBIS 2010, 2010.
HOTA, Bala; J ONES, Roderick C.; SCHWARTZ, David N. Informatics and infectious diseases: What is the connection and efficacy of information technology tools for therapy and health care epidemiology? American J ournal of Infection Control, v.36, n. 3, p.S47-S56, April, 2008.
IEZZONI, Lisa I. Assessing Quality Using Administrative Data. Annals of Internal Medicine American College of Physicians, Philadelphia, v. 127, n. 8, October 1997.
INCOR, Servio de Informtica do Instituto do Corao HCFMUSP. Algoritmo de fonetizao [citado em 11, Maio 2010]. Disponvel em http://www.incor.usp.br/spdweb/ccssis/fonetica/
Referncia Bibliogrfica
177 INMON, William H. Como construir o Data Warehouse. 2.ed. Rio de J aneiro: Campus, 1997.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: o guia completo para modelagem multidimensional. Rio de J aneiro: Campus, 2002.
KRIEGEL, Hans-Peter, BORGWARDT, Karsten M; KRGER, Peer; PRYAKHIN, Alexey; SCHUBERT, Matthias; ZIMEK, Arthur. Future trends in data mining. Data Mining and Knowledge Discovery, Munich v. 15, n. 1, p. 87-97, Fevereiro, 2007.
LEVENSHTEIN, V. Efficient Implementation of the Levenshtein-Algorithm, Fault-tolerant Search Technology, Error-tolerant Search Technologies. 2007. Disponvel em <http://www.levenshtein.net/>. Acessado em: 17 dez. 2009.
LI, B.; QUAN, H.; FONG, A.; LU, M. Assessing record linkage between health care and Vital Statistics databases using deterministic methods.BMC Health Serv Res. 2006; 6: 48. . doi: 10.1186/1472-6963-6-48.
LICHTNER, Valentina; WILSON, Stephanie; GALLIERS, J ulia R. The challenging nature of patient identifiers: an ethnographic study of patient identification at a London walk-in centre. Health Informatics J ournal, Los Angels v.14, n. 2, p. 141150, 2008.
LIMA-COSTA, Maria Fernanda; BARRETO, Sandhi Maria. Tipos de Estudos Epidemiolgicos: Conceitos Bsicos e Aplicaes na rea do Envelhecimento. Epidemiologia e Servios de Sade, Braslia, v. 12, n. 4, Dezembro 2003. Disponvel em < http://scielo.iec.pa.gov.br/pdf/ess/v12n4/v12n4a03.pdf>. Acessado em 02 out. 2010. Referncia Bibliogrfica
178 LOYOLA FILHO, Antnio Igncio de et al . Causas de internaes hospitalares entre idosos brasileiros no mbito do Sistema nico de Sade. Epidemiol. Serv. Sade, Braslia, v. 13, n. 4, Dezembro 2004. Disponvel em <http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679- 49742004000400005&lng=pt&nrm=iso>. Acessado em 24 out. 2010. doi: 10.5123/S1679-49742004000400005.
LUCENA, F.F.A; FONSECA, M.G.P.; SOUSA, A.I.A.; COELI C.M. O Relacionamento de Banco de Dados na Implementao da Vigilncia da AIDS. Cadernos Sade Coletiva, Rio de J aneiro. 2006 Abr-J un; 14(2):305-8.
MACHADO, C.J .; Como podem ser analisados dados pareados de forma probabilstica na presena de incerteza? Um exerccio contrastando quatro procedimentos. Cadernos Sade Coletiva, Rio de J aneiro. 2006 Abr-J un; 14(2):233-250.
MACHADO, J .P.; SILVEIRA, D.P.; SANTOS, I.S.; PIOVESAN, M.F.; ALBUQUERQUE, C. Aplicao da metodologia de relacionamento probabilstico de base de dados para a identificao de bitos em estudos epidemiolgicos. Rev Bras Epidemiol. 2008; 11(1):43-54.
MATHIAS, Thais A. de F.; SOBOLL, Maria Lcia de M.S.. Confiabilidade de diagnsticos nos formulrios de autorizao de internao hospitalar. Rev. Sade Pblica, So Paulo, v. 32, n. 6, Dec. 1998. Disponvel em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034- 89101998000600005&lng=en&nrm=iso>. Acessado em 02 Setembro 2010. doi: 10.1590/S0034-89101998000600005. Referncia Bibliogrfica
179
MEDRONHO, Roberto A. [et al.]. Epidemiologia 2 Edio. So Paulo: Editora Atheneu, 2009.
MINAYO, Maria Ceclia de Souza et al . Possibilidades e dificuldades nas relaes entre cincias sociais e epidemiologia. Cinc. sade coletiva, Rio de J aneiro, v. 8, n. 1, 2003. Disponvel em <http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S1413- 81232003000100008&lng=en&nrm=iso>. Acessado em 29 Maro 2010. doi: 10.1590/S1413-81232003000100008.
NEWCOMBE H.B.; KENNEDY J .M. Record linkage: making maximum use of the discriminating power of identifying information. Communications of the ACM. Nov, 1962 p. 563-6. DOI= http://doi.acm.org/10.1145/368996.369026
NORONHA, J .C., TRAVASSOS, C., MARTINS, M., CAMPOS, M.R., MAIA P, PANEZZUTI, R.. Avaliao da relao entre volume de procedimentos e a qualidade do cuidado: o caso de cirurgia coronariana no Brasil. Cad. Sade Pblica, Rio de J aneiro, v. 19, n. 6, pp. 1781-1789, Nov-Dez, 2003. Disponvel em <http://www.scielo.br/pdf/csp/v19n6/a22v19n6.pdf>. Acessado em 17 J unho 2010.
NUNES, Everardo Duarte. Ps-graduao em sade coletiva no Brasil: histrico e perspectivas. Physis, Rio de J aneiro, v. 15, n. 1, jun. 2005 . Disponvel em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103- 73312005000100002&lng=pt&nrm=iso>. Acessado em 02 Abril 2010. doi: 10.1590/S0103-73312005000100002. Referncia Bibliogrfica
180
OLIVEIRA, Maria Regina Fernandes. reas de aplicao da epidemiologia nos servios de sade. Epidemiol. Serv. Sade, Braslia, v. 18, n. 2, jun. 2009. Disponvel em <http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679- 49742009000200001&lng=pt&nrm=iso>. Acessado em 18 Setembro 2010.
ORACLE, Oracle Corporation. Oracle Database 10g. Disponvel em http://www.oracle.com/technetwork/database/database10g/overview/ ds -general-oracle-database10gr2-ee--133153.pdf. Acessado em 12 abril 2010.
ORACLE a, Oracle Corporation. Oracle Database PL/SQL Packages and Types Reference 10g Release 2 (10.2). Disponvel em http://download.oracle.com/docs/cd/B19306_01/appdev.102/b14258/ d_random.htm. Acessado em 12 abril 2010.
PAIVA, N.S., COELI, C.M., MORENO, A.B., GUIMARES, R.M., CAMARGO J R, K.R. Sistema de Informaes sobre Nascidos Vivos: um Estudo de Reviso. Revista Cincia & Sade Coletiva da Associao Brasileira de Ps-Graduao em Sade Coletiva, 2008. Disponvel em < http://www.cienciaesaudecoletiva.com.br/artigos/artigo_int.php?id_art igo=2131 >. Acessado em 12 Setembro 2010.
Referncia Bibliogrfica
181 PACHECO, Antonio G. et al. Validation of a Hierarchical Deterministic Record-Linkage Algorithm Using Data From 2 Different Cohorts of Human Immunodeficiency Virus-Infected Persons and Mortality Databases in Brazil. American J ournal of Epidemiology, v. 168, n. 11, oct. 2008.
PEIXOTO, Srgio Viana et al . Custo das internaes hospitalares entre idosos brasileiros no mbito do Sistema nico de Sade. Epidemiol. Serv. Sade, Braslia, v. 13, n. 4, dez. 2004. Disponvel em <http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679- 49742004000400006&lng=pt&nrm=iso>. Acessado em 02 Setembro 2010. doi: 10.5123/S1679-49742004000400006.
PINHEIRO, R.S., VIEIRA, R.A., COELI, C.M., VIDAL, E.I.O, CAMARGO J R, K.R. Utilizao do SIH-SUS e do SIM para o clculo da mortalidade hospitalar em 30 dias para as Internaes de pacientes com fratura proximal de fmur. Cadernos de Sade Coletiva, Rio de J aneiro, v. 14, n. 2, pp. 337-344, 2006. Disponvel em <http://www.iesc.ufrj.br/csc/2006_2/resumos/kenneth_rochel_2006_2 .pdf>. Acessado em 14 Agosto 2010.
PORTER, E. H.; WINKLER, W. E. Approximate String Comparison and its Effect in an Advanced Record Linkage System. In Alvey and J amerson (ed.) Record Linkage Techniques - 1997, 190-199, National Research Council, Washington, D.C: National Academy Press.
Referncia Bibliogrfica
182 QUEIROZ, Odilon. Vanni et al. Relacionamento de registros de grandes bases de dados: estimativa de parmetros e validao dos resultados, aplicados ao relacionamento dos registros das autorizaes de procedimentos ambulatoriais de alta complexidade com os registros de sistema de informaes hospitalares. Cadernos Sade Coletiva, Rio de J aneiro. 2010 Abr-J un;18(2):298-308.
ROMERO, J .A.R. Demografia: Utilizando o relacionamento de bases de dados para avaliao de polticas pblicas: uma aplicao para o programa bolsa famlia [tese]. Belo Horizonte : Universidade Federal de Minas Gerais Faculdade de Cincias Econmicas; 2008.
ROUQUAYROL, Maria Z. Epidemiologia & Sade 4 Edio. So Paulo: MEDSI Editora Mdica e Cientfica LTDA, 1994.
SANTOS, M. F.; AZEVEDO, C. Data Mining: Descoberta de Conhecimento em Bases de Dados. Lisboa: FCA Editora de Informtica, 2005.
SANTOS, R.S., GUTIERREZ, M.A., TACHINARDI, U., FURUIE, S.S. Projeto de Data Warehouse para a Sade Pblica. Anais do IX Congresso Brasileiro de Informtica em Sade, pp. 131-136, 2004.
SANTOS, R.S., ALMEIDA, A.L., TACHINARDI, U., GUTIERREZ, M.A.. Data Warehouse para a Sade Pblica: Estudo de Caso SES-SP. Anais do X Congresso Brasileiro de Informtica em Sade, pp. 53-58, 2006.
SANTOS, R.S. Informtica em Sade: Ambiente para Extrao de Informao atravs da Minerao das Bases de Dados do Sistema nico de Sade [tese]. So Paulo: Universidade Federal de So Paulo Escola Paulista de Medicina; 2007. Referncia Bibliogrfica
183 SANTOS, R.S., PIRES, F.A., GUTIERREZ, M. A. Minerao de Dados em Bases Assistenciais. Em: NITA, M.E.; CAMPINO, A.C.C.; SECOLI, S.R.; SARTI, F.M.; NOBRE, M.R.C.; editores. Avaliao de Tecnologias em Sade: Evidncia Clnica, Anlise Econmica e Anlise de Deciso. Porto Alegre: Artmed, 2010, p. 96-115.
SANTOS, R.S., GUTIERREZ, M.A.. MINERSUS Ambiente computacional para extrao de informaes para a gesto da sade pblica por meio da minerao dos dados do SUS. Revista Brasileira de Engenharia Biomdica, v. 24, p. 77-94, 2008.
SEMENOVA, Tatiana. Discovering patterns of medical practice in large administrative health databases. Data & Knowledge Engineering, v. 51, p.149160, 2004.
SCHEUREN, F. E.; YOUNG, L. L. P. Linking health records: human rights concerns. International Workshop and Exposition, 1997. Proceedings. Washington DC, 1999, p. 404 - 426.
SIASUS, Ministrio da Sade, Departamento de Informtica do SUS. Sistema de Informaes Ambulatoriais do SUS (SIASUS). Disponvel em <http://portal.saude.gov.br/portal/arquivos/pdf/MANUALSIAAtualizad o.pdf>. Acessado em 12 J ulho 2010.
SIHSUS, Ministrio da Sade, Departamento de Informtica do SUS. Sistema de Informaes Hospitalares do SUS (SIHSUS). Disponvel em <http://www2.datasus.gov.br/DATASUS/index.php?area=040502>. Acessado em 12 J ulho 2010. Referncia Bibliogrfica
184
SILVEIRA, D.P.; ARTMANN, E. Acurcia em mtodos de relacionamento probabilstico de bases de dados em sade: reviso sistemtica. Rev Sade Pblica. 2009; 43(5):875-82.
SIM, Ministrio da Sade, Fundao Nacional de Sade. Manual de Procedimentos do Sistema de Informaes sobre Mortalidade. Disponvel em <http://bvsms.saude.gov.br/bvs/publicacoes/sis_mortalidade.pdf>. Acessado em 12 J ulho 2010.
SINAN, Ministrio da Sade, Secretaria de Vigilncia em Sade, Departamento de Vigilncia Epidemiolgica. Sistema de Informao de Agravos de Notificao (SIANAN). Disponvel em < http://portal.saude.gov.br/portal/arquivos/pdf/manual_sinan.pdf>. Acessado em 12 J ulho 2010.
SINASC, Ministrio da Sade, Fundao Nacional de Sade. Manual de Procedimentos do Sistema de Informaes sobre Nascidos Vivos. Disponvel em <http://bvsms.saude.gov.br/bvs/publicacoes/sis_nasc_vivo.pdf>. Acessado em 12 J ulho 2010.
SQL. Information Technology - Database Language SQL. ISO/IEQ 9075:1992. Disponvel em <http://www.iso.org/iso/iso_catalogue/catalogue_ics/ catalogue_detail_ics.htm?csnumber=16663>. Acessado em 18 J ulho 2010. Referncia Bibliogrfica
185
SOUSA, M.H.; CECATTI, J .G.; HARDY, E; SERRUYA, S.J . Relacionamento probabilstico de registros: uma aplicao na rea de morbidade materna grave (near miss) e mortalidade materna. Cad. Sade Pblica, Rio de J aneiro. 2008 Mar; 24(3):653-62.
SOUZA, Rmulo Cristovo de; FREIRE, Sergio Miranda; ALMEIDA, Rosimary Terezinha de. Sistema de informao para integrar os dados da assistncia oncolgica ambulatorial do Sistema nico de Sade. Cad. Sade Pblica, Rio de J aneiro, v. 26, n. 6, J une 2010 .Disponvel em <http://www.scielosp.org/scielo.php?script= sci_arttext&pid=S0102-311X2010000600007&lng=en&nrm=iso>. Acessado em 05 Setembro 2010. doi: 10.1590/S0102- 311X2010000600007.
STEPHEN E. Brossette, ALAN P. Sprague, HARDIN J . Michael, KEN B. Waites, WARREN T. J ones, STEPHEN A. Moser. Associations Rules and Data Mining in Hospital Infection Control and Public Health Surveillance, J ournal of the American Medical Informatics Association, V. 5 N. 4 (1998) 3713-181.
TEIXEIRA, C.L.S; BLOCK, K.V.; KLEIN, C.H.; COELI, C.M. Mtodo de relacionamento de bancos de dados do Sistema de Informaes sobre Mortalidade (SIM) e das autorizaes de internao hospitalar (BDAIH) no Sistema nico de Sade (SUS), na investigao de bitos de causa mal-definida no Estado do Rio de J aneiro, Brasil, 1988. Epidemiologia e Servios de Sade. 2006 J an-Mar;15(1):47- 57.
Referncia Bibliogrfica
186 THOMSEN, E. OLAP: Construindo sistemas de informaes multidimensionais. Rio de J aneiro: Campus, 2002.
TROMP, M, RAVELLI A. C., BONSEL, G. J . HASMAN, A. REITSMA, J . B. Results from simulated data sets: probabilistic record linkage outperforms deterministic record linkage. J ournal of Clinical Epidemiology. 2011;64(5):565-572. DOI: 10.1016/j.jclinepi.2010.05.008.
VIRNIG, B. A., McBean, M. Administrative data for Public Health Surveillance and Planning. Annual Review of Public Health. Volume 22, Page 213-230, 2001. Disponvel em <http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.2 2.1.213>. Acessado em 27 de Setembro 2010.
YANG, Wan-Shiou, WANG San-Yih. A process-mining framework for the detection of healthcare fraud and abuse, Expert Systems with Applications v. 31, pp. 5668, 2006.
Somos o que repetidamente fazemos, portanto, a excelncia no um feito, mas um hbito.
DIETA DASH PARA INICIANTES: Obtenha uma vida saudável perdendo peso de forma rápida, saudável e equilibrada. Reduzir a pressão arterial, inchaço abdominal e inflamação corporal