You are on page 1of 25

TEMA 34 – RECORD LINKAGE (VINCULACIÓN DE REGISTROS)

34.1 – INTRODUCCIÓN

Record Linkage consiste en métodos para hacer coincidir duplicados dentro o entre
archivos usando identificadores no únicos como nombre, apellido, fecha de
nacimiento, dirección y otras características.

Los campos como nombre, apellido, fecha de nacimiento y dirección se denominan


quasi-identificadores. En combinación, los quasi-identificadores pueden identificar de
manera única a un individuo.

La vinculación de los registros informáticos modernos se inició con los métodos


introducidos por un genetista llamado Howard Newcombe (Newcombe y otros, 1959),
que usaron la razón de momios (RM), razón de oportunidades o razón de
probabilidades —en inglés, odds ratio (OR) (probabilidades) y las probabilidades
basadas en el valor específico del valor (valor común del apellido "Smith" tiene menos
poder distintivo que el valor raro "Zabrinsky"). Fellegi y Sunter (1969, en adelante FS)
dieron una formalización matemática de las ideas de Newcombe. Ellos demostraron la
optimalidad de la regla de decisión (clasificación) de Newcombe e introdujeron
muchas ideas sobre la estimación de parámetros óptimos (probabilidades usadas en
las relaciones de verosimilitud) sin datos de entrenamiento.

En este capítulo, daremos antecedentes sobre el modelo de FS y varios de los métodos


prácticos que son necesarios para tratar con (a menudo excepcionalmente) el
desorden de los datos. Aunque los métodos se basan en modelos estadísticos, la
mayor parte del desarrollo ha sido realizado por científicos informáticos utilizando
métodos de aprendizaje automático o de bases de datos (Winkler, 2006a). Los
informáticos se refieren a la vinculación de registros como la resolución de la entidad,
la identificación del objeto, o una serie de otros términos.

Las aplicaciones del Record Linkage son numerosas. En algunas situaciones, podríamos
usar una colección de listas para crear una lista grande (marco de encuesta) o
actualizar una lista grande existente.

La actualización y mantenimiento de la lista puede asegurar que tenemos buena


cobertura de una población deseada. Las mayores aplicaciones de Record Linkage son
a menudo durante un censo de población o en la actualización de una lista
administrativa como un directorio nacional de salud o índice de defunción. La gran
variación tipográfica o error en campos como nombre, apellido y fecha de nacimiento
en una proporción moderada de registros puede dificultar la actualización.
Históricamente, algunas agencias tienen un personal a tiempo completo dedicado a
limpiar las listas (principalmente manualmente). Si no lo hicieron, entonces un 1-3% de
error o más podría entrar en las listas cada año. Los métodos de vinculación de

1
registros computarizados pueden reducir significativamente la necesidad de revisiones
en la oficina y limpieza.

Otra aplicación del Record Linkage podría ser la coincidencia de una lista con otra lista
para estimar la subcobertura / sobrecobertura de una de las listas que se cree que es
razonablemente completa. Para el Censo de los Estados Unidos (Winkler, 1995), un
gran número de bloques censales (regiones contiguas de aproximadamente 70
hogares) fueron reenumerados y comparados con la lista principal de individuos. Los
procedimientos computarizados redujeron la revisión clerical (en la oficina) de un
estimado de 3000 individuos durante 6 meses a 300 individuos durante 6 semanas.
Debido a la alta calidad de las listas y las habilidades asociadas de los individuos, las
tasas de coincidencia falsa de los procedimientos computarizados fueron de
aproximadamente 0,2%. Más del 85% de las búsquedas se encontraron
automáticamente con el resto de las búsquedas fácilmente ubicadas entre las
personas potencialmente coincidentes en el mismo hogar. Los individuos
potencialmente coincidentes solían faltar tanto el nombre como la edad.

Otras aplicaciones de Record Linkage podrían implicar experimentos de re-


identificación en los que un archivo de uso público sólo contiene campos necesarios
para análisis demográficos o económicos.

Estos campos pueden incluir un geocódigo, sexo, edad o rango de edad, nivel de
educación y nivel de ingresos. Las agencias liberan datos anónimos o enmascarados
para que se puedan realizar análisis estadísticos adicionales, pero no desean que los
"intrusos" reidentificen individuos o datos asociados con individuos colocando
nombres con registros individuales. Sweeney (1999) mostró que el 77% de los
individuos pueden ser identificados de manera única por el código postal, el sexo y la
fecha de nacimiento, que están fácilmente disponibles en listas públicas tales como
bases de datos de registro de votantes.

Hasta el trabajo de Sweeney, muchos archivos de salud de uso público contenían


código postal, sexo y fecha de nacimiento. Winkler (1998), Sweeney (1999) y
Evfimievski (2004) demostraron cómo reidentificar usando una combinación de
propiedades analíticas y vinculación de registros. No cubrimos la re-identificación en
este capítulo.

El enlace de registro puede aumentar la cantidad de cobertura y reducir la cantidad de


duplicación en un marco de encuesta. Los errores de trama pueden sesgar gravemente
el muestreo y la estimación. Es casi imposible corregir errores en las estimaciones que
se basan en el muestreo de un marco con error moderado (Deming y Gleser, 1959).
Después de aplicar la vinculación de registros sofisticados, el Censo de Agricultura de
1992 (Winkler, 1995) contenía duplicación del 2%, mientras que el Censo de
Agricultura de 1987 contenía una duplicación del 10%.

2
Las tasas de duplicación se basan en la validación de campo. Algunas estimaciones del
Censo de Agricultura de 1987 con un 10% de error de duplicación pueden haber sido
sustancialmente sesgadas.

El esquema de este capítulo es el siguiente. En la segunda sección que sigue a esta


introducción damos antecedentes sobre el modelo de vinculación de registros de
Fellegi y Sunter (1969), métodos de estimación de parámetros sin datos de
entrenamiento, comparadores de cadenas para tratar errores tipográficos, un ejemplo
empírico y algunos comentarios breves sobre datos de entrenamiento . La tercera
sección proporciona detalles de las dificultades con la preparación de datos
desordenados para la vinculación. Tradicionalmente, la preparación de archivos ha
producido mayores mejoras en la eficacia de comparación que cualquier otra mejora.
En la cuarta sección describimos métodos para la estimación de la tasa de error sin
datos de entrenamiento, métodos para ajustar los análisis estadísticos de los archivos
combinados para el error de vinculación y técnicas para acelerar el enlace de registros.
La última sección consiste en observaciones finales.

34.2 – VISIÓN DE CONJUNTO DE LOS MÉTODOS

En esta sección, proporcionamos resúmenes de ciertas ideas de Record Linkage.


Aunque las ideas se basan en modelos estadísticos, el desorden de los datos y la
dificultad de desarrollar ciertos algoritmos para la estimación y la comparación han
limitado la capacidad de los organismos estadísticos para crear sistemas informáticos
generalizados que pueden ser utilizados en una variedad de sus aplicaciones.

34.2.1. El modelo Fellegi-Sunter de Record Linkage

Fellegi y Sunter (1969) proporcionaron un modelo matemático formal para las ideas
que habían sido introducidas por Newcombe (Newcombe et al., 1959, Newcombe y
Kennedy, 1962). Proporcionaron muchas maneras de estimar parámetros clave. Los
métodos han sido redescubiertos en la literatura de informática (Cooper y Maron,
1978), pero sin pruebas de optimalidad. Para comenzar, la notación es necesaria. Dos
archivos A y B coinciden. La idea es clasificar pares en un espacio de producto A × B de
dos archivos A y B en M, el conjunto de coincidencias verdaderas, y U, el conjunto de
no coincidencias verdaderas. Fellegi y Sunter, haciendo conceptos rigurosos
introducidos por Newcombe et al. (1959), consideró relaciones de probabilidades de la
forma:

R = P(γ ∈ Г|M)/P(γ ∈ Г |U) (1)

3
donde γ es un patrón de acuerdo arbitrario en un espacio de comparación. Por
ejemplo, "puede consistir en ocho patrones que representan un acuerdo simple o no
en el componente de nombre más grande, nombre de calle y número de calle.
Alternativamente, cada γ ∈ Г también podría tener en cuenta la frecuencia relativa con
la que se producen valores específicos de componentes de nombres como "Smith",
"Zabrinsky", "AAA" y "Capitol". La relación R o cualquier función monotonamente
creciente de la misma, tal como el registro natural, se denomina peso (o puntaje)
coincidente.

La regla de decisión está dada por:

 Si R> Tμ, entonces designe par como una coincidencia. (2)


 Si Tλ ≤ R ≤ Tμ, entonces designe el par como una posible coincidencia y
retención para la revisión clerical. (2)
 Si R <Tλ, entonces designar par como un nonmatch ( no coincidente).

Los umbrales de corte Tμ y Tλ están determinados por límites de error a priori en


coincidencias falsas y falsas no coincidencias. La regla (2) está de acuerdo con la
intuición. Si γ ∈ Г Consiste principalmente en acuerdos, entonces es intuitivo que γ ∈ Г
Sería más probable que ocurriera entre los partidos que no coincidencias y la
proporción (1) sería grande. Por otro lado, si γ ∈ consiste principalmente en
desacuerdos, entonces la relación (1) sería pequeña. La regla (2) divide el conjunto γ ∈
Г En tres subregiones disjuntas. La región Tλ ≤ R ≤ Tμ se denomina región sin decisión o
región de revisión clerical. En algunas situaciones, se dispone de recursos para revisar
clericamente los pares.

La Tabla 1 proporciona ejemplos de pares de registros que pueden coincidir usando


nombre, dirección y edad. Los pares dan la primera indicación de que la coincidencia
que podría ser sencilla para una persona calificada adecuadamente podría no ser fácil
con reglas ingenuas basadas en (1) y (2). Si el patrón de acuerdo γ ∈ Г en los pares es

4
simple de acuerdo o en desacuerdo sobre el nombre, la dirección y la edad, entonces
vemos que ninguna de las parejas estaría de acuerdo en cualquiera de los tres campos.
En la mayoría de las situaciones, una persona adecuadamente experta sería capaz de
reconocer que los dos primeros pares pueden ser iguales, pero es poco probable que
pongan una puntuación adecuada (o peso coincidente) en los dos primeros pares. El
tercer par debe ser tomado en contexto. Si el primer expediente en el par eran
individuos en la escuela de medicina en la universidad de Michigan 20 años y el
segundo expediente está de una lista actual de médicos en Detroit, Michigan, después,
después del seguimiento apropiado, podríamos determinar que el tercer Par es una
coincidencia.

Si tuviéramos algoritmos de análisis computarizado para separar el campo de nombre


de forma libre en nombre, inicial de segundo nombre y apellido y dirección en número
de casa, nombre de calle y otros componentes, entonces podríamos tener mejores
patrones γ ∈ Г Para la aplicación de (1) y (2). Si tuviéramos algoritmos adecuados para
comparar campos (por ejemplo, Javier vs. Haveir) con un error tipográfico, podríamos
estar dando un acuerdo parcial a un error tipográfico menor en lugar de llamar a una
comparación un desacuerdo. Además, podríamos desear que las rutinas de
estandarización reemplacen las palabras comunes con una ortografía común ("Raod"
con "Road" en el par dos, "Aev" con "Ave" en el par tres).

34.2.2. Parámetros de aprendizaje

Los primeros sistemas de Record Linkage a menudo se aplicaban a grandes listas


administrativas, como un índice nacional de salud. Los campos típicos eran nombre,
dirección, fecha de nacimiento, ciudad de nacimiento, y varios campos asociados con
la información de salud. La lista administrativa principal podría limpiarse en el sentido
de que muchos componentes del nombre, dirección y otros campos se revisaron y
cambiaron manualmente. A medida que avanzaba el tiempo, los procedimientos
manuales más fáciles fueron reemplazados por procedimientos computarizados que
imitaban los procedimientos manuales. Por ejemplo, es fácil convertir apodos a
posibles nombres legales ("Bob" → "Robert") o errores ortográficos obvios ("Smitn" a
"Smith") usando tablas de consulta de la revisión manual previa.

En prácticamente todas las situaciones del mundo real de las que somos conscientes,
los datos de formación no han estado disponibles. Los profesionales han desarrollado
varias maneras de aprender parámetros óptimos de Record Linkage sin datos de
entrenamiento. En todas menos una de las siguientes subsecciones, describiremos
métodos de aprendizaje no supervisado donde los datos de entrenamiento no están
disponibles.

5
34.2.2.1. Ideas de Newcombe

Las ideas de Newcombe (Newcombe et al., 1959, Newcombe y Kennedy, 1962) se


basan en razón de momios que son efectivamente relaciones de verosimilitud. Empezó
con una gran lista administrativa que representaba a toda una población. La lista se
había limpiado en el sentido de que se eliminaron los duplicados y se eliminó la
ortografía o el formato inconsistente. Sea un archivo con registros Ns (filas) y campos
Nc (columnas).

Newcombe deseaba dividir pares en C × C en coincidencias M y no-coincidencias U.


Aunque conocía la respuesta, deseaba poder igualar archivos externos A contra C
usando las probabilidades (probabilidades condicionales) que desarrolló de emparejar
C contra sí mismo. Que Ai represente un acuerdo en el campo i, Aci represente
desacuerdo en el campo i y Axi represente un acuerdo o desacuerdo en el campo i,
pero no ambos.

La primera suposición simplificadora de Newcombe es la suposición de independencia


condicional (CI) que condiciona estar en el conjunto de coincidencias M o no
coincidencias U acuerdo en el campo i es independiente del acuerdo en el campo j.

donde D es M o U. Bajo la condición (CI), Newcombe calculó entonces las


probabilidades asociadas con cada valor de un campo específico. La intuición es unir
los pares en valores comunes de campos individuales. Por ejemplo, con el apellido
podríamos considerar parejas de acuerdo en Smith o Zabrinsky. Sea (fij), 1 ≤ j ≤ Ij,
representan las frecuencias específicas (número de valores) del i-ésimo campo. El
número de coincidencias en N y el número de no coincidencias es N × N-N. Entre las
coincidencias M, hay pares fij que coinciden en el j-ésimo valor del i-ésimo campo.
Entre los no coincidentes U, existen pares fij × fij - fij que coinciden en el j - ésimo valor
del i - ésimo campo. Entonces, el odds ratio de acuerdo sobre el j-ésimo valor del
campo i-ésimo es

Si los pares se toman de dos archivos (es decir, el espacio de producto de A × B),
entonces podemos usar fij como la frecuencia en A, gij como la frecuencia en B, hij
como la frecuencia en A ∩ B (que se suele aproximar con Hij = min (fij, gij)), y hacer los
cambios apropiados en (4). Observamos que la suma de las probabilidades del

6
numerador en la ecuación (4) suma a 1. En la práctica, asumimos que la suma de las
probabilidades es 1-ε donde ε> 0 y multiplicamos todos los numeradores en la
ecuación (4) por 1-ε. Esto permite una pequeña probabilidad de desacuerdo ε> 0 y P
(A1 | M) = 1 - ε. Los valores de ε> 0 fueron elegidos por la experiencia. En algunas
situaciones hubo revisión clerical en un subconjunto de parejas y el P (A 1 | M) fueron
reestimados. Aunque la reestimación (posiblemente después de varias iteraciones) era
engorrosa, funcionó bien en la práctica. Newcombe y otros habían observado que las
probabilidades en el denominador podían ser aproximadas por probabilidades de
acuerdo aleatorio

La fórmula (5) es una aproximación razonable cuando no se conoce el conjunto de


coincidencias M. Existen probabilidades equivalentes de acuerdo al azar en el caso de
A × B. Sólo había unos pocos métodos para tratar el error tipográfico. Al recibir y
teclear datos, ciertos errores de ortografía evidentes ("William" vs. "Willam" o "Bill" vs.
"William") podrían ser cambiados por un analista. Las variaciones tipográficas
previamente determinadas podrían situarse en las tablas de búsqueda que podrían
utilizarse para sustituir una ortografía por otra. La intención en todas las situaciones
era aumentar la proporción de emparejamientos que se encontraron.

34.2.2.2. Los métodos de Fellegi y Sunter

Fellegi y Sunter (1969, Teorema 1) demostraron la optimalidad de la regla de


clasificación dada por (2). Su demostración es muy general en el sentido en que
sostiene para cualquier representación γ ∈ Г Sobre el conjunto de pares en el espacio
de producto A × B de dos archivos. Como se observó, la calidad de los resultados de la
regla de clasificación (2) dependía de la exactitud de las estimaciones de P (γ ∈ Г | M) y
P (γ ∈ Г | U).

Fellegi y Sunter (1969) fueron los primeros en dar métodos muy generales para
calcular estas probabilidades en situaciones que difieren de las situaciones de
Newcombe en la sección anterior. Como los métodos son útiles, describimos lo que
introdujeron y luego mostrar cómo las ideas condujeron a métodos más generales que
se pueden utilizar para el aprendizaje sin supervisión (es decir, sin datos de
entrenamiento) en un gran número de situaciones. Fellegi y Sunter observaron varias
cosas. Primero,

7
Para cualquier conjunto A de pares en A × B. La probabilidad a la izquierda se puede
calcular directamente del conjunto de pares. Si los conjuntos A representan un simple
acuerdo / desacuerdo, bajo la condición (CI), obtenemos

Entonces (6) y (7) proporcionan siete ecuaciones y siete incógnitas (como x


representan de acuerdo o en desacuerdo) que proporcionan ecuaciones cuadráticas
que resolvieron. Aquí D es M o U. La ecuación (o conjunto de ecuaciones) (7) es
esencialmente igual a la ecuación (3) y puede ampliarse a campos K. Aunque hay ocho
patrones asociados con las ecuaciones de la forma (7), eliminamos uno porque las
probabilidades deben sumar a una. En general, con más campos pero aún un simple
acuerdo / desacuerdo entre campos, las ecuaciones pueden resolverse a través del
algoritmo EM en la siguiente sección. Las probabilidades de la forma P (Ai | D) se
denominan m-probabilidades si D = M y u-probabilidades si D = U.

Fellegi y Sunter proporcionaron métodos más generales para la concordancia basada


en la frecuencia (valor-específica) que los de Newcombe. Específicamente, obtuvieron
las probabilidades generales de acuerdo simple / desacuerdo y luego escalaron las
probabilidades basadas en la frecuencia a los pesos de acuerdo / desacuerdo. Si A1
representa un acuerdo en el primer campo y vj, 1 ≤ j ≤ I1, son los valores del primer
campo, entonces

Donde D es M o U. Típicamente, P (Ai | M) <1 para los simples pesos de acuerdo /


desacuerdo en el campo i. Esto refleja el hecho de que hay menos del 100% de
acuerdo en el campo i-ésimo. Superficialmente, podemos pensar en el 1-P (Ai | M)
como la tasa promedio de "error tipográfico" en el campo i-ésimo. Para hacer la
ecuación (8), válido bajo ciertas restricciones, FS asumió que la tasa de errores
tipográficos era constante sobre todos los valores vj, 1 ≤ j ≤ I1, asociado al i-ésimo
campo. Winkler (1989b) amplió las ideas basadas en la frecuencia de FS mostrando
cómo hacer el cálculo bajo suposiciones significativamente más débiles. Los detalles de
los cálculos (que hemos simplificado en gran medida) se dan en sus trabajos (FS,
Winkler 1989b).

Hay una serie de suposiciones implícitas que se hacen a menudo cuando se comparan
dos archivos y las probabilidades de cálculo utilizando (6) - (8). La primera es que existe
una superposición significativa entre dos ficheros A y B. Esto significa esencialmente
que A ∩ B es o bien la mayor parte de A o la mayor parte de B. Si esta suposición no es
verdadera, entonces las probabilidades obtenidas a través de los métodos de
Newcombe o el FS Métodos pueden no funcionar bien. La segunda suposición es que

8
ni el archivo A ni B pueden ser muestras simultáneamente de dos archivos más
grandes A2 y B2. Deming y Gleser (1959) proporcionaron una teoría que demostraba la
falta de fiabilidad de determinar el solapamiento de muestreo (es decir, el número de
duplicados) de dos archivos de muestra. Por ejemplo, si A2 = B2 contienen 1000
registros en los que el 1% tiene el apellido de Smith, entre los coincidencias M entre A2
y B2, existe una probabilidad del 1% de ser un par de acuerdo en que Smith es
realmente una relación. Si A y B son muestras del 10% de A2 y B2, respectivamente,
entonces entre los fósforos entre A y B, hay una probabilidad del 0.1% de un par que
conviene en Smith que es realmente una relación. La tercera suposición es que las
tasas de errores tipográficos son bastante bajas por lo que los cálculos basados en la
frecuencia basada en los diferentes valores observados de los campos son válidos. Si
un valor relativamente raro de apellido como Zabrinsky tiene seis ortografías
diferentes en los seis registros en los que apareció, entonces no es posible calcular
probabilidades exactas basadas en la frecuencia directamente del archivo.

En la práctica, es necesario realizar el bloqueo de dos archivos que afectan cómo se


reúnen los pares. Si dos archivos A y B contienen 10.000 registros, entonces hay 10 8
pares en el producto A × B. Hasta muy recientemente, no pudimos hacer el cálculo de
108 pares. En el bloqueo, sólo consideramos pares que coinciden en ciertas
características.

Por ejemplo, sólo podemos considerar pares que coinciden en la primera inicial de
nombre, apellido y fecha de nacimiento. Si creemos (posiblemente basado en la
experiencia previa) que no estamos obteniendo una proporción suficientemente
grande de relaciones con un primer criterio de bloqueo, podemos intentarlo un
segundo. Por ejemplo, sólo podemos considerar pares que coinciden en la primera
inicial del nombre, la primera inicial del apellido y el código ZIP + 4 (que representa
aproximadamente 50 hogares). FS dio las extensiones teóricas directas para el
bloqueo. Al realizar el cálculo sobre los pares P1 en A × B obtenidos mediante el
bloqueo, hay un cuarto supuesto implícito: que los pares en P 1 contienen una
proporción moderadamente alta de coincidencias (digamos 3 +% de P1 consta de
coincidencias). En la siguiente sección, regresamos a la proporción mínima necesaria
de pares que necesitan ser coincidencias en situaciones más generales. Los métodos
para obtener las probabilidades dadas por (6) - (8) se descomponen cuando la
proporción de coincidencias de M en el conjunto de pares P 1 es demasiado baja. Los
cálculos también se descomponen si hacemos el cálculo sobre los 10 8 pares en A × B.
En A × B, como máximo 0,01% de los pares son coincidencias. En la siguiente sección,
mostraremos cómo podemos encontrar efectivamente probabilidades razonables en
una variedad de situaciones.

9
34.2.2.3. Algoritmo de maximización de expectativas (EM algorithm )

En esta sección, no vamos a entrar en muchos detalles sobre el algoritmo básico EM


porque el algoritmo básico es bien entendido. Proporcionamos una cantidad
moderada de detalle para la aplicación de Record Linkage, de modo que podemos
describir una serie de limitaciones del EM y algunas de las extensiones.

Para cada γ ∈ Г, Consideramos

Y tener en cuenta que la proporción de pares que tienen representación γ ∈ Г [Es decir,
el lado izquierdo de la Ec. (8)] se puede calcular directamente a partir de los datos
disponibles. En cada una de las variantes, ya sea M y U, C1 y C2, o C1, C2 y C3 partición A
× B.

Si el número de campos asociados con P (γ) es K> 3, entonces podemos resolver la


combinación de ecuaciones dadas por (8) y (7) usando el algoritmo EM. Aunque
existen métodos alternativos para resolver la ecuación tales como métodos de
momentos y mínimos cuadrados, el EM es preferido debido a su estabilidad numérica.
Bajo CI, la programación se simplifica y el cómputo se reduce mucho (de 2k a 2k).

Se debe tener cuidado al aplicar el algoritmo EM a datos reales. El algoritmo EM que se


ha aplicado al Record Linkage es un algoritmo de clase latente que tiene la intención
de dividir A × B en los conjuntos deseados de pares M y U. La probabilidad de un
indicador de clase que determina si un par está en M o U son datos que faltan y deben
ser estimados junto con las probabilidades m y u. Puede ser necesario aplicar el
algoritmo EM a un subconjunto S de pares en A × B en el que se concentran la mayoría
de las coincidencias M, para lo cual los campos utilizados para la concordancia pueden
separar claramente M de U y para los cuales las probabilidades iniciales adecuadas
puede ser elegidas. Debido a que el EM es un algoritmo de maximización local, las
probabilidades de inicio puede que tenga que ser elegidas con cuidado sobre la base
de la experiencia con tipos similares de archivos. Debido a que el algoritmo de clase
latente EM es un algoritmo de agrupación general, no hay garantía de que el algoritmo
divida A × B en dos clases C1 y C2 que corresponden casi exactamente a M y U.

El ejemplo siguiente caracteriza algunas de las precauciones que deben observarse al


aplicar el EM. Como veremos, el EM, cuando se aplica correctamente, puede
suministrar parámetros limitadores finales que son bastante efectivos. En el extenso
trabajo del Censo Decenal, observamos que los parámetros limitantes finales a
menudo reducían el tamaño de la región de revisión clerical en 2/3 de la región que

10
podría haber sido obtenida por los parámetros iniciales obtenidos a partir de
conjeturas bien informadas. En el siguiente, utilizamos los datos del Censo del Ensayo
de Vestir 1988 de una de las 457 regiones de los Estados Unidos que usamos para el
Censo Decenal de 1990. Los campos coincidentes constan de apellido, nombre,
número de casa, nombre de la calle, teléfono, edad y sexo. En la actualidad, también
utilizamos inicial medio, unidad (identificador de apartamento) y estado civil. El primer
archivo A es una muestra de bloques de la región y el segundo archivo es una
enumeración independiente de la misma muestra de bloques. El primer tamaño de
archivo es 15.048 y el segundo tamaño de archivo es 12.072.

En la primera parte del ejemplo, sólo consideramos 116,305 parejas que coinciden en
el identificador del bloque del Censo y el primer carácter del apellido y, en la segunda
parte, consideramos solamente las 1.354.457 parejas que coinciden en identificar el
bloque del Censo solamente. Un bloque censal consta de aproximadamente 70
hogares, mientras que un área ZIP + 4 representa aproximadamente 50 hogares.
Observamos que puede haber un máximo de 12.072 coincidencias si el archivo más
pequeño es un subconjunto exacto del archivo más grande. Como es típico en los
censos de población, el trabajo comienza con listas de direcciones de hogares en las
que los datos de los formularios de encuesta se utilizan para rellenar información
asociada con individuos. En muchas situaciones (como en las familias), habrá más de
un individuo asociado con cada dirección (unidad de vivienda).

Comenzamos aplicando el ME de 2 clases al conjunto de 110.305 pares. Utilizamos


probabilidades iniciales conocidas que creemos que corresponden a las probabilidades
que necesitamos para hacer coincidir individuos. También usamos un programa
precursor para obtener los recuentos (o probabilidades) de la forma P (γ) que usamos
en el algoritmo EM. En el límite, obtenemos las probabilidades finales dadas en la
Tabla 2. La proporción final de coincidencias en la primera clase P (M) = 0.2731 es
demasiado grande. La m-probabilidad P (de acuerdo primero | M) = 0.31 es demasiado
pequeña. ¿Qué ha ido mal? Observamos que las direcciones son de alta calidad.

Debido a que estamos en regiones contiguas muy pequeñas (bloques), el apellido, el


número de la casa, el nombre de la calle y el teléfono es probable que sean los mismos
en la mayoría de las unidades de vivienda asociadas con las familias. La información de
la familia de mayor calidad supera a la persona los campos de nombre, edad y sexo
que podrían ser utilizados para separar a los individuos dentro del hogar

11
Superamos la situación creando un EM de 3 clases que esperamos que divida los
registros acordando las variables del hogar en 2 clases y deja una tercera clase que
sería no coincidencias fuera de los hogares. Las ideas iniciales se debieron a Smith y
Newcombe (1975), quienes proporcionaron ajustes ad hoc de ponderación
(verosimilitud) para el conjunto de campos de personas y el conjunto de campos de
hogares.

Sus ideas han sido verificadas por Gill (1999), entre otros. Como el algoritmo EM es
muy sencillo de convertir a 3-clases, hacemos los ajustes algorítmicos apropiados y
elegimos probabilidades de inicio apropiadas. Winkler (1993b) proporciona detalles. La
tabla 3 da las probabilidades iniciales para una primera clase que esperamos
corresponde a la persona corresponde a M dentro de un hogar, una clase intermedia I
que esperamos corresponde a no coincidencias dentro del mismo hogar, y una clase O h
que son pares que no están de acuerdo en los campos del hogar . Para obtener las u-
probabilidades finales, combinamos las probabilidades i y o h probabilidades de
acuerdo con las proporciones en las clases 2 y 3.

Cuando ejecutamos el programa EM, obtenemos probabilidades de estar en las tres


clases de 0.0846, 0.1958 y 0.7196, respectivamente. La probabilidad 0.0846 asociada
con la primera clase corresponde exactamente al número conocido de coincidencias
verdaderas (obtenido a través de dos niveles de revisión y un nivel de adjudicación).
Observe que las i-probabilidades iniciales son suposiciones razonables para las
probabilidades de las personas dentro del mismo hogar que no son coincidencias.

12
Si aplicamos el algoritmo de EM de 3 clases a los 1,354,457 pares que están de acuerdo
en el bloque (pero no el bloque más el primer carácter del apellido) y usamos buenas
suposiciones iniciales para las probabilidades, entonces obtendremos probabilidades
m similares de "m" como lo hicimos en Tabla 3. Esto es cierto aunque la proporción
estimada de parejas en la primera clase es 0,0081. En general, cuando empezamos con
conjuntos de pares que son demasiado grandes, el algoritmo EM no convergerá a
estimaciones que no sean razonables para separar los pares de los otros pares. El
algoritmo EM cuando se aplica al conjunto mucho mayor de pares puede ser mucho
más sensible al conjunto de puntos de partida.

Si el algoritmo EM se aplica con cuidado, entonces generalmente generará buenas


estimaciones de parámetros con listas de individuos. No siempre producirá listas
razonables con listas de agricultura o de negocios debido a la proporción
(moderadamente) alta de pares verdaderamente coincidentes que no están de
acuerdo en los nombres o en las direcciones. Winkler (1989a) había sido capaz de
demostrar que las probabilidades de coincidencia (particularmente las probabilidades
m) variaban significativamente (digamos, entre un área suburbana y una zona
adyacente área urbana). Si pensamos en 1 - P (Ai | M) como crudamente
representando el error tipográfico promedio en el campo i, entonces la variación de
parámetros es comprensible porque las listas asociadas con áreas urbanas a menudo
contienen más errores tipográficos.

Winkler (1988, 1989a) mostró que el algoritmo EM proporcionaba "parámetros


óptimos" en el sentido de máximos locales efectivos de la probabilidad. Los algoritmos
EM de clase 2 y 3-clase bajo condición (CI) son bastante robustos. Si los puntos de
partida varían sustancialmente, el EM converge a los mismos valores de limitación en
los que los valores de limitación son determinados por las características de los
archivos A y B. El algoritmo de 2 clases superará al algoritmo de 3 clases en situaciones
en las que típicamente sólo hay una en una dirección (o número de teléfono). En esas
situaciones, la dirección puede considerarse un identificador de la entidad individual.

Durante la identificación de correspondencia de 1990, el algoritmo EM mostró su


flexibilidad. En tres regiones entre varias regiones procesadas en una semana, la
revisión clerical se hizo mucho más grande con los parámetros EM de lo que se
esperaba. Tras una rápida revisión, descubrimos que dos keypunchers habían logrado
evitar los cambios en el año de nacimiento. Todos los registros de estos keypunchers
no estaban de acuerdo con la edad calculada. La revisión clerical se hizo mucho más
grande porque el primer nombre y la edad eran los campos principales para separar a
personas dentro de un hogar.

13
En términos más generales, tal vez queramos dar cuenta de las dependencias
directamente usando modelos loglineales apropiados (Bishop et al., 1975). Winkler
(1993b) proporciona un algoritmo general de EMH que explica las interacciones
generales entre campos y permite que las restricciones convexas predispongan ciertas
probabilidades estimadas en regiones basadas en una información a priori utilizada en
proyectos similares de comparación. El algoritmo EMH es una forma de algoritmo
MCECM (Meng y Rubin, 1993) que además permite restricciones convexas. La
interacción EM puede producir parámetros que producen ligeras mejoras en la eficacia
de la concordancia. Es mucho más difícil de aplicar debido a su sensibilidad a cambios
moderados en el conjunto de interacciones. Winkler (1993b) y Larsen y Rubin (2001)
demostraron que se pueden seleccionar conjuntos efectivos de interacciones
basándose en la experiencia. El punto de partida para la interacción EM es el conjunto
de parámetros del CI EM.

34.2.3. Comparadores de cadenas

En la mayoría de las situaciones coincidentes, obtendremos un pobre rendimiento


coincidente cuando comparemos dos cadenas exactamente (carácter por carácter)
debido a un error tipográfico. El tratamiento del error tipográfico a través de la
comparación aproximada de cadenas ha sido un importante proyecto de investigación
en informática (ver, por ejemplo, Hall y Dowling, 1980; Navarro, 2001). En el Record
Linkage, necesitamos tener una función que represente un acuerdo aproximado,
estando el acuerdo representado por 1 y los grados de acuerdo parcial representados
por números entre 0 y 1. También necesitamos ajustar las relaciones de verosimilitud
(1) de acuerdo con la relación parcial Acuerdo valores. Tener estos métodos es crucial
para hacer coincidir. Por ejemplo, en una aplicación de censo mayor para medir el
recuento insuficiente, más del 25% de las relaciones no se habrían encontrado
mediante la coincidencia exacta de caracteres por caracteres. En la Tabla 4 se
consideran tres regiones geográficas (St. Louis, Columbia, MO, suburbana y
Washington, suburbano / rural).

La función Φ representa un acuerdo exacto cuando toma el valor 1 y representa un


acuerdo parcial cuando toma valores inferiores a 1. En la región de St. Louis, por
ejemplo, el 25% de los nombres y el 15% de los apellidos no coinciden con el carácter
entre pares que son relaciones. Jaro (1989) introdujo un comparador de cadenas que
explica las inserciones, deleciones y transposiciones. El algoritmo básico de Jaro tiene
tres componentes: (1) calcular las longitudes de la cadena, (2) encontrar el número de
caracteres comunes en las dos cadenas, y (3) encontrar el número de transposiciones.

14
La definición de común es que el carácter de acuerdo debe estar dentro de la mitad de
la longitud de la cadena más corta.

La definición de transposición es que el carácter de una cadena está fuera de orden


con el carácter común correspondiente de la otra cadena.

El valor del comparador de cadenas (reescalado por coherencia con la práctica en


informática) es:

donde s1 y s2 son las cuerdas con longitudes lente1 y lente2, respectivamente, NC es el


número de caracteres comunes entre las cadenas s1 y s2 donde la distancia para común
es la mitad de la longitud mínima de s1 y s2 y Nt es el número de transposiciones. El
número de transposiciones Nt se calcula de manera algo diferente de la manera obvia.

Utilizando conjuntos de datos verdaderos, Winkler (1990) introdujo métodos para


modelar cómo los diferentes valores del comparador de cadenas afectan la
probabilidad (1) en la regla de decisión de Fellegi-Sunter. Winkler (1990) también
mostró cómo una variante del comparador de cadenas Jaro mejora dramáticamente la
eficacia de comparación en comparación con situaciones en las que no se utilizan
comparadores de cadena. La variante Winkler emplea algunas ideas de Pollock y
Zamora (1984) en un gran estudio para el Chemical Abstracts Service. Proporcionaron
evidencia empírica que cuantificaba cómo la probabilidad de errores de tipo keypunch
aumentaba a medida que la posición del carácter en una cadena se movía de izquierda
a derecha. La variante de Winkler, denominada comparador de cadenas Jaro-Winkler,
es ampliamente utilizada en informática.

15
El Trabajo de Cohen et al. (2003a, b) proporciona evidencia empírica de que los nuevos
comparadores de cadenas pueden desempeñarse favorablemente en comparación con
Bigrams y Edit Distance. Editar distancia utiliza programación dinámica para
determinar el número mínimo de inserciones, supresiones y sustituciones para pasar
de una cadena a otra. La métrica Bigram cuenta el número de pares consecutivos de
caracteres que coinciden entre dos cadenas. Una generalización de bigrams es q-grams
donde q puede ser mayor que 2. Cohen et al. (2003a, b) proporcionaron comparadores
de cadenas adicionales que demostraron que superaron ligeramente el comparador de
cadenas Jaro-Winkler con varias plataformas de prueba pequeñas pero no con una
plataforma de prueba similar a los datos del Censo.

Yancey (2005), en un estudio bastante exhaustivo, también demostró que el


comparador de cadenas Jaro-Winkler superó a los nuevos comparadores de cadenas
de Cohen et al. (2003a, b) con grandes cubiertas de prueba censal. Yancey introdujo
varios comparadores híbridos de cadena que utilizaban tanto el comparador de
cadenas Jaro-Winkler como las variantes de la distancia de edición. Cohen et al.
(2003a, b) observó que el algoritmo computacional para la distancia de edición es 10
veces más lento que el algoritmo correspondiente para el comparador de cadena Jaro-
Winkler.

La velocidad del comparador de cadenas afecta dramáticamente la velocidad del


software coincidente. Es bastante típico para el software con el comparador de cadena
Jaro-Winkler que gaste entre 30-70% de los ciclos de CPU en la subrutina de
comparación de cadena. La Tabla 5 compara los valores de los valores Jaro, Winkler,
Bigram y Editar-Distancia para los nombres y apellidos seleccionados. Bigram y la
distancia de edición se normalizan para estar entre 0 y 1. Todos los comparadores de
cadena tienen el valor 1 cuando las cadenas coinciden carácter por carácter.

16
34.2.4. Un ejemplo empírico

A continuación, se comparan diferentes procedimientos de adaptación en los datos


que se utilizaron para los análisis iniciales de EM (Cuadros 2 y 3). Aunque también
hemos demostrado resultados muy similares con varios pares alternativos de archivos,
no presentamos los resultados adicionales aquí (véase Winkler, 1990). Los resultados
se basan únicamente en pares que coinciden en el código de identificación del bloque
y el primer carácter del apellido.

Los procedimientos que utilizamos son los siguientes. El procedimiento más simple,
crude, sólo utiliza una suposición ad hoc (pero con conocimiento) para los parámetros
de coincidencia y no utiliza comparadores de cadena. El siguiente, param, no utiliza
comparadores de cadenas, pero sí estima las probabilidades m y u. Estas
probabilidades se estiman a través de un procedimiento iterativo que implica una
revisión manual de los resultados coincidentes y la reutilización sucesiva de los
parámetros reestimados. Estos procedimientos de refinamiento iterativo son una
característica del sistema CANLINK de Statistics Canada.

El tercer tipo, param2, utiliza las mismas probabilidades que param y el comparador
de cadena Jaro básico. El cuarto tipo, em, utiliza el algoritmo EM para estimar
parámetros y el comparador de cadenas Jaro. El quinto tipo, em2, utiliza el algoritmo
EM para estimar parámetros y la variante Winkler del comparador de cadenas que
realiza un ajuste hacia arriba basado en la cantidad de concordancia en los primeros
cuatro caracteres de la cadena.

En la Tabla 6, el corte entre las coincidencias designadas se determina por una tasa de
coincidencia falsa de 0,002. Se permite que los tipos crude y param aumenten
ligeramente por encima del nivel de 0,002 porque generalmente tienen mayores
niveles de error. En cada par de columnas (coincidencias designadas y pares clerical
designados), rompemos los conteos en coincidencias verdaderas y no coincidencias
verdaderas. En las coincidencias designadas, las verdaderas no coincidencias son
coincidencias falsas.

Examinando la tabla, observamos que una mejora dramática en las coincidencias


puede ocurrir cuando los comparadores de la secuencia se utilizan por primera vez (de
param al param2). La razón es que los desacuerdos (sobre una base del carácter por el
carácter) son substituidos por los acuerdos parciales y el ajuste de los ratios de la
verosimilitud (véase Winkler 1990). La mejora debida a la variante Winkler del
comparador de cadenas (de em a em2) es bastante menor.

El método param es esencialmente el mismo que un método tradicional usado por


Statistics Canada. Después de una revisión de nueve métodos de comparación de
cadenas (Budzinsky, 1991), Statistics Canada proporcionó opciones para tres

17
comparadores de cadena en el software CANLINK, siendo el comparador Jaro-Winkler
el predeterminado.

La mejora entre param2 y em2 no es tan dramática, ya que es mucho más difícil
mostrar mejoras entre pares "difíciles de igualar" y debido a las diferencias en los
métodos de estimación de parámetros. El refinamiento iterativo se utiliza para param2
(un método estándar en el software CANLINK) en el que los pares son revisados,
reclasificados y los parámetros reestimados. Este método es un tipo de aprendizaje
(parcialmente) supervisado y requiere mucho tiempo.

La mejora debida a los parámetros de em2 puede explicarse porque los parámetros
son ligeramente más generales que los obtenidos en CI. Si Ax i representa un acuerdo o
un desacuerdo en el campo i-ésimo, entonces el rendimiento de nuestra hipótesis de
CI

donde D es M o U. Superficialmente, el EM considera diferentes ordenamientos de la


forma

Donde ρ, i representa la i-ésima entrada en una permutación ρ de los enteros 1 a k. La


mayor generalidad de (11) en comparación con (10) puede producir mejores ajustes de
los datos. Podemos asumir razonablemente que el algoritmo EM bajo el supuesto de CI
(como los métodos de cálculo reales de trabajo) al mismo tiempo elige la mejor
permutación ρ y los mejores parámetros.

18
En esta sección, hemos demostrado que mejora muy dramática en la eficacia del
Record Linkage a través de avanzar desde los procedimientos ad hoc aparentemente
razonables a los procedimientos que utilizan procedimientos de Record Linkage
computarizados modernos. La cuestión que afecta a los organismos de estadística es si
sus marcos de encuestas están bien mantenidos utilizando procedimientos eficaces.
Actualizar procedimientos de coincidencia es a menudo tan sencillo como reemplazar
una subrutina que utiliza métodos ad hoc con otra subrutina. Es crucial nunca asumir
que los procedimientos de Record Linkage moderadamente sofisticados se están
utilizando como demuestra la siguiente situación.

El mantenimiento de las listas estatales de registro de votantes es una situación en la


que se podría mejorar la eficacia pasando de los procedimientos ad hoc a los
modernos procedimientos de Record Linkage. Ha habido dos leyes federales de los E.
(en 1993 y 2002) que asigna el dinero y los requisitos obligatorios en el mantenimiento
de la lista. Las listas de registro de votantes se comparan con el departamento de listas
de vehículos motorizados, listas de servicios sociales y otras listas, incluyendo la lista
principal de la Administración del Seguro Social de los Estados Unidos. Cada lista se
busca internamente para duplicados. Todos los estados (Levitt et al., 2005) parecen
estar utilizando procedimientos ad hoc de emparejamiento que fueron desarrollados
originalmente para hacer coincidir el departamento de listas de vehículos motorizados.
La eficacia de los procedimientos de adaptación ad hoc de computadoras estatales en
muchas situaciones puede estar entre los peores dos métodos (crudo y param) en la
Tabla 6.

34.2.5. Datos de aprendizaje

Los datos de aprendizaje representativos rara vez están disponibles para obtener los
parámetros para las reglas de clasificación de Record Linkage. Si los datos de
aprendizaje están disponibles, entonces es posible obtener los parámetros agregando
las cantidades apropiadas para obtener las probabilidades en (1) y (2). De hecho, con
suficientes datos de aprendizaje, es fácil estimar las probabilidades en (1) que tengan
en cuenta las dependencias entre diferentes campos coincidentes y estimar las tasas
de error.

Winkler (1989a) mostró que los parámetros óptimos de Record Linkage varían
significativamente en diferentes regiones geográficas. Para el Censo Decenal de los
Estados Unidos de 1990, se necesitarían datos de aprendizaje para las 457 regiones
donde se realizó la correspondencia. La cantidad de tiempo necesario para obtener los
datos de aprendizaje en las 457 regiones habría superado sustancialmente las 3
semanas que se asignó para la coincidencia de computadoras. En más de 20 años de
Record Linkage en la Oficina del Censo, nunca ha habido datos de capacitación. En más

19
de 30 años en el mantenimiento de los Archivos Sanitarios Nacionales y en la
realización de otros grandes proyectos de adaptación en la Universidad de Oxford, Gill
(2000, comunicación privada) nunca tuvo datos de aprendizaje.

34.3 – PREPARACIÓN DE LOS DATOS

En los proyectos de identificación, poniendo los datos de dos archivos A y B en formas


consistentes para que los datos puedan ser ejecutados a través del software de Record
Linkage a menudo requiere más trabajo (3-12 meses con un personal moderado o
grande) que las operaciones de Record Linkage actuales (1-3 semanas con un solo
individuo).

La incapacidad o la falta de tiempo y recursos para limpiar los archivos en la


preparación de la correspondencia son a menudo las principales razones por las que
fracasan estos proyectos. Proporcionamos detalles de la adquisición, preparación y
estandarización de archivos en las siguientes secciones.

34.3.1. Descripción de un proyecto de identificación

La construcción de un marco o lista administrativa de entidades para un país entero o


una región grande de un país implica muchos pasos. Los métodos de construcción
también contienen pares de listas o para la situación de encontrar duplicados dentro
de una lista dada.

(1) Identificar las listas existentes que se pueden utilizar en la creación de la lista
principal. En esta situación, es importante concentrarse en 10 o menos listas. Es
prácticamente imposible considerar miles de listas.

(2) Con cada lista, obtenga un diseño anotado. La anotación debe incluir la ubicación
de diferentes campos y los valores potenciales que pueden asumir diferentes campos.
Por ejemplo, una lista dada puede tener varios códigos de estado asociados con si la
entidad sigue en el negocio o está viva. Con listas de negocios, puede tener códigos de
estado adicionales indicando si el registro está asociado con otra entidad como
subsidiaria o duplicado. Si el diseño anotado no está disponible, rechace la lista. Si la
lista está en un sistema informático incompatible o en un formato incompatible tal
como una lista mecanografiada o una microficha, entonces rechace la lista.

(3) Obtener las listas para comenzar a ponerlas en un formato estándar que será
utilizado por los programas de detección y actualización de duplicados. Si la lista no
pasara a través de los programas de normalización de nombres y direcciones, entonces
rechácela. Si algunos o muchos registros de la lista no pueden ser estandarizados,

20
considere rechazar la lista o usar registros que puedan ser estandarizados. El formato
estándar debe incluir un campo para el origen de una lista y la fecha de la lista. Si es
posible, es una buena idea tener también una fecha para el registro individual en la
lista.

(4) Si los recursos lo permiten, se puede obtener una mayor precisión comparando
secuencialmente cada fuente potencial de actualización con la lista principal. Hacer
coincidir cada lista de una manera secuencial permite una limpieza clerical más precisa
de los duplicados. Si la limpieza clerical no puede hacerse de una manera eficiente,
entonces los duplicados en la lista principal producirán más y más duplicados
adicionales cuando la lista principal se actualice sucesivamente. Si parece que una lista
individual está causando demasiados duplicados para ser agregados erróneamente a la
lista principal, entonces rechazar la lista como un origen de actualización. Si un
subconjunto grande del origen de actualización no genera un número suficientemente
grande de entidades nuevas en la lista principal, también podría excluirse.

(5) Después de la coincidencia inicial, se deben aplicar sistemáticamente


procedimientos informáticos y administrativos adicionales para identificar los
duplicados en la lista principal. Un procedimiento muy útil es asegurar que las
representaciones de nombres y direcciones asociadas con una entidad están en la
forma más útil y libre de errores tipográficos. Estos procedimientos adicionales de
mejora deben utilizarse continuamente. Si las actualizaciones y las limpiezas de las
listas que contienen muchas pequeñas empresas sólo se hacen anualmente, entonces
la calidad general de la lista puede deteriorarse de manera aditiva durante cada
actualización posterior. En los Estados Unidos, se sabe que el volumen de negocios
anual (entrada y salida del negocio o cambios sustanciales en la información de
nombre y dirección que dificultan la actualización) puede superar el 10% con las
pequeñas empresas.

Muchos proyectos coincidentes fracasan porque los grupos no pueden ni siquiera


superar los primeros 1-2 pasos mencionados anteriormente. Mantener listas puede ser
difícil. En los Estados Unidos, los archivos de Cambio de Dirección postal para
individuos representan el 16% de la población por año.

Algunas personas pueden mudar más de una vez. Con las listas de pequeñas empresas
(como los minoristas de petróleo), el cambio de nombre o dirección puede superar el
10% por año. En el mantenimiento de un gran archivo nacional de salud o índice
nacional de defunción, un 1-3% de error neto por año puede producir un error
sustancial después de varios años.

21
34.3.2. Preparación inicial de los ficheros

Al obtener los archivos, el primer problema es determinar si los archivos residen en


archivos secuenciales (estándar), bases de datos o en archivos SAS. Como la mayoría
de software de Record Linkage está diseñado para únicamente archivos secuenciales,
los archivos en otros formatos necesitarán tener copias que estén en formatos
secuenciales. Algunos grupos que hacen Record Linkage con muchos archivos tendrán
un formato estándar y procedimientos para que los archivos estén en la forma más
compatible para el Record Linkage. Un diseño anotado dará las descripciones de los
campos individuales que pueden ser comparados. Por ejemplo, un código sexual
puede ser dividido en Sex1 (macho = M, femenino = F, ausente = b donde b representa
blanco) o Sexo2 (varón = 1, femenino = 2, faltante = 0). Los programas simples pueden
tener tablas que se utilizan en la conversión de un conjunto de códigos a otro conjunto
de códigos.

Es muy típico que los archivos bien mantenidos lleven códigos de estado que indiquen
si una entidad está todavía viva o en los negocios y si la información como una
dirección o un número de teléfono es actual. Si un archivo tiene códigos de estado que
indican que ciertos registros están fuera de alcance, en la mayoría de las aplicaciones
coincidentes se deben eliminar los registros fuera del alcance antes de usar el archivo
para actualizar o fusionar. En algunos archivos, puede ser difícil determinar fuera de
alcance. Por ejemplo, las empresas eléctricas tienen información de direcciones muy
buena que las personas pueden desear utilizar en la actualización de una lista de
residencias. Desafortunadamente, las compañías de electricidad suelen incluir
pequeños establecimientos comerciales con clientes residenciales porque mantienen
sus listas por categorías de caudal. Si se utiliza la lista de utilidades eléctricas para
actualizar una lista de hogares, se agregarán muchas direcciones comerciales "fuera
del alcance".

Puede ser necesario revisar varios campos en dos archivos. Por ejemplo, si un archivo
tiene direcciones que son casi enteramente del número de la casa de la forma y el
nombre de la calle y otro archivo tiene una porción sustancial de las direcciones en el
cuadro de la forma PO, entonces puede ser difícil de igualar a dos archivos usando
nombre y dirección como información. Con listas de negocios, puede ser necesario
tener información auxiliar que permita separar la sede de las filiales. Con muchas
empresas, la sede completa formularios de encuesta. Si se envía un formulario de
encuesta a la filial y se devuelve, la organización de la encuesta puede contar dos veces
la información de la filial que también se informa en los totales de la sede.

En lo que sigue, ofrecemos resúmenes de varios procedimientos que se pueden utilizar


para la limpieza preliminar de archivos y, a menudo, pueden estar en rutinas
informáticas sencillas. Estos controles de consistencia y procedimientos de limpieza

22
antes de ejecutar archivos a través de un programa coincidente se denominan
estandarización.

(1) La sustitución de las variantes ortográficas por una ortografía coherente común se
denomina Ortografía.

(A) Sustituir 'Doctor', 'Dr.' por 'Dr'

(B) Sustituya apodos como 'Bob', 'Bill' por 'Robert' y 'William'

(C) Sustitúyase palabras como «Company», «Cmpny», «Co.» con «Co»,

Nota: El tercer ejemplo depende de la aplicación porque "Co" puede referirse a


Condado o Colorado.

(2) El reemplazo de códigos inconsistentes se denomina asegurar la coherencia del


código.

(A) Reemplazar Sexo Sexo (masculino = '1', mujer = '2', ausente = '0') con (masculino =
'M' Female = 'F', missing = '')

B) Sustitúyase " January 11, 1999 " y " 11 January, 1999 " con MMDDYYYY = '01111999'
o YYYYMMDD = '19990111'

La consistencia del código se refiere a veces como hacer los estados de valor de las
variables(o campos) consistentes. En Record Linkage, una variable (o campo) es
típicamente una cadena de caracteres como un nombre completo, una dirección
completa o un subcomponente como el nombre oapellido.

(3) Identificar las posiciones inicial y final de los componentes individuales de una
cadena de forma libre como un nombre o dirección se conoce como análisis sintáctico.

(A) Identifica las ubicaciones de nombre, inicial y apellido en "Mr John A Smith Jr" y
"John Alexander Smith"

(B) Identifica las ubicaciones del número de la casa y el nombre de la calle en '123 East
Main Street' y '123 E. Main St. Apt. 16'

La idea de analizar es permitir la comparación de campos (variables) que deben ser


consistentes y razonablemente fáciles de comparar. No es fácil comparar nombres y
direcciones de forma libre, excepto posiblemente manualmente. Las tres ideas
anteriores de estandarización son a menudo preliminares a situaciones en las que los
nombres y direcciones de forma libre se rompen (analizan) en componentes. Cubrimos
la normalización general de nombres y direcciones en las dos secciones siguientes.

23
34.3.3. Normalización y análisis de nombres (sintáctico)

La estandarización consiste en reemplazar la ortografía de palabras con una sola


ortografía. Por ejemplo, las diferentes ortografías y abreviaturas de "Incorporated"
podrían ser reemplazadas con la ortografía estandarizada única "Inc." El componente
de estandarización del software podría separar una cadena general como un nombre
completo o una dirección en palabras (es decir, conjuntos de caracteres que son
separados por espacios y otros delimitadores). Cada palabra se compara a través de las
tablas de consulta para obtener la ortografía estándar. La primera mitad de la tabla
siguiente muestra varias palabras comunes que se reemplazan por una ortografía
estandarizada (dada en mayúsculas). Después de la estandarización, la cadena de
nombres se analiza en componentes (segunda mitad de la siguiente tabla) que se
pueden comparar (Tabla 7). Los ejemplos son producidos por el software de
normalización de nombres generales (Winkler 1993a) para el sistema de concordancia
del Censo de Agricultura de los Estados Unidos. Debido a que el software funciona bien
con listas de negocios y correspondencia de personas, se ha utilizado para aplicaciones
complementarias en la Oficina del Censo y otras agencias. En la actualidad, no está
claro que exista un software comercial para la normalización de nombres. Nuevos
métodos prometedores basados en modelos ocultos de Markov (Borkar y otros, 2001,
Christen et al., 2002, Churches et al., 2002) pueden mejorar sobre la normalización de
nombres basados en reglas en Winkler (1993a). Aunque los métodos mejoran
claramente con respecto a métodos de normalización de direcciones más
convencionales (ver sección siguiente) para situaciones difíciles tales como direcciones
asiáticas o indias, no funcionaron tan bien como métodos más convencionales de
normalización de nombres. Bilmes (1998) proporciona un tutorial sobre los algoritmos
de tipo EM que muestran que los métodos de Markov ocultos son generalizaciones de
los métodos EM más simples. Entre los estadísticos matemáticos, Markov oculto se
conoce como el algoritmo de Baum-Welsh.

24
34.3.4. Normalización de la dirección y análisis sintáctico

La Tabla 8 ilustra la estandarización de direcciones con un paquete patentado


desarrollado por la División de Geografía de la Oficina del Censo de los Estados Unidos.
En las pruebas efectuadas en 1994, el software superó significativamente a los mejores
paquetes comerciales de los Estados Unidos en términos de tasas de estandarización,
al tiempo que produjo estandarizaciones comparativamente precisas. La primera
mitad de la tabla muestra algunas direcciones que han sido estandarizadas. En la
estandarización, las palabras que aparecen comúnmente como "Street" se reemplazan
por una abreviatura apropiada como "St" que puede ser considerada una ortografía
estándar que puede explicar algunos errores ortográficos. La segunda mitad de la tabla
representa los componentes de las direcciones producidas por el análisis. El software
general produce aproximadamente 50 componentes. El software general de
normalización de nombres y direcciones que ponemos a disposición con el software de
coincidencia sólo genera los componentes más importantes de las direcciones

34.3.5. Resumir comentarios sobre el preprocesamiento

Muchos archivos no pueden ser suficientemente preprocesados para limpiar gran


parte de los datos. Los ejemplos incluyen archivos heredados que contienen datos
faltantes considerables como fecha de nacimiento y alta tasa de errores tipográficos
en otros campos. En situaciones de datos de calidad razonablemente alta, el
preprocesamiento puede producir una mayor mejora en la eficacia de comparación
que los comparadores de cadenas y parámetros "optimizados". En algunas situaciones,
el 90% de la mejora en la eficacia de la concordancia puede deberse al
preprocesamiento. Los resultados de la Tabla 6 muestran que los comparadores de
cadenas apropiados pueden producir mejoras mayores que los mejores parámetros de
vinculación de registros.

25

You might also like