Bland y Alman

Document downloaded from http://www.elsevier.es, day 11/06/2017. This copy is for personal use.
Any transmission of this document by any media or format is strictly prohibited.
TCNICAS CLSICAS
Mtodos estadsticos para evaluar la concordancia

Josep Llus Carrasco y Llus Jover
Bioestadstica. Departamento de Salud Pblica. Universitat de Barcelona. Barcelona. Espaa.
La fiabilidad y la concordancia de los instrumentos de medida son as- tanto, no hay de qu preocuparse. En mbitos regulados,
pectos fundamentales en las ciencias de la salud que no siempre se como es el caso de los ensayos clnicos para el desarrollo
tienen presentes. En este documento se destacan las implicaciones de frmacos, la calidad de los datos en general y la de los
que puede tener el uso de instrumentos sujetos a error y el intercam- procedimientos de medida en particular reciben la mereci-
bio de instrumentos de medida cuyas mediciones no concuerdan. Es-
tas implicaciones se ilustran con ejemplos en los que se pone de ma- da atencin tanto por razones ticas como de eficiencia.
nifiesto el efecto de confusin que puede producir el error de medida. Tambin en la prctica mdica la calidad de las medidas es
En este documento se proponen diversos procedimientos para evaluar un aspecto bsico para conseguir un sistema de salud efi-
la concordancia e identificar las fuentes de error. Estos procedimien- ciente. Cuando un mdico establece el diagnstico de un
tos se clasifican segn la naturaleza de los datos, cualitativos o cuan- paciente basndose en el resultado obtenido mediante un
titativos, as como en el modo en que se evala la concordancia, de
una forma agregada mediante un valor o desagregadamente, analizan- instrumento de medida, debera estar seguro de que el error
do por separado las fuentes de error. de medida es razonablemente pequeo. Las medidas pue-
Mediante estos procedimientos se pone de manifiesto que tcnicas den obtenerse a travs de algn instrumento cuyos resulta-
que frecuentemente se utilizan para evaluar la concordancia como la dos ayuden al profesional en la toma de decisiones (como
comparacin de medias, el coeficiente de correlacin o el modelo de
regresin resultan insuficientes o incorrectas.
los resultados analticos), o mediante observacin directa
del paciente y evaluacin subjetiva por parte del mdico
Palabras clave: Concordancia. Error de medida. Fiabilidad. (como la puntuacin APGAR). Por lo tanto, un mtodo de
Intercambiabilidad. Mtodo de medida. medida puede ser tanto un instrumento como un evaluador
o incluso la combinacin de ambos.
Hablar de calidad de los procedimientos de medida equiva-
Statistical approaches to evaluate agreement le a referirse a la magnitud de los errores de medida inhe-
rentes al procedimiento, entendindose que a mayor cali-
Reliability and agreement of measurement methods is a fundamental dad de medida menor magnitud de los errores y viceversa.
issue in health sciences which is not usually borne in mind. In this
document the connotations of using measurement methods with error
Simplificando, podemos afirmar que existen dos tipos de
and the switchability among measurements from methods which disa- error de medida: sistemtico y aleatorio. El error sistemtico
gree are highlighted. These implications are illustrated through exam- es el que se presenta siempre de la misma forma, sistem-
ples showing up the confounding effect that measurement error can ticamente. Por ejemplo, si 5 personas cuyos pesos reales
produce. son 49, 63, 78, 81 y 94 kg se pesan con una bscula obte-
Throughout the document several procedures to assess agreement
and to identify the error sources are suggested. These procedures are niendo las lecturas 51, 65, 80, 83 y 96 kg, la bscula esta-
classified according to the sort of data, quantitative or qualitative ra afectada de error sistemtico. En este caso se tratara de
data, as well as the way of agreement is assessed, in an aggregate un error sistemtico constante de +2 kg. En otros casos, el
way by means a values or in a disaggregate way analysing separately error sistemtico puede ser proporcional al valor real (p. ej.,
the error sources. errores de +1%, en cuyo caso el valor observado = valor
By means of these procedures is showed that frequently used approa-
ches to assess agreement as the averages comparison, the correlation real 1,01) y tambin es posible que se den ambos tipos,
coefficient or the regression model appear as insufficient or inade- constante y proporcional, simultneamente (p. ej., valor ob-
quate approaches. servado = valor real 1,01 + 2). A diferencia de lo que ocu-
rre con los errores sistemticos, los errores aleatorios son
Key words: Agreement. Measurement error. Reliability. Switchability.
Measurement method.
impredecibles. Aunque a la larga puedan seguir un patrn
conocido, no es posible predecir en qu medida (ni en qu
sentido) ocurrirn en una observacin concreta.
La presencia de error en las medidas provoca numerosos
problemas1, entre los que cabe destacar los errores de cla-
Introduccin sificacin y la atenuacin de las asociaciones. Veamos un
ejemplo para ilustrar estos 2 problemas. El estudio de las
Garantizar la calidad de los procedimientos de medida es
caractersticas de las pruebas diagnsticas es un territorio
un aspecto fundamental en la investigacin biomdica y, en
en el que la importancia de los errores de clasificacin se
general, en la prctica clnica. Aunque todo el mundo res-
pone especialmente de manifiesto. Lo que habitualmente
pondera afirmativamente a la pregunta de si la calidad de
denominamos error de una prueba diagnstica no es ms
los datos es un aspecto que debe considerarse siempre, al
que un caso particular de error de medida: el estado real
menos eso nos gusta creer, en realidad es muy comn asu-
del sujeto, si tiene o no la enfermedad sospechada, es la
mir que los procedimientos de medida funcionan razonable-
caracterstica que deseamos conocer (medir) y la prueba
mente bien (alguien se debe estar ocupando de ello) y, por
diagnstica es el procedimiento de medida que vamos a uti-
lizar. El resultado que obtenemos de aplicar esta prueba
diagnstica es la medida del estado real del sujeto. Imagine-
Correspondencia: Dr. J.L. Carrasco. mos que en un conjunto de 1.000 individuos se valora la
Bioestadstica. Departament de Salut Pblica. presencia de cierta enfermedad mediante una prueba diag-
Universitat de Barcelona. C/ Casanova, 143.
08036 Barcelona. Espaa. nstica cuyo resultado es dicotmico (positivo o negativo) y
Correo electrnico: carrasco@medicina.ub.es que 100 de estos individuos tienen realmente la enferme-
28 Med Clin (Barc) 2004;122(Supl 1):28-34

Document downloaded from http://www.elsevier.es, day 11/06/2017. This copy is for personal use. Any transmission of this document by any media or format is strictly prohibited.
CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA
dad y los 900 restantes estn libres de ella. Por ltimo, su- TABLA 1
pongamos que, como es habitual, el mtodo de diagnstico Utilizacin de una prueba para diagnosticar una
est sujeto a error y que la tasa de falsos negativos es del enfermedad. La enfermedad debe entenderse como
10% y la de falsos positivos del 20%. Tal como se ilustra en el estado o valor real del atributo que se desea medir,
la tabla 1, esto supondra que, de los 100 individuos patol- mientras que el resultado de la prueba es el valor
gicos, 10 se clasificaran incorrectamente como no patolgi- observado al aplicar un determinado mtodo de medida
cos, mientras que de los 900 no patolgicos, 180 se consi-
deraran patolgicos. Por lo tanto, utilizando el resultado de Enfermedad (estado real)
la prueba diagnstica como medida del estado real, se con- S No
siderara que el nmero de sujetos patolgicos es de 270 en Positiva 90 180 270
lugar de 100. Prueba (observado)
Negativa 10 720 730
Veamos ahora un ejemplo donde el error de medida, en 100 900 1.000
este caso error de diagnstico o clasificacin, induce una
atenuacin en la asociacin con otra variable. Deseamos es-
tudiar la asociacin entre la enfermedad y un cierto factor TABLA 2
de riesgo. Supongamos ahora que la proporcin de enfer-
Ejemplo de tabla de contingencia entre una enfermedad
mos que presentan el factor de riesgo es del 20%, mientras
y un factor de riesgo. La enfermedad se mide mediante
que esta proporcin es de slo el 5% en el grupo no patol-
un instrumento libre de error
gico. De igual modo que en el ejemplo anterior, asumiremos
que las proporciones se cumplen perfectamente. En primer Enfermedad
lugar, estimaremos la asociacin utilizando una prueba S No
diagnstica libre de error y, posteriormente, utilizando la Positivo 20 45 65
prueba diagnstica con error de clasificacin, comparando Factor de riesgo
Negativo 80 855 935
los resultados obtenidos en ambas situaciones. 100 900 1.000
Si se utiliza una prueba libre de error para clasificar a los indi-
viduos se observarn 100 individuos con la enfermedad y 900
libre de ella. Si a este nmero de individuos se le aplica las TABLA 3
proporciones relacionadas con el factor de riesgo, se obten-
Ejemplo de tabla de contingencia entre una enfermedad
drn las frecuencias representadas en la tabla 2. La asocia-
y un factor de riesgo. La enfermedad se mide con
cin entre la enfermedad y el factor de riesgo se medir me-
un instrumento con error
diante la odds ratio (OR); OR = (20 855)/(45 80) = 4,75.
Hacemos notar al lector que en esta tabla est implcito el Enfermedad
hecho de que estamos midiendo 2 variables: enfermedad y S No
factor de riesgo. Para simplificar el ejemplo asumiremos Positivo 27 38 65
que el factor de riesgo es una caracterstica que podemos Factor de riesgo
Negativo 243 692 935
medir sin error. 270 730 1.000
Ahora repitamos el ejemplo utilizando la prueba diagnstica
con error de clasificacin. De los 270 individuos del grupo
patolgico 90 tienen realmente la enfermedad, mientras Cualquier comparacin entre 2 (o ms) series de medicio-
que 180 estn libres de ella (tabla 1). De esos 90, un 20% nes es susceptible de ser evaluada en trminos de concor-
presentar el factor de riesgo, es decir, 18. En cambio, de dancia entre las series, esto es, verificar si ambas concuer-
los 180 slo un 5% tendr el factor de riesgo, es decir, 9 in- dan (son idntica) o no y en qu grado, aunque el uso de
dividuos. Esto supone que de los 270 individuos clasifica- esta denominacin indica habitualmente que se estn anali-
dos como patolgicos, un total de 18 + 9 = 27 presenta el zando comparativamente 2 instrumentos de medida distin-
factor de riesgo. Qu ocurre con los 730 individuos clasifi- tos. En cualquier caso, parece obvio que cuanto menor sea
cados como no patolgicos? De stos, 10 tienen la enferme- el error de medida en ambas series mayor ser la concor-
dad, mientras que 720 no (tabla 1). De los 10, un 20% pre- dancia y viceversa. En el caso extremo y poco realista de 2
sentar el factor de riesgo, es decir, 2 individuos. De los series sin error de medida, su concordancia ser forzosa-
restantes 720, un 5% tendr el factor de riesgo, lo que su- mente perfecta.
pone 36 sujetos. De este modo, en el grupo de los clasifica- Retomando el esquema de la tabla 4, los estudios de fiabi-
dos como no patolgicos, un total de 2 + 36 = 38 individuos lidad o repetibilidad intentan evaluar cmo concuerdan las
presentar el factor de riesgo. Este proceso se resume en la medidas obtenidas por un nico mtodo o instrumento uti-
tabla 3. lizado de forma repetida. Por ejemplo, podramos utilizar
Ahora la OR adquiere un valor de OR = (27 692)/(38 varias veces un mismo analizador automtico para contar
243) = 2,02, aproximadamente la mitad del valor obtenido el nmero de CD4, procesando alcuotas de la misma
anteriormente, lo que significa que se ha producido una muestra de sangre o podramos pedir a un mismo mdico
considerable atenuacin de la verdadera asociacin, subes- que evaluase una misma imagen en varias ocasiones. En
timacin enteramente provocada por el error de medida de estos casos, el aspecto que se estara evaluando es el error
la prueba diagnstica. de medida del mtodo mediante el estudio de la concor-
De los resultados mostrados en estos ejemplos se deduce la dancia intramtodo, de forma que, si las medidas tomadas
necesidad de valorar la calidad de cualquier mtodo o pro- con el mismo mtodo concuerdan, se puede declarar al
cedimiento de medida que utilicemos. Evaluar la calidad del mtodo libre de error aleatorio calificndolo de repetible.
procedimiento o instrumento de medida conlleva analizar En los denominados estudios de concordancia se verifica
comparativamente nuestra serie de mediciones con otras, cmo concuerdan las medidas obtenidas por el mtodo
que pueden ser de distinto origen y caractersticas depen- cuya calidad se desea valorar, con las obtenidas por otro
diendo de los objetivos planteados en la valoracin, tal y mtodo. Por ejemplo, podramos utilizar 2 analizadores au-
como se resume en la tabla 4. tomticos distintos para contar el nmero de CD4 de una
Med Clin (Barc) 2004;122(Supl 1):28-34 29

TABLA 4
Clasificacin de estudios para la evaluacin de la calidad de los procedimientos de medida
Objetivos bsicos de la evaluacin Series utilizadas para la comparacin Denominacin del estudio
Evaluar independencia de los errores Valores obtenidos con el mismo procedimiento o instrumento Fiabilidad
Estimar la magnitud del error aleatorio de medida Repetibilidad
Decidir si un instrumento puede reemplazar a otro Valores obtenidos con un procedimiento o instrumento Concordancia
Evaluar si ambos instrumentos son intercambiables (no hay de medida alternativo
ninguna diferencia en utilizar uno u otro)
Cuantificar el error de medida Valores reales de la variable o atributo (p. ej., obtenidos Calibracin
Estimar los parmetros que han de permitir corregir el error mediante un mtodo de referencia)
de medida
TABLA 5 desagregado analizar ms detalladamente las posibles

Tabla de contingencia referente a las mediciones que fuentes de error.
realizan 2 evaluadores sobre una serie de individuos Las tcnicas utilizadas tambin variarn segn la naturaleza
de las variables, dependiendo de si las medidas correspon-
Evaluador B den a una escala de medida cualitativa o cuantitativa.
Positivo Negativo
Positivo n11 n12 Concordancia entre variables cualitativas
Evaluador A
Negativo n21 n22
Supongamos que un mdico realiza habitualmente una cla-
sificacin diagnstica (positiva o negativa) basndose en su
particular apreciacin de las caractersticas de una imagen
muestra o podramos pedir a 2 clnicos que valorasen una radiolgica. Independientemente de cmo llega a realizar la
misma imagen. En estos casos estaramos evaluando la valoracin, el mtodo de medida es el propio mdico que
concordancia entre mtodos de medida, con el objetivo de estara realizando medidas en escala nominal (dicotmica).
determinar si los 2 mtodos son intercambiables, de forma En esta situacin podra ser interesante valorar tanto el error
que sea indiferente utilizar uno u otro. Por ltimo, la cali- de medida del mdico (concordancia intramtodo) como la
bracin de un mtodo de medida es un caso particular de discrepancia en el diagnstico en relacin con otro profesio-
concordancia entre mtodos. Este ensayo se realiza cuan- nal (concordancia entre mtodos). En ambos casos el pro-
do se compara un procedimiento de medida con los valo- cedimiento ser similar, ya que la primera situacin es equi-
res reales de los sujetos. De hecho, el valor real es imposi- valente a realizar una concordancia entre diferentes
ble de determinar y en estos ensayos se comparan 2 mediciones efectuadas con un nico mtodo. Veamos la si-
mtodos de medida, uno de ellos utilizado como mtodo tuacin en el caso de desear estimar la concordancia entre
de referencia o patrn (gold standard) para lo que se asu- 2 mtodos.
me que est libre de error de medida. En este caso, la Los datos obtenidos de n pacientes pueden resumirse en una
comparacin del mtodo en estudio con el patrn permite tabla de contingencia 2 2 (tabla 5). En principio parece l-
estimar los posibles errores, sistemtico y aleatorio, del pri- gico que la concordancia se evale mediante la proporcin
mero. Una vez estimados, cualquier lectura futura obtenida de casos en que los 2 evaluadores coinciden, (n11 + n22)/n,
con el mtodo en estudio puede corregirse y quedar exenta pero se ha de tener en cuenta que parte de esta coinciden-
de error sistemtico. Este ejercicio se conoce como calibra- cia es exclusivamente atribuible al azar. Cohen2 dio la ex-
cin de un mtodo de medida. Lamentablemente, la natu- presin de un ndice de concordancia corregido por el efec-
raleza impredecible de los errores aleatorios hace que sea to del azar y reescalado de forma que tomase un valor
imposible corregirlos, tal como se hace con los errores sis- mximo de 1. Este ndice se conoce como el coeficiente
temticos. Puesto que los errores sistemticos tienen arre- kappa y su expresin es:
glo (calibrando) y los aleatorios no, ambos tipos de error no
son igualmente temibles. 11 + 22 11 22
En cualquier caso, la presencia de errores en las medidas =
es la responsable de que no exista concordancia perfecta 1 11 22
entre distintos instrumentos o procedimientos de medida. donde
De hecho, cuanto ms error, menos concordancia y vicever- n11 n22 n11 + n12 n21 + n22 n11 + n21
sa. As, estudiar la concordancia es una manera de evaluar 11 = n
, 22 = n
, 1 = n
, 2 = n
, 1 = n
el error de medida y por ello nos centraremos en ofrecer al
lector una panormica de los mtodos ms habituales para n22 + n12
su estudio. y 2 = n
En general, las tcnicas para evaluar la concordancia se
pueden clasificar en agregadas y desagregadas. Los proce-
dimientos desagregados evalan los distintos componentes En caso de concordancia perfecta, el coeficiente tomar el
de la falta de concordancia por separado, mientras los pro- valor 1, y si las valoraciones de los 2 mtodos de medida
cedimientos agregados valoran la falta de concordancia en son independientes, el coeficiente ser 0.
global, sin distinguir entre error sistemtico y aleatorio. Una Como puede observarse, el coeficiente kappa es un proce-
medida agregada ser til para una evaluacin rpida del dimiento agregado, ya que mide la concordancia de forma
grado de concordancia sin entrar en las fuentes de error global, sin distinguir entre los componentes de exactitud y
que causan la falta de concordancia. En cambio, un anlisis precisin.

Si se desea evaluar la concordancia de forma desagregada TABLA 6

en error sistemtico y error aleatorio, el coeficiente de corre-
Ejemplo de tabla de contingencia referente
lacin3 se ha propuesto para medir la asociacin (error alea-
a los resultados de 2 pruebas diagnsticas aplicadas
torio) entre los 2 evaluadores. La expresin del coeficiente
a una serie de individuos
de correlacin para la tabla 2 2 es:
Prueba B
11 22 1221 Positivo Negativo

=
1212 Prueba A
Positivo 19 16 35
Negativo 1 15 16
20 31 51
donde un valor de 1 indicara ausencia de error aleatorio.
Tambin se ha propuesto3 analizar el error sistemtico entre
los 2 mtodos mediante el estudio de la diferencia entre las El coeficiente kappa resultante es:
proporciones marginales 1, 2, 1, 2. Estas proporciones
indican la probabilidad de cada mtodo de realizar un diag- ^ = 0,3828

nstico positivo o negativo, considerndose que no existe
error sistemtico entre evaluadores si 1 = 1 y 2 = 2. En y su intervalo de confianza del 95% es [0,1292-0,6464]8. El
el caso de una tabla 2 2, estas proporciones pueden com- valor del coeficiente es bastante bajo e indica una concor-
pararse utilizando una prueba de McNemar4. dancia dbil entre las 2 pruebas.
Se ha demostrado5 que el coeficiente kappa puede expre- Si se desea realizar un anlisis desagregado, en primer lu-
sarse como: gar se calcula el coeficiente de correlacin:
2 1212 ^ = 0,4565
=
12 + 12
que indica una asociacin dbil entre los valores obtenidos
donde puede observarse que si no existe error sistemtico con una y otra prueba. Si se comparan las proporciones
entre observadores, 1 = 1 y 2 = 2, el coeficiente kappa marginales de las discrepancias mediante una prueba de
coincide con , es decir, la nica causa de discordancia es McNemar se demuestra que son distintas (p < 0,001): la
el error aleatorio. prueba A tiende a dar resultados positivos con mayor fre-
El coeficiente kappa puede ser generalizado para el caso en cuencia que la prueba B. Por lo tanto, en este caso la dis-
que la escala de medida tenga ms de 2 categoras. En tal cordancia se debe tanto a error sistemtico como a error
caso, la expresin del coeficiente para una escala de medi- aleatorio.
da nominal de c categoras es:
c Concordancia entre variables cuantitativas
(jj jj)
j=1
= c Supongamos que una caracterstica cuantitativa se mide
1 jj mediante 2 mtodos, X e Y, en una serie de N individuos.
j=1
Una primera aproximacin exploratoria sera representar
grficamente los 2 mtodos mediante un diagrama de dis-
La escala de medida tambin puede ser ordinal, por ejem- persin, donde cada punto representa la pareja de medidas
plo, una valoracin de la evolucin de un paciente en la es- obtenida de cada individuo. Si la concordancia fuera perfec-
cala empeora, sigue igual, mejora. En esta situacin, es ta, todos los puntos se situaran sobre la bisectriz (Y = X), tal
lgico pensar que no debe valorarse igual una discordancia como se muestra en la figura 1. En esta situacin es fcil
sigue igual frente a mejora que una discordancia ver que la asignacin del procedimiento X al eje de abscisas
empeora frente a mejora, ya que en este ltimo caso la y el de Y al eje de ordenadas es absolutamente arbitraria: se
discordancia es ms grave. Con el objetivo de tener en obtendra la misma imagen grfica en caso de invertir la
cuenta esta gradacin de la discordancia se introdujo el co- asignacin de los ejes. Observando este grfico (fig. 1a) es
eficiente kappa ponderado6, de forma que se asignan distin- fcil intuir que una medida til de discordancia podra ba-
tos pesos a la discordancias de acuerdo con su magnitud. sarse en la distancia de cada punto a la bisectriz. Se puede
Por ltimo, se ha demostrado que el coeficiente kappa tiene demostrar que la media de estas distancias es proporcional
una gran dependencia de la prevalencia de la enfermedad o a la desviacin cuadrtica media
caracterstica que se est evaluando, por lo que se ha con- 1 n
siderado que no es apropiado comparar coeficientes kappa DCM = (X Yi)2
que se han calculado en poblaciones con distinta prevalen- N i=1 i
cia de la caracterstica en estudio7.
Ejemplo: Se aplican 2 pruebas diagnsticas a un grupo de Esta medida puede expresarse en funcin de las medias y
51 pacientes cuyos resultados se resumen en la tabla 6. Las las varianzas de los resultados obtenidos con cada mtodo y
estimaciones de las proporciones son: la correlacin entre ambos, del siguiente modo:
^ =
19 = 0,3725,
^ = 15 = 0,2941,
^ = 16 = 0,3137, DCM = (X Y)2 + (X Y)2 + 2 (1 XY) XY
11 22 12
51 51 51
donde X y Y representan las medias de cada mtodo, X y
^ =
1 = 0,0196,
^ = 19 + 16 = 0,6863,
^ = 1 + 15 = 0,3137, Y las desviaciones tpicas y XY el coeficiente de correlacin
21 1 2
51 51 51 de Pearson.
La concordancia ser perfecta cuando DCM = 0, situacin
^ =
19 + 1 = 0,3922, y
^ = 15 + 16 = 0,6078. que se dar si y slo si los 3 trminos son iguales a cero.
1 2
51 51 Esto implica que haya igualdad de medias (ausencia de

A B
104
106
104
102
102
Y 100 Y 100
98
98
96
94
96
96 98 100 102 104 94 96 98 100 102 104 106

X X
C D
108
104
106
102
104
Y 102 Y 100
100
98
98
96 96
96 98 100 102 104 106 108 96 98 100 102 106

X X
Fig. 1. Ejemplos de grficos de dispersin de las mediciones realizadas por 2 instrumentos de medida.
error sistemtico constante y proporcional), X = Y , igual- + X por el mtodo de mnimos cuadrados, basado en la
dad de desviaciones tpicas (ausencia de error sistemtico suposicin de que X est libre de error. En general, esta su-
proporcional), X = Y, y que la correlacin sea perfecta (au- posicin no es razonable y los modelos de ecuaciones es-
sencia de error aleatorio), XY = 1. Llegados a este punto, es tructurales permiten obtener un modelo de relacin lineal
fcil darse cuenta de que la comparacin de medias o el entre los 2 mtodos sin necesidad de hacerla.
clculo del coeficiente de correlacin de Pearson son insufi-
cientes para el estudio de la concordancia. La igualdad de Coeficiente de concordancia de Lin
medias tan slo garantiza que los 2 mtodos se centran en
Este coeficiente se defini9 reescalando la desviacin cua-
el mismo valor, pero en ningn caso que todos sus valores
drtica media entre los mtodos de medida de forma que
sean iguales. Las figuras 1b y 1d representan situaciones en
adoptase valores entre 1 y 1. La expresin del coeficiente
que hay igualdad de medias, pero los valores no concuer-
de concordancia es:
dan. Del mismo modo, un coeficiente de correlacin de 1
indica una relacin lineal perfecta, es decir, la relacin entre
los 2 mtodos es una recta carente de error aleatorio, pero 25 XY
C =
esta recta no tiene por qu ser la bisectriz (figs. 1c y 1d) y, x2 + Y2 + (X Y)2
por tanto, una correlacin perfecta no es sinnimo de con-
cordancia perfecta. Adems, la diferencia de varianzas ha
resultado ser tambin un componente de la concordancia, y donde XY representa la covarianza entre los 2 mtodos de
por tanto tambin debe evaluarse. medida. Este coeficiente toma el valor 1 en caso de concor-
Existen diferentes procedimientos para determinar la con- dancia perfecta y el valor 0 en caso de independencia entre
cordancia entre medidas cuantitativas. Entre ellos hemos los 2 mtodos. En teora, este estadstico puede tomar tam-
querido destacar en este artculo el coeficiente de concor- bin valores negativos. As, C = 1 indicara una discordan-
dancia9 y el mtodo Bland-Altman10, pero existen otros pro- cia perfecta entre los 2 mtodos, aunque esta situacin re-
cedimientos ampliamente utilizados, como el coeficiente de sulta inverosmil en un problema real, puesto que los
correlacin intraclase1, estrechamente relacionado con el procedimientos X e Y pretenden medir la misma caracters-
coeficiente de concordancia, y el modelo de ecuacin es- tica.
tructural11. Este ltimo merece una mencin especial, ya El coeficiente de concordancia de Lin es una medida agre-
que es habitual analizar la concordancia entre 2 mtodos gada, ya que evala globalmente la concordancia mediante
mediante el ajuste de un modelo de regresin simple Y = un nico valor. Un anlisis desagregado consistira en eva-

TABLA 7
Ejemplo de mediciones sobre una caracterstica cuantitativa realizadas por 2 mtodos de medida
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Mtodo X 4.200 3.500 1.900 4.700 1.600 3.300 2.400 2.800 2.100 2.900 1.800 1.600 3.700 2.900 1.200 1.700
Mtodo Y 5.100 5.600 3.100 6.700 2.700 5.600 5.000 3.100 2.100 3.400 1.600 1.800 4.700 3.700 3.100 2.800
luar por separado la diferencia de medias, la diferencia de El anlisis para evaluar la concordancia se realizar combi-
varianzas y el coeficiente de correlacin. nando tanto el coeficiente de concordancia de Lin como el
Si se desea realizar algn tipo de inferencia sobre este coe- mtodo de Bland-Altman, ya que los 2 procedimientos pue-
ficiente, como la construccin de intervalos de confianza o den utilizarse paralelamente en el mismo anlisis.
contrastar algn tipo de hiptesis, hay que tener en cuenta Para ello, es necesario obtener las medias y las varianzas de
que los procedimientos derivados para este fin dan por su- cada mtodo, la covarianza de ambos y la media y la des-
puesto que tanto Y como X se distribuyen segn una ley viacin tpica de las diferencias. En la tabla 8 se muestran
normal9. estos valores.
El coeficiente de concordancia es una medida dependiente de La estimacin del coeficiente de concordancia es de 0,5703,
la covarianza entre los mtodos y, al igual que en el caso del con un intervalo de confianza9 del 95% de [0,2892-0,7609],
ndice kappa y la prevalencia, no deberan compararse coefi- lo que indica un bajo grado de concordancia.
cientes de concordancia con covarianzas muy diferentes. Los lmites de concordancia de Bland-Altman son:
Mtodo Bland-Altman 1.112,5 2* 733.166,7 = 600 y 1.112,5 + 2* 733.166,7 = 2.825
Con este procedimiento desagregado10,12,13 se pretende de-

stos se representan en el grfico de Bland-Altman de la fi-
terminar si 2 mtodos de medida X e Y concuerdan lo sufi-
gura 2b, donde puede observarse que la diferencia entre los
ciente para que puedan declararse intercambiables. Para
2 mtodos tiene una tendencia lineal positiva, esto es, la di-
esto se calcula, para cada individuo, la diferencia entre las
ferencia se incrementa con la magnitud de la medida. Esto
medidas obtenidas con los 2 mtodos (D = X Y). La media
es indicativo de un error sistemtico proporcional que se
de estas diferencias (x d) representa el error sistemtico,
puede estimar mediante el cociente de desviaciones tpicas
mientras que la varianza de estas diferencias (s 2d) mide la
dispersin del error aleatorio, es decir, la imprecisin. Se ha
sY
propuesto utilizar estas 2 medidas para calcular los lmites
de concordancia del 95% como x d 2sd. Estos lmites nos sX = 1.057.292
2.291.958
= 1,47
informan entre qu diferencias oscilan la mayor parte de las
medidas tomadas con los 2 mtodos. Naturalmente, corres-
Este resultado se interpreta del siguiente modo: el mtodo Y
ponde al investigador valorar si estas diferencias son sufi-
toma sistemticamente valores superiores al mtodo X en
cientemente pequeas como para considerar que los 2 m-
una proporcin de 1,47. El coeficiente de correlacin es de
todos sean intercambiables o no.
0,8402, lo que indica un grado de correlacin elevado. Por
Por otro lado, para que la media y la varianza de las diferen-
lo tanto, la principal fuente de discordancia entre los 2 m-
cias sean estimaciones correctas debemos asumir que son
todos es el error sistemtico.
constantes a lo largo del rango de medidas, es decir, que la
magnitud de la medida no est asociada con un error ma-
yor. Para comprobar esta suposicin se puede construir un Discusin
grfico de dispersin, representando las diferencias (D) en
La calidad de las medidas es fundamental en cualquier m-
el eje de ordenadas y la media de las 2 medidas de cada in-
bito, pero adquiere un especial inters en el campo de las
dividuo, (X + Y)/2 en el eje de abscisas. La media de las
ciencias de la salud14-16, donde continuamente se toman
medidas de los 2 mtodos puede entenderse como una
decisiones basadas en mediciones. Esto implica que el
aproximacin al valor real, ya que se estara atenuando el
acierto en las decisiones depende de la calidad de estas
error de medida de los 2 mtodos; de este modo, esta re-
mediciones. Es tentador dar por supuesto que los mtodos
presentacin grfica permite observar si existe algn tipo de
de medida que utilizamos son buenos y que los resultados
relacin entre la diferencia de los 2 mtodos respecto a la
que nos proporcionan son correctos y fiables. Si una gluce-
magnitud de la medida, es decir, si el error de medida es
mia en ayunas es de 129 mg/dl se diagnostica al paciente
constante durante el intervalo de valores de la caracterstica
como diabtico, pero quin nos asegura que realmente
que se est midiendo o si, por el contrario, el error se incre-
este paciente tiene tal concentracin de glucosa en sangre?
menta conforme aumenta el valor real que se quiere medir.
Es ms, si se repite la determinacin en otro laboratorio, se
Asimismo, es posible representar los lmites de concordan-
obtendr el mismo resultado? Estas preguntas slo pueden
cia del 95%, con lo que se puede identificar a los individuos
responderse mediante ensayos de fiabilidad y concordancia
ms discordantes.
de las medidas.
Ejemplo
TABLA 8
En la tabla 7 se muestran los valores obtenidos por 2 mto-
Medias, varianzas y covarianza de las mediciones
dos de medida utilizados en 16 sujetos. En la figura 2a se
realizadas por los 2 mtodos de medida y su diferencia
representan las 2 variables en un grfico de dispersin. En
esta figura puede observarse que las medidas no concuer- Mtodo Media Varianza Covarianza
dan, tanto por error sistemtico (alejamiento de la bisectriz) X 2.643,75 1.057.292
1.308.042
como por error aleatorio (dispersin de los puntos alrededor Y 3.756,25 2.291.958
de una recta ideal). D=YX 1.112,5 733.166,7

A B
3.000
6.000 2.000
1.000
Diferencia
Mtodo Y
4.000
0
1.000
2.000
2.000
0 3.000
0 2.000 4.000 6.000 1.000 2.000 3.000 4.000 5.000 6.000
Mtodo X Media
Fig. 2. Grfico de dispersin y grfico diferencia frente a media relacionados con los instrumentos de medida del ejemplo.
La falta de concordancia puede deberse a dos tipos error: sis- 6. Cohen J. Weighted kappa: nominal scale agreement with provisions for
temtico y aleatorio. Mientras que el error sistemtico puede scaled disagreement or partial credit. Psychol Bull 1968;70:213-20.
7. Thompson WD, Walter SD. A reappraisal of the kappa coefficient. J Clin
corregirse (por calibracin), para disminuir el error aleatorio Epidemiol 1988;41:969-70.
es necesario estudiar sus posibles causas e intentar controlar 8. Shoukri MM, Pause CA. Statistical methods for health sciences, 2nd ed.
algunas de ellas en nuevas versiones ms perfeccionadas del Boca Ratn: CRC Press, 1999.
mtodo o aparato de medida. 9. Lin L. A concordance correlation coefficient to evaluate reproducibility.
Biometrics 1989;45:255-68.
10. Bland JM, Altman DG. Statistical methods for assessing agreement betwe-
en two methods of clinical measurement. Lancet 1986;1(8476):307-10.
11. Kelly GE. Use of the structural equations model in assessing the reliability
of a new measurement technique. Applied Statistics 1985;34:258-63.
REFERENCIAS BIBLIOGRFICAS 12. Bland JM, Altman DG. Comparing methods of measurement: why plot-
ting difference against standard methods is misleading. Lancet 1995;
1. Fleiss JL. The design and analysis of clinical experiments. Nueva York: 346:1085-7.
Wiley, 1986. 13. Bland JM, Altman DG. Measuring agreement in method comparison stu-
2. Cohen J. A coefficient of agreement for nominal scales. Educational and dies. Stat Methods Med Res 1999;8(2):135-60.
Psychological Measurements 1960;20:37-46. 14. Andersson SW, Niklasson A, Lapidus L, Hallberg L, Bengtsson C, Hult-
3. Shoukri MM. Measurement of agreement. En: Armitage P, Colton T, edi- hn L. Poor agreement between self-reported birth weight and birth
tors. Encyclopedia of biostatistics. Chichester: Wiley & Sons, 1998; p. weight from original records in adult women. Am J Epidemiol 2000;152:
103-17. 609-16.
4. Agresti A. An introduction to categorical data analysis. Nueva York: Wiley 15. Schisterman EF, Faraggi D, Reiser B, Trevisan M. Statistical inference
& Sons, 1996. for the are under the receiver operating characteristic curve in the pre-
5. Shoukri MM, Martin SW, Mian IUH. Maximum likelihood estimation of sence of random measurement error. Am J Epidemiol 2001;154:174-9.
the kappa coefficient from models of matched binary responses. Stat 16. White E. Design and interpretation of studies of differential exposure me-
Med 1995;14:83-99. asurement error. Am J Epidemiol 2003;157:380-7.

Bland y Alman

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bland y Alman

Uploaded by

Copyright:

Available Formats

Document downloaded from http://www.elsevier.es, day 11/06/2017. This copy is for personal use.

Any transmission of this document by any media or format is strictly prohibited.

Mtodos estadsticos para evaluar la concordancia

28 Med Clin (Barc) 2004;122(Supl 1):28-34

CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA

Med Clin (Barc) 2004;122(Supl 1):28-34 29

CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA

TABLA 5 desagregado analizar ms detalladamente las posibles

30 Med Clin (Barc) 2004;122(Supl 1):28-34

CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA

Si se desea evaluar la concordancia de forma desagregada TABLA 6

11 22 1221 Positivo Negativo

Med Clin (Barc) 2004;122(Supl 1):28-34 31

CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA

96 98 100 102 104 94 96 98 100 102 104 106

96 98 100 102 104 106 108 96 98 100 102 106

32 Med Clin (Barc) 2004;122(Supl 1):28-34

CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA

Mtodo Bland-Altman 1.112,5 2* 733.166,7 = 600 y 1.112,5 + 2* 733.166,7 = 2.825

Con este procedimiento desagregado10,12,13 se pretende de-

Med Clin (Barc) 2004;122(Supl 1):28-34 33

CARRASCO JL, ET AL. MTODOS ESTADSTICOS PARA EVALUAR LA CONCORDANCIA

34 Med Clin (Barc) 2004;122(Supl 1):28-34

You might also like