Professional Documents
Culture Documents
TCNICAS CLSICAS
La fiabilidad y la concordancia de los instrumentos de medida son as- tanto, no hay de qu preocuparse. En mbitos regulados,
pectos fundamentales en las ciencias de la salud que no siempre se como es el caso de los ensayos clnicos para el desarrollo
tienen presentes. En este documento se destacan las implicaciones de frmacos, la calidad de los datos en general y la de los
que puede tener el uso de instrumentos sujetos a error y el intercam- procedimientos de medida en particular reciben la mereci-
bio de instrumentos de medida cuyas mediciones no concuerdan. Es-
tas implicaciones se ilustran con ejemplos en los que se pone de ma- da atencin tanto por razones ticas como de eficiencia.
nifiesto el efecto de confusin que puede producir el error de medida. Tambin en la prctica mdica la calidad de las medidas es
En este documento se proponen diversos procedimientos para evaluar un aspecto bsico para conseguir un sistema de salud efi-
la concordancia e identificar las fuentes de error. Estos procedimien- ciente. Cuando un mdico establece el diagnstico de un
tos se clasifican segn la naturaleza de los datos, cualitativos o cuan- paciente basndose en el resultado obtenido mediante un
titativos, as como en el modo en que se evala la concordancia, de
una forma agregada mediante un valor o desagregadamente, analizan- instrumento de medida, debera estar seguro de que el error
do por separado las fuentes de error. de medida es razonablemente pequeo. Las medidas pue-
Mediante estos procedimientos se pone de manifiesto que tcnicas den obtenerse a travs de algn instrumento cuyos resulta-
que frecuentemente se utilizan para evaluar la concordancia como la dos ayuden al profesional en la toma de decisiones (como
comparacin de medias, el coeficiente de correlacin o el modelo de
regresin resultan insuficientes o incorrectas.
los resultados analticos), o mediante observacin directa
del paciente y evaluacin subjetiva por parte del mdico
Palabras clave: Concordancia. Error de medida. Fiabilidad. (como la puntuacin APGAR). Por lo tanto, un mtodo de
Intercambiabilidad. Mtodo de medida. medida puede ser tanto un instrumento como un evaluador
o incluso la combinacin de ambos.
Hablar de calidad de los procedimientos de medida equiva-
Statistical approaches to evaluate agreement le a referirse a la magnitud de los errores de medida inhe-
rentes al procedimiento, entendindose que a mayor cali-
Reliability and agreement of measurement methods is a fundamental dad de medida menor magnitud de los errores y viceversa.
issue in health sciences which is not usually borne in mind. In this
document the connotations of using measurement methods with error
Simplificando, podemos afirmar que existen dos tipos de
and the switchability among measurements from methods which disa- error de medida: sistemtico y aleatorio. El error sistemtico
gree are highlighted. These implications are illustrated through exam- es el que se presenta siempre de la misma forma, sistem-
ples showing up the confounding effect that measurement error can ticamente. Por ejemplo, si 5 personas cuyos pesos reales
produce. son 49, 63, 78, 81 y 94 kg se pesan con una bscula obte-
Throughout the document several procedures to assess agreement
and to identify the error sources are suggested. These procedures are niendo las lecturas 51, 65, 80, 83 y 96 kg, la bscula esta-
classified according to the sort of data, quantitative or qualitative ra afectada de error sistemtico. En este caso se tratara de
data, as well as the way of agreement is assessed, in an aggregate un error sistemtico constante de +2 kg. En otros casos, el
way by means a values or in a disaggregate way analysing separately error sistemtico puede ser proporcional al valor real (p. ej.,
the error sources. errores de +1%, en cuyo caso el valor observado = valor
By means of these procedures is showed that frequently used approa-
ches to assess agreement as the averages comparison, the correlation real 1,01) y tambin es posible que se den ambos tipos,
coefficient or the regression model appear as insufficient or inade- constante y proporcional, simultneamente (p. ej., valor ob-
quate approaches. servado = valor real 1,01 + 2). A diferencia de lo que ocu-
rre con los errores sistemticos, los errores aleatorios son
Key words: Agreement. Measurement error. Reliability. Switchability.
Measurement method.
impredecibles. Aunque a la larga puedan seguir un patrn
conocido, no es posible predecir en qu medida (ni en qu
sentido) ocurrirn en una observacin concreta.
La presencia de error en las medidas provoca numerosos
problemas1, entre los que cabe destacar los errores de cla-
Introduccin sificacin y la atenuacin de las asociaciones. Veamos un
ejemplo para ilustrar estos 2 problemas. El estudio de las
Garantizar la calidad de los procedimientos de medida es
caractersticas de las pruebas diagnsticas es un territorio
un aspecto fundamental en la investigacin biomdica y, en
en el que la importancia de los errores de clasificacin se
general, en la prctica clnica. Aunque todo el mundo res-
pone especialmente de manifiesto. Lo que habitualmente
pondera afirmativamente a la pregunta de si la calidad de
denominamos error de una prueba diagnstica no es ms
los datos es un aspecto que debe considerarse siempre, al
que un caso particular de error de medida: el estado real
menos eso nos gusta creer, en realidad es muy comn asu-
del sujeto, si tiene o no la enfermedad sospechada, es la
mir que los procedimientos de medida funcionan razonable-
caracterstica que deseamos conocer (medir) y la prueba
mente bien (alguien se debe estar ocupando de ello) y, por
diagnstica es el procedimiento de medida que vamos a uti-
lizar. El resultado que obtenemos de aplicar esta prueba
diagnstica es la medida del estado real del sujeto. Imagine-
Correspondencia: Dr. J.L. Carrasco. mos que en un conjunto de 1.000 individuos se valora la
Bioestadstica. Departament de Salut Pblica. presencia de cierta enfermedad mediante una prueba diag-
Universitat de Barcelona. C/ Casanova, 143.
08036 Barcelona. Espaa. nstica cuyo resultado es dicotmico (positivo o negativo) y
Correo electrnico: carrasco@medicina.ub.es que 100 de estos individuos tienen realmente la enferme-
dad y los 900 restantes estn libres de ella. Por ltimo, su- TABLA 1
pongamos que, como es habitual, el mtodo de diagnstico Utilizacin de una prueba para diagnosticar una
est sujeto a error y que la tasa de falsos negativos es del enfermedad. La enfermedad debe entenderse como
10% y la de falsos positivos del 20%. Tal como se ilustra en el estado o valor real del atributo que se desea medir,
la tabla 1, esto supondra que, de los 100 individuos patol- mientras que el resultado de la prueba es el valor
gicos, 10 se clasificaran incorrectamente como no patolgi- observado al aplicar un determinado mtodo de medida
cos, mientras que de los 900 no patolgicos, 180 se consi-
deraran patolgicos. Por lo tanto, utilizando el resultado de Enfermedad (estado real)
la prueba diagnstica como medida del estado real, se con- S No
siderara que el nmero de sujetos patolgicos es de 270 en Positiva 90 180 270
lugar de 100. Prueba (observado)
Negativa 10 720 730
Veamos ahora un ejemplo donde el error de medida, en 100 900 1.000
este caso error de diagnstico o clasificacin, induce una
atenuacin en la asociacin con otra variable. Deseamos es-
tudiar la asociacin entre la enfermedad y un cierto factor TABLA 2
de riesgo. Supongamos ahora que la proporcin de enfer-
Ejemplo de tabla de contingencia entre una enfermedad
mos que presentan el factor de riesgo es del 20%, mientras
y un factor de riesgo. La enfermedad se mide mediante
que esta proporcin es de slo el 5% en el grupo no patol-
un instrumento libre de error
gico. De igual modo que en el ejemplo anterior, asumiremos
que las proporciones se cumplen perfectamente. En primer Enfermedad
lugar, estimaremos la asociacin utilizando una prueba S No
diagnstica libre de error y, posteriormente, utilizando la Positivo 20 45 65
prueba diagnstica con error de clasificacin, comparando Factor de riesgo
Negativo 80 855 935
los resultados obtenidos en ambas situaciones. 100 900 1.000
Si se utiliza una prueba libre de error para clasificar a los indi-
viduos se observarn 100 individuos con la enfermedad y 900
libre de ella. Si a este nmero de individuos se le aplica las TABLA 3
proporciones relacionadas con el factor de riesgo, se obten-
Ejemplo de tabla de contingencia entre una enfermedad
drn las frecuencias representadas en la tabla 2. La asocia-
y un factor de riesgo. La enfermedad se mide con
cin entre la enfermedad y el factor de riesgo se medir me-
un instrumento con error
diante la odds ratio (OR); OR = (20 855)/(45 80) = 4,75.
Hacemos notar al lector que en esta tabla est implcito el Enfermedad
hecho de que estamos midiendo 2 variables: enfermedad y S No
factor de riesgo. Para simplificar el ejemplo asumiremos Positivo 27 38 65
que el factor de riesgo es una caracterstica que podemos Factor de riesgo
Negativo 243 692 935
medir sin error. 270 730 1.000
Ahora repitamos el ejemplo utilizando la prueba diagnstica
con error de clasificacin. De los 270 individuos del grupo
patolgico 90 tienen realmente la enfermedad, mientras Cualquier comparacin entre 2 (o ms) series de medicio-
que 180 estn libres de ella (tabla 1). De esos 90, un 20% nes es susceptible de ser evaluada en trminos de concor-
presentar el factor de riesgo, es decir, 18. En cambio, de dancia entre las series, esto es, verificar si ambas concuer-
los 180 slo un 5% tendr el factor de riesgo, es decir, 9 in- dan (son idntica) o no y en qu grado, aunque el uso de
dividuos. Esto supone que de los 270 individuos clasifica- esta denominacin indica habitualmente que se estn anali-
dos como patolgicos, un total de 18 + 9 = 27 presenta el zando comparativamente 2 instrumentos de medida distin-
factor de riesgo. Qu ocurre con los 730 individuos clasifi- tos. En cualquier caso, parece obvio que cuanto menor sea
cados como no patolgicos? De stos, 10 tienen la enferme- el error de medida en ambas series mayor ser la concor-
dad, mientras que 720 no (tabla 1). De los 10, un 20% pre- dancia y viceversa. En el caso extremo y poco realista de 2
sentar el factor de riesgo, es decir, 2 individuos. De los series sin error de medida, su concordancia ser forzosa-
restantes 720, un 5% tendr el factor de riesgo, lo que su- mente perfecta.
pone 36 sujetos. De este modo, en el grupo de los clasifica- Retomando el esquema de la tabla 4, los estudios de fiabi-
dos como no patolgicos, un total de 2 + 36 = 38 individuos lidad o repetibilidad intentan evaluar cmo concuerdan las
presentar el factor de riesgo. Este proceso se resume en la medidas obtenidas por un nico mtodo o instrumento uti-
tabla 3. lizado de forma repetida. Por ejemplo, podramos utilizar
Ahora la OR adquiere un valor de OR = (27 692)/(38 varias veces un mismo analizador automtico para contar
243) = 2,02, aproximadamente la mitad del valor obtenido el nmero de CD4, procesando alcuotas de la misma
anteriormente, lo que significa que se ha producido una muestra de sangre o podramos pedir a un mismo mdico
considerable atenuacin de la verdadera asociacin, subes- que evaluase una misma imagen en varias ocasiones. En
timacin enteramente provocada por el error de medida de estos casos, el aspecto que se estara evaluando es el error
la prueba diagnstica. de medida del mtodo mediante el estudio de la concor-
De los resultados mostrados en estos ejemplos se deduce la dancia intramtodo, de forma que, si las medidas tomadas
necesidad de valorar la calidad de cualquier mtodo o pro- con el mismo mtodo concuerdan, se puede declarar al
cedimiento de medida que utilicemos. Evaluar la calidad del mtodo libre de error aleatorio calificndolo de repetible.
procedimiento o instrumento de medida conlleva analizar En los denominados estudios de concordancia se verifica
comparativamente nuestra serie de mediciones con otras, cmo concuerdan las medidas obtenidas por el mtodo
que pueden ser de distinto origen y caractersticas depen- cuya calidad se desea valorar, con las obtenidas por otro
diendo de los objetivos planteados en la valoracin, tal y mtodo. Por ejemplo, podramos utilizar 2 analizadores au-
como se resume en la tabla 4. tomticos distintos para contar el nmero de CD4 de una
TABLA 4
Clasificacin de estudios para la evaluacin de la calidad de los procedimientos de medida
Objetivos bsicos de la evaluacin Series utilizadas para la comparacin Denominacin del estudio
Evaluar independencia de los errores Valores obtenidos con el mismo procedimiento o instrumento Fiabilidad
Estimar la magnitud del error aleatorio de medida Repetibilidad
Decidir si un instrumento puede reemplazar a otro Valores obtenidos con un procedimiento o instrumento Concordancia
Evaluar si ambos instrumentos son intercambiables (no hay de medida alternativo
ninguna diferencia en utilizar uno u otro)
Cuantificar el error de medida Valores reales de la variable o atributo (p. ej., obtenidos Calibracin
Estimar los parmetros que han de permitir corregir el error mediante un mtodo de referencia)
de medida
A B
104
106
104
102
102
Y 100 Y 100
98
98
96
94
96
108
104
106
102
104
Y 102 Y 100
100
98
98
96 96
Fig. 1. Ejemplos de grficos de dispersin de las mediciones realizadas por 2 instrumentos de medida.
error sistemtico constante y proporcional), X = Y , igual- + X por el mtodo de mnimos cuadrados, basado en la
dad de desviaciones tpicas (ausencia de error sistemtico suposicin de que X est libre de error. En general, esta su-
proporcional), X = Y, y que la correlacin sea perfecta (au- posicin no es razonable y los modelos de ecuaciones es-
sencia de error aleatorio), XY = 1. Llegados a este punto, es tructurales permiten obtener un modelo de relacin lineal
fcil darse cuenta de que la comparacin de medias o el entre los 2 mtodos sin necesidad de hacerla.
clculo del coeficiente de correlacin de Pearson son insufi-
cientes para el estudio de la concordancia. La igualdad de Coeficiente de concordancia de Lin
medias tan slo garantiza que los 2 mtodos se centran en
Este coeficiente se defini9 reescalando la desviacin cua-
el mismo valor, pero en ningn caso que todos sus valores
drtica media entre los mtodos de medida de forma que
sean iguales. Las figuras 1b y 1d representan situaciones en
adoptase valores entre 1 y 1. La expresin del coeficiente
que hay igualdad de medias, pero los valores no concuer-
de concordancia es:
dan. Del mismo modo, un coeficiente de correlacin de 1
indica una relacin lineal perfecta, es decir, la relacin entre
los 2 mtodos es una recta carente de error aleatorio, pero 25 XY
C =
esta recta no tiene por qu ser la bisectriz (figs. 1c y 1d) y, x2 + Y2 + (X Y)2
por tanto, una correlacin perfecta no es sinnimo de con-
cordancia perfecta. Adems, la diferencia de varianzas ha
resultado ser tambin un componente de la concordancia, y donde XY representa la covarianza entre los 2 mtodos de
por tanto tambin debe evaluarse. medida. Este coeficiente toma el valor 1 en caso de concor-
Existen diferentes procedimientos para determinar la con- dancia perfecta y el valor 0 en caso de independencia entre
cordancia entre medidas cuantitativas. Entre ellos hemos los 2 mtodos. En teora, este estadstico puede tomar tam-
querido destacar en este artculo el coeficiente de concor- bin valores negativos. As, C = 1 indicara una discordan-
dancia9 y el mtodo Bland-Altman10, pero existen otros pro- cia perfecta entre los 2 mtodos, aunque esta situacin re-
cedimientos ampliamente utilizados, como el coeficiente de sulta inverosmil en un problema real, puesto que los
correlacin intraclase1, estrechamente relacionado con el procedimientos X e Y pretenden medir la misma caracters-
coeficiente de concordancia, y el modelo de ecuacin es- tica.
tructural11. Este ltimo merece una mencin especial, ya El coeficiente de concordancia de Lin es una medida agre-
que es habitual analizar la concordancia entre 2 mtodos gada, ya que evala globalmente la concordancia mediante
mediante el ajuste de un modelo de regresin simple Y = un nico valor. Un anlisis desagregado consistira en eva-
TABLA 7
Ejemplo de mediciones sobre una caracterstica cuantitativa realizadas por 2 mtodos de medida
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Mtodo X 4.200 3.500 1.900 4.700 1.600 3.300 2.400 2.800 2.100 2.900 1.800 1.600 3.700 2.900 1.200 1.700
Mtodo Y 5.100 5.600 3.100 6.700 2.700 5.600 5.000 3.100 2.100 3.400 1.600 1.800 4.700 3.700 3.100 2.800
luar por separado la diferencia de medias, la diferencia de El anlisis para evaluar la concordancia se realizar combi-
varianzas y el coeficiente de correlacin. nando tanto el coeficiente de concordancia de Lin como el
Si se desea realizar algn tipo de inferencia sobre este coe- mtodo de Bland-Altman, ya que los 2 procedimientos pue-
ficiente, como la construccin de intervalos de confianza o den utilizarse paralelamente en el mismo anlisis.
contrastar algn tipo de hiptesis, hay que tener en cuenta Para ello, es necesario obtener las medias y las varianzas de
que los procedimientos derivados para este fin dan por su- cada mtodo, la covarianza de ambos y la media y la des-
puesto que tanto Y como X se distribuyen segn una ley viacin tpica de las diferencias. En la tabla 8 se muestran
normal9. estos valores.
El coeficiente de concordancia es una medida dependiente de La estimacin del coeficiente de concordancia es de 0,5703,
la covarianza entre los mtodos y, al igual que en el caso del con un intervalo de confianza9 del 95% de [0,2892-0,7609],
ndice kappa y la prevalencia, no deberan compararse coefi- lo que indica un bajo grado de concordancia.
cientes de concordancia con covarianzas muy diferentes. Los lmites de concordancia de Bland-Altman son:
A B
3.000
6.000 2.000
1.000
Diferencia
Mtodo Y
4.000
0
1.000
2.000
2.000
0 3.000
0 2.000 4.000 6.000 1.000 2.000 3.000 4.000 5.000 6.000
Mtodo X Media
Fig. 2. Grfico de dispersin y grfico diferencia frente a media relacionados con los instrumentos de medida del ejemplo.
La falta de concordancia puede deberse a dos tipos error: sis- 6. Cohen J. Weighted kappa: nominal scale agreement with provisions for
temtico y aleatorio. Mientras que el error sistemtico puede scaled disagreement or partial credit. Psychol Bull 1968;70:213-20.
7. Thompson WD, Walter SD. A reappraisal of the kappa coefficient. J Clin
corregirse (por calibracin), para disminuir el error aleatorio Epidemiol 1988;41:969-70.
es necesario estudiar sus posibles causas e intentar controlar 8. Shoukri MM, Pause CA. Statistical methods for health sciences, 2nd ed.
algunas de ellas en nuevas versiones ms perfeccionadas del Boca Ratn: CRC Press, 1999.
mtodo o aparato de medida. 9. Lin L. A concordance correlation coefficient to evaluate reproducibility.
Biometrics 1989;45:255-68.
10. Bland JM, Altman DG. Statistical methods for assessing agreement betwe-
en two methods of clinical measurement. Lancet 1986;1(8476):307-10.
11. Kelly GE. Use of the structural equations model in assessing the reliability
of a new measurement technique. Applied Statistics 1985;34:258-63.
REFERENCIAS BIBLIOGRFICAS 12. Bland JM, Altman DG. Comparing methods of measurement: why plot-
ting difference against standard methods is misleading. Lancet 1995;
1. Fleiss JL. The design and analysis of clinical experiments. Nueva York: 346:1085-7.
Wiley, 1986. 13. Bland JM, Altman DG. Measuring agreement in method comparison stu-
2. Cohen J. A coefficient of agreement for nominal scales. Educational and dies. Stat Methods Med Res 1999;8(2):135-60.
Psychological Measurements 1960;20:37-46. 14. Andersson SW, Niklasson A, Lapidus L, Hallberg L, Bengtsson C, Hult-
3. Shoukri MM. Measurement of agreement. En: Armitage P, Colton T, edi- hn L. Poor agreement between self-reported birth weight and birth
tors. Encyclopedia of biostatistics. Chichester: Wiley & Sons, 1998; p. weight from original records in adult women. Am J Epidemiol 2000;152:
103-17. 609-16.
4. Agresti A. An introduction to categorical data analysis. Nueva York: Wiley 15. Schisterman EF, Faraggi D, Reiser B, Trevisan M. Statistical inference
& Sons, 1996. for the are under the receiver operating characteristic curve in the pre-
5. Shoukri MM, Martin SW, Mian IUH. Maximum likelihood estimation of sence of random measurement error. Am J Epidemiol 2001;154:174-9.
the kappa coefficient from models of matched binary responses. Stat 16. White E. Design and interpretation of studies of differential exposure me-
Med 1995;14:83-99. asurement error. Am J Epidemiol 2003;157:380-7.