A pesar de las recomendaciones de las actuales Guías de Práctica Clínica, la radiografía de tórax sigue siendo una prueba diagnóstica ampliamente utilizada en la evaluación de lactantes con bronquiolitis aguda (BA). No obstante, su reproductibilidad en estos pacientes no ha sido muy estudiada. En la presente investigación, se evalúan radiografías describiéndose su calidad técnica, hallazgos radiológicos en las mismas y se aportan nuevas evidencias sobre la concordancia entre observadores.
MétodoSobre un total de 281 lactantes ingresados por bronquiolitis aguda, se realizaron 140 radiografías de tórax. Se evaluó la presencia o ausencia de 10 signos radiográficos previamente consensuados por 12 médicos de diferentes especialidades. El nivel de concordancia entre dos observadores y en grupos de tres o más, fue estudiado mediante el índice kappa de Cohen y de Fleiss, respectivamente.
ResultadosÚnicamente en el 8,5% de las radiografías se evidenciaron signos de BA complicada. La concordancia entre observadores en grupos de tres o más fue mediana y con escasa variabilidad (kappa: 0,20-0,40), sin embargo, entre dos observadores, cada médico observador frente al radiólogo de referencia, la variabilidad fue más amplia, (kappa: –0,20-0,60). Este nivel de concordancia se relacionaba con factores tales como el signo a evaluar, la especialidad médica y el grado de experiencia profesional, entre otros.
ConclusiónLos bajos niveles de concordancia entre observadores y su amplia variabilidad, convierten a la radiografía de tórax en una herramienta diagnóstica poco fiable y no recomendable para la evaluación de lactantes con BA.
Despite the recommendations of the current Clinical Practice Guidelines, the chest x-ray continues to be a widely used diagnostic test in the assessment of infants with acute bronchiolitis (AB). However, there have not been many studies that have assessed its reproducibility in these patients. In the present study, an evaluation is made on the radiographs, describing their quality, their radiological findings, and provides new evidence on the agreement between observers.
MethodOut of a total of 281 infants admitted due to acute bronchiolitis, 140 chest x-rays were performed. Twelve doctors from different specialities evaluated the presence or absence of 10 radiological signs previously agreed by consensus. The level of agreement between 2 observers, and in groups of 3 or more, were analysed using the Cohen and Fleiss kappa index, respectively.
ResultsOnly 8.5% of the radiographs showed evidence of a complicated AB. The between-observer agreement in groups of 3 or more was medium, and with little variability (kappa: 0.20-0.40). However, between 2 observers, each observer against radiologist, the variability was wider, (kappa: –0.20-0.60). This level of agreement was associated with factors including, the sign to evaluate, the medical specialty, and level of professional experience.
ConclusionThe low levels of agreement between observers and the wide variability, makes the chest x-ray an unreliable diagnostic tool, and is not recommended for the assessment of infants with AB.
La bronquiolitis aguda (BA) es una patología que provoca una importante carga asistencial y consumo de recursos en cada época epidémica1-3. La radiografía de tórax (RxT) ha sido y sigue siendo una herramienta diagnóstica muy utilizada4. Las Guías de Práctica Clínica y revisiones en BA más recientes recomiendan no utilizarla en la mayor parte de estos pacientes5-7, evitando así incrementar el coste económico de la asistencia, el tiempo de espera en urgencias, la exposición innecesaria a radiación ionizante y el uso excesivo de antibioticoterapia no indicada4. Esfuerzos importantes se vienen realizando en los últimos años para tratar de implementar estas recomendaciones8. A una prueba diagnóstica se le debe exigir la validez, seguridad, fiabilidad y precisión suficientes para que su uso esté recomendado en la práctica clínica9. Esta fiabilidad y precisión vienen determinadas por lo reproducible de la prueba en contextos clínicos diferentes. La reproductibilidad de las pruebas diagnósticas se explora mediante estudios de concordancia interobservador9. La mayor parte de los estudios previos sobre fiabilidad y precisión de la RxT en niños no se han centrado en lactantes con BA, sino en pacientes con un amplio rango de edad (lactantes y niños) y en todo tipo de infecciones respiratorias de vías bajas. Además, en ellos se establecen comparaciones principalmente entre sólo dos observadores. Consecuencia de ello es la existencia de resultados muy dispares entre las distintas investigaciones10. Únicamente hemos encontrado un estudio en la literatura que evalúe estos aspectos, centrándose específicamente en lactantes afectos de BA11. El objetivo principal de nuestra investigación ha sido analizar si la RxT presenta la fiabilidad suficiente para ser utilizada en nuestro medio como prueba diagnóstica en BA, examinando si la especialidad médica del observador y su nivel de experiencia profesional influyen en el grado de concordancia con un radiólogo de referencia. Como objetivos secundarios, describir los hallazgos radiográficos en una muestra de lactantes ingresados por BA y evaluar la calidad técnica de las radiografías realizadas.
Material y métodoDiseño y población a estudioEstudio observacional, analítico, de diseño transversal llevado a cabo en un hospital de complejidad nivel 2 (Anexo), en el cual se incluyeron médicos que actuaron como evaluadores de radiografías de tórax realizadas a lactantes diagnosticados de BA. Los casos fueron incluidos de forma prospectiva entre los años 2009 y 2017 como aquellos lactantes con edad igual o inferior a 12 meses que fueron ingresados con el citado diagnóstico (basado en los criterios de McConnochie ajustados para edad)12, mientras que entre los años 2006 y 2008 fueron incluidos de forma retrospectiva mediante revisión de historias clínicas de lactantes con edad ≤ 12 meses. El diagnóstico de BA para los pacientes de este segundo periodo se basó en la Clasificación Internacional de Enfermedades, novena revisión (CIE-9), concretamente codificados como 466,11 y 466,19.
Los observadoresUn total de 12 observadores participaron: cinco pediatras (P1, P2, P3, P4 y P5), tres médicos de urgencias (MU1, MU2 y MU3), tres médicos residentes de la especialidad de Medicina Familiar y Comunitaria (R1, R2 y R3) y un radiólogo pediátrico (RP). Con el objetivo de estudiar la posible relación entre el nivel de experiencia profesional de los observadores pediatras y su grado de concordancia con el radiólogo de referencia, se clasificó la experiencia profesional de estos de forma arbitraria en función del número de años de trabajo tras haber finalizado el periodo de formación de la residencia: < 10 años (experiencia baja), entre 10 y 19 años (experiencia intermedia) y ≥ 20 años de experiencia profesional (experiencia alta). De esta manera los pediatras P2 y P5 eran los menos expertos, el pediatra P1 el que poseía una experiencia intermedia y los pediatras P3 y P4 los más expertos. El RP se consideró como patrón de referencia para el proceso de evaluación de las RxT. Ella recibió formación específica en radiología pediátrica durante el periodo de su residencia y ha sido la radióloga con dedicación específica a la pediatría en nuestro hospital en los últimos 12 años. Todos los médicos incluidos, <
Sobre un total de 281 lactantes, a 129 de ellos, un 45,9%, se les practicó alguna radiografía de tórax. Un total de 140 radiografías fueron realizadas, bien en la atención inicial en la Unidad de Urgencias hospitalaria o durante el transcurso del ingreso. Se trataba de una proyección anteroposterior en todos los casos.
Variables de estudioEl proceso de observación de las radiografíasPara su observación y evaluación, cada una de las 140 radiografías se presentó de forma computarizada con el mismo formato y en distinto orden a cada uno de los 12 observadores. Se habilitó un ordenador en cada uno de los Servicios a los que pertenecían los observadores colaboradores. Para evitar la identificación de las imágenes y posibles comentarios entre ellos, la secuencia de presentación de las radiografías a evaluar era diferente para cada observador, aunque todos ellos evaluaban las mismas imágenes radiográficas. Durante los periodos en los que se tuvo acceso a las placas para hacer las observaciones, los observadores no podían tener contacto entre sí ni acceso a ninguna otra fuente de información externa. Tampoco tenían acceso a la historia clínica del paciente y únicamente conocían de estos que se trataba de lactantes diagnosticados de BA. La visualización de las radiografías se realizó sobre una pantalla digital de 24 pulgadas con resolución 1920 x 1080 FULL HD. De todas y cada una de las radiografías cada observador debía evaluar la presencia o ausencia de los siguientes 10 signos radiográficos: hiperinsuflación, refuerzo perihiliar, infiltrado perihiliar o peribronquial, infiltrado intersticial difuso, atelectasias subsegmentarias, infiltrado pulmonar o atelectasia mayor, cardiomegalia, neumomediastino, neumotórax, cuerpo extraño. La existencia de cualquiera de estos signos radiográficos no era excluyente del resto. Los primeros cinco signos a evaluar eran considerados hallazgos compatibles con «BA simple o no complicada». La presencia del sexto de los signos en la radiografía del paciente se consideró compatible con una «BA complicada», y los restantes cuatro signos radiográficos implicaban el que pudiera tratarse de un «diagnóstico alternativo, diferente al de BA». Cuando ninguno de estos 10 signos estaba presente en la radiografía evaluada, a esta se la consideraba como «estudio normal». Estas variables escogidas para la evaluación de radiografías de tórax en lactantes afectos de BA no constituyen un método validado, sino que son el resultado de un consenso alcanzado por el equipo investigador tras la lectura y evaluación de otros estudios similares que se han llevado a cabo con anterioridad10,12-14. Además, el RP evaluó cuatro signos más que tenían que ver con la calidad técnica de la radiografía: se incluía la totalidad de la caja torácica, estaba adecuadamente centrada, presentaba una penetración o dureza adecuada y se encontraba convenientemente inspirada. Estos fueron consensuados por el equipo investigador tras consultar literatura específica al respecto15. Todos estos signos se evaluaban como variables binarias, pudiendo tomar los valores, sí o no.
Análisis estadísticoLas variables estudiadas se presentan como recuentos absolutos y porcentajes con IC 95%. Para analizar la concordancia entre dos observadores se utilizó el índice kappa de Cohen16,17, mientras que cuando se analizó la concordancia en grupos compuestos por tres o más observadores se utilizó el índice kappa de Fleiss. Este índice surge como generalización del Cohen al aplicarse a clasificaciones multinomiales (con más de dos categorías), ordinales a más de dos observadores, a diseños incompletos y a todas estas situaciones combinadas, generalizaciones que suponen una mayor complejidad en el cálculo pero que mantienen la misma interpretación17,18. El análisis estadístico se realizó mediante el programa Matlab 2018. Con objeto de interpretar el índice kappa (K) de forma consensuada, se tomó como referencia la escala de valoración propuesta inicialmente por Landis y Koch19 que ha sido acreditada con posterioridad en la literatura científica20. En esta, valores del índice < 0,00 indican «sin acuerdo» entre los observadores; entre 0,00-0,20 indican un grado de acuerdo «insignificante»; entre 0,21-0,40 «mediano»; entre 0,41-0,60 «moderado»; entre 0,61-0,80 «sustancial» y entre 0,81-1,00 «casi perfecto».
Cálculo de la precisión para el tamaño muestralBasándonos en la publicación de Cantor AB21 y mediante la utilización del programa Epidat 4.2 se ha procedido a estimar la precisión de la medida del índice kappa para el tamaño de muestra obtenido, 140 radiografías. De tal forma que, asumiendo un K esperado de 0,4, con una proporción de positivos en el observador 1 de 0,8 y de 0,5 en el observador 2, con un IC 95%, para un tamaño muestral de 140 radiografías, la precisión del K obtenido es de 0,903.
ResultadosA 129 de los 281 lactantes ingresados, un 45,9%, se les indicó la realización de alguna radiografía de tórax. A 120 de ellos una sola radiografía, a siete, dos y a otros dos pacientes tres radiografías a cada uno. En total 140 radiografías fueron realizadas y evaluadas en el estudio. Las características principales de la muestra estudiada pueden observarse en la tabla 1. Desde el punto de vista de la valoración de la calidad técnica de las radiografías realizadas, se encontraba adecuadamente inspirada, penetrada e incluyendo la totalidad del tórax del paciente el 96,4% (IC 95%: 94,9-97,8), 90,7% (IC 95%: 86,5-94,9) y 86,4% (IC 95%: 81,1-91,7) de ellas respectivamente. No obstante, tan sólo el 22,1% (IC 95%: 15,0-29,2) de las mismas se consideraron adecuadamente centradas. La evaluación de la presencia o ausencia de los diferentes signos radiográficos llevada a cabo por nuestro radiólogo de referencia en el conjunto de nuestra muestra de radiografías puede observase en la figura 1. Se evidenciaron signos radiográficos de BA complicada en el 8,5% (IC 95%: 3,7-13,3) de las radiografías. Pudieron plantearse diagnósticos alternativos diferentes a una BA en el 2,1% (IC 95%: 0,3-4,6) de las radiografías, dos por evidenciarse signos de neumotórax y uno por la presencia de signos indirectos de un posible cuerpo extraño en vía aérea. En el 92,8% (IC 95%: 89,3-96,3) de las radiografías se objetivaron únicamente signos compatibles con BA simple o no complicada y el 5,7% (IC 95%: 1,7-9,6) de las placas se consideraron normales. El nivel de concordancia entre profesionales para la evaluación de la mayoría de los signos radiológicos fue mediano, expresado mediante un K de entre 0,20 y 0,40, tal y como puede observarse en la figura 2. Únicamente para el signo «hiperinsuflación», el grado de acuerdo fue insignificante, K de entre 0,00 y 0,20. En concreto K de 0,17 (0,15-0,18) para pediatras, K = 0,05 (0,02-0,07) para médicos de urgencias y K = 0,02 (–0,00-0,04) para médicos residentes. El mayor grado de concordancia se obtuvo para el signo «cuerpo extraño» con un K de 0,32 (0,32-0,32) para pediatras, K = 0,34 (0,34-0,34) para médicos de urgencias y K = 0,32 (0,32-0,33) para médicos residentes (fig. 2). Por otro lado, se hizo una evaluación del grado de concordancia entre cada uno de los 11 observadores: cinco pediatras, tres médicos de urgencias y tres médicos residentes, con el RP. En la figura 3 puede observarse como todos los pediatras salvo uno, el P5, presentaron un grado de concordancia con el radiólogo que osciló entre 0,40 y 0,60 para la mayoría de los signos evaluados. No obstante, y a pesar de que uno de los pediatras con mayor nivel de experiencia, P3, obtuvo un nivel de concordancia elevado con el RP, el otro con mayor experiencia profesional, P4, ocupó el cuarto lugar en lo que se refiere al grado de concordancia con el RP, viéndose superado por P1 y P2. Los médicos de urgencias obtuvieron unos K que oscilaron entre 0,20 y 0,40 y 2 de los tres médicos residentes un grado de concordancia inferior a los médicos de urgencias, entre –0,20 y 0,20. Uno de los tres médicos residentes obtuvo unos índices kappa comparables con los obtenidos por pediatras. Además, y de forma general, todos los profesionales presentaban un grado de concordancia inferior con el radiólogo de referencia en lo que se refería a los signos radiográficos de BA no complicada, en comparación con el resto de los signos (BA complicada, otros posibles diagnósticos y estudio normal) (fig. 3).
Características principales de la muestra estudiada
Sexo (mujer) | 122 (43,4) |
Nacionalidad | |
Español | 242 (86,1) |
Sur y centroamericano | 5 (1,8) |
Marroquí | 13 (4,6) |
Rumano | 20 (7,1) |
Otras | 1 (0,4) |
Edad ≤ 28 días | 34 (12,1) |
Edad ≤ 3 meses | 161 (57,3) |
Edad ≤ 6 meses | 230 (81,9) |
Edad (meses) | 2,5 (1,5-5) |
RxT realizada | 129 (45,9)a |
VRS positivo | 158 (60)b |
SaO2 ≤ 90% al ingreso | 55 (39,3)c |
Necesidad de ingreso en UCIP | 7 (2,5) |
Necesidad de tratamiento ATB | 35 (12,5) |
DEH | 4,48 (2,37) |
RxT, radiografía de tórax; VRS, virus respiratorio sincitial; SaO2, saturación de oxígeno; UCIP, unidad de cuidados intensivos pediátricos; ATB, antibiótico; DEH, duración de la estancia hospitalaria.
En el presente estudio se evidencia que el 77,8% de las radiografías no se encontraban adecuadamente centradas, a juicio del propio RP. Esta es una de las características básicas que determinan la calidad técnica de la imagen de la RxT, y sus alteraciones, constituyen un motivo frecuente de «falsas interpretaciones» del tórax pediátrico22. Nuestros resultados son similares a los aportados por otros investigadores respecto al porcentaje de radiografías que presentan o bien signos compatibles con una BA complicada, que en nuestro caso fue el 8,5%, o bien signos que nos harían pensar en un diagnóstico alternativo, 2,1% de las radiografías. Así, Schuh S et al. informaron de tan sólo un 6,9% de radiografías compatibles con BA complicada y de un 0,7% de radiografías que sugerían un diagnóstico alternativo al de BA en una muestra de 265 radiografías de pacientes con BA23. En otro estudio de similares características, sobre un total de 140 casos, los porcentajes de las radiografías con signos compatibles con una BA complicada y con signos para pensar en un diagnóstico alternativo fueron respectivamente de 16% y 0,7%24. Esto ya nos da una primera aproximación de que deben realizarse muchas radiografías e irradiar a muchos lactantes con un diagnóstico clínico de BA para evidenciar signos que puedan hacernos cambiar de actitud diagnóstico-terapéutica. En los estudios de concordancia interobservador existe una importante heterogenicidad, no sólo en cuanto al tipo de paciente y patología, sino también respecto de los signos radiológicos escogidos para valorar el tipo de especialista que evalúa y su grado de experiencia profesional, y también la metodología utilizada en lo que se refiere a si se establecieron comparaciones únicamente entre dos observadores o entre tres o más observadores al mismo tiempo12,14,25,26.
En este contexto las investigaciones presentan resultados muy variables y difícilmente comparables entre sí, algunas con elevados niveles de concordancia entre observadores10,13, y sin embargo otras12,14,26, con niveles de concordancia medianos o moderados, con índices kappa entre 0,20 y 0,60, similares a los obtenidos en la presente investigación. En lo referente a nuestro estudio, cuando la concordancia se analizó dentro de cada grupo de especialistas, esta resultó mediana, expresada mediante un índice kappa de Fleiss en un rango estrecho de entre 0,20 y 0,40 para todos los signos excepto uno, tal y como se muestra en la figura 2. Sin embargo, la concordancia presentó mayor variabilidad, índice kappa de Cohen entre –0,20 y 0,60, cuando esta se estudió entre cada uno de los profesionales y el radiólogo pediátrico, como se observa en la figura 3. Coincidiendo con Lewinsky et al.14, en nuestra investigación se demuestra que el nivel de concordancia de un observador con la referencia se encuentra asociada con la especialidad del observador tal y como puede objetivarse en la figura 3, de tal forma que, en general, esta es mayor en pediatras que en médicos de urgencia y médicos residentes. En otras investigaciones se concluyen que la importante variabilidad entre observadores podría obedecer a su diferente nivel de experiencia clínica14,26, de tal forma que a mayor nivel de experiencia de los observadores, mayor nivel de concordancia con la referencia14. No obstante, a tenor de nuestros resultados, no podría hacerse esta misma aseveración, dado que el nivel de concordancia de los observadores pediatras con la referencia no es directamente proporcional a su grado de experiencia clínica, ya que uno de ellos con dilatada experiencia, el P4, presenta un grado de concordancia inferior al obtenido por tres de los cinco pediatras estudiados (fig. 3). Nuestro estudio presenta limitaciones, tales como que nuestros observadores conocían a priori que las radiografías a evaluar habían sido tomadas a pacientes con BA. Este hecho, aunque podría haber ocasionado un aumento de concordancia entre observadores, finalmente no ha sido así. Además, nuestra investigación se centra en el estudio de la fiabilidad del test diagnóstico mediante un análisis de la concordancia interobservador, si además se hubiera realizado también un análisis de la concordancia intraobservador, la investigación hubiera sido más completa. Debe comentarse también que se escogió un solo radiólogo como referencia de comparación, no obstante, ella es la única radióloga con dedicación específica a la radiología pediátrica en nuestro hospital y por tanto se consideró nuestra mejor elección como referencia para poder llevar a cabo el estudio. Por otro lado, nuestra investigación presenta también puntos fuertes, tales como que se trata de una muestra de pacientes muy homogénea, todos lactantes con edad ≤ 12 meses ingresados con el diagnóstico de BA, tratándose además de una muestra recogida a lo largo de 11 épocas epidémicas consecutivas. Únicamente hemos encontrado en la literatura una investigación previa en la que se analiza la fiabilidad de la RxT exclusivamente en lactantes con BA11.
En la presente investigación se describen unos niveles de concordancia interobservador de insignificantes a moderados para la evaluación de la RxT utilizada como herramienta diagnóstica de la BA en lactantes. Además, se describen factores posiblemente relacionados con esta baja reproductibilidad de la prueba, tales como, calidad técnica de la imagen, los signos radiográficos a evaluar, la espacialidad médica del observador, su experiencia clínica y el modo en el que se ha estudiado el nivel de concordancia entre ellos, únicamente entre dos o bien entre tres o más al mismo tiempo. Esto hace que la RxT presente una baja fiabilidad como test diagnóstico en la evaluación de lactantes con BA y por tanto se desaconseje su uso de manera general.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses. Declaran además no haber recibido ninguna beca ni ningún otro tipo de financiación para llevar a cabo la presente investigación.
Damos las gracias a los médicos residentes de familia, Juan Manuel Sánchez, Francisco Javier Cordón y Francisco Alonso. A los médicos adjuntos de la Unidad de Urgencias, Luís Fernández, Diana Moya y David García y a los médicos del Servicio de Radiodiagnóstico, Lourdes Hernández y Daniel Soliva, todos ellos del Hospital Virgen de la Luz de Cuenca, por el hecho de haber participado voluntariamente y sin remuneración de ningún tipo en la evaluación de las radiografías de tórax incluidas en el estudio.También a nuestra compañera del Departamento de informática María Victoria Carrasco, por haberse responsabilizado de la gestión para la evaluación cegada de las radiografías por parte de los distintos profesionales sanitarios.Finalmente a Rosa Josefina Bertolín Bernades y a nuestros hijos Juanma y Pedro por el tiempo de convivencia robado que nunca volverá.