Introducción
Los índices pronósticos de mortalidad han sido desarrollados para cuantificar objetivamente la gravedad del paciente crítico, estimando la probabilidad de muerte que presenta según su estado clínico1. Actualmente existen varios índices pronósticos de mortalidad disponibles para las unidades de cuidados intensivos pediátricos (UCIP). El más utilizado es el Pediatric Risk of Mortality score (PRISM), publicado en 19882 y que constituye el patrón de referencia de los sistemas de valoración de gravedad pediátricos3. Incluye 14 variables con 32 rangos, recogiendo el peor valor de cada una durante las primeras 24 h de cuidados intensivos. El riesgo de mortalidad se calcula mediante una ecuación de regresión logística en la que el valor del PRISM es una de las variables, junto con la edad y la existencia o no de intervención quirúrgica previa al ingreso. En 1996 se publicó una versión más sencilla del PRISM, el PRISM-III, que incluye 17 variables con 14 rangos4 y recoge el peor valor de cada una durante las primeras 12 o 24 h de cuidados intensivos. Esta versión se actualiza periódicamente mediante el reajuste de los coeficientes de su ecuación de probabilidad de muerte, pero para su utilización es necesaria una licencia renovable anualmente.
Pueden argumentarse ciertas objeciones al PRISM debido a su planteamiento, ya que en los pacientes más graves, que fallecen en las primeras 24 h, el peor valor de cada variable puede estar diagnosticando la muerte más que cuantificando la gravedad de la enfermedad5. Además el PRISM no discrimina la calidad de los cuidados intensivos administrados en las primeras 24 h; así, un paciente que reciba un tratamiento adecuado se recuperará más rápidamente y tendrá un PRISM menor que si recibiera un tratamiento menos correcto, lo cual empeoraría los parámetros valorados por el PRISM y éste indicaría aparentemente una mayor gravedad de su enfermedad5. Por otro lado, el PRISM mide el estado del paciente sin tener en cuenta si tiene alguna enfermedad de base, lo cual puede influir en su pronóstico3.
Para intentar corregir los problemas que origina el planteamiento del PRISM, en 1997 se publicó el Paediatric Index of Mortality (PIM)5. Este índice evalúa 8 variables, recogiendo el primer valor de cada una durante la primera hora del ingreso. A cada uno de estos valores se le aplica un coeficiente para determinar la probabilidad de muerte. En 2003 el PIM fue actualizado para ajustarlo a la práctica intensiva más reciente6. El PIM-2 incluye 3 variables más, además de modificar ligeramente las variables del PIM y los coeficientes de la ecuación de probabilidad de muerte.
El PIM resulta más sencillo de aplicar que el PRISM, pero también presenta ciertos inconvenientes. En primer lugar, la primera medida de las constantes fisiológicas al ingreso en la UCIP puede ser muy variable y no reflejar la gravedad de la enfermedad, sino un estado transitorio relacionado con el traslado del paciente a la unidad7,8. Además, la fórmula matemática aplicada para el cálculo de la probabilidad de muerte es muy compleja. Por último, la experiencia con este sistema es muy limitada, especialmente con el PIM-2.
El objetivo del presente estudio es comprobar la validez del PRISM, el PIM y el PIM-2 en una muestra heterogénea de niños críticos españoles.
Pacientes y métodos
Pacientes
El estudio se desarrolló en las UCIP de dos hospitales: la del Hospital General Universitario Gregorio Marañón de Madrid (HGUGM), unidad de nivel asistencial III que cuenta con 10 camas; y la del Hospital Universitario Central de Asturias (HUCA), unidad de nivel asistencial II que cuenta con 4 camas y en la que la cirugía cardiovascular pediátrica no está disponible. Ambas unidades admiten pacientes entre un mes y 16 años, aunque dependiendo de las necesidades asistenciales del hospital pueden ingresar excepcionalmente pacientes menores de un mes o mayores de 16 años, y están atendidas las 24 h del día por pediatras especializados en cuidados intensivos.
Se incluyeron en el estudio los pacientes críticamente enfermos ingresados de forma consecutiva desde el 1 de noviembre de 2003 hasta el 30 de junio de 2004. Se excluyeron los pacientes que cumplían alguno de los siguientes criterios: a) pacientes ingresados para control de sedación durante la realización de procedimientos diagnósticos o terapéuticos; b) pacientes con estancia menor de 2 h, y c) pacientes trasladados a otra UCIP para recibir cuidados que no se podían administrar en la UCIP estudiada, ya que en estos casos no se podía conocer la evolución del paciente.
Metodología
Se diseñó un estudio de cohortes prospectivo y observacional. De cada paciente se recogieron los siguientes datos: edad, sexo, diagnóstico de ingreso, tiempo de estancia, estado al alta de la UCIP (vivo, muerto), así como las variables del PRISM, del PIM y del PIM-2. Para definir el diagnóstico de ingreso se tuvo en cuenta la disfunción que originó la necesidad de cuidados intensivos, según las Normas de la Sociedad de Cuidados Intensivos de la Academia Americana de Pediatría9, añadiendo un apartado para politraumatismos con o sin traumatismo craneoencefálico. Para calcular la probabilidad de muerte de los pacientes se aplicaron las ecuaciones descritas por Pollack et al2 para el PRISM, por Shann et al5 para el PIM y por Slater et al6 para el PIM-2.
Análisis estadístico
Los datos fueron procesados mediante el programa informático SPSS (Statistical Program for Social Science), versión 11.0. Para expresar las características de los pacientes se han utilizado estadísticos descriptivos simples, como media ± desviación estándar, medianas y porcentajes. Para las comparaciones se utilizaron pruebas no paramétricas por no presentar las variables una distribución normal, aceptando como nivel de significación un valor de p < 0,05. La comparación de las curvas ROC se realizó con el programa informático EpiDat (Análisis Epidemiológico de Datos Tabulados), versión 3.1.
Para evaluar los índices pronósticos de mortalidad se analizaron tres aspectos: el funcionamiento general, la discriminación y la calibración. El funcionamiento general se estimó a través de la Razón de Mortalidad Estandarizada (RME), que compara la mortalidad observada en la muestra con la esperada por cada modelo (RME = mortalidad observada/mortalidad esperada). La discriminación (capacidad del índice para diferenciar entre los pacientes que sobreviven y los que fallecen) se calculó midiendo el área bajo la curva de rendimiento diagnóstico (curva ROC)10, de forma que el mayor valor del área bajo la curva ROC se corresponde con la mejor capacidad de discriminación; se considera que un área de 0,70-0,79 es aceptable, de 0,80-0,89 es buena y de 0,90 o más es excelente. La calibración (grado de exactitud de las predicciones de riesgo realizadas por el modelo) se estimó con la prueba de bondad de ajuste de Hosmer-Lemeshow11, que consiste en comparar el número de muertes observado con el número de muertes esperado y el número de supervivientes observado con el número de supervivientes esperado en 10 grupos de riesgo de mortalidad crecientes o deciles de riesgo; la calibración estadística se evidencia por un valor de p > 0,05, de forma que a mayor valor de p, mejor ajuste del modelo.
Resultados
Desde el 1 de noviembre de 2003 hasta el 30 de junio de 2004 fueron ingresados en las unidades de estudio 245 pacientes, de los cuales se excluyeron 4 pacientes del HUCA que fueron trasladados a otra UCIP. Por tanto, se analizaron los datos de 241 pacientes, 140 procedentes del HGUGM y 101 procedentes del HUCA. La edad media fue de 62,6 ± 61,8 meses (mediana 41,3 meses), con una relación varón:mujer de 1,3:1. Los distintos diagnósticos por los que los pacientes precisaron ingreso aparecen reflejados en la figura 1. La estancia media fue 7,3 ± 12,6 días, con una estancia mediana de 4 días. La tasa global de mortalidad fue del 4,1 % (10 pacientes: 9 en el HGUGM y uno en el HUCA); el 30 % de los pacientes fallecidos lo fueron en las primeras 24 h del ingreso.
Figura 1. Distribución de los pacientes por grupo diagnóstico.
Los pacientes fallecidos presentaron una probabilidad de muerte calculada por el PRISM, el PIM y el PIM-2 significativamente mayor que los pacientes supervivientes (tabla 1). Pero al analizar el funcionamiento general de cada índice, se observaron diferencias entre los tres índices pronósticos de mortalidad. Así, la RME fue 0,44 para el PRISM (mortalidad esperada: 22,8 pacientes; intervalo de confianza del 95 % [IC 95 %]: 0,17-0,71), 0,86 para el PIM (mortalidad esperada: 11,7 pacientes; IC 95 %: 0,33-1,39) y 0,91 para el PIM-2 (mortalidad esperada: 11 pacientes; IC 95 %: 0,35-1,48). La discriminación medida por el área bajo la curva ROC fue buena para los tres índices (fig. 2), aunque no se encontraron diferencias estadísticamente significativas entre las 3 áreas (x2 (2) = 1,23; p = 0,27). Por último, no se observó calibración estadística para el PRISM, pero sí para el PIM y el PIM-2; los datos se muestran en la tabla 2.
Figura 2. Curvas de rendimiento diagnóstico (curvas ROC) calculadas para cada índice pronóstico de mortalidad, especificando el área bajo la curva con el error estándar y el intervalo de confianza del 95 %.
Discusión
Los índices pronósticos de mortalidad han sido diseñados para estimar la gravedad de los pacientes ingresados en las UCIP, pero también permiten evaluar la calidad médica de los cuidados administrados mediante la comparación de la mortalidad real con la esperada por la inestabilidad fisiológica de los enfermos12-14. Además, se emplean para estratificar a los pacientes en los estudios clínicos y pueden formar parte de las guías clínicas de tratamiento8.
Existen varios factores que pueden influir en la validez de los índices de mortalidad. Estos modelos estadísticos se desarrollan a partir de los datos recogidos en determinadas unidades durante determinado período de tiempo. Si la muestra de pacientes sobre la que se aplica un índice presenta características diferentes a la muestra original, el ajuste del modelo puede no ser adecuado y por tanto la mortalidad calculada no será fiable15,16. Por otra parte, la evolución de los cuidados intensivos administrados ha mejorado el pronóstico de los pacientes17, por lo que un índice basado en datos de varios años atrás podría calcular una mortalidad excesiva para la calidad actual de los cuidados intensivos18. Por ello se deben validar los modelos de predicción del riesgo de mortalidad antes de poder utilizarlos en una población. En este estudio hemos intentado averiguar cuál de los índices pronósticos de mortalidad disponibles actualmente para los niños críticamente enfermos es el más útil para nuestros pacientes, aunque el análisis estadístico no tiene fuerza suficiente para extraer conclusiones definitivas debido al pequeño tamaño muestral y al escaso número de muertes observado. Estos dos factores también limitan el análisis de los índices en cada una de las UCIP incluidas y su comparación.
En el presente estudio, los tres índices pronósticos de mortalidad evaluados (PRISM, PIM y PIM-2) resultaron útiles para predecir la mortalidad, ya que la probabilidad de muerte calculada para los pacientes fallecidos fue significativamente superior a la calculada para los supervivientes con los tres sistemas. Pero el funcionamiento general estimado por la RME mostró que la mortalidad esperada por el PRISM fue dos veces superior al número de pacientes fallecidos, mientras que el PIM y el PIM-2 estimaron mejor el número de muertes. La RME realmente compara el número de muertes encontrado en el estudio con el número de muertes esperado si los mismos pacientes hubieran recibido los cuidados administrados en las unidades de las que se derivaron los índices en el momento en que éstos fueron desarrollados18. Para generar el PRISM se emplearon los datos recogidos en 4 UCIP estadounidenses desde 1980 hasta 19852. Para el PIM se utilizaron datos de 4 UCIP australianas desde 1988 hasta 19965. Y para el PIM-2 los datos se recogieron en 7 UCIP, cuatro en Australia, dos en el Reino Unido y una en Nueva Zelanda, desde 1997 hasta 19996. Así, la mortalidad calculada por el PRISM en nuestra muestra es la que se obtendría con la calidad de cuidados intensivos estadounidenses de la década de 1980. La evolución de la medicina intensiva ha permitido un mejor tratamiento para los pacientes críticos, de forma que la supervivencia es mayor ahora que hace una década17. Por esta razón, para medir la gravedad de los pacientes críticamente enfermos se deberían utilizar modelos más recientes, como el PRISM-III, el PIM o el PIM-2.
La discriminación y la calibración son más importantes que la RME en la evaluación de los índices pronósticos de mortalidad. Estos parámetros miden aspectos diferentes de la validez de los modelos de predicción del riesgo de mortalidad: la discriminación examina la sensibilidad y la especificidad del sistema, mientras que la calibración determina la exactitud de las predicciones de riesgo realizadas por el modelo. En nuestro estudio, los tres índices presentaron una discriminación buena (fig. 2), pero el PIM mostró un área bajo la curva ROC menor que el PRISM y el PIM-2, sin ser esta diferencia estadísticamente significativa. En cuanto a la calibración, al aplicar la prueba de Hosmer-Lemeshow tanto el PIM como el PIM-2 presentaron un buen ajuste a la muestra de pacientes (p = 0,5174 y p = 0,8461, respectivamente), mientras que no se encontró calibración estadística para el PRISM (p = 0,0133). La prueba de Hosmer-Lemeshow fue diseñada para calcular la bondad del ajuste de los modelos estadísticos basados en la regresión logística11, pero presenta limitaciones en las poblaciones pequeñas como la del presente estudio. En estos casos, el examen de los valores de la tabla de Hosmer-Lemeshow ofrece más información y esta es más fiable que el simple valor de la p18. La tabla 2 expone los valores obtenidos en nuestro estudio. Las 5 columnas situadas a la izquierda representan los pacientes con menor probabilidad de muerte. Al agrupar los valores en estas categorías se observa que el PRISM sobreestima ligeramente la mortalidad observada, mientras que el PIM y el PIM-2 predicen mejor el número de muertes y supervivientes (mortalidad observada/mortalidad esperada: PRISM = 0/1,4; PIM = 1/1,1; PIM-2 = 0/0,8). En las 5 columnas situadas a la derecha, que representan a los pacientes con mayor probabilidad de muerte, la mortalidad calculada por el PRISM duplica a la mortalidad real, mientras que las predicciones realizadas por el PIM-2 son las más ajustadas a la realidad (mortalidad observada/ mortalidad esperada: PRISM = 10/21,4; PIM = 9/10,6; PIM-2 = 10/10,2).
Así pues, en este estudio el PIM y el PIM-2 presentan una discriminación y una calibración buenas, mientras que el PRISM muestra una discriminación buena sin calibración estadística. Las discrepancias entre la calibración y la discriminación de los índices pronósticos de mortalidad ya han sido previamente descritas. En otros estudios que comparan el PRISM y el PIM, ambos modelos presentaron buena discriminación pero mala calibración19,20. La discriminación de un sistema depende de su capacidad de valoración de la inestabilidad fisiológica del paciente, mientras que la calibración depende de que la ecuación utilizada para calcular la probabilidad de muerte sea válida para la muestra estudiada. Si un sistema presenta una buena discriminación pero una mala calibración, ésta se podría mejorar cambiando los coeficientes de la ecuación de probabilidad de muerte para que ésta se ajuste mejor a la población estudiada21,23. Aunque de esta forma se inutilizan los índices pronósticos de mortalidad para evaluar la calidad de los cuidados intensivos administrados o para realizar comparaciones entre distintas UCIP, el riesgo de mortalidad calculado sería absolutamente fiable.
En resumen, el PIM y el PIM-2 presentan un ajuste adecuado, en términos de discriminación y calibración, para estimar el riesgo de mortalidad de una muestra heterogénea de niños críticos españoles. Sin embargo, estos resultados deben ser confirmados en un estudio más amplio.
Correspondencia: Dra. S. Prieto Espuñes.
Unidad de Cuidados Intensivos Pediátricos.
Hospital Universitario Central de Asturias.
Celestino Villamil, s/n. 33006 Oviedo. España.
Correo electrónico: msoledadp@yahoo.es.
Recibido en mayo de 2006.
Aceptado para su publicación en diciembre de 2006.