Fuente: CONICET
¿Qué pasa con el suero hiperinmune equino? Te contamos sobre un caso que genera algunas dudas en la comunidad científica, pero que refleja una discusión que ya se venía dando antes de la pandemia sobre efectividad, estadística y qué consideramos "evidencia válida".
La pandemia nos puso en toda clase de situaciones inesperadas e inéditas. La necesidad de actuar rápido desbarató algunos de los mecanismos que se habían armado a lo largo de décadas para regular el avance científico (la publicación de trabajos académicos, el desarrollo, aprobación y aplicación de vacunas y tratamientos) porque de pronto el riesgo de esperar es mayor que el beneficio de evaluar cuidadosa y largamente nuestras opciones. Y eso nos deja, en algún punto, en una zona gris, incómoda, en la que es difícil saber qué hacer y quién tiene razón, si es que alguien la tiene.
En uno de esos bretes nos encontramos con el desarrollo del suero hiperinmune equino para luchar contra los síntomas de COVID-19. A fines del año pasado festejamos la noticia de su supuesta efectividad, comunicada a través de gacetillas. La publicación de los resultados completos, por otro lado, dejó a muchos con un sabor amargo. Para entender qué pasó es necesario comprender algunos conceptos de estadística.
El famoso p-valor
En este tipo de desarrollos usualmente hay un interés en comparar a distintos grupos de individuos para determinar si hay diferencias entre ellos. En general hay un grupo placebo o control (que no recibe tratamiento, o bien recibe un tratamiento “falso”, de forma de poder descartar un efecto psicológico o en el comportamiento del paciente o un sesgo del médico al creer que fue tratado) y al menos un grupo que recibe un tratamiento real. En este caso, hubo dos grupos de pacientes ya diagnosticados con COVID-19 moderado a severo a los que fue suministrado el suero equino o bien un placebo. Ni ellos ni sus médicos sabían si estaban recibiendo el preparado hiperinmune o no.
Hagamos un ejercicio mental. Supongamos que en el ensayo obtenemos como resultado, por ejemplo, que 20% de los pacientes del grupo control y 10% de los tratados necesitaron oxígeno. Esto, a simple vista, parece un golazo para el tratamiento: ¡representa una disminución del 50% en la necesidad de oxígeno! El dato por sí solo parece muy auspicioso. Pero se trata de muestras pequeñas de una población más grande, y por eso no debemos dejarnos llevar por ese número aislado. Podría pasar que hubiese mucha variación entre los pacientes, de forma que tomando otra muestra de pacientes, sin hacerles tratamiento, sólo un 10% termine necesitando oxígeno. Y esa diferencia sería casual, obtenida por mero azar. Por suerte tenemos mediciones para evaluar la probabilidad de haber cometido un error, y una de ellas es lo que se conoce como “p-valor”. Por suerte o por desgracia, porque es un concepto complejo, que se refleja en un número que no tanta gente comprende, y que a veces termina siendo un número “fetiche” utilizado de manera arbitraria para trazar una barrera que no existe en la realidad.
¿Qué nos dice el p-valor?
El p-valor es un número que se obtiene al realizar una prueba de hipótesis. En este caso, tenemos la hipótesis de que el tratamiento va a mejorar el desempeño de los pacientes en algunos aspectos, como puede ser la necesidad de oxígeno, de internación, la gravedad de los efectos o la muerte. Pero por supuesto no se puede evaluar a todos los pacientes del mundo para decidir si el tratamiento sirve, así que se toman muestras más pequeñas y se las compara entre sí. Vamos a suponer, como más arriba, que encontramos una diferencia del 10% de necesidad de oxígeno entre la muestra de pacientes tratados y de los que recibieron placebo. Puede parecer muy improbable obtener una diferencia tan grande por casualidad, pero en realidad eso depende mucho de la población original, del tamaño de muestra (en este caso la cantidad de pacientes que participaron del análisis), y por supuesto, del azar. Pero aunque no podamos predecir las cuestiones de azar, conociendo algunas características de las muestras (o idealmente de la población), podemos inferir qué tan probable es estar obteniendo el resultado por casualidad. Y ahí aparece el famoso “p-valor”.
Este numerito (suponiendo un buen diseño experimental) representa la probabilidad de haber detectado esa diferencia entre grupos, o una mayor, cuando realmente no hubo un efecto del tratamiento. Cuanto más pequeño es el valor, más “raro” o improbable es haber obtenido semejante diferencia (en nuestro caso hipotético, una diferencia de 10% en la necesidad de oxígeno) por mero azar. De alguna forma podríamos considerarlo como la chance de estar obteniendo un falso positivo.
Si el p-valor obtenido para esa comparación es de 0.01, eso significa que hay un 1% de probabilidades de obtener una diferencia del 10% en la necesidad de oxígeno si las dos muestras provienen de una misma población (es decir, pacientes no tratados o tratados con algo que no generó ningún efecto positivo). Ese es un número bastante bajo y usualmente se considera que la diferencia es “estadísticamente significativa”: hasta cierto punto, podemos creer que el tratamiento fue efectivo. Pero no significa que no haya chance de equivocarse: al contrario, ese 1% significa que, si extraemos 100 pares de muestras de pacientes no tratados, en una de ellas es esperable observar una diferencia como esa o más extrema. Es decir, 1% de las veces creeremos que el tratamiento funcionó cuando no es así.
Un valor p-roblemático
Usualmente en los trabajos científicos se fija un corte para interpretar el p-valor como un resultado estadísticamente “positivo” o “negativo”. Es importante entender que el valor, en realidad, es arbitrario, y siempre se puede elegir subirlo o bajarlo dependiendo de la gravedad de cometer un “falso positivo” o “falso negativo”. Como valor por default se suele usar 0.05 (es decir, 5% de chances de haber obtenido la diferencia observada o una mayor por azar). Ante un p-valor de 0.05 o menor, suponemos, a falta de mejores evidencias, que el tratamiento tiene un efecto. Pero, vuelvo a repetir, lo que nos dice un p-valor de 0.05 es: si extraigo 100 pares de muestras de pacientes no tratados y comparo estos 100 pares, por pura casualidad en 5 de las comparaciones esperamos observar una diferencia como esta o mayor.
Por supuesto, que haya un corte de ese tipo es bastante problemático, no sólo porque es arbitrario, sino porque representa una diferencia tajante en un continuo. Obtener un p-valor de 0.051 no debería ser demasiado distinto que de 0.049 (representan, respectivamente, una probabilidad de 5.1% y 4.9% de haber obtenido cierta diferencia entre muestras cuando no la hay en la población). Y sin embargo a veces termina haciendo toda la diferencia a la hora de publicar un trabajo científico o decidir si se aprueba o no un tratamiento. Por eso, algunos científicos incluso opinan que debería dejar de usarse, al menos de la forma en que se está usando.
¿Qué NO nos dice un p-valor?
Es importante entender que obtener un p-valor por encima o por debajo de ese límite (que, repito, es arbitrario) en un único ensayo no nos dice realmente si el tratamiento “funciona” o no. Como mencionaba antes, 5% de probabilidad de error no es realmente un número que se pueda considerar despreciable. Pero la ciencia avanza y suponemos que, si se sigue poniendo a prueba un tratamiento, llegará un punto en que las evidencias (a favor o en contra) serán mucho más seguras. Aunque no siempre sucede.
Por supuesto, puede ocurrir lo contrario, especialmente cuando por algún motivo no se puede acceder a muestras grandes: a veces un tratamiento puede ser efectivo pero el análisis no es suficientemente potente para detectar el efecto. Entonces, un p-valor alto tampoco significa que el tratamiento sea inefectivo. En este caso lo que usualmente se hace es conseguir una muestra más grande y repetir el experimento. Pero, como sabemos, estamos en una situación de emergencia, y esperar también plantea un problema.
¿Servía el suero hiperinmune?
Vamos a poner todo esto en contexto del suero hiperinmune. Empecé mencionando que las gacetillas anunciaban su eficacia. Y también que los resultados completos fueron decepcionantes para más de uno. Justamente, el asunto de los p-valores sobrevoló las discusiones que vinieron después.
Para que el suero fuese considerado efectivo, se había planteado que tenían que obtenerse diferencias significativas en al menos dos categorías de la escala clínica de la OMS o en el alta hospitalaria al día 28. En este aspecto, el suero estuvo muy lejos de la línea de corte, con p-valor de 0.15. Al menos en una situación habitual, esto significaría que el tratamiento tiene que seguir siendo estudiado antes de conseguir una aprobación.
Por otro lado, en el trabajo plantearon variables adicionales como el tiempo promedio hasta el alta de terapia intensiva, número de pacientes que requirieron ventilación, mortalidad, etcétera. Y es cierto que en algunos casos la muestra de pacientes tratados tuvo mejores indicadores que en placebo (el número más impresionante es el 45% de disminución en la mortalidad, o un 36% en la disminución de asistencia mecánica). Sin embargo estos dos números, de los más salientes en la gacetilla de prensa, no fueron estadísticamente significativos, con p-valor de alrededor de 0.2. Traducido al lenguaje que veníamos manejando antes, extrayendo dos muestras al azar de una población de pacientes de COVID-19 no tratados, tenemos 20% de chances de encontrar una diferencia semejante, aún sin plasma. Es decir, hay una chance importante de que el resultado haya sido obtenido por casualidad.
Otros indicadores secundarios sí tienen p-valores menores a 0.05, pero aún así, los resultados parecen al menos decepcionantes, en particular al compararlos con los anuncios de la gacetilla (que técnicamente eran ciertos, pero un poco tramposamente reportados).
Por supuesto, esto no significa necesariamente que el suero no sirva. En particular, los investigadores destacan que tuvieron problemas para juntar la cantidad de pacientes necesario para realizar pruebas de hipótesis con buena potencia, y adjudican a esa causa que los resultados no hayan sido estadísticamente significativos.
¿...Entonces?
Y aquí se planteó el debate. En una situación normal, el uso del tratamiento no se aprobaría. Los investigadores deberían proceder con otros análisis y eventualmente obtener las diferencias estadísticamente significativas requeridas para considerar que hay pruebas de efectividad. Incluso, muchos científicos consideran que los p-valores necesarios para aprobar tratamientos y medicinas deberían ser aún más bajos que 0.05, y que debería utilizarse un corte de 0.01, con lo cual el plasma quedaría aún más lejos. Pero esta discusión es previa a la pandemia, y otros argumentan que en esta situación es mejor relajar los criterios y arriesgarse a utilizar un tratamiento inefectivo.
En el medio no podemos obviar que hay otros intereses también. El costo del suero hiperinmune es alto (unos 3200 dólares), mucho más que el plasma de convalecientes común (que de hecho tampoco mostró efectividad). En caso de que realmente el tratamiento sea inefectivo, no sólo será un placebo, sino un placebo extremadamente caro.
Y, por supuesto, no pesa poco el deseo de desarrollar un tratamiento nacional contra COVID-19. En primer lugar, porque la situación internacional implica que acceder a tratamientos importados que todos los países se están disputando es problemático. En segundo lugar, porque, hay que decirlo, ¿qué país no se quiere anotar un poroto?
El ¿final? de la historia
Finalmente, el suero fue autorizado para su uso de emergencia por la ANMAT, está siendo utilizado en varias provincias, y fue aplicado por el momento en unos 1200 pacientes*. Es difícil saber qué pasará en el futuro con este desarrollo. En este momento, en todo el mundo diversos fármacos y tratamientos están siendo usados en este régimen que podríamos denominar “por las dudas”. La mayoría de los que fueron probados no ha resistido una evaluación astringente. Eso no significa que más adelante se pueda demostrar que muchos de ellos sean efectivos; pero también es probable que una cantidad aún mayor no lo sean. Las autorizaciones de emergencia, al menos, son revisables. Independientemente de lo que suceda con el plasma equino en particular, revisar la efectividad de estos fármacos será una gran tarea pendiente para tiempos menos apremiantes.
* El 21 de Abril, al día siguiente de ser publicada esta nota, un informe elaborado por una comisión del Ministerio de Salud de la Nación desaconsejó el uso del suero equino hiperinmune por no haber evidencia conclusiva de su efectividad, sumado a su costo elevado.