Los datos oscuros y la pandemia

Escrito por David Hand, profesor emérito del Imperial College de Londres

En los últimos años, la estadística y la ciencia de datos han atraído la atención de la población con su promesa de revolucionar el mundo mediante ventajas económicas, sociales y sanitarias. En el último año, lo que más ha hecho evidente el papel público de los datos ha sido la pandemia de COVID-19. Las políticas, las decisiones y la planificación, en busca de un equilibrio entre el impacto sanitario y el impacto económico, educativo y social, se han tenido que basar en los recuentos de contagios y de muertes, así como en la comprensión de la propagación de la enfermedad y en la estimación de cuál podría ser el resultado de diferentes intervenciones. Es decir, se han basado en los datos que describen la enfermedad y sus consecuencias.

Sin embargo, no es de extrañar que al principio los datos fueran limitados y, a menudo, de una pobre calidad. John Ioannidis se atrevió a describirlo como «el fracaso de la evidencia de este siglo», pero creo que no estaba siendo justo. No es realista esperar que datos que describan de forma adecuada situaciones nuevas y sin precedentes estén preparados y listos para su análisis. En lugar de eso, tenemos que desarrollar estrategias de recopilación de datos y establecer procedimientos de medida. Después, debemos reunir, cotejar e interpretar los datos. Y mientras hacemos esto, tenemos que hacer lo mejor que se pueda hacer con los datos limitados que tenemos disponibles. Esto es especialmente cierto para los políticos, que no pueden darse el lujo de esperar a que la ciencia resuelva el problema por completo: tienen que tomar decisiones con los datos disponibles en cada momento. Como consecuencia, al criticar a los gobiernos por los vaivenes en sus políticas, no estamos siendo justos. En lugar de eso, deberían recibir elogios. Como dijo J. M. Keynes: «cuando cambian los hechos, cambio de opinión».

Estaría bien pensar que otra consecuencia ha sido una mayor consciencia por parte de la población de la naturaleza cambiante de la ciencia: que la ciencia es un proceso, no una colección fija de hechos, sino algo que siempre es susceptible de cambio según va habiendo nueva información disponible.

Se podría decir que no es justo criticar a los gobiernos por los vaivenes en sus políticas. En lugar de eso, deberían recibir elogios. Como dijo J. M. Keynes: «cuando cambian los hechos, cambio de opinión».

Si la escasez de datos al comienzo de un nuevo desafío como es una pandemia es comprensible, solo podemos sacar conclusiones sensatas si reconocemos las limitaciones de los datos: que se dan intervalos de incertidumbre, teniendo en cuenta valores posibles que no se conocen. Sin embargo, ese reconocimiento subraya otros riesgos. Podemos ser capaces de gestionar los peligros que surgen de las cifras de las que no estamos seguros. Son mucho más difíciles de gestionar, o incluso de reconocer, los peligros que surgen de las cifras que ni siquiera sabemos que existen. Aquí la consecuencia no es simplemente la de sacar una conclusión incierta. Más bien, es la de sacar una conclusión «cierta», que en realidad está mal.

Consideremos las tasas de incidencia y de mortalidad de la COVID-19, por ejemplo.

Es fácil determinar el número de personas con COVID-19 y el ritmo al que se contagian más personas: solo hay que contar el número de personas que tienen síntomas. Excepto que, por un lado, parece que muchas personas contraen la enfermedad (y son capaces de transmitirla) sin tener ningún síntoma; y por otro lado, que los síntomas de COVID-19 también pueden ser síntomas de otras enfermedades. Aún peor: uno no puede considerar solo los presentes en las clínicas o los hospitales, ya que es probable que no sean representativos del total de la población. Se necesitan encuestas formales, que utilicen marcos de muestreo cuidadosamente diseñados, para evitar problemas de autoselección. Incluso entonces, aunque los errores que surgen de la variabilidad de los muestreos de una encuesta sean fáciles de gestionar utilizando herramientas bien establecidas, los errores que surgen de la no respuesta son en cierta forma más complicados, y los que surgen de definiciones pobres o engañosas ya son otro cantar.

Podríamos decir que la respuesta es no basarnos en los síntomas, con su incertidumbre intrínseca, sino llevar a cabo pruebas médicas formales con procedimientos definidos con precisión. Esto es aceptable si conoces las tasas de falsos positivos y de falsos negativos. Por desgracia, sin embargo, estas no son propiedades simples de las pruebas por sí mismas, sino que también dependen del cuidado con el que se lleven a cabo.

Si las tasas de incidencia representan un desafío para la determinación de la difusión de la enfermedad en la población, ¿qué hay de las tasas de mortalidad? Aquí sin duda la definición es mucho más simple: generalmente está claro si alguien está vivo o muerto, así que es más fácil contar. Excepto si tenemos en cuenta que resulta que no está tan claro después de todo. ¿Se cuentan las personas que han muerto de COVID-19 o con COVID-19, si es que se pueden diferenciar? ¿Qué hay de las personas que han muerto de otra causa que se ha visto agravada por la COVID-19? ¿Cuánto tiempo después de una prueba positiva de COVID-19 consideramos que el riesgo de tener la enfermedad se ha reducido a cero? ¿No estamos dejando fuera a las personas que han muerto de COVID-19 sin que se las sometiera a ninguna prueba formal?

Probablemente, las diferentes definiciones explican en cierta forma las, a menudo sustanciales, diferencias entre las tasas de mortalidad de distintos países. Por ejemplo, el 28 de mayo de 2020, el Reino Unido contaba 267 240 casos de COVID-19 y con 37 460 muertes, mientras que Rusia informó de 379 051 casos, pero solo de 4142 muertes. ¿Fueron las distintas formas de contar las muertes las responsables de semejante discrepancia?

Entre otros problemas con los datos (otros tipos de datos oscuros*) que han tenido lugar durante la pandemia están:

• Los datos que podrían haber sido. Es decir, los datos contrafácticos que surgen de intervenciones o de ensayos clínicos.
• El juego. Como remarcó acertadamente Donald Trump, una forma de reducir la tasa observada de incidencia es reducir el número de pruebas que se llevan a cabo.
• Los cambios a lo largo del tiempo (debido a la fatiga comportamental, por ejemplo, por la que muchas personas dejan de respetar las medidas de distanciamiento social).
• La completa falta de variables relevantes. Por ejemplo, solo con el tiempo se hizo evidente que la gravedad de la enfermedad estaba relacionada con la edad, con la deprivación y con otras características.
• Resumen de datos. Por ejemplo, una tasa nacional de incidencia de un 20 por 100 000 puede ser muy engañosa si todos los casos surgieron a partir de un único evento deportivo.

No hay duda de que la pandemia ha presentado una serie de nuevos desafíos estadísticos y, sobre todo, de datos. Pero uno de los detalles más alentadores (alentador más allá de la pandemia) es la forma en la que la gente ha recopilado datos relevantes, ha mejorado su comprensión y ha desarrollado intervenciones efectivas. Casi que le devuelve a uno la esperanza en la raza humana: una esperanza alcanzada a través de la estadística y la ciencia de los datos.

*Dark Data: Why What You Don’t Know Matters, David J. Hand, Princeton University Press, 2020.

¿Nos estamos perdiendo cosas importantes? Accede a un capítulo de cortesía del libro de David Hand sobre los datos oscuros: jmp.com/darkdata

Prólogo de JMP


¡Sigamos en contacto! Suscribirse.

Pueden ponerse en contacto conmigo por correo electrónico para informarme sobre noticias, eventos y ofertas de JMP. Entiendo que puedo retirar mi consentimiento en cualquier momento.

*
*

JMP es una división de SAS Institute Inc. Sus datos personales serán tratados de acuerdo con la Declaración de Privacidad de SAS.