
El coronavirus en los tiempos del Big Data
Además de la del coronavirus, estos días somos víctimas de una pandemia de información, un bombardeo de noticias a una velocidad de vértigo que hacen difícil seguir, desde una perspectiva rigurosa, qué es lo que está sucediendo. Sin la pretensión de abarcar, ni de lejos, toda la información de interés, hacemos nuestra selección de urgencia de algunas fuentes de información y proyectos que tienen que ver con el Covid-19.
Por deformación profesional, entre ellas van unas cuantas vinculadas al Big Data y la Inteligencia Artificial. Los modelos sobre la evolución de la pandemia son, en esta cuestión, la madre del cordero. Y hay unas cuantas fuentes de las que beber:
• Detección temprana:
Las empresas Blue Dot/ Metabiot y el servicio automatizado HealthMap del Hospital Infantil de Boston (EE. UU.) detectaron muy pronto la aparición del coronavirus. Datos médicos, redes sociales y también otros datos sobre transporte, por ejemplo, se emplearon para estimar la rápida extensión del virus. En este ámbito, el reto de futuro es que existan datos abiertos sobre síntomas y enfermedades registradas por los centros de salud. Sobre este asunto podéis leer más en este interesante artículo del MIT Technology Review: enlace.
• Evolución:
Los datos genéticos del virus permiten seguir la pista al coronavirus, determinar su origen y sus ramificaciones. La web https://nextstrain.org/ publica datos casi en tiempo real que se están revelando como determinantes para saber por qué vías se está expandiendo el virus y cómo están funcionando las medidas de contención.
• Predicción:
El Imperial College London, una respetable institución universitaria con 15 premios Nobel y 3 Medallas Fields, publica información de interés. Sus modelos matemáticos sobre cuál sería la evolución del contagio de no tomarse medidas obligaron a Boris Jonhson a frenar en seco y cambiar de estrategia. Según uno de sus informes, de no tomarse ninguna medida, solo en Estados Unidos el coronavirus podría producir 2,2 millones de muertos. Para consultar sus trabajos: https://www.imperial.ac.uk/
• Visualización:
El portal de la Universidad Johns Hopkins (JHU) es uno de los portales más populares en el seguimiento de la pandemia. Ofrece un mapa sobre el alcance y el impacto del virus.
También nos han gustado los gráficos del Washiington Post que explican la velocidad de expansión del virus en función de las medidas que adopten los gobiernos. Además de extraer información de los datos, es fundamental presentarlos de manera sencilla. Podéis verlos a través de este enlace.
• Prevención:
Hace unos meses, los medios de comunicación informaron de que las operadoras de telefonía móvil iban a facilitar datos para un estudio de movilidad… y muchos se echaron las manos a la cabeza. Ahora, estos datos se están utilizando en la lucha contra el coronavirus y van a permitir al Gobierno conocer los flujos de desplazamiento y prever situaciones de peligro. Más información
• Gran Hermano
Corea del Sur ha dado recientemente una vuelta de tuerca en esto de conocer la localización de la población por los datos de las operadoras de móviles, y ha lanzado una app para controlar a los contagiados –más información en este enlace-. En este caso, sí están en juegos datos sensibles, en la línea de otras iniciativas de utilización del Big Data para el control ciudadano que han implementado en China por ejemplo.
• Datos de investigación:
En esta web https://pages.semanticscholar.org/coronavirus-research, investigadores de distintas organizaciones acaban de hacer público el Conjunto de Datos de Investigación del COVID-19 (CORD-19, por sus siglas en inglés), que incluye más de 24.000 artículos de investigación de revistas revisadas por pares, y también otras fuentes como bioRxiv y medRxiv (sitios web donde los científicos pueden publicar trabajos sin revisión previa). La investigación se basa en el SARS-CoV-2 (el nombre científico del coronavirus), en el COVID-19 (el nombre científico de la enfermedad) y en el grupo de patógenos del tipo coronavirus. El CORD-19 ya representa la colección más extensa de literatura científica relacionada con la pandemia en curso y seguirá actualizándose en tiempo real a medida que se publique más investigación.
Este volumen de datos nos lleva a pensar que el desafío es una herramienta de procesamiento inteligente de datos, documentación, información masiva, capaz de acelerar la búsqueda de información útil dentro de este ingente corpus de información.