Los “data” del COVID-19

Los datos están siendo uno de los protagonistas de la pandemia. Rosa Lillo nos recuerda algunas de sus limitaciones.

No quiero comenzar esta reflexión acerca del COVID-19 y sus consecuencias con un titular pesimista, que es casi lo primero que te viene a la cabeza desde el confinamiento al que estamos obligados desde hace más de un mes, ni tampoco proclamando asertivamente que toda esta crisis es una oportunidad para reinventarnos. Prefiero abrir mi ventana, a la que invariablemente estoy mirando casi todo el día, para haceros partícipes de lo que percibo que esta situación atípica nos va a dejar en el corto y medio plazo y que no tiene color blanco ni negro.

Lo primero que hemos descubierto en el mundo universitario es que la forma que teníamos de trabajar pensada en el “estar” se ha tenido que cambiar por la basada en “hacer”, en ser más eficientes y en lograr resultados desde el compromiso individual. Desde mi punto de vista, esto supone un cambio de paradigma que esperemos se consolide en nuestro sistema de trabajo y que nos sirva para tener más tiempo que dedicar “presencialmente” a lo que realmente importa.

En esta reflexión no puedo ni quiero desligarme de mi disciplina de trabajo, enmarcada en la Estadística y en los datos, porque si de algo está sirviendo esta situación anómala es para que continuamente y por todas partes se esté hablando, y no siempre bien, de los datos, que están adquiriendo un protagonismo diario y en los que queremos ver rayos de esperanza. Se habla muy alegremente de los datos, de los expertos que los manejan, de los modelos de Corea o de Alemania, pero ¿qué hay detrás de esos datos?

Cada dato de muerte, cada dato de contagio, cada dato de cama UCI ocupada… cuando se traspasa a las bases de datos que estamos manejando es un número más, y a mí me gustaría que, en este trasiego de cifras, pensemos que más allá del número está la persona. La versatilidad del mundo de los datos hace posible que estén insertados actualmente en todas las ramas del conocimiento y, especialmente, se ha hecho presente en los últimos años por el impacto brutal del Big Data en la Economía y en la Empresa. Sin embargo, en este momento coyuntural, los datos que nos ocupan representan personas que lo están pasando mal, que han fallecido sin sentir la mano de sus hijos o parejas, que han experimentado la soledad… son datos que tienen detrás historias vividas, son datos que deben rezumar humanidad y esa humanidad está escaseando mucho en el tratamiento de esta pandemia. No debemos dejar que la excesiva información cuantitativa que nos arrojan los medios de comunicación en tiempo real embrutezca los sentimientos y nos acostumbre a digerir las tremendas pérdidas que estamos sufriendo, incluidas en nuestra propia universidad.

Pero desde la ventana que miro diariamente, sí que puedo observar un fenómeno que me estremece y que da mucho sentido a toda la comunidad científica. Se trata de la espontaneidad con la que muchos investigadores relacionados con el mundo del dato nos hemos puesto en marcha para redirigir las investigaciones en pro de aportar algo de conocimiento al COVID-19 y a sus múltiples consecuencias. Y lo más relevante es que la mayoría de las iniciativas han comenzado a andar antes de que las instituciones anunciaran posibilidad de fondos para llevarlas a cabo. Todo este movimiento a favor del conocimiento y a favor de la formación de grupos de trabajo multidisciplinares es el mejor tributo que podemos ofrecer a la sociedad y hacer realidad la transferencia, que en algunos casos se ha puesto en duda.

También es verdad que este momento, en el que la palabra “experto” se está utilizando con demasiada asiduidad, ha puesto de relieve que la ciencia y la investigación debe ser considerada como una “inversión” y no como un “gasto”, además de que se deberían poner todos los medios para mejorar la posibilidad de hacer investigación en nuestro país y potenciar la carrera científica para evitar que nuestros jóvenes la perciban como una carrera de obstáculos que no llega a ninguna parte.

Una conclusión rápida de lo que se puede leer tanto en artículos científicos como en estudios recientes sobre la pandemia es que estamos todavía en la punta del iceberg sobre el conocimiento de la misma, pues queda mucho por analizar tanto a nivel médico como epidemiológico. En este punto es esencial compartir datos, pero como ya he señalado en varias intervenciones previas que he hecho durante estos días, necesitamos datos de calidad para que las predicciones que se hagan utilizando modelos estadísticos sean fiables. Concienciarnos de este hecho es fundamental, los modelos estadísticos siempre están ahí, siempre se pueden ajustar y usar, pero cuando realmente son útiles es cuando se alimentan de datos buenos. Si no es así, lo que hacen es crear ruido que no necesitamos en estos momentos.

Otro aspecto que está generando muchas expectativas en mi campo de conocimiento es la utilización de la tecnología al servicio de la pandemia, vía geolocalización, vía datos de movilidad agregados, vía recolección de datos a través de aplicaciones web o redes sociales. A pesar de que estas opciones no son nuevas y se han podido utilizar previamente para otros fines, están abriendo líneas de trabajo que, como ya he comentado en el párrafo anterior, suponen iniciativas que auguran un tratamiento de las pandemias y de los efectos colaterales de las mismas mucho más innovador y menos conservador como es el confinamiento en sí mismo. Como todo no puede ser positivo, toda esta línea de trabajo también conlleva que se abra una discusión bastante activa sobre protección de datos y privacidad.

Como os podéis imaginar si habéis llegado a leer hasta este punto, detrás de toda la desgracia de la existencia de este maldito virus se está evidenciando que una buena utilización de los datos y de la tecnología desde un punto de vista estadístico es una ayuda inestimable en el control y en el entendimiento de la pandemia. Las bondades de la Estadística eran conocidas previamente a la pandemia por una parte minoritaria de la sociedad. Sin embargo, a pesar de la irrupción del Big Data o el Data Science en nuestro tejido empresarial, la penetración de estas disciplinas en nuestros estudiantes y a pie de calle es muy limitada y normalmente tiene connotaciones negativas. Así que es momento de alzar nuestra voz en favor de la importancia de la Estadística y la Ciencia de datos, bien utilizada, en nuestros Grados y en nuestro entorno.

Quisiera acabar estas líneas con una frase de Miguel de Cervantes que esperemos acierte en estos momentos: “Confía en el tiempo, que suele dar dulces salidas a muchas amargas dificultades”. En esas dulces salidas, entre las que incluimos las presenciales, espero reencontrarme con todos vosotros.

Rosa Elvira Lillo Rodríguez es catedrática de Estadística e Investigación Operativa y directora del UC3M-Santander Big Data. Ha publicado más de 70 artículos en revistas internacionales de impacto. Sus líneas de investigación incluyen técnicas multivariantes en Big Data y sus aplicaciones en medicina, redes sociales y finanzas; medidas de riesgos en alta dimensión, análisis de datos funcionales; procesos puntuales y sus aplicaciones en finanzas y redes de colas; ordenaciones estocásticas y fiabilidad; y modelos GLM para alta dimensión y optimización de portfolios.