Estadística: entre la ciencia y la táctica

La palabra alemana “statistik” originalmente designaba el análisis de datos acerca del Estado. En su acepción moderna, se identifica con la recolección y clasificación de datos. Es, en la actualidad, una disciplina omnipresente en casi todas las áreas científicas y en nuestra vida cotidiana, y está en la base de un sinfín de avances tecnológicos. Desde los buscadores de Internet y las apps del móvil, hasta prácticamente la totalidad del esfuerzo científico por contener la actual pandemia de la COVID-19 se sustentan sobre el armazón de la Estadística y la Investigación Operativa.

Dos investigadores del Departamento de Estadística de la Universidad Carlos III de Madrid (UC3M) han sido galardonados en la primera edición de los Premios Sociedad de Estadística e Investigación Operativa – Fundación BBVA 2020 a aportaciones científicas particularmente relevantes en estadística e investigación operativa. Hablamos con ellos sobre Estadística (que se ocupa del análisis de datos, del ajuste de modelos matemáticos a la realidad) e Investigación Operativa (cuyo objetivo es optimizar la toma de decisiones).

 José Niño-Mora

El trabajo de José Niño-Mora, catedrático de Estadística e Investigación Operativa en el Dpto. de Estadística de la UC3M ha recibido el premio a la mejor contribución metodológica en Investigación Operativa.

P. ¿En qué se centra esta investigación?

R. Se trata de un nuevo avance en el marco de una metodología en la que he trabajado durante los últimos 20 años. La investigación, publicada en la revista Mathematics of Operations Research en 2020, introduce métodos efectivos para priorizar de forma cuasi-óptima a lo largo del tiempo de forma dinámica la asignación de recursos limitados de todo tipo (humanos, materiales, sanitarios, económicos, etc.) cuando hay muchas actividades que compiten entre ellas por acceder a estos recursos e información incompleta sobre el estado actual de las mismas.

P. El jurado del Premio ha destacado que tiene múltiples aplicaciones en varios campos…

R. Se aplica en situaciones dinámicas, cuando hay una evolución temporal, en las que lo que hoy es óptimo cambia en un periodo breve de tiempo y hay que replantearlo de nuevo. De ahí que las prioridades sean dinámicas, esto es, que cambien con el tiempo adaptándose a las circunstancias actuales.

P. Como en la pandemia de la COVID-19…

R. Sí, creo que este método tiene potencial de ser aplicado para priorizar dinámicamente la asignación de diversos recursos (sanitarios, policiales, etc.) para mejorar la gestión de esta situación, ya que el número de personas infectadas por la enfermedad no se conoce con exactitud en ciudades o zonas sanitarias, al disponer solo de información parcial, puesto que no se han realizado las pruebas diagnósticas al 100% de la población.

P. ¿En qué se basa este método?

R. Este trabajo se enmarca en una línea de investigación conocida como modelos multi-armed bandit. Esta denominación corresponde a una metáfora en la que imaginamos el modelo como un conjunto de máquinas tragaperras (one-armed bandits) de las que buscamos extraer secuencialmente (digamos, con una jugada por minuto) la máxima ganancia media, cuando en cada jugada solo podemos accionar la palanca (arm) de una máquina, observamos el estado de cada máquina y conocemos sus probabilidades de transición entre estados y sus ganancias. El problema es encontrar una regla que indique a qué máquina jugar en cada momento para maximizar la ganancia media. Este modelo es un paradigma para la priorización dinámica óptima entre actividades o proyectos que evolucionan en el tiempo, y del balance óptimo entre exploración (concentrarnos en actividades costosas a corto plazo para aprender de ellas) y explotación (desarrollar actividades que nos reportan un beneficio evidente).

P: ¿Qué otras aplicaciones tiene?

El modelo ha encontrado multitud de aplicaciones. Un ejemplo son los ensayos clínicos adaptativos, donde los proyectos son tratamientos alternativos y jugar a una máquina corresponde a asignar un paciente a un tratamiento. Además, resulta útil en ámbitos como el aprendizaje automático, el control de vehículos en el que los datos de telemetría se transmiten a estaciones terrestres, y desempeña un papel clave en el marketing online.

 

Eduardo García-PortuguésEduardo García

El trabajo de Eduardo García-Portugués, investigador Juan de la Cierva-incorporación en el Dpto. de Estadística de la UC3M, ha recibido el premio a la mejor contribución metodológica en el campo de la Estadística.

P. ¿En qué consiste tu contribución?

R. Hemos desarrollado un nuevo procedimiento estadístico para analizar si determinados modelos predictivos son los más adecuados para aplicarse con los datos de alta frecuencia disponibles, y así evitar conclusiones erróneas. El trabajo propone una novedosa técnica para evaluar si la dependencia entre una variable numérica y una variable funcional (entendible como una curva) es de naturaleza lineal. En términos estadísticos, introduce un contraste de bondad de ajuste del conocido como modelo lineal funcional con respuesta escalar (FLMSR por sus siglas en inglés).

P. ¿Quiénes han participado en este trabajo?

R. Este es un trabajo conjunto con los catedráticos Juan A. Cuesta-Albertos, de la Universidad de Cantabria, Manuel Febrero-Bande, de la Universidad de Santiago de Compostela, bajo la coordinación de Wenceslao González Manteiga, de la Universidad de Santiago de Compostela. Este trabajo se publicó el año pasado en una de las principales revistas de estadística, The Annals of Statistics.

P. ¿Qué aplicaciones puede tener?

R. Esta metodología puede aplicarse a diversos campos, como la predicción de precios de energía, de activos financieros, de control de tráfico y, durante la pandemia por la COVID-19, se ha empleado para predecir datos epidemiológicos a siete días sobre varias variables como la evolución, los ingresos hospitalarios o ingresos en UCI.

P. Parece tener múltiples aplicaciones…

R. Los datos funcionales se generan a partir de mediciones continuas de una variable de interés, algo habitual en la actualidad debido a los avances tecnológicos en los dispositivos de medición y almacenamiento de la información. Entre otros campos, los datos funcionales aparecen en espectrometría, economía, biología, medicina y meteorología. La complejidad del análisis estadístico de los datos funcionales radica en su dimensión infinita, lo que contrasta con la dimensión finita que manejan las técnicas estadísticas clásicas. El análisis de datos funcionales ha suscitado un gran interés por parte de la comunidad estadística durante las últimas dos décadas.

P. ¿Se ha comprobado su utilidad en algún caso de estudio concreto?

R. Podemos poner un par de ejemplos muy concretos. En el terreno de la evaluación de la calidad alimentaria, una aplicación de la metodología desarrollada muestra que el FLMSR no es adecuado para modelar la relación entre la absorbancia y el porcentaje de grasa en muestras de carne picada, a pesar de existir una relación significativa entre ambas variables. Una segunda aplicación muestra que el FLMSR sí es adecuado para explicar, por ejemplo, la relación existente entre la temperatura y la velocidad promedio del viento en la red de estaciones meteorológicas de la AEMET.