Palabras clave: Inferencia no paramétrica, datos funcionales, datos direccionales, regresión modal, regresión cuantil, datos incompletos, contrastes de especificación, estimación de conjuntos, procesos espaciales.
Más allá de todos los desafíos técnicos que supuso la era del big data, en términos de capacidad de almacenamiento y gestión de datos, el diseño y la implementación de nuevos enfoques para el análisis y la inferencia de datos ha llamado inevitablemente la atención de los grupos de investigación estadística que trabajan en la interfaz entre estadística y aprendizaje automático, dedicado al diseño e implementación de herramientas estadísticas para el manejo de datos de alta dimensión.
Sin embargo, trabajar con grandes cantidades de datos no es el único problema que nosotros, como profesionales de la estadística, debemos enfrentar para extraer información de los datos de manera efectiva. Los datos no solo son big, sino también complejos; y la complejidad surge no solo por su naturaleza, sino también por la dinámica que siguen. Nuestra propuesta, Dinámica compleja e inferencia no paramétrica (CoDyNP) tiene como objetivo proporcionar herramientas no paramétricas para comprender la evolución, dependencia y relaciones (dinámicas) de datos en entornos no estándar (datos incompletos y agregados, funcionales, direccionales y espacio-temporales). CoDyNP se estructura en cuatro paquetes de trabajo, cuyo diseño nos permite seguir explotando nuestras capacidades y conocimientos en diferentes áreas (por ejemplo, análisis de datos funcionales o direccionales), así como explorar nuevas metodologías y contextos de aplicaciones (por ejemplo, métodos de correlación distancia, regresión modal o redes estructuras).
CoDyNP se estructura en 4 paquetes de trabajo.
- En el primero, las líneas surgen según la naturaleza de los datos: datos incompletos (incluidos datos sesgados, truncados y / o censurados, así como datos faltantes; L1.1) y datos agregados; datos funcionales y de alta dimensión (L1.2); datos direccionales (con datos circulares, cilíndricos y toroidales como casos particulares / derivados; L1.3); y procesos espacio-temporales (L1.4).
- El segundo paquete, inferencia no paramétrica, está configurado por tres líneas de investigación dedicadas a la estimación de conjuntos (L2.1); métodos más allá de la regresión media (L2.2) y la distancia de correlación (L2.3).
- Dentro de WP3. Software, nuestro objetivo es actualizar y mejorar nuestros paquetes R relacionados con las líneas de investigación en WP1 y WP2, a saber, alphahull y alphahull3d para estimación de conjuntos; NPCirc para datos circulares; DOvalidación de datos incompletos y agregados; multimodo para pruebas de multimodalidad, fda.usc para datos funcionales y el más reciente (HDiR) para regiones direccionales de alta densidad. También pretendemos producir al menos un paquete sobre regresión cuantílica (BwQuant) y otro sobre comparaciones ROC.
- Respecto a WP4. Aplicación de datos, describiremos algunas áreas de aplicación dentro de las colaboraciones en curso con otros grupos (COVID-19, imagen médica, genética, ciencias ambientales, ecología, seguridad, lingüística) todas ellas directamente relacionadas con áreas de intervención en el Pilar 2 de Horizonte Europa (y consecuentemente, con la Estrategia Española de Ciencia, Tecnología e Innovación).
Este proyecto es continuidad del MTM2016-76969-P (Innpar2D), más detalles en http://eio.usc.es/pub/innpar2d/.