Infraestructura computacional paralela y resiliente para simulaciones científicas e ingenieriles

High Performance Computing
Tipo de proyecto

Correo: erojas@una.cr

Resumen de Propuesta Doctoral.

Los sistemas de computación de alto rendimiento (HPC, por sus siglas en inglés) cada día son más relevantes por su aplicación científica ya que incrementa la velocidad de procesamiento de grandes cantidades de datos provenientes de simulaciones y experimentos. Desde modelos del cambio climático, hasta análisis de secuencias genéticas, muchos dominios científicos dependen de HPC es debido a los millones de núcleos de procesamiento que los componen. Sin embargo, los sistemas HPC están basados en múltiples y complejas arquitecturas paralelas, lo que los hace propensos a fallos que en la mayoría de los casos detienen la ejecución de las simulaciones. Es fundamental, entonces, entender como fallan los sistemas HPC y crear aplicaciones resilientes a fallos.

Basado en lo anterior y tomando en cuenta como base el análisis de fallos y el paralelismo en sistemas HPC, la propuesta aporta a nivel científico los siguientes elementos i) el análisis estadístico de bitácoras de fallos en sistemas HPC, ii) la paralelización de un algoritmo preexistente para la simulación de un código científico, iii) una plataforma resiliente para el sistema HPC y por ultimo iv) la divulgación mediante repositorios en línea de todos los desarrollos y resultados de experimentos con el objetivo de que la comunidad general y científica relacionada con HPC pueda conocer los aportes.

Los aportes científicos mencionados anteriormente son resultado de la investigación y experimentación que se genera durante el proceso doctoral, en el cual se realiza el desarrollo de varios productos ingenieriles como: i) un programa automatizado para la extracción de descriptores de bitácoras de fallos, ii) un programa computacional paralelo para la ejecución de una simulación, iii) un programa paralelo y resiliente para la ejecución de una simulación y iv) la construcción de repositorios para compartir desarrollos, resultados y hallazgos.

La propuesta engloba la investigación y desarrollo de elementos relevantes (análisis de fallos, paralelismo, resiliencia) en los sistemas HPC, lo que implica que los resultados, experimentos, desarrollos y hallazgos producto del proceso doctoral tiene un alto potencial de impactar de manera positiva a la comunidad HPC mundial. Además, no se deja de lado el impacto a nivel local ya que los aportes a nivel científico y los productos desarrollados pueden ser implementados por organizaciones nacionales como plataformas para la ejecución de sus experimentos y simulaciones.

Por último, es necesario mencionar que la propuesta tiene un componente fuerte de innovación, al proponer investigación en un área de la computación (HPC) que en la actualidad no es desarrollada de manera enérgica en el país y que a nivel mundial todavía requiere de mucha investigación con el objetivo de mejorar las tecnologías de software y hardware actuales relacionados con los sistemas HPC.

Proyecto de grado para el Doctorado Académico en Ingeniería TEC-UCR.