Introducción:
Los virus influenza (Flu) son una de las principales causas de infecciones respiratorias asociados a alta morbi-mortalidad en todo el mundo, especialmente en niños y adultos mayores. Se clasifican según la Organización Mundial de la Salud en los subtipos A(H1N1) y A(H3N2), y en los linajes B/Victoria y B/Yamagata, y para cada uno pueden reconocerse diferentes clados y grupos genéticos que se generan por la continua evolución viral, mediante procesos de drift y shift antigénicos. Para la clasificación de cepas se secuencia la hemaglutinina (HA) viral, seguido del análisis de filogenia con secuencias de referencia. Esto requiere formación bioinformática, demanda tiempo y/o recursos computacionales considerables (para muchas muestras en simultáneo) y es dependiente del operador.
Objetivos:
Desarrollar una aplicación para clasificar secuencias de Flu en tipos, linajes y clados, que sea rápida, precisa y fácil de usar.
Materiales y Métodos:
La aplicación implementa dos modelos de clasificación random forest, entrenados a partir de una base de datos de secuencias del gen HA completas (FULL) o parciales (HA1) obtenidas de GISAID (9869 secuencias de entrenamiento y 1447 de testeo). Los modelos de clasificación incluyen 75 clados o grupos genéticos de Flu: 25 A(H1N1)pdm09, 32 A(H3N2), 14 B/Victoria y 4 B/Yamagata.
Resultados:
INFINITy es una aplicación de código abierto, basada en machine learning que puede correrse directamente en la web con una interfaz amigable sin necesidad de instalar ningún programa, o también, disponible como paquete de R. La precisión es alta: 99.5% (FULL) y 99.3% (HA1), y permite clasificar todos los clados. Al trabajar sobre vectores de frecuencia de K-meros, INFINITy no requiere alinear secuencias, lo que reduce sustancialmente los requerimientos computacionales y el tiempo de corrida. Los usuarios sólo requieren cargar sus secuencias en formato FASTA, seleccionar el modelo correspondiente (FULL o HA1) y comenzar el análisis (RUN). El resultado de la clasificación se muestra en una tabla, incluyendo el control de calidad, y puede descargarse.
Discusión / Conclusiones:
Debido al incremento de laboratorios e investigadores que usan tecnologías de secuenciación aplicadas a la epidemiología molecular, es necesario el desarrollo de aplicaciones simples, rápidas y fáciles de usar para la clasificación precisa de secuencias virales. En particular, para virus respiratorios como Flu, que son monitoreados en todo el mundo para la vigilancia genómica que permite la reformulación anual de la composición vacunal.