El reinado de las redes densas queda claro en la mayoría de los modelos, que recurren a arquitecturas sencillas pero eficaces como las redes neuronales multicapa (MLP), capaces de detectar relaciones complejas sin requerir una potencia de cálculo desorbitada.
Sin embargo, ya empiezan a ganar terreno otros enfoques más sofisticados, como los autoencoders, que comprimen la información para detectar estructuras ocultas, o las redes generativas (GANs), que permiten crear datos sintéticos y mejorar el entrenamiento en casos con pocas muestras disponibles.
Sorprendentemente, los famosos transformers -que han revolucionado el procesamiento del lenguaje y la visión artificial- aún no se han aplicado en este ámbito, aunque los expertos creen que podrían marcar un antes y un después cuando lo hagan.
Los datos son el eje de todo. Todos los modelos analizados utilizan perfiles de expresión génica obtenidos mediante bulk RNA-seq, pero diez de ellos necesitan además datos de célula única para generar mezclas sintéticas, conocidas como “pseudobulks”, que sirven para entrenar al algoritmo. La mayoría de estos estudios se centran en muestras humanas, especialmente de sangre o tejidos tumorales, mientras que los experimentos en modelos animales, como el ratón, son todavía minoría.
La falta de un estándar común aparece como uno de los mayores obstáculos. Cada grupo de investigación utiliza su propia forma de procesar los datos: algunos filtran genes, otros aplican normalizaciones distintas, y cada uno evalúa la precisión de su modelo con métricas diferentes. Esto dificulta la comparación entre herramientas y complica su adopción en entornos clínicos.
“Si queremos que estas herramientas lleguen al hospital, necesitamos que hablen un idioma común. No basta con que un modelo funcione: hay que saber compararlo y confiar en cómo llega a sus conclusiones”, afirma Lomas.