Cómo la bioinformática se convirtió en una herramienta clave para una detección veloz de nuevas cepas

Los laboratorios de todo el mundo han secuenciado más de 600.000 muestras de SARS-CoV-2; ese número bien podría superar el millón al final de la pandemia. En teoría, estos genomas podrían ayudar a comprender la propagación del virus, lo que permitirá detener las infecciones

Los laboratorios de todo el mundo han secuenciado más de 600.000 muestras de SARS-CoV-2 (Pexels)
Los laboratorios de todo el mundo han secuenciado más de 600.000 muestras de SARS-CoV-2 (Pexels)

La perspectiva de una potencia reducida de la vacuna por las variantes de SARS-CoV-2 de rápida propagación ha provocado una prisa mundial para aumentar la vigilancia genómica del coronavirus. Esto es crucial para identificar y rastrear rápidamente cepas emergentes. También puede precisar cómo ocurre la transmisión entre individuos de manera más definitiva que lo que puede hacer el rastreo de contactos típico. Los laboratorios de todo el mundo han secuenciado más de 600.000 muestras de SARS-CoV-2; ese número bien podría superar el millón al final de la pandemia. En teoría, estos genomas podrían ayudar a comprender la propagación del virus, lo que permitirá detener las infecciones. En la práctica, estos análisis son mucho menos de lo que podrían hacerse.

Gran parte del análisis de estas secuencias del genoma no lo realizan organismos de salud pública. Se basa en la iniciativa de investigadores académicos, muchos de ellos al principio de sus carreras, que improvisan software y herramientas analíticas en su propio tiempo para encontrar respuestas esenciales. Nextstrain, un proyecto de código abierto que involucra a grupos de Suiza y Estados Unidos, está ayudando a coordinar estos esfuerzos. Uno de sus investigadores ha estado trabajando para rastrear variantes desde septiembre de 2020. Dos horas después de que el ministro de salud del Reino Unido anunciara la propagación de una nueva cepa (B.1.1.7) en diciembre de 2020, este estudio había proporcionado contexto para sus mutaciones clave en una serie de tweets, y mostró su progresión en el Reino Unido y en toda Europa en los meses anteriores.

Las herramientas filogenéticas utilizadas para rastrear estas variantes fueron desarrolladas en gran parte por biólogos evolutivos para estudiar el linaje de organismos. Fueron diseñados para construir árboles filogenéticos que pueden preguntar, por ejemplo, si el vuelo evolucionó dos veces en los mamíferos o si dos grandes grupos de murciélagos comenzaron como uno que luego divergió.

Los científicos necesitan infraestructuras estables y abiertas que permitan a toda la comunidad corregir secuencias y metadatos durante la pandemia (Pexels)
Los científicos necesitan infraestructuras estables y abiertas que permitan a toda la comunidad corregir secuencias y metadatos durante la pandemia (Pexels)

Ahora, cooptado para rastrear una pandemia, las hojas del árbol filogenético representan secuencias de SARS-CoV-2 tomadas de individuos, y el árbol crece con el número de casos. Con más de 5.000 secuencias ingresando cada día (y aumentando), las herramientas pueden ayudar rápidamente a determinar si una mutación observada ha cambiado la biología del virus. Esta información es fundamental para los diseñadores de medicamentos, vacunas y políticas.

Sin embargo, a medida que estos datos continúan llegando, mantener los árboles filogenéticos actualizados se vuelve cada vez más difícil. Nextstrain se usó anteriormente para rastrear brotes de influenza y ébola, pero a menudo de manera retrospectiva o mediante pequeñas actualizaciones cada semana o mes, no para rastrear miles de secuencias al día durante el pico de una pandemia mundial.

“Para detener una pandemia, los investigadores deben rastrear quién se contagió qué de quién -explica Emma B. Hodcroft, investigadora postdoctoral en Nextstrain y de la Universidad de Berna, Suiza-. Esto les permite responder preguntas tales como: ¿qué hace que un evento se propague por encima de todo? ¿Qué prácticas de salud pública ralentizan la transmisión? ¿Están funcionando las precauciones?”.

El 29 de septiembre del año pasado, un pasajero en Dubai que había viajado desde Suiza y se encontraba en la etapa inicial infecciosa de COVID-19 a pesar de dar negativo en la prueba, abordó un avión a Nueva Zelanda y parece haber infectado al menos a cuatro compañeros pasajeros. Resolver eso requirió demasiada gente, al menos 26 investigadores, y demasiada suerte. Si la cepa viral infecciosa hubiera venido de un grupo en los Estados Unidos en lugar de Suiza, los investigadores probablemente no hubieran tenido los datos correctos para poder decirlo. Esto refleja la secuencia irregular en diferentes países.

“Además, es difícil reconstruir las historias de transmisión sólo a partir de muestras porque muchas de las secuencias son idénticas”, explica Hodcroft. Para tener éxito en el caso de Dubai (un raro ejemplo de un artículo científico revisado por pares que combina filogenias con un plano de asientos de un avión), los investigadores integraron el análisis genómico con el conocimiento sobre quién fue diagnosticado, cuándo y dónde, y con quién estaban en contacto. “La filogenética fue clave para que el público entendiera que los viajes aéreos eran más riesgosos de lo que muchos entendían”, sentencia Nicola De Maio, científico en evolución molecular en EMBL, European Bioinformatics Institute de Cambridge, Reino Unido.

Para rastrear la ruta del virus, se pueden usar métodos sofisticados que combinan incertidumbre filogenética, modelos de transmisión y datos de pacientes y secuencias (Reuters)
Para rastrear la ruta del virus, se pueden usar métodos sofisticados que combinan incertidumbre filogenética, modelos de transmisión y datos de pacientes y secuencias (Reuters)

El seguimiento de cómo dos eventos de superprocesadores en Boston, Massachusetts, variaron en su distribución geográfica y la determinación de la cantidad de mutaciones generadas, requirió el trabajo de más de 50 investigadores. Nuevamente, esto fue posible solo debido a circunstancias inusuales: muestreo temprano y denso en esa área.

“Saber a qué variantes prestar atención podría ser la diferencia entre contener un brote o acelerar su propagación -aporta De Maio-. Un país podría desear cambiar su estrategia de vacunación si se cree que las variantes dominantes reducen la eficacia de la vacuna, como ha sido el caso de Sudáfrica”. La filogenia, especialmente combinada con el trabajo in vitro , puede investigar si es probable que una mutación haya cambiado la biología del virus. También vale la pena encontrar señales más sutiles. Las personas infectadas con ciertas cepas podrían algún día recibir tratamiento médico específico o ser manejadas de manera diferente en cuarentena.

A finales de 2020, se marcaron 17 millones de visones para el sacrificio cuando surgió una nueva combinación de mutaciones en una variante en las granjas de visones danesas que mostraron una unión reducida de anticuerpos. La variante nunca se extendió más allá de 11 personas. Si hubiera sido más fácil vincular las mutaciones observadas con su impacto esperado en el virus y su aparente vínculo con la adaptación en el visón (en lugar de en los humanos), ¿se podría haber trabajado con mayor facilidad?

Hasta ahora, los análisis filogenéticos tienden a operar por separado de los laboratorios húmedos. Por ejemplo, Datamonkey es una colección de herramientas de modelado y bioinformática administradas por investigadores de la Universidad de Temple en Filadelfia, Pennsylvania desarrollaron una herramienta web que escanea diariamente las filogenias del SARS-CoV-2 para identificar firmas de selección natural. Asimismo, la bióloga computacional Lucy van Dorp y sus colegas del University College de Londres extraen bases de datos genómicas en busca de mutaciones asociadas con una mayor propagación viral. Sin embargo, es posible que los análisis computacionales no siempre se prueben experimentalmente. Mientras tanto, testeos de laboratorio que investigan estas diferentes variantes y sus respuestas a las vacunas en cultivos celulares rara vez se combinan con filogenias.

“Necesitamos formas de combinar datos de biología y análisis de secuencias para producir una imagen conjunta de las mutaciones a medida que surgen y se propagan”, afirma Hodcroft.

El número promedio de nuevas infecciones que causa cada persona infectada en una población que tiene alguna inmunidad, llamado número de reproducción efectiva (Re)  (EFE)
El número promedio de nuevas infecciones que causa cada persona infectada en una población que tiene alguna inmunidad, llamado número de reproducción efectiva (Re) (EFE)

La información filogenética puede mejorar las estimaciones de la métrica clave de la pandemia: el número promedio de nuevas infecciones que causa cada persona infectada en una población que tiene alguna inmunidad, llamado número de reproducción efectiva ( R e ). “La filogenia puede distinguir entre los virus que se han importado a una comunidad y los que se han propagado dentro de ella, sugiere De Maio.

A pesar de su poder, estos métodos rara vez se utilizan. Son complejos de producir y requieren conocimientos especializados que escasean. La capacitación y un software más fácil de usar ayudarían a expandir la epidemiología filogenética.

Las filogenias podrían usarse para decir con cierta certeza quién no infectó a un individuo en particular, y así evaluar el riesgo de transmisión. “Desafortunadamente, ninguna medida convencional captura esta confianza en la no relación, lo que dificulta que los funcionarios de salud pública usen filogenias para tomar decisiones rápidas”, sugiere Rob Lanfear ,profesor asociado de evolución molecular en la Universidad Nacional de Australia. Un trabajo reciente propone una nueva forma de cuantificar la incertidumbre en respuesta a este problema, “pero queda mucho por hacer”, continúa.

Para rastrear la ruta del virus, se pueden usar métodos sofisticados que combinan incertidumbre filogenética, modelos de transmisión y datos de pacientes y secuencias. Sin embargo, estos métodos son actualmente demasiado intensivos en computación para ser utilizados para cada muestra recopilada. En la ola epidémica inicial, el biólogo computacional Louis du Plessis de la Universidad de Oxford, Reino Unido, y sus colegas utilizaron miles de secuencias de SARS-CoV-2 para encontrar más de 1.000 cadenas de infección genéticamente distintas dentro del Reino Unido. Pero para hacerlo, tuvieron que idear atajos específicos y simplificar suposiciones que podrían no funcionar en otros contextos.

El apuro por compartir datos y la entrada de laboratorios con menos experiencia en la secuenciación han significado que los datos pueden estar llenos de errores pequeños pero peligrosos, en las secuencias mismas y en los ‘metadatos’ de ubicación y tiempo que los acompañan”, según Hodcroft.

El apuro por compartir datos y la entrada de laboratorios con menos experiencia en la secuenciación han significado que los datos pueden estar llenos de errores pequeños pero peligrosos (Europa Press)
El apuro por compartir datos y la entrada de laboratorios con menos experiencia en la secuenciación han significado que los datos pueden estar llenos de errores pequeños pero peligrosos (Europa Press)

La contaminación, las muestras de mala calidad y los errores que se producen durante el procesamiento pueden introducir mutaciones falsas o incluso eliminar las reales. Estos errores luego se propagan a los análisis posteriores, lo que redibuja las conexiones que pueden inducir a error a las investigaciones de los brotes o ser culpados de los cambios en la biología del virus. “Los científicos necesitan infraestructuras estables y abiertas que permitan a toda la comunidad corregir secuencias y metadatos durante la pandemia”, indica Hodcroft.

El Reino Unido ha secuenciado hasta ahora casi 5.000 muestras por cada 100.000 casos, en comparación con 320 por cada 100.000 en los Estados Unidos y 30 por cada 100.000 en Brasil. Incluso en el Reino Unido, determinadas regiones están mejor representadas en la secuencia de datos que otras. “Las herramientas que tenemos para inferir la distribución geográfica a partir de muestras no suelen tener en cuenta estos sesgos -indica Lanfear-. Sin corrección, el Reino Unido sería etiquetado como una fuente común de variantes solo por su alta tasa de secuenciación, no por cómo se propagan las variantes”. Los investigadores pueden explicar esto de forma aproximada, pero no a un nivel detallado.

El comienzo de este año ha dado lugar a otro tipo de sesgo de muestreo que debe tenerse en cuenta. Una de las tres variantes principales de interés, 501Y.V1 (o B.1.1.7), tiene una deleción en la proteína de pico. Esto hace que la prueba de PCR de diagnóstico no detecta el gen del pico, un problema llamado abandono de S. Pero 501Y.V1 no es la única variante que causa tales abandonos, por lo que la confirmación sólo puede provenir de la secuenciación. Algunos países ahora están secuenciando preferencialmente los abandonos S en un esfuerzo por detectar y rastrear una variante más transmisible. “En el proceso -advierte Hodcroft, están sesgando sus datos hacia variantes particulares, lo que significa que es posible que dichos datos ya no representan las verdaderas proporciones presentes”.

Los métodos propuestos para tener en cuenta estos sesgos tardan demasiado en ejecutarse con grandes conjuntos de datos. Peor aún, muchos análisis asumen que la población del virus es estable, pero no lo es. Idealmente, las herramientas computacionales serían robustas al sesgo de muestreo y se combinarán con bases de datos que permitan a los científicos registrar por qué se secuenciaron las muestras. Esto podría ayudar a identificar el crecimiento y el origen geográfico de nuevas variantes y ayudar a los funcionarios de salud pública a superar los problemas de muestreo.

SEGUIR LEYENDO: