Más de 400 están fuera de la ciencia por sesgo europeo. (iStock)

Desde 1866, con las leyes de la herencia de Mendel y el descubrimiento de la estructura del ADN por Watson y Crick en 1953, la ciencia ha construido un mapa cada vez más completo del material genético humano. Sin embargo, ese mapa tiene un vacío profundo. Pero no se debe a las limitaciones técnicas, sino a una falta de datos por falta de financiación o conveniencia.

Un estudio internacional, liderado por investigadores españoles y publicado en la revista Nature Communications, ha identificado más de 400 posibles nuevos genes y más de 30.000 transcritos nunca descritos, invisibles hasta ahora porque los grandes catálogos genéticos se construyeron principalmente con datos de personas de ascendencia europea.

“Hemos dejado fuera a gran parte de la humanidad”, reconocen los autores que abarcan desde instituciones como el Barcelona Supercomputing Center, el Centre for Genomic Regulation y hasta varias universidades catalanas.

Un mapa genético construido desde Europa

Las grandes bases de datos de referencia del genoma humano, como GENCODE o RefSeq, son esenciales para interpretar la función de los genes, entender las enfermedades y desarrollar nuevos tratamientos. El problema es que la mayoría de los datos transcriptómicos sobre los que se construyeron proceden de individuos europeos.

“Mostramos que las anotaciones genéticas de referencia ampliamente utilizadas en la investigación genómica humana están sesgadas hacia Europa; subrepresentan los transcritos de individuos no europeos”, advierten desde el equipo de investigadores.

Esta falta de diversidad es la que ha dejado sin caracterizar una fracción significativa de la variabilidad y transcriptómica humana. En la práctica, millones de personas de África, Asia y América han quedado fuera del mapa funcional de los genes.

Millones de personas de África, Asia y América han quedado fuera del mapa funcional de los genes. (NIH/Europa Press)

800 millones de lecturas de ARN para corregir el sesgo

Para medir el alcance real de este vacío, los investigadores realizaron uno de los análisis transcriptónicos más ambiciosos hasta la fecha. Generaron más de 800 millones de lecturas completas de ARN mediante secuenciación de lectura larga en 43 líneas celulares pertenecientes a ocho poblaciones humanas de África, Asia, América y Europa.

Con estos datos construyeron una nueva anotación genética denominada PODER (Population Diversity-Enhanced long-Read annotation), diseñada específicamente para capturar la diversidad poblacional. El resultado fue revelador: más de 30.000 transcritos nuevos que no figuraban en los catálogos oficiales.

“Las anotaciones de referencia actuales son peores para representar los transcritos de poblaciones no europeas que los de poblaciones europeas”, subrayan los autores. De hecho, identificaron 2.419 transcritos que aparecen exclusivamente en una sola población, y la mayoría de los no europeos eran completamente inéditos para la ciencia.

“Nuestros resultados sugieren que las anotaciones génicas humanas están empobrecidas en transcritos no europeos, tanto a nivel global como específico de población”, concluyen los investigadores.

Evolución humana. (Imagen: Universidad John Moore)

África, donde el sesgo es mayor

El impacto de dicho sesgo es especialmente pronunciado en las poblaciones africanas, que concentran la mayor diversidad genética. Para analizar este efecto, los investigadores utilizaron ensamblajes genómicos personalizados, es decir, referencias adaptadas a la secuencia real de cada individuo.

Gracias a este enfoque, se detectaron cientos de transcritos adicionales por muestra que no aparecen al usar la referencia estándar. “El aumento en el descubrimiento de transcritos novedosos difiere entre poblaciones, siendo las poblaciones africanas las que exhiben el mayor incremento”, explican los autores.

Como respuesta, el equipo propone un nuevo objetivo científico global: la construcción del pantranscriptoma humano, el catálogo completo de todos los genes y transcritos presentes en la especie. “La secuenciación de largo alcance de transcriptomas de poblaciones humanas diversas debe ser priorizada con el objetivo final de generar el pantranscriptoma humano”, defienden.