Miércoles, 08 Enero 2020 08:28

Desarrollan un nuevo algoritmo matemático que identifica familias de genes

Escrito por UCC+i
El investigador José Die, responsable de la investigación en la UCO, en uno de los laboratorios del Campus de Rabanales. El investigador José Die, responsable de la investigación en la UCO, en uno de los laboratorios del Campus de Rabanales.

La herramienta, que escanea la información de las principales bases de datos de secuencias genómicas a nivel mundial, podría tener utilidad en programas de mejora genética


‘Dime qué gen eres, y te diré de dónde vienes’. Esa es, grosso modo, la filosofía de un nuevo algoritmo matemático desarrollado por un grupo de investigación internacional en el que participa la Universidad de Córdoba (UCO). La herramienta permite la identificación de los miembros de una determinada familia génica. En otras palabras, ayuda a identificar aquellos genes que tienen en común varios fragmentos de ADN al provenir de un mismo ancestro.


El algoritmo ha sido ideado por un grupo de investigación internacional auspiciado por el Centro Nacional para la Información Biotecnológica (NCBI) de los Estados Unidos. Para ello, el grupo ha cruzado toda la información disponible en la base de datos del NCBI, un banco de información mundial sobre secuencias genómicas que conecta con las tres principales agencias públicas internacionales de Japón, Europa y Estados Unidos.


Tal y como explica uno de los investigadores responsables del estudio, el profesor de la Escuela Técnica Superior de Ingenieros Agrónomos y de Montes (ETSIAM) de la UCO José Die, el programa escanea lo que en bioinformática se conoce como “dominios conservados”, una característica que presentan las proteínas y que son una fuente de información fundamental para la organización de las bases de datos. Lo interesante es que son característicos de cada familia. “Es como si fueran los apellidos, cada familia de genes posee los suyos. Por ello, una búsqueda basada en dominios conservados nos permite identificar familias”, destaca el investigador.


El algoritmo permite identificar familias de genes en tan solo un par de minutos, una búsqueda mucho más rápida que otros procesos en los que comúnmente se suelen buscar homologías entre secuencias de ADN mediante el orden en el que establecen sus moléculas. El único requisito es que la especie sobre la que se desee investigar tenga el genoma secuenciado previamente, para que el banco de datos que usa el programa informático disponga de esa información previa.


Utilidad para programas de mejora genética


Hasta la fecha, tal y como subraya José Die, tan solo en plantas hay secuenciados 231 genomas completos, y muchas de ellas, como el trigo, la soja o el arroz, están en la base de la alimentación a nivel mundial. Ahora bien, ¿qué utilidad tiene establecer la pertenencia de sus genes a una determinada familia?


Las familias de genes comparten fragmentos de ADN muy conservados, por ello se les presupone la misma función. Por lo tanto, el algoritmo podría ayudar a atribuir nuevas funciones a genes desconocidas hasta la fecha. “Si sabemos que un gen está implicado en la resistencia a la sequía de una planta, podemos inferir que los genes de su familia están controlando el mismo proceso. Luego, habrá que demostrarlo en el laboratorio, pero ya tenemos una hipótesis con la que partir”, señala el investigador responsable del estudio en la UCO. Conocer la función de determinadas familias génicas podría ayudar a establecer programas de mejora genética, silenciando o activando los genes implicados en multitud de procesos como la resistencia a enfermedades.

El programa informático ya está publicado para su uso libre en la página web del Centro Nacional para la Información Biotecnológica (NCBI) de los Estados Unidos y el código está disponible en abierto para el personal investigador que desee incorporar mejoras o añadir nueva información.

 

Referencias:

Die, J.V., Elmassry, M.M., LeBlanc, K.H. et al. geneHummus: an R package to define gene families and their expression in legumes and beyond. BMC Genomics 20, 591 (2019) doi:10.1186/s12864-019-5952-2

Visto 13252 veces