La bioinformática, según una de sus definiciones más sencillas, es la aplicación de la tecnología de computadoras a la gestión y análisis de datos biológicos. Los términos bioinformática, biología computacional y, en ocasiones, biocomputación, utilizados en muchas situaciones como sinónimos, hacen referencia a campos de estudios interdisciplinarios muy vinculados, que requieren el uso o el desarrollo de diferentes técnicas que incluyen informática, matemática aplicada, estadística, ciencias de la computación, inteligencia artificial, química y bioquímica para solucionar problemas, analizar datos, o simular sistemas o mecanismos, todos ellos de índole biológica, y usualmente, pero no de forma exclusiva, en el nivel molecular. El núcleo principal de estas técnicas se encuentra en el uso de recursos computacionales para solucionar o investigar problemas sobre escalas de tal magnitud que sobrepasan el discernimiento humano. La investigación en biología computacional se solapa a menudo con la biología de sistemas.
Las técnicas computacionales han pasado a ser una herramienta fundamental para el manejo y análisis de la información biológica. Si bien esto es aplicable a cualquier área de la biología, es particularmente importante en la biología molecular. Esto se evidencia en el desarrollo, mantenimiento y permanente actualización de gigantescas bases de datos públicas de secuencias biológicas tanto de ácidos nucléicos como de proteínas; y en la tendencia creciente en el uso de herramientas bioinformáticas o de biocomputación como apoyo a las técnicas experimentales. Los proyectos de secuenciamiento como el del “Genoma Humano” y el de varios organismos de estudio, están generando enormes cantidades de información imposible de analizar sin el uso de herramientas computacionales. El desarrollo de la bioinformática y la biocomputación ha generado técnicas de análisis de secuencias de ácidos nucléicos y proteínas con múltiples objetivos: determinación de homología, alineamiento de secuencias homólogas, predicción de estructura, filogenia, evolución molecular, diseño de fármacos, entre otros.
La revolución en instrumentación para la secuenciación eficiente y automatizada de genomas ha generado una explosión en la cantidad de datos de tipo biológico almacenados en diferentes bases de datos públicas, datos que se han acumulado principalmente en las dos últimas décadas a partir del proyecto genoma humano, estas bases de datos crecen constantemente de tal forma que existe una brecha creciente entre la capacidad de generar nuevos datos y la capacidad para analizarlos. El verdadero reto está en extraer información útil y con sentido biológico a partir del análisis de la información almacenada en las bases de datos de genomas, en vista de lo anterior el desarrollo de nuevos algoritmos y técnicas de análisis de datos de secuencias de genomas debe ser estratégica para cualquier grupo de investigación interesado en generar nuevo conocimiento o valor agregado a partir de los datos experimentales generados en sus laboratorios o a partir de la información disponible en forma pública.
Las características particulares de las secuencias de genomas tales como redundancia, degeneración, discontinuidad de la información y baja relación señal/ruido; hacen que el desarrollo de algoritmos para la búsqueda e identificación de patrones de interés en secuencias genómicas sea una tarea no trivial, un patrón de interés en general presenta un alto grado de incertidumbre. En el análisis de secuencias de genomas se han aplicado una diversidad de técnicas desarrolladas no necesariamente para el análisis de información de carácter biológico, tal es el caso de las caminatas aleatorias, el juego del caos, análisis de propiedades lingüísticas y gramaticales, función de autocorrelación, análisis de Fourier, análisis de mapas de recurrencia, etc. Este conjunto de técnicas matemáticas, lingüísticas, y computacionales; generan información de aspectos no biológicos del genoma a diferentes escalas dentro de una secuencia, ya que algunas técnicas generan información de carácter global sobre una secuencia y otras generan información de tipo local permitiendo estudiar el comportamiento a lo largo de una secuencia. Sin embargo, la información generada o su interpretación no se integra a detalle con la información biológica para dar un mejor análisis de las características del genoma.
Por otra parte, las técnicas de mayor uso en bioinformática se basan principalmente en propiedades estadísticas de los datos, y la visualización de dicha información se limita al uso de elementos básicos tales como tablas, motifs logos, árboles de clasificación, etc. La falta de integración de la información generada por diferentes técnicas de análisis no convencionales en bioinformática con el conocimiento biológico, así como las limitaciones de la información que es posible generar a partir de análisis estadísticos, base de buena parte de las técnicas más utilizadas en el análisis de genomas, motiva esta línea de investigación en la cual se propone la aplicación de conceptos de fusión de datos, con el objetivo de reducir la incertidumbre en la identificación de patrones de interés biológico en secuencias de genomas. La fusión de datos requiere de la integración de diversas áreas de la computación tales como: bases de datos, tecnologías para la Web, aprendizaje de máquina, procesamiento y análisis de gran cantidad de datos, visualización de información, interfaces humano-computadora, entre otras.
Desde que el fago Φ-X174 fuera secuenciado el año 1977 de manera provisional, un año más tarde se publicaría la secuencia completa definitiva, las secuencias de ácido desoxirribonucleico de cientos de organismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizados para determinar los genes que codifican para ciertas proteínas, así como también secuencias reguladoras. Una comparación de genes en una especie o entre especies puede mostrar similitudes entre funciones de proteínas, o relaciones entre especies. Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizar secuencias de ácido desoxirribonucleico manualmente. Hoy se usan programas de computadora para estudiar el genoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estos programas pueden compensar mutaciones, con bases intercambiadas, borradas o insertadas en la secuencia de ácido desoxirribonucleico, para identificar secuencias que están relacionadas, pero que no son idénticas. Una variante de este alineamiento de secuencias se usa en el proceso de secuenciación.
La secuenciación conocida como “perdigonada” o su equivalente en el idioma inglés "shotgun", fue usada por el Instituto de Investigación Genómica “TIGR”, conocido más tarde como el “Instituto Craig Venter” para secuenciar el primer genoma de bacteria, el Haemophilus influenzae. Esta secuenciación proporciona una lista secuencial de nucleótidos y ofrece las secuencias de miles de pequeños fragmentos de ácido desoxirribonucleico, cada uno de aproximadamente 600 a 800 nucleótidos de largo. Las terminaciones de estos fragmentos se superponen y, cuando son alineados de la manera correcta, constituyen el genoma completo del organismo en cuestión. El secuenciamiento shotgun proporciona datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En el caso del proyecto “Genoma Humano”, llevó varios meses de tiempo de procesador, en una estación DEC Alpha, para ensamblar los fragmentos. El secuenciamiento shotgun es el método utilizado como favorito para secuenciar los genomas y los algoritmos de ensamblado genómico constituyen un área crítica de la investigación en bioinformática.
Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática de genes y secuencias reguladoras dentro de un genoma. No todos los nucleótidos dentro de un genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes del ácido desoxirribonucleico no sirven a ningún propósito obvio. Este ácido desoxirribonucleico, conocido como “ácido desoxirribonucleico basura”, puede, sin embargo, contener elementos funcionales todavía no reconocidos. La bioinformática sirve para estrechar la brecha entre los proyectos de genoma y proteoma, por ejemplo, en el uso de secuencias de ácido desoxirribonucleico para la identificación de proteínas.
Algunas herramientas para analizar secuencias son: (1) GCG Accelrys. El paquete Accelrys GCG es una herramienta muy potente para el análisis de secuencias de ácidos nucléicos y proteínas con más de ciento treinta herramientas distintas. El paquete es de uso completo con una interfaz gráfica XWindow que utiliza la herramienta SeqLab. Existe una versión web accesible desde máquinas virtuales Seqweb, más fácil de usar pero con un número limitado de herramientas. (2) EMBOSS. El EMBOSS es un paquete de aplicaciones gratuito, de código abierto, específicamente desarrollado para el análisis de secuencias de ácidos nucléicos y de aminoácidos. Para evitar el uso de líneas de comandos, EMBOSS proporciona a los usuarios con una interfaz gráfica agradable utilizando el wEMBOSS accesible desde máquinas virtuales. Como característica adicional, EMBOSS incluye más de ciento cincuenta aplicaciones distintas. (3) SeqTrim. Constituye un programa desarrollado en la Universidad de Málaga para el pre-procesamiento de secuencias de nucleótidos. Es capaz de detectar las trazas de secuencias de mala calidad así como distintos tipos de contaminación: restos de vector, adaptadores, secuencias genómicas bacterianas y otros.
Las técnicas computacionales han pasado a ser una herramienta fundamental para el manejo y análisis de la información biológica. Si bien esto es aplicable a cualquier área de la biología, es particularmente importante en la biología molecular. Esto se evidencia en el desarrollo, mantenimiento y permanente actualización de gigantescas bases de datos públicas de secuencias biológicas tanto de ácidos nucléicos como de proteínas; y en la tendencia creciente en el uso de herramientas bioinformáticas o de biocomputación como apoyo a las técnicas experimentales. Los proyectos de secuenciamiento como el del “Genoma Humano” y el de varios organismos de estudio, están generando enormes cantidades de información imposible de analizar sin el uso de herramientas computacionales. El desarrollo de la bioinformática y la biocomputación ha generado técnicas de análisis de secuencias de ácidos nucléicos y proteínas con múltiples objetivos: determinación de homología, alineamiento de secuencias homólogas, predicción de estructura, filogenia, evolución molecular, diseño de fármacos, entre otros.
La revolución en instrumentación para la secuenciación eficiente y automatizada de genomas ha generado una explosión en la cantidad de datos de tipo biológico almacenados en diferentes bases de datos públicas, datos que se han acumulado principalmente en las dos últimas décadas a partir del proyecto genoma humano, estas bases de datos crecen constantemente de tal forma que existe una brecha creciente entre la capacidad de generar nuevos datos y la capacidad para analizarlos. El verdadero reto está en extraer información útil y con sentido biológico a partir del análisis de la información almacenada en las bases de datos de genomas, en vista de lo anterior el desarrollo de nuevos algoritmos y técnicas de análisis de datos de secuencias de genomas debe ser estratégica para cualquier grupo de investigación interesado en generar nuevo conocimiento o valor agregado a partir de los datos experimentales generados en sus laboratorios o a partir de la información disponible en forma pública.
Las características particulares de las secuencias de genomas tales como redundancia, degeneración, discontinuidad de la información y baja relación señal/ruido; hacen que el desarrollo de algoritmos para la búsqueda e identificación de patrones de interés en secuencias genómicas sea una tarea no trivial, un patrón de interés en general presenta un alto grado de incertidumbre. En el análisis de secuencias de genomas se han aplicado una diversidad de técnicas desarrolladas no necesariamente para el análisis de información de carácter biológico, tal es el caso de las caminatas aleatorias, el juego del caos, análisis de propiedades lingüísticas y gramaticales, función de autocorrelación, análisis de Fourier, análisis de mapas de recurrencia, etc. Este conjunto de técnicas matemáticas, lingüísticas, y computacionales; generan información de aspectos no biológicos del genoma a diferentes escalas dentro de una secuencia, ya que algunas técnicas generan información de carácter global sobre una secuencia y otras generan información de tipo local permitiendo estudiar el comportamiento a lo largo de una secuencia. Sin embargo, la información generada o su interpretación no se integra a detalle con la información biológica para dar un mejor análisis de las características del genoma.
Por otra parte, las técnicas de mayor uso en bioinformática se basan principalmente en propiedades estadísticas de los datos, y la visualización de dicha información se limita al uso de elementos básicos tales como tablas, motifs logos, árboles de clasificación, etc. La falta de integración de la información generada por diferentes técnicas de análisis no convencionales en bioinformática con el conocimiento biológico, así como las limitaciones de la información que es posible generar a partir de análisis estadísticos, base de buena parte de las técnicas más utilizadas en el análisis de genomas, motiva esta línea de investigación en la cual se propone la aplicación de conceptos de fusión de datos, con el objetivo de reducir la incertidumbre en la identificación de patrones de interés biológico en secuencias de genomas. La fusión de datos requiere de la integración de diversas áreas de la computación tales como: bases de datos, tecnologías para la Web, aprendizaje de máquina, procesamiento y análisis de gran cantidad de datos, visualización de información, interfaces humano-computadora, entre otras.
Desde que el fago Φ-X174 fuera secuenciado el año 1977 de manera provisional, un año más tarde se publicaría la secuencia completa definitiva, las secuencias de ácido desoxirribonucleico de cientos de organismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizados para determinar los genes que codifican para ciertas proteínas, así como también secuencias reguladoras. Una comparación de genes en una especie o entre especies puede mostrar similitudes entre funciones de proteínas, o relaciones entre especies. Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizar secuencias de ácido desoxirribonucleico manualmente. Hoy se usan programas de computadora para estudiar el genoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estos programas pueden compensar mutaciones, con bases intercambiadas, borradas o insertadas en la secuencia de ácido desoxirribonucleico, para identificar secuencias que están relacionadas, pero que no son idénticas. Una variante de este alineamiento de secuencias se usa en el proceso de secuenciación.
La secuenciación conocida como “perdigonada” o su equivalente en el idioma inglés "shotgun", fue usada por el Instituto de Investigación Genómica “TIGR”, conocido más tarde como el “Instituto Craig Venter” para secuenciar el primer genoma de bacteria, el Haemophilus influenzae. Esta secuenciación proporciona una lista secuencial de nucleótidos y ofrece las secuencias de miles de pequeños fragmentos de ácido desoxirribonucleico, cada uno de aproximadamente 600 a 800 nucleótidos de largo. Las terminaciones de estos fragmentos se superponen y, cuando son alineados de la manera correcta, constituyen el genoma completo del organismo en cuestión. El secuenciamiento shotgun proporciona datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En el caso del proyecto “Genoma Humano”, llevó varios meses de tiempo de procesador, en una estación DEC Alpha, para ensamblar los fragmentos. El secuenciamiento shotgun es el método utilizado como favorito para secuenciar los genomas y los algoritmos de ensamblado genómico constituyen un área crítica de la investigación en bioinformática.
Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática de genes y secuencias reguladoras dentro de un genoma. No todos los nucleótidos dentro de un genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes del ácido desoxirribonucleico no sirven a ningún propósito obvio. Este ácido desoxirribonucleico, conocido como “ácido desoxirribonucleico basura”, puede, sin embargo, contener elementos funcionales todavía no reconocidos. La bioinformática sirve para estrechar la brecha entre los proyectos de genoma y proteoma, por ejemplo, en el uso de secuencias de ácido desoxirribonucleico para la identificación de proteínas.
Algunas herramientas para analizar secuencias son: (1) GCG Accelrys. El paquete Accelrys GCG es una herramienta muy potente para el análisis de secuencias de ácidos nucléicos y proteínas con más de ciento treinta herramientas distintas. El paquete es de uso completo con una interfaz gráfica XWindow que utiliza la herramienta SeqLab. Existe una versión web accesible desde máquinas virtuales Seqweb, más fácil de usar pero con un número limitado de herramientas. (2) EMBOSS. El EMBOSS es un paquete de aplicaciones gratuito, de código abierto, específicamente desarrollado para el análisis de secuencias de ácidos nucléicos y de aminoácidos. Para evitar el uso de líneas de comandos, EMBOSS proporciona a los usuarios con una interfaz gráfica agradable utilizando el wEMBOSS accesible desde máquinas virtuales. Como característica adicional, EMBOSS incluye más de ciento cincuenta aplicaciones distintas. (3) SeqTrim. Constituye un programa desarrollado en la Universidad de Málaga para el pre-procesamiento de secuencias de nucleótidos. Es capaz de detectar las trazas de secuencias de mala calidad así como distintos tipos de contaminación: restos de vector, adaptadores, secuencias genómicas bacterianas y otros.
Guillermo Choque Aspiazu
http://www.eldiario.net/
Marzo 22 de 2010