lunes, 5 de marzo de 2012

Alineamiento de secuencias

En palabras de los investigadores Sanchez, Lopez y Maojo, en el artículo escrito el año 1999 sobre “bioinformatica y salud”, la bioinformática se encuentra en la intersección entre las ciencias de la vida y de la información, proporciona las herramientas y recursos necesarios para favorecer la investigación en biología molecular. Como campo interdisciplinario, comprende la investigación y el desarrollo de sistemas útiles para entender el flujo de información desde los genes a las estructuras moleculares, su función bioquímica, su conducta biológica y, finalmente, su influencia en las enfermedades y en la salud.

Los estímulos principales para el desarrollo de la bioinformática son: (1) El enorme volumen de datos generados por los distintos proyectos denominados genoma. (2) Los nuevos enfoques experimentales, basados en biochips, que permiten obtener datos genéticos a gran velocidad, bien de genomas individuales o de enfoques celulares, expresión génica. (3) El desarrollo de Internet, que permite el acceso universal a las bases de datos de información biológica. La magnitud de la información que genera las investigaciones realizadas sobre el genoma humano es tal que, probablemente, supera la generada por otras investigaciones en otras disciplinas científicas. Como se sabe, la vida es la forma más compleja de organización de la materia que se conoce. En estos momentos, las computadoras no clasificadas para uso civil más potentes del mundo están dedicadas a la investigación biológica, concretamente a la obtención y al análisis de las secuencias de nucleótidos de los genomas conocidos. Ante tal situación, uno de los retos de la bioinformática es el desarrollo de métodos que permitan integrar los datos genómicos, de secuencia, de expresión, de estructura, de interacciones y otras, para explicar el comportamiento global de la célula viva, minimizando la intervención humana. Dicha integración, sin embargo, no puede producirse sin considerar el conocimiento acumulado durante decenas de años, producto de la investigación de miles de científicos, recogido en millones de comunicaciones científicas.

La bioinformática se ocupa de la utilización y almacenamiento de grandes cantidades de información biológica, es decir, trata del uso de las computadoras para el análisis de la información biológica, entendida esta como la adquisición y consulta de datos, los análisis de correlación, la extracción y el procesamiento de la información. En otras palabras, la bioinformática es un área del espacio que representa la biología molecular computacional, que incluye la aplicación de las computadoras y de las ciencias de la información en áreas como la geonómica, el mapeo, la secuencia y determinación de las secuencias y estructuras por métodos clásicos. Las metas fundamentales de la bioinformática son la predicción de la estructura tridimensional de las proteínas a partir de su secuencia, la predicción de las funciones biológicas y biofísicas a partir de la secuencia o la estructura, así como simular el metabolismo y otros procesos biológicos basados en esas funciones. Muchos de los métodos de la computación y de las ciencias de la información sirven para estos fines, incluyendo el aprendizaje de las máquinas, las teorías de la información, la estadística, la teoría de los gráficos, los algoritmos, la inteligencia artificial, los métodos estocásticos, la simulación, la lógica, etc.

Ingresando en el tema del presente artículo, según los investigadores Smith y Waterman, en el artículo escrito el año 1981 sobre “identificación de secuencias moleculares comunes”, complementado con la opinión de los investigadores Schneider y Stephens, en el artículo escrito el año 1990 sobre “logotipos de secuencia: una nueva manera de ver las secuencias de consenso”, un alineamiento de secuencias en bioinformática es una forma de representar y comparar dos o más secuencias o cadenas de ácido desoxirribonucleico, acido ribonucleico o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. Las secuencias alineadas se escriben con las letras, que representan aminoácidos o nucleótidos, en filas de una matriz en las que, si es necesario, se insertan espacios para que las zonas con idéntica o similar estructura se alineen.

Si dos secuencias en un alineamiento comparten un ancestro común, las no coincidencias pueden interpretarse como mutaciones puntuales o sustituciones, y los huecos como indels o mutaciones de inserción o borrado, introducida en uno o ambos linajes en el tiempo que transcurrió desde que divergieron. En el alineamiento de secuencias proteicas, el grado de similitud entre los aminoácidos que ocupan una posición concreta en la secuencia puede interpretarse como una medida aproximada de conservación en una región particular, o secuencia motivo, entre linajes. La ausencia de sustituciones, o la presencia de sustituciones muy conservadas en una región particular de la secuencia indican que esta zona tiene importancia estructural o funcional. Aunque las bases nucleotídicas del ácido desoxirribonucleico y ácido ribonucleico son bastante similares entre sí que con los aminoácidos, la conservación del emparejado de bases podría indicar papeles funcionales o estructurales similares. El alineamiento de secuencias puede utilizarse con secuencias no biológicas, como en la identificación de similitudes en series de letras y palabras del lenguaje humano o en análisis de datos financieros.

Secuencias muy cortas o muy similares pueden alinearse manualmente. Aun así, los problemas más interesantes necesitan alinear secuencias largas, muy variables y extremadamente numerosas que no pueden ser alineadas por seres humanos. El conocimiento humano se aplica principalmente en la construcción de algoritmos que produzcan alineamientos de alta calidad, y ocasionalmente ajustando el resultado final para representar patrones que son difíciles de introducir en algoritmos, especialmente en el caso de secuencias de nucleótidos. Las aproximaciones computacionales al alineamiento de secuencias se dividen en dos categorías: alineamiento global y alineamiento local. Calcular un alineamiento global es una forma de optimización global que “obliga” al alineamiento a ocupar la longitud total de todas las secuencias problema. Comparativamente, los alineamientos locales identifican regiones similares dentro de largas secuencias que normalmente son bastante divergentes entre sí. A menudo se prefieren los alineamientos locales, pero pueden ser más difíciles de calcular porque se añade el desafío de identificar las regiones de mayor similitud. Se aplican gran variedad de algoritmos computacionales al problema de alineamiento de secuencias, como métodos lentos, pero de optimización, como la programación dinámica, y métodos heurísticos o probabilísticos eficientes, pero no exhaustivos, diseñados para búsqueda a gran escala en bases de datos.

Según el investigador Robles, en la tesis de grado escrita el año 2003 denominada “clasificación supervisada basada en redes Bayesianas y su aplicación en biología computacional”, cuando se analizan secuencias se suelen utilizar de manera indiscriminada los términos de similitud y homología. Sin embargo, estos términos se refieren a conceptos muy distintos. Similitud es la característica resultante de la observación de que dos o más secuencias muestran algún grado de coincidencia en la secuencia de aminoácidos. La similitud, dado que es una observación, no puede ser un indicador a priori de ninguna relación biológica entre las secuencias, ya que ésta se podría deber a cambios que se hayan dado al azar. En cambio, se habla de homología cuando la similitud se puede atribuir a verdaderas razones evolutivas y no simplemente al azar. En este caso, se afirma que hay regiones de la secuencia conservadas en el tiempo. La similitud es producto de una medida, mientras que la homología es una hipótesis que se postula con base en la similitud de las secuencias estudiadas y otras características adicionales. Se puede hablar de un porcentaje de similitud entre dos secuencias pero no de un porcentaje de homología. Ya que la homología es una característica cualitativa, no es susceptible de ser medida, por lo que dos secuencias simplemente o son o no son homologas.

El alineamiento es el procedimiento que permite dar los primeros pasos hacia la conclusión de que dos o más secuencias son homologas. Consiste en establecer un segmento entre ellas, donde el número de coincidencias sea máximo. Una coincidencia se presenta cuando el aminoácido de la secuencia A es igual al de la secuencia B o bien si sus características físico-químicas, entre las que resaltan la hidrofobicidad, tamaño y carga, son similares. Los programas de alineamiento de secuencias utilizan matrices de sustitución, en las que a cada combinación posible de aminoácidos se le asigna un valor. Estas matrices de sustitución varían desde modelos simples que asignan el valor uno si los aminoácidos son iguales y cero si son distintos, hasta modelos más complejos evolutivos, estructurales o funcionales, que fijan un determinado costo por sustituir un aminoácido por otro dependiendo de ambos aminoácidos. Esta técnica, aparentemente sencilla, se hace más compleja en la medida en que el tamaño de las secuencias a comparar se hace mayor y, más aún, cuando se comparan más de dos secuencias. Para realizar esta tarea, se emplean distintos programas computacionales que dadas dos secuencias, generan el mejor alineamiento.

Referencias Bibliográficas
  • Sánchez F. Martin, López Campos G. & Maojo García V. (1999) Bioinformática y salud: impactos de la aplicación de las nuevas tecnologías para el tratamiento de la información genética en la investigación biomédica y la práctica clínica. Informática y Salud (19). Disponible en: http://www.seis.es/i_s/i_s19/i_s19l.htm
  • Schneider TD, Stephens RM (1990) Sequence logos: a new way to display consensus sequences. Nucleic Acids Res 18: pp. 6097-6100.
  • Smith, T.F., and Waterman, M.S. (1981) Identification of common molecular sequence, J. Mol. Biol., 1981, 147, pp. 195-197.
  • Robles Víctor (2003) Clasificación Supervisada basada en Redes Bayesianas. Aplicación en Biología Computacional. Tesis de doctorado. Universidad Politécnica de Madrid. Facultad de Informática. Madrid, 2003.

Guillermo Choque Aspiazu
http://www.eldiario.net
Marzo 5 de 2012

No hay comentarios: