viernes, 24 de diciembre de 2010

Problemas en bioinformática

Las células son las unidades fundamentales de cualquier ser vivo y todas las instrucciones necesarias para dirigir sus actividades están contenidas en la secuencia de ácido desoxirribonucleico. Este acido en todos los organismos se encuentra compuesto por los mismos componentes físicos y químicos, denominados bases, que se ordenan lado a lado en una estructura de doble hélice. El orden de estas bases contiene las instrucciones para crear un organismo con todas sus particularidades. El genoma de un organismo está formado por el conjunto de moléculas de ácido desoxirribonucleico, y el tamaño del mismo puede variar desde seiscientas mil pares de bases en una bacteria, hasta los tres billones que contienen los genomas humano y de ratón. Salvo algunas excepciones, todas las células humanas contienen una copia del genoma completo.

El ácido desoxirribonucleico en el genoma humano está organizado en cuarenta y seis cromosomas. Cada uno de ellos es una molécula cuya longitud se encuentra entre los cincuenta y doscientos cincuenta millones de pares de bases. Cada cromosoma contiene varios genes: las unidades básicas funcionales de la herencia y cada gen es simplemente una secuencia específica de bases que contiene las instrucciones para construir una proteína. En los primeros años del siglo veintiuno, se sabe que los genes comprenden solamente el dos por ciento del genoma humano; el resto contiene regiones no codificantes cuya función puede incluir la provisión de integridad estructural del cromosoma, la regulación de donde, cuando y en qué cantidad se fabrican las proteínas, etc. Se estima que el genoma humano contiene entre treinta y cuarenta genes y aunque los genes atraen mucho la atención, en realidad son las proteínas las que realizan la mayor parte de las funciones de la vida y generan la mayoría de las estructuras celulares. Las proteínas son moléculas complejas, formadas por subunidades más simples denominadas aminoácidos, de los cuales existen veinte diferentes. La secuencia de aminoácidos y las características químicas de los mismos causan que la proteína se pliegue en una estructura tridimensional que define su funcionalidad en la célula.

El conjunto de todas las proteínas de una célula se denomina proteoma. En contraste con el carácter estático del genoma, el proteoma cambia momento a momento en respuesta a miles de señales intra y extra celulares. La química de una proteína y su comportamiento está especificada por la secuencia de un gen, pero también por el número y la identidad de otras proteínas fabricadas en la célula al mismo tiempo y con las cuales ésta se asocia y reacciona. La proteómica, definida como el área que estudia la estructura de las proteínas y sus actividades y relaciones, es objeto de investigación que ayudará a elucidar las bases moleculares de la salud y la enfermedad. La cantidad de información que genera la investigación genómica es tal que, probablemente, supera la magnitud de información que genera la investigación en otras disciplinas científicas. En este contexto, surge la Bioinformática como un área en la frontera entre la biología y las ciencias de la computación cuyo principal objetivo es el desarrollo y uso de técnicas matemáticas y computacionales para ayudar en el tratamiento masivo de datos y en la resolución de problemas de la biología molecular.

La bioinformática surge como consecuencia de una convergencia multidisciplinar bajo el amparo del proyecto Genoma Humano. Esta disciplina está orientada fundamentalmente a la investigación aplicada, relacionada principalmente con las siguientes áreas: biología molecular, genética, genómica, proteómica, ciencias biomédicas, ciencias de la computación, matemáticas, física y estadística. También constituye un enfoque interdisciplinario, puesto que al menos un científico experto en biología y otro experto en ciencias de la computación, deben colaborar estrechamente para alcanzar un objetivo común, para el cual necesitan un lenguaje común y, además, aprender uno del otro los respectivos conocimientos básicos y fundamentales.

Una definición compendiada de la bioinformática establece que se trata de una disciplina científica y tecnológica en al que interaccionan en armonía los planteamientos investigadores de la biología genética y molecular con los enfoques metodológicos y tecnológicos de la ciencia de la computación y la ingeniería informática, para la obtención y gestión del conocimiento biológico genómico y proteómico. Gracias a la bioinformática, la secuenciación del genoma ha podido finalizar entes de lo previsto inicialmente, y en la denominada era postgenoma, la bioinformática se encuentra dedicada a la traslación de la información genética hacia aplicaciones biomédicas y sociales. Sin embargo, una de las principales limitaciones en la eclosión de esta disciplina ha sido la escasez de profesionales formados en la misma, ya que tradicionalmente las principales disciplinas científicas implicadas han ocupado compartimientos estancos con escasa comunicación entre ellos.

Los problemas que trata la bioinformática en general surgieron en el encuentro de dos formas diferentes de trabajo, una de ellas, la del grupo receptor, consistía en la tradicional biología molecular y la epidemiologia genética, centrada en los procedimientos de laboratorio, fundamentalmente el manejo de muestras, la extracción de ácido desoxirribonucleico, la amplificación de ácido desoxirribonucleico, el genotipado y el análisis estadístico. La otra se encontraba centrada en la ciencia de la computación y los sistemas de información, donde priman los aspectos de tratamiento, almacenamiento recuperación y salvaguarda de la información, así como la aplicación metódica de los procesos y herramientas necesarias para dichas actividades con eficiencia y calidad. En otras palabras los problemas se encuentran en un mismo territorio conformado por la visión científica basada en la muestra biológica, frente a la visión científico-ingenieril basada en la información.

La gama de problemas que abarca la bioinformática es muy amplia y como ejemplos, se pueden citar: la construcción de arboles filogenéticos para detectar antecesores comunes, el alineamiento simple y múltiple de secuencias, la construcción de mapas de genomas, la predicción de estructuras de proteínas, la comparación de moléculas, el agrupamiento y clasificación de estructuras proteicas, el análisis de perfiles de expresión génica, y un largo etcétera. Según los investigadores Meidanis y Setubal, un algoritmo para un problema de biología molecular es un objeto que intenta servir a dos personas: el biólogo molecular, que pretende que el algoritmo sea relevante, es decir que resuelva el problema con todos los errores e incertidumbres que aparecen en la práctica; y el informático, que desea probar que el algoritmo resuelve eficientemente un problema bien definido y que está dispuesto a sacrificar relevancia por eficiencia.

El equilibrio solo puede provenir de una interacción constante, que no es simple, pero que merece la pena. En la misma línea, se puede argumentar “los biólogos querrán que los informáticos les suministren soluciones a sus problemas de gestión de datos, los matemáticos y expertos en computación andarán detrás de problemas intelectualmente llamativos, y los ingenieros pedirán a los dos grupos anteriores que les suministren especificaciones bien concretadas para que ellos puedan desarrollar su trabajo. Los distintos expertos habrán de acostumbrarse a emplear vocabularios y lenguajes comunes y a entender, sin minusvalorar, los problemas de los demás.”

Algunos problemas importantes donde los enfoques basados en inteligencia artificial resultan prometedores incluyendo la predicción y comparación de estructura de proteínas, el diseño semiautomático de drogas, la interpretación de secuencias de nucleótidos y la adquisición de conocimiento de los datos genéticos. Uno de los procedimientos básicos en el área de la bioinformática, consiste en la búsqueda de semejanzas entre un fragmento de ácido desoxirribonucleico recién secuenciado y los segmentos ya disponibles almacenados en grandes bases de datos como GenBank. El hallazgo de emparejamientos aproximados permite predecir el tipo de proteína que especificará tal secuencia y esto no solo proporciona pistas sobre dianas farmacológicas prometedoras en las etapas iniciales de desarrollo de un medicamento, sino también permite eliminar alguna de ellas.

El problema de análisis, comparación y alineamiento de secuencias puede considerarse resuelto. Mejor dicho, en la primera década del presente siglo se dispone de algoritmos para resolver estos problemas razonablemente bien considerando que muchos de los problemas derivados resultan ser NP-Completos. El lector interesado en profundizar sobre problemas basados en secuencias, puede referirse a los trabajos de Meidanis y Setubal además del trabajo realizado por Gusfield. Una visión general sobre los problemas del área también puede encontrarse en la obra de Higgins y Taylor de principios del siglo veintiuno. Los dos métodos clásicos para la búsqueda de secuencias similares en bases de datos son BLAST y FAST, relacionados con herramientas de búsqueda de alineamiento local. Ambas referencias pertenecen a la presentación original de los métodos.
Guillermo Choque Aspiazu
http://www.eldiario.net/
Diciembre 20 de 2010

No hay comentarios: