viernes, 18 de junio de 2010

Minería de datos bayesiana

A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de eficiencia y escalabilidad. Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido. Además, ya que los datos pueden proceder de fuentes diversas y pertenecer a diferentes dominios, parece clara la inminente necesidad de analizar los mismos para la obtención de información útil para la organización.

En muchas situaciones, el método tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación realizada de forma manual. El especialista analiza los datos y elabora un informe o hipótesis que refleja las tendencias o pautas de los mismos. Este conocimiento, validado convenientemente, puede ser usado por los superiores para tomar decisiones importantes y significativas para la organización. Esta forma de actuar es lenta, cara y altamente subjetiva. De hecho, el análisis manual es impracticable en dominios donde el volumen de los datos crece exponencialmente: la enorme abundancia de datos desborda la capacidad humana de comprenderlos sin la ayuda de herramientas potentes. Consecuentemente, muchas decisiones importantes se realizan, no sobre la gran cantidad de datos disponibles, sino siguiendo la propia intuición del usuario al no disponer de las herramientas necesarias.

La minería de datos es el proceso de extraer información no trivial y potencialmente útil a partir de grandes conjuntos de datos disponibles en las ciencias experimentales, proporcionando información en un formato legible que puede ser usada para resolver problemas de diagnostico, clasificación o predicción. Tradicionalmente, este tipo de problemas se resolvía de forma manual aplicando técnicas estadísticas clásicas, pero el incremento del volumen de los datos ha motivado el estudio de técnicas de análisis automático que utiliza herramientas más complejas. Por lo tanto, la minería de datos identifica tendencias en los datos que van más allá de un análisis simple. Técnicas modernas de minería de datos, entre las que se cuentan las reglas de asociación, árboles de decisión, modelos de mezcla gausianos, algoritmos de regresión, redes neuronales, máquinas de vectores soporte, redes bayesianas, etc., se utilizan en ámbitos muy diferentes para resolver problemas de asociación, clasificación, segmentación y predicción.

Entre los diferentes algoritmos de minería de datos, los modelos gráficos probabilísticos, en particular las redes bayesianas, constituyen un método elegante y potente basada en la probabilidad y la estadística que permite construir modelos de probabilidad conjunta manejables que representan las dependencias relevantes entre un conjunto formado por cientos de variables en aplicaciones prácticas. Los modelos resultantes permiten realizar inferencia probabilística de una manera eficiente. Por ejemplo, una red bayesiana podría representar la relaciones probabilísticas entre campos sinópticos de larga escala y registros de observaciones locales, proporcionando una nueva metodología de escalado probabilístico.

Formalmente, una red bayesiana es un grafo dirigido sin ciclos cuyos nodos representan variables y las aristas o arcos que los unen codifican dependencias condicionales entre las variables. El grafo proporciona una forma intuitiva para describir las dependencias del modelo y define una factorización sencilla de la distribución de probabilidad conjunta consiguiendo un modelo manejable que es compatible con las dependencias codificadas. Existen algoritmos eficientes para aprender modelos gráficos probabilísticos a partir de datos, permitiendo así la aplicación automática de esta metodología en problemas complejos. Las redes bayesianas que modelan secuencias de variables, por ejemplo series temporales de observaciones, se denominan “redes bayesianas dinámicas”. Una generalización de las redes bayesianas que permite representar y resolver problemas de decisión con incertidumbre son los “diagramas de influencia”.

Las redes bayesianas son una alternativa para minería de datos, la cual tiene varias ventajas, entre las cuales resaltan las siguientes: (1) Permiten aprender sobre relaciones de dependencia y causalidad. (2) Permiten combinar conocimiento con datos. (3) Evitan el sobre-ajuste de los datos. (4) Pueden manejar bases de datos incompletas.

Obtener una red bayesiana a partir de datos es un proceso de aprendizaje, el cual se divide, naturalmente, en dos aspectos: (1) Aprendizaje paramétrico, dada una estructura, obtener las probabilidades a priori y condicionales requeridas. (2) Aprendizaje estructural, obtener la estructura de la red bayesiana, es decir, las relaciones de dependencia e independencia entre las variables involucradas. Las técnicas de aprendizaje estructural dependen del tipo de estructura de red: árboles, poli-árboles y redes multi-conectadas. Otra alternativa es combinar conocimiento subjetivo del experto con aprendizaje. Para ello se parte de la estructura dada por el experto, la cual se valida y mejora utilizando datos estadísticos.

A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de eficiencia y escalabilidad y es aquí donde aparece el concepto de minería de datos. Una de las diferencias entre al análisis de datos tradicional y la minería de datos es que el análisis de datos tradicional supone que las hipótesis ya están construidas y validadas contra los datos, mientras que la minería de datos supone que los patrones e hipótesis son automáticamente extraídas de los datos. En general, las tareas de la minería de datos se pueden clasificar en dos categorías: minería de datos descriptiva y minería de datos predictiva. Algunas de las técnicas más comunes de minería de datos son los árboles de decisión, las reglas de producción y las redes neuronales.

Una red bayesiana es un grafo dirigido sin ciclos en el que cada nodo representa una variable y cada arco una dependencia probabilística, en la cual se especifica la probabilidad condicional de cada variable dados sus padres. La variable a la que apunta el arco es dependiente, causa-efecto, de la que está en el origen de éste. La topología o estructura de la red proporciona información sobre las dependencias probabilísticas entre las variables pero también sobre las independencias condicionales de una variable dada otra variable. Dichas independencias, simplifican la representación del conocimiento, con menos parámetros, y el razonamiento, en lo referente a la propagación de las probabilidades.

Para el tratamiento del razonamiento probabilístico, muchos investigadores prefieren el modelo de Bayes. Éste contiene un modelo probabilístico completo con las probabilidades para todos y cada uno de los eventos, con juicios subjetivos si no hay información completa para definir probabilidades y utiliza el teorema de Bayes como mecanismo para la actualización de la credibilidad. Esto quiere decir que se emplea un modelo heurístico para la inferencia donde el teorema de Bayes modela la probabilidad de que tal suceso se deba a cierta causa, o hipótesis, siendo las causas mutuamente excluyentes, o sea, no pueden ocurrir dos causas al mismo tiempo.

Las redes bayesianas son utilizadas en diversas áreas de aplicación como por ejemplo el diagnóstico médico. Las mismas proveen una forma compacta de representar el conocimiento y métodos flexibles de razonamiento, basados en las teorías probabilísticas, capaces de predecir el valor de variables no observadas y explicar las observadas. Entre las características que poseen las redes bayesianas, se puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten combinar conocimiento con datos, evitan el sobre-ajuste de los datos y pueden manejar bases de datos incompletas.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Abril 12 de 2010


No hay comentarios: