viernes, 24 de julio de 2009

Minería de datos inteligente

Se puede decir que los datos por sí solos no producen beneficio directo, su verdadero valor radica en la posibilidad de extraer información útil para la toma de decisiones o la exploración y comprensión del fenómeno que produjo los datos. Tradicionalmente en la mayoría de los dominios este análisis de datos se hacía mediante un proceso manual o semiautomático: uno o más analistas con conocimiento de los datos y con la ayuda de técnicas estadísticas proporcionaban resúmenes y generaban informes, o validaban modelos sugeridos manualmente por los expertos. Sin embargo, este proceso, en especial la generación de modelos, es irrealizable conforme aumenta el tamaño de los datos y el número de dimensiones o parámetros se incrementa.

Ante este panorama, surge la necesidad de metodologías para el análisis inteligente de datos, que permitan descubrir un conocimiento útil a partir de los datos. Este es el concepto de proceso correspondiente al descubrimiento de conocimiento en bases de datos, que puede ser definido como el proceso no trivial de identificar patrones en los datos con las características siguientes: válidos, novedosos, útiles y comprensibles. El proceso de descubrimiento de conocimiento en bases de datos es un conjunto de pasos interactivos e iterativos, entre los que se incluye el pre-procesamiento de los datos para corregir los posibles datos erróneos, incompletos o inconsistentes, la reducción del número de registros o características encontrando los más representativos, la búsqueda de patrones de interés con una representación particular y la interpretación de estos patrones incluso de una forma visual.

A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a presentar problemas de eficiencia y escalabilidad. Una de las diferencias entre al análisis de datos tradicional y la minería de datos es que el análisis de datos tradicional supone que las hipótesis ya están construidas y validadas contra los datos, mientras que la minería de datos supone que los patrones e hipótesis son automáticamente extraídos de los datos. Un concepto primordial, y diferenciador de las técnicas estadísticas más clásicas, es el de aprendizaje automático, que fue concebido hace aproximadamente cuatro décadas con el objetivo de desarrollar métodos computacionales que implementarían varias formas de aprendizaje, en particular, mecanismos capaces de inducir conocimiento a partir de datos.

El aprendizaje automático es el campo de la informática en el que se estudian y desarrollan algoritmos que implementan los distintos modelos de aprendizaje y su aplicación a la resolución de problemas prácticos. Entre los problemas abordados en este campo, está el de inducir conocimientos a partir de datos o ejemplos. Esto resulta una alternativa de solución a problemas que no pueden ser resueltos mediante algoritmos tradicionales, entre los cuales se pueden mencionar: (1) La especificación de condiciones asociadas a diagnósticos técnicos o clínicos. (2) La identificación de características que permitan el reconocimiento visual de objetos., (3) El descubrimiento de patrones o regularidades en estructuras de información, en particular en bases de datos de gran tamaño.

Los algoritmos de aprendizaje automático pueden clasificarse en dos grandes categorías: métodos de caja negra o sin modelo, tales como redes neuronales o los métodos bayesianos, y métodos orientados al conocimiento, tales como los que generan árboles de decisión, reglas de asociación, o reglas de decisión. La propuesta de caja negra desarrolla su propia representación del conocimiento, que no es visible desde el exterior. Los métodos orientados al conocimiento, por el contrario, construyen una estructura simbólica del conocimiento que intenta ser útil desde el punto de vista de la funcionalidad, pero también descriptiva desde la perspectiva de la inteligibilidad. Existen también métodos para extraer reglas comprensibles a partir de estas cajas negras, con lo que en realidad ambas categorías pueden ser útiles para la extracción de conocimiento.

El área de aprendizaje automático es relativamente amplia y ha dado lugar a muchas técnicas diferentes de aprendizaje, entre las cuales se pueden citar las siguientes: (1) Aprendizaje inductivo. Se pretenden crear modelos de conceptos a partir de la generalización de conjuntos de ejemplos. Se busca descripciones simples que expliquen las características comunes de esos ejemplos. (2) Aprendizaje analítico o deductivo. Se aplica la deducción para obtener descripciones generales a partir de un ejemplo de concepto y su explicación. Esta generalización puede ser memorizada para ser utilizada en ocasiones en las que las personas logren encontrarse con una situación parecida a la del ejemplo. (3) Aprendizaje genético. Aplica algoritmos inspirados en la teoría de la evolución para encontrar descripciones generales a conjuntos de ejemplos. La exploración que realizan los algoritmos genéticos permite encontrar la descripción mas ajustada a un conjunto de ejemplos. (4) Aprendizaje conexionista. Busca descripciones generales mediante el uso de la capacidad de adaptación de redes de neuronas artificiales. Una red neuronal está compuesta de elementos simples interconectados que poseen estado. Tras un proceso de entrenamiento, el estado en el que quedan las neuronas de la red representa el concepto aprendido.

Lógicamente, las áreas del aprendizaje automático y la minería de datos se solapan en gran medida, en cuanto a los problemas que tratan y a los algoritmos que utilizan. No obstante, la minería de datos tiene un mayor enfoque en el conocimiento comprensible a partir de grandes cantidades de información, mientras que el aprendizaje automático se orienta más a la tarea del aprendizaje propiamente, buscando en algunos casos estrategias o heurísticas, más que el propio conocimiento comprensible. Por esa razón, la minería de datos tiene un espectro de aplicación más amplio visto desde el exterior, en el sentido de que interactúa mejor con diferentes dominios, pues el aprendizaje realizado se transforma en conocimiento útil para el experto en el dominio concreto.

Por consiguiente, se denomina “minería de datos” al conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada tendencias y comportamientos; y describir de forma automatizada modelos previamente desconocidos. Cuando se habla de minería de datos inteligente se hace referencia específicamente a la aplicación de métodos de aprendizaje automático, para descubrir y enumerar patrones presentes en los datos. Como se ha mencionado, el aprendizaje automático es el campo dedicado al desarrollo de métodos computacionales para los procesos de aprendizaje y a la aplicación de los sistemas informáticos de aprendizaje en problemas prácticos. La minería de datos es la búsqueda de patrones e importantes regularidades en bases de datos de gran volumen. La minería de datos utiliza métodos y estrategias de otras áreas o ciencias, entre las cuales se puede nombrar al aprendizaje automático. Cuando este tipo de técnicas se utiliza para realizar la minería, se dice que se está ante una minería de datos inteligente.

Los métodos tradicionales de análisis de datos incluyen el trabajo con variables estadísticas, varianza, desviación estándar, covarianza y correlación entre los atributos; análisis de componentes, con la determinación de combinaciones lineales ortogonales que maximizan una varianza determinada; análisis de factores, con la determinación de grupos correlacionados de atributos; análisis de clusters, que consiste en la determinación de grupos de conceptos que están cercanos según una función de distancia dada; análisis de regresión, con la búsqueda de los coeficientes de una ecuación de los puntos dados como datos; análisis multivariable de la varianza, y análisis de los discriminantes. Todos estos métodos están orientados numéricamente, es decir son esencialmente cuantitativos. En contraposición, los métodos basados en aprendizaje automático, están orientados principalmente hacia el desarrollo de descripciones simbólicas de los datos, que puedan caracterizar uno o más grupos de conceptos, diferenciar entre distintas clases, crear nuevas clases, crear una nueva clasificación conceptual, seleccionar los atributos más representativos, y ser capaces de predecir secuencias lógicas, son tareas esencialmente consideradas como cualitativas.

Guillermo Choque Aspiazu
www.eldiario.net
mayo 4 de 2009

No hay comentarios: