Mente Errabunda: Proceso de la minería de datos

La minería de datos es una de las temáticas más importantes en la investigación contemporánea. Sin embargo, años atrás, pocas personas habían escuchado este término. La minería de datos es el resultado de una evolución con una larga historia, el término mismo se ha insertado desde los años 1990 en el contexto de las tecnologías de información, algoritmia y desarrollo de software. Las líneas de desarrollo en el ámbito de minería de datos tienen su origen en tres conceptos importantes. El mayor de ellos es la estadística. “Sin estadísticas, no existiría la minería de datos, pues son los fundamentos de la mayoría de las tecnologías que utilizan este concepto”. La estadística clásica engloba conceptos como análisis de regresión, desviación estándar, varianza, análisis de grupos, intervalos de confianza, entre otros. Ciertamente, en las herramientas y técnicas utilizadas en minería de datos, el análisis de estadística clásica juega un rol sumamente importante.

La segunda línea de desarrollo de la minería de datos es la inteligencia artificial. Esta disciplina se encuentra basada en heurísticas, de forma opuesta a la estadística, pero debido a que su implementación necesitaba de computadoras con un poder de procesamiento alto, no fue práctica hasta los años 1980, cuando las máquinas comenzaron a venderse más baratas con un procesamiento cada vez mayor. La última familia que juega un papel en la historia de la minería de datos es el aprendizaje automático, que puede ser descrito como la unión de estadísticas e inteligencia artificial. Mientras la inteligencia artificial no era exitosamente comercial, sus técnicas fueron en gran importancia utilizadas para el aprendizaje automático. Su aplicación comenzó a jugar un papel importante en los años 1980 y 1990, tomando una ventaja significativa por su bajo costo en comparación con la inteligencia artificial. El aprendizaje automático puede considerarse parte de la evolución de la inteligencia artificial, porque reúne heurísticas con análisis estadístico avanzado. Con lo anterior se puede definir a la minería de datos como la unión de desarrollos históricos y recientes en estadística, inteligencia artificial y aprendizaje automático, pero se concluyes esta breve introducción con una definición más específica: “la minería de datos es un campo interdisciplinario que reúne las técnicas de aprendizaje automático, reconocimiento de patrones, estadística, bases de datos y visualización, para dirigirla a la extracción e interpretación de grandes bases de datos”.

La minería de datos es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a los almacenes de datos que proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. La minería de datos puede ser dividida en dos tipos de minería: (1) La minería de datos predictiva, que utiliza primordialmente técnicas estadísticas. (2) La minería de datos para descubrimiento de conocimiento, que usa principalmente técnicas de inteligencia artificial.

Las etapas primordiales de la minería de datos son las siguientes: (1) Colección de datos. Consiste en la recolección de los datos que intervienen en el estudio, ya sean tomados de las bases de datos operacionales o de archivos planos o con algún otro formato. Esta fase está directamente relacionada con el quehacer de la empresa, en el sentido en que se vale de los archivos operacionales con los cuales la institución soporta sus procesos. (2) Preparación de datos. Esta etapa tiene como finalidad el entendimiento del comportamiento de los datos, tarea que generalmente está acompañada por el uso de conceptos estadísticos que permiten describir las variables origen del estudio. Además comprende la aplicación de algunas tareas de preprocesamiento para reducir o eliminar la posible basura o inconsistencias en los datos y dejar limpios y listos los datos para posteriormente hacer la minería. Esta etapa comprende la limpieza, selección y transformación de los datos. (3) Extracción de Patrones.
Esta tercera etapa, consiste en la extracción del conocimiento por medio de la aplicación de las técnicas de minería de datos. La definición de los parámetros, y la ejecución iterada de los algoritmos permiten establecer el modelo final que intenta resolver el problema inicial. Dentro de los tipos de actividades de minería de datos se encuentran el análisis exploratorio o visualización, el modelado descriptivo o la segmentación y análisis de grupos, el modelado predictivo a través de la clasificación y regresión, el descubrimiento de reglas y patrones además de la recuperación basada en contenido. (4) Validación. Validar un modelo es la etapa más crítica en el proceso; puesto que permiten verificar la funcionalidad del modelo y establecer si las etapas anteriores fueron realizadas correctamente. Si un modelo no realiza un proceso de validación adecuado, puede deberse a problemas en los datos, transformaciones no apropiadas o técnicas de minería no adecuadas. La aplicación del modelo a otro conjunto de datos, el re-muestreo, son algunas de las técnicas más apropiadas en este sentido. A su vez el uso de algunas estrategias para mejorar la precisión, como en el caso de validación de modelos de clasificación y predicción, conforman esta etapa.

La minería de datos consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

El proceso de minería de datos se compone de las siguientes fases: (1) Selección y preprocesado de datos. El formato de los datos contenidos en la fuente de datos, ya sea una base de datos o un almacén de datos, nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar algún algoritmo de minería sobre los datos “en bruto”. Mediante el preprocesado se filtran los datos, de forma que se eliminan valores incorrectos, no válidos, desconocidos y otros, según las necesidades y el algoritmo a ser utilizado, se obtienen muestras de los mismos o se reduce el número de valores posibles. (2) Selección de variables. Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos, el primero compuesto por aquellos basados en la elección de los mejores atributos del problema y el segundo por aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia o heurísticos. (3) Extracción de conocimiento. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. (4) Interpretación y evaluación. Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Una vez validado el modelo, si resulta ser aceptable, es decir que proporciona salidas adecuadas o con márgenes de error admisibles, éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Grupo de Minería de Datos, que se encuentra estandarizando el Lenguaje de Marcado para Modelos Predictivos, de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar. Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en archivos de texto, en Internet, etc.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Julio 19 de 2010

viernes, 1 de octubre de 2010

Proceso de la minería de datos

No hay comentarios:

Libro Redes Neuronales

Libro Redes Neuronales

Archivo del blog