Mente Errabunda: Minería de datos predictiva

La minería de datos consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información, previamente desconocida, puede resultar útil para algún proceso no previsto hasta ese entonces. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en grandes bases de datos. Los fundamentos de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

El proceso de minería de datos se compone de las siguientes fases: (1) Selección y preprocesado de datos. El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". (2) Mediante el preprocesado se filtran los datos, de forma que se eliminan valores incorrectos, no válidos y desconocidos, según las necesidades y el algoritmo que va a usarse, se obtienen muestras de los mismos, en busca de una mayor velocidad de respuesta del proceso, o se reduce el número de valores posibles, mediante redondeo, agrupamiento u otras técnicas. (3) Selección de variables. Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos, aquellos basados en la elección de los mejores atributos del problema y aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia o heurísticos. (3) Extracción de conocimiento. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. (4) Interpretación y evaluación. Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

La minería de datos es un mecanismo de explotación consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está ligada a las bases de datos que proporcionan la información histórica de las instituciones mediante los algoritmos de minería de datos donde se obtiene la información necesaria para ayudar a la toma de decisiones. La minería de datos puede ser dividida en: (1) Minería de datos predictiva, la cual utiliza primordialmente técnicas estadísticas. (2) Minería de datos para descubrimiento de conocimiento, la que utiliza principalmente técnicas de inteligencia artificial. En los últimos años, se ha desarrollado un amplio abanico de técnicas estadísticas y computacionales para la minería de datos. Se pueden destacar las siguientes técnicas de la minería de datos predictiva: (1) Análisis factorial descriptivo. Cubre las técnicas de análisis de componentes principales, análisis de correspondencias, análisis factorial. Permite analizar la estructura de los datos y proporcionan herramientas de visualización. (2) Técnicas de clasificación. Cubren las técnicas de algoritmo de las k-medias, algoritmo de clasificación jerárquica. Agrupan individuos o variables en clases que muestran un comportamiento homogéneo y, por lo tanto, permiten descubrir patrones de comportamiento. (3) Técnicas de regresión. Comprende entre otras a los árboles de regresión y las redes neuronales. Están principalmente orientadas a la predicción de una variable de interés a partir de un conjunto de variables de regresión. (4) Reglas de asociación y de secuenciación Analizan los datos para descubrir reglas que identifiquen patrones o comportamientos y utilizan algoritmos computacionalmente intensivos. Son técnicas que se han utilizado en el análisis de la cesta de la compra. (5) Técnicas de escalamiento multidimensional. Analizan los datos a partir de una matriz de proximidades, dónde dicha proximidad se define como un índice de similitud entre dos ítems cualesquiera. Se utilizan en los campos de la psicometría y del marketing.

Para soportar el proceso de minería de datos, el usuario dispone de una extensa gama de técnicas para el análisis estadístico, que le pueden ayudar en cada una de las fases de dicho proceso. Algunas herramientas son: (1) ANOVA o Análisis de la Varianza. Contrasta si existen diferencias significativas entre las medidas de una o más variables continuas en grupo de población distintos. (2) Regresión. Define la relación entre una o más variables y un conjunto de variables de predicción de las primeras. (3) Ji cuadrado. Contrasta la hipótesis de independencia entre variables. (4) Componentes principales. Permite reducir el número de variables observadas a un menor número de variables artificiales, conservando la mayor parte de la información sobre la varianza de las variables. (5) Análisis de agrupación. Permite clasificar una población en un número determinado de grupos, con base en semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de dicha población. (6) Análisis discriminante. Es un método de clasificación de individuos en grupos que previamente se han establecido, y que permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto identificar cuáles son las variables que mejor definen la pertenencia al grupo.

La minería de datos principalmente se utiliza para segmentar los datos, calificarlos y luego utilizar esa información para predecir el comportamiento de datos nuevos. A partir de los datos analizados con minería de datos se pueden construir modelos, llamados predictivos, que muestran el comportamiento o los patrones de los datos. Las estructuras de datos denominadas “árboles” permiten visualizar como se encuentran clasificados los datos en grandes almacenes y bases de datos. La minería de datos es un proceso analítico diseñado para explorar datos, usualmente grandes cantidades de datos, en búsqueda de patrones consistentes o relaciones sistemáticas entre variables, y luego para validar los hallazgos aplicados aplicando los patrones detectados a nuevos subconjuntos de datos. Uno de los objetivos principales de la minería de datos es la predicción, y la minería de datos predictiva es el tipo más común y uno de los que tiene bastante aplicación en procesos de toma de decisiones. En la práctica, los métodos de la minería de datos más utilizados caen dentro de la categoría de “tipo de conocimiento a extraer”. Las técnicas de minado de datos pertenecientes a esta categoría buscan hacer predicción o descripción de un fenómeno determinado. La predicción implica utilizar algunas variables o campos de una base de datos para predecir valores desconocidos o futuros de otras variables de interés, mientras que la descripción está enfocada a encontrar patrones humano-interpretables que describen los datos. Aunque las fronteras entre la predicción y la descripción no sean muy marcadas, parte de los modelos predictivos pueden ser descriptivos, al grado de que estos sean entendibles, y viceversa, la distinción es útil para entender la meta general de la extracción de conocimiento. La importancia relativa de la predicción y la descripción para aplicaciones particulares de minando datos puede variar considerablemente. Las metas de la predicción y la descripción se pueden lograr utilizando una variedad de métodos particulares de la minería de datos.

La clasificación y la predicción son dos formas de análisis de datos que pueden ser usadas para extraer modelos que describen importantes clases de datos o predicen valores futuros. En la clasificación de datos se desarrolla una descripción o modelo para cada una de las clases presentes en la base de datos. Existen muchos métodos de clasificación tales como los árboles de decisión, los métodos estadísticos, las redes neuronales, y los conjuntos difusos, entre otros. La predicción puede ser vista como la construcción y uso de modelos para evaluar las clases de una muestra sin clasificaciones, o para evaluar el valor, o rango de valores, que un atributo debería de tener para una muestra determinada. En el primer caso se dice que se está haciendo una clasificación de los datos, mientras que en el segundo, se dice que se está haciendo una predicción de valores, en otras palabras, la clasificación se refiere a predecir valores discretos o nominales, mientras que la predicción, propiamente dicha, se refiere al pronóstico de valores continuos.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Agosto 2 de 2009

viernes, 6 de noviembre de 2009

Minería de datos predictiva

No hay comentarios:

Libro Redes Neuronales

Libro Redes Neuronales

Archivo del blog