sábado, 12 de abril de 2008

Mineria de Datos Espacial

El almacenamiento de datos se ha convertido en una tarea rutinaria de los sistemas de información de las organizaciones. Esto es aún más evidente en las empresas de la nueva economía, el comercio electrónico, la telefonía, el marketing directo, etc. Los datos almacenados son un tesoro para las organizaciones, es donde se guardan las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, y lo fundamental es que representan la memoria de la organización. Pero con tener memoria no es suficiente, es necesario pasar a la acción inteligente sobre los datos para extraer la información que almacenan. En este contexto, aparece la minería de datos como el conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada tendencias y comportamientos, además de la descripción de manera automatizada de modelos previamente desconocidos.

Un almacén de datos espacial es una colección de datos orientados al tema, integrados, no volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que una dimensión o variable en la tecnología de la información, de tal manera que permita modelar todo el negocio como un ente holístico, y que a través de herramientas de procesamiento analítico en línea, no solamente se posea un alto desempeño en consultas multidimensionales si no que adicionalmente se puedan visualizar espacialmente los resultados. El almacén de datos espacial forma el corazón de un extensivo sistema de información geográfica para la toma de decisiones, éste al igual que los sistemas de información geográfica, permiten que un gran número de usuarios accedan a información integrada, a diferencia de un simple almacén de datos que es orientado al tema, el almacén de datos espacial adicionalmente es geo-relacional, es decir que en combina e integra los datos espaciales con los datos descriptivos.

Actualmente un almacén de datos es de tipo geo-objeto, esto significa que los elementos geográficos se manifiestan como objetos con todas sus propiedades, y que adicionalmente están almacenados en una única base de datos objeto-relacional. Los almacenes de datos espaciales son aplicaciones basadas en un alto desempeño de las bases de datos, que utilizan arquitecturas cliente-servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no referencian la ubicación espacial, a pesar de poseerla intrínsecamente. Sabiendo que un 80% de los datos poseen representación y ubicación en el espacio, en los almacenes de datos espaciales, la variable geográfica desempeña un papel importante para la construcción del análisis, y de igual manera que para un almacén de datos, la variable geográfica debe ser almacenada directamente en ella.

La minería de datos espacial es utilizada para extraer conocimiento interesante y regular. Sus métodos pueden ser usados para entender los datos espaciales, descubrir relaciones entre datos espaciales y no espaciales, reorganizar los datos en bases de datos espaciales y determinar sus características generales de manera simple y concisa. La minería de datos espacial es el descubrimiento de conocimiento implícito y previamente desconocido en base de datos espaciales. La minería de datos espacial se refiere a la extracción del conocimiento, de las relaciones espaciales, o de otros patrones interesantes almacenados no explícitamente en bases de datos espaciales. La minería de datos espacial exige una integración de los datos que se minan con tecnologías espaciales. Puede ser utilizada para entender datos espaciales, descubriendo relaciones espaciales y relaciones entre los datos espaciales y no espaciales, construyendo bases de conocimiento espaciales, reorganizando preguntas y optimizando las bases de datos espaciales. El conocimiento a ser descubierto en los datos espaciales puede ser de varios tipos, como características representativas, estructuras o agrupamientos, asociaciones espaciales, solamente por mencionar algunos.

Un sistema de minería de datos espacial está configurado por la siguiente arquitectura: (1) Base de datos: Puede ser de tipo base de datos normal, almacén de datos, hoja de cálculo u otra clase de repositorio. A estos datos se le aplican técnicas de limpieza e integración. (2) Servidor de bases de datos. Utilizado para obtener la información relevante según el proceso de minería de datos. (3) Base de conocimiento. Conocimiento del dominio para guiar la búsqueda y evaluar los patrones. Se tienen en cuenta las creencias de los datos. Los umbrales de evaluación y el conocimiento previo. (3) Algoritmo de minería de datos. Generalmente es modular para realizar distintos tipos de análisis tales como: Caracterización, Asociación, Clasificación, Análisis de grupos, Evolución y Análisis de desviaciones. (4) Módulo de evaluación. Mide que tan interesante es un patrón. Interactúa con el algoritmo de minería de datos para guiar la búsqueda hacia patrones interesantes. (5) Interfaz gráfica. Interacciona con el usuario. Elige la tarea de minería de datos. Provee información para enfocar la búsqueda. Ayuda a evaluar los patrones. Explora los patrones encontrados y la base de datos original. Visualiza los patrones en distintas formas.

Los métodos de minería de datos espacial son aplicados para extraer conocimiento interesante y regular. Estos métodos pueden ser usados para comprender los datos espaciales, descubrir relaciones entre datos espaciales y no espaciales, reorganizar los datos en bases de datos espaciales y determinar sus características generales de manera simple y concisa. Existen cinco grupos de métodos de minería de datos espacial: (1) Métodos basados en generalización. Los cuales requieren la implementación de jerarquías de conceptos, estas jerarquías pueden ser temáticas o espaciales. Una jerarquía temática puede ser ejemplificada al generalizar naranja y piña a frutas. Una jerarquía espacial puede ser ejemplificada generalizando varios puntos en un mapa como una región y un grupo de regiones como un país. (2) Métodos de reconocimiento de patrones. Estos pueden ser usados para realizar reconocimientos y categorizaciones automáticas de fotografías, imágenes y textos, entre otros. (3) Métodos que usan agrupamiento. Consisten en crear agrupaciones o asociaciones de datos, cuando en estos existan nociones de similitud. (4) Agrupamiento. Es el proceso de agrupar datos en grupos de tal forma que los objetos de un grupo tengan una similitud alta entre ellos, y baja con objetos de otros grupos. (4) Métodos de exploración de asociaciones espaciales. Permiten descubrir reglas de asociaciones espaciales, es decir, reglas que asocien uno o más objetos espaciales con otro u otros objetos espaciales. Su aplicación está en bases de datos grandes, donde puede existir una gran cantidad de asociaciones entre los objetos, pero la mayoría de ellos son aplicables solamente a un pequeño número de objetos, teniendo en cuenta que la confianza de la regla puede ser baja. (5) Métodos que utilizan aproximación y agregación. Descubren conocimiento con base en las características representativas del conjunto de datos. La proximidad agregada es la medida de proximidad del sistema de puntos en el grupo con base en una característica en comparación con el límite del grupo y el límite de una característica. Las consultas de proximidad solicitan objetos que se hallen cerca de una posición específica

En la parte operativa, los algoritmos de minería de datos espacial deben cumplir con las siguientes características básicas: (1) Poder operar en conjuntos de datos de tamaño considerable. Las bases de datos espaciales tienen la potencialidad de almacenar grandes cantidades de información. Por ende, pensar en algoritmos que asumen que el conjunto completo de datos a ser analizados puedan residir en memoria principal. (2) Deben realizar su tarea de manera rápida. (3) Deben tener en cuenta el razonamiento espacial y las técnicas existentes de optimización de búsquedas espaciales. Las características y técnicas disponibles en las bases de datos espaciales y la geometría computacional deben utilizarse cuando sea conveniente para mejorar el rendimiento del proceso de minería.

Se espera que la minería de datos espacial tenga usos amplios en sistemas de información geográfica, geo-marketing, detección remota, exploración de imágenes en bases de datos, proyección de imágenes médicas, navegación, control de tráfico, estudios ambientales, y muchas otras áreas donde se utilizan los datos espaciales.
Guillermo Choque Aspiazu
Enero 7 de 2008

No hay comentarios: