viernes, 7 de mayo de 2010

Base de datos difusa

La información es uno de los factores que más peso específico tiene en el desarrollo de un país, por este motivo, cualquier sociedad que pretenda crecer debe estar al tanto de las técnicas que van surgiendo en el almacenamiento, transmisión y análisis de la información. Históricamente las bases de datos han sido las herramientas diseñadas para llevar a cabo las tareas de almacenamiento y para proporcionar algunos de los mecanismos necesarios para el análisis de la información. El objetivo de una base de datos es el de almacenar la información de manera adecuada, permitir su modificación de manera segura y facilitar el proceso de recuperación de aquella información que en un momento dado resulte necesaria, todo ello en un formato adecuado a las necesidades de los usuarios. La evolución de las bases de datos comenzó con el uso, de forma elemental, de archivos secuenciales. Con el tiempo se fueron creando aplicaciones para estos archivos y fueron surgiendo diversos problemas, como son la eficiencia en la recuperación de información, la redundancia, la seguridad, etc. De esta manera nacieron los primeros “sistemas gestores de bases de datos”, como programas encargados de gestionar el almacenamiento y recuperación de la información, teniendo en cuenta los aspectos y problemas que esto plantea.

Una de las características del lenguaje natural, que hace difícil su utilización en sistemas computacionales es su imprecisión. Por ejemplo conceptos como pequeño o grande, tienen significados diferentes de acuerdo al contexto en el que se estén utilizando, e incluso dentro del mismo contexto, pueden significar cosas diferentes para diferentes individuos. La teoría de los conjuntos difusos desarrollada por el investigador Lofti A. Zadeh, provee una poderosa herramienta para la representación y manejo de la imprecisión por lo que actualmente está siendo utilizada en varios campos para el diseño de sistemas basados en reglas difusas. La teoría de conjuntos difusos, extiende la teoría clásica de conjuntos al permitir que el grado de pertenencia de un objeto a un conjunto sea representada como un número real entre cero y uno en vez del concepto clásico en el que solo se tiene la posibilidad de pertenecer a un conjunto o no pertenecer al mismo; en otras palabras, el grado de pertenencia a un conjunto en la teoría clásica tiene solo dos valores posibles: cero y uno.

Los modelos tradicionales de base de datos que aparecen en la literatura, sólo son capaces de manejar y representar datos ideales, y suponen que la información en ellas almacenada es exacta, correcta y está bien definida. Sin embargo, en el mundo real existe una gran cantidad y variedad de datos cuya naturaleza no permite que sean formulados de forma precisa. Esto significa que la información que se posee sobre un atributo, existe o no existe, pero no se permite ningún grado de incertidumbre o de imprecisión respecto de la misma, es decir, no se puede representar ni tratar informaciones del tipo "Eddy es más o menos flaco". Tampoco se contempla la obtención de información en términos imprecisos a partir de la que se encuentra en la base de datos almacenada en forma precisa; así, por ejemplo, no se ofrecen mecanismos para obtener, de un atributo que almacene información sobre las características físicas de una población, aquellos individuos que sean "flacos".

En el sentido más amplio, un sistema basado en reglas difusas es un sistema basado en reglas donde la lógica difusa es utilizada como una herramienta para representar diferentes formas de conocimiento acerca del problema a resolver, así como para modelar las interacciones y relaciones que existen entre sus variables. Debido a estas propiedades, los sistemas basados en reglas difusas han sido aplicados de forma exitosa en varios dominios en los que la información vaga o imprecisa emerge en diferentes formas. Actualmente, el modelo relacional no permite el procesamiento de consultas del tipo "Encontrar a todos los gerentes cuyo sueldo no sea muy alto" dado que ni el cálculo ni el álgebra relacional, que establecen el resultado de cualquier consulta como una nueva relación, tienen la capacidad de permitir consultas de una manera difusa.

En Francia, a principios de los años 1980, surge uno de los primeros estudios matemáticos sobre el tratamiento de la información difusa, es decir, la información que encierra alguna imprecisión o incertidumbre en una base de datos relacional. Estos fueron realizados, simultáneamente, por los investigadores Dubois y Prade, en dos tesis doctorales, a partir de los trabajos sobre la incertidumbre de Lofti Zadeh, específicamente, la teoría de la posibilidad, que tiene sus raíces en otras dos investigaciones de Zadeh: la teoría de conjuntos difusos y la lógica difusa. Sin embargo, no es hasta el año 1984, que la tesis doctoral de Testemale, propone un modelo de datos difusos, para la implementación de una base de datos relacional difusa. En los últimos años, algunos investigadores han lidiado con el problema de extender el modelo relacional para permitirle admitir algunas imprecisiones; esto conduce a sistemas de bases de datos que encajan en el campo de la inteligencia artificial, ya que permiten el manejo de información con una terminología que es muy similar a la del lenguaje natural. Una solución que aparece recurrentemente en los trabajos de investigación actuales en esta área es la fusión de los sistemas gestores de bases de datos relacionales con la lógica difusa, lo que da lugar a lo que se conoce como sistemas gestores de bases de datos difusas. El término "bases de datos difusas" designa al área de investigación que trata sobre la aplicación de los conjuntos difusos y la lógica difusa en bases de datos. Esta área busca compensar la deficiencia de los sistemas de bases de datos clásicos en representar y manipular data imperfecta y consultas flexibles o graduales. A este problema se le conoce como el problema de rigidez de las bases de datos convencionales, así que los sistemas de bases de datos que tratan de resolver este problema se califican como "flexibles".

El problema de la implementación de los sistemas gestores de bases de datos difusas ha sido tratado en dos vertientes principales: (1) Iniciar con un sistema gestor de bases de datos relacionales con información precisa y desarrollar una sintaxis que permita formular consultas imprecisas, lo cual da origen a extensiones de consultas estructuradas, como consultas estructuradas difusas, con capacidades de manejar la imprecisión. (2) Construir un gestor de bases de datos relacionales difusas, prototipo que implemente un modelo concreto de base de datos relacional difusa en el que la información imprecisa pueda ser almacenada. Dentro de esta vertiente existen dos grandes ramas: Los modelos a través de unificación por relaciones de similitud y los modelos relacionales basados en distribuciones de probabilidades.

Los elementos relacionados con el manejo de información difusa pueden tener representaciones diferentes. Por ejemplo, una distribución normalizada de probabilidades puede ser representada por diferentes tipos de funciones: trapezoidal, triangular, intervalar, etc. Lo más usual, es que se usen funciones de tipo trapezoidal. Lo mismo puede decirse de la forma en la que se modelan los operadores relacionales difusos así como los demás elementos difusos que aparezcan en el sistema. El criterio empleado para seleccionar la forma de representación de los múltiples elementos difusos del sistema gestor de base de datos, puede afectar de manera determinante la funcionalidad y desempeño de la base de datos, por lo que debería ser uno de los puntos centrales en los que el experto ajuste la arquitectura del sistema gestor de base de datos difusa al problema específico a tratar mediante el mismo. Puede decirse entonces que este criterio de selección y ajuste constituye un paso entre la formulación de una base de datos relacional difusa y la implementación de un sistema basado en la misma.

La información que se puede manejar en una base de datos difusa puede dividirse en dos tipos principales: (1) Datos precisos. Manejados usualmente mediante la representación provista por la base de datos relacional huésped. (2) Datos imprecisos. Los modelos usualmente consideran dos tipos de representación para los datos imprecisos además de la información desconocida o indeterminada que se maneja mediante los tipos desconocido, indefinido y nulo. El primer tipo de datos imprecisos se define sobre dominios ordenados, que contiene distribuciones de probabilidad definidas en dominios continuos o discretos, pero ordenados. Los datos con analogías sobre dominios discretos se construyen sobre dominios discretos en los que existen definidas relaciones de proximidad entre sus valores. En este caso se debe almacenar la representación de los datos además de la representación de las relaciones de proximidad definidas para los valores en el dominio. El tipo de dato indefinido surge cuando un atributo toma el valor no definido, esto refleja el hecho de que ningún valor de su dominio es permitido. Por ejemplo: el número de teléfono de alguien que no tiene teléfono. El tipo de dato desconocido expresa la ignorancia sobre el valor que el atributo toma, sin embargo expresa también que puede tomar uno de los valores del dominio. Por ejemplo la fecha de nacimiento de alguien, se la desconoce pero tiene que tener alguna. El tipo de dato nulo expresa ignorancia total, en definitiva no se sabe nada sobre dicho dato.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Marzo 1 de 2010

No hay comentarios: