sábado, 8 de noviembre de 2008

Conjuntos Aproximados

Con la revolución digital capturar información es fácil y almacenarla es extremadamente barata. Para los científicos los datos representan observaciones cuidadosamente recogidas de algún fenómeno en estudio; en los negocios, los datos guardan informaciones sobre mercados, competidores y clientes; en procesos industriales, recogen valores sobre el cumplimiento de objetivos; pero, en general, los datos en bruto raramente son provechosos. Su verdadero valor radica en la posibilidad de extraer información útil para la toma de decisiones o la exploración y comprensión de los fenómenos que dieron lugar a los datos. Con el crecimiento actual de los volúmenes de información en las bases de datos, tanto científica como corporativa, la necesidad de determinar qué información es realmente importante se convierte en un reto para los desarrolladores con fines de facilitar las tareas para la minería de datos y el aprendizaje automático. Por tanto, el pre-procesamiento de los datos es esencial en un problema real de cualquier rama de la ciencia: informática, medicina, economía, finanzas, industria, medio ambiente, entre otras.

Una herramienta matemática muy potente para la clasificación, selección y análisis de datos, es la teoría de conjuntos aproximados, propuesta por el profesor polaco Z. Pawlak y su equipo en el año 1982. La filosofía de los conjuntos aproximados se basa en asumir que existe información asociada con cada objeto del universo del discurso. Un conjunto de entrenamiento se representa por una tabla donde cada fila representa un objeto y cada fila un atributo, a este conjunto se le llama sistema de información, más formalmente, es un par ordenado de un conjunto no vacío y finito de objetos llamado universo y un conjunto no vacío y finito de atributos. El modelo de los conjuntos aproximados posee importantes ventajas en el análisis de datos. La principal se basa únicamente en los datos originales y no requiere de información externa para obtener conocimiento sobre el sistema, de forma que no es necesario hacer suposiciones sobre este; la otra ventaja importante consiste en que esta herramienta permite analizar atributos tanto cuantitativos como cualitativos.

Con frecuencia se almacenan grandes volúmenes de información en bases de datos con diferentes objetivos; estos pueden ser adquiridos de mediciones obtenidas por expertos humanos o de representaciones de hechos específicos de problemas de la vida cotidiana. Una base de datos puede contener cierta cantidad de atributos que son redundantes u objetos que se encuentran repetidos en distintos niveles de esta, pero sobre todo sucede que contiene información insuficiente o incompleta. La teoría de conjuntos aproximados emerge desde el contexto del aprendizaje supervisado, donde los conjuntos de datos se refieren a un universo de objetos descritos por un conjunto de atributos y cada objeto pertenece a una clase predefinida por uno de los atributos, llamado atributo de decisión. Para una aproximación inicial, considere que cada conjunto de datos está representado por una tabla, donde cada fila constituye un caso, un evento, un paciente o simplemente un objeto; y cada columna, un atributo que puede ser una variable, una observación, una columna, una propiedad, etc., tal que posee un valor específico para cada objeto. A esta tabla se le denomina sistema de información.

Un sistema de información es un par compuesto por un conjunto finito no vacío llamado el universo y un conjunto finito no vacío de rasgos. Los elementos del universo son llamados objetos. Un sistema de decisión es un par compuesto por el universo y un atributo de decisión. Los conceptos básicos de la teoría de los conjuntos aproximados son las aproximaciones inferiores y superiores de un subconjunto que es conjunto propio del universo. Estos conceptos fueron originalmente introducidos con referencia a una relación de indiscernibilidad. Dicha relación es una relación binaria definida sobre el universo, la cual representa la indiscernibilidad, se dice que esta relación, en función de un elemento del universo, significa el conjunto de objetos los cuales son indiscernibles a dicho elemento.

La teoría de conjuntos aproximados es adecuada para problemas que pueden ser formulados cómo tareas de clasificación y ha ganado un significante interés científico como estructura de minería de datos y descubrimiento de conocimiento. La base de la teoría de los conjuntos aproximados está en la suposición de que cada objeto del universo de discurso tiene rasgos característicos, los cuales son presentados por conocimiento acerca del objeto. Los objetos que tienen las mismas características son indiscernibles. La teoría ofrece herramientas matemáticas para descubrir patrones escondidos en los datos, identifica dependencias parciales o totales, es decir relaciones causa–efecto, elimina redundancia en los datos, proporciona aproximaciones a valores nulos, datos perdidos, datos dinámicos etc.

Los pasos seguidos en la estructura de conjuntos aproximados son los siguientes: (1) Selección. El vehículo básico para la representación de datos en la estructura de la teoría de conjuntos aproximados es plano, tablas de datos en dos dimensiones. Esto no implica que la tabla sea una simple tabla física, una tabla puede ser una vista lógica entre algunas tablas adyacentes. Una tabla adecuada es seleccionada para análisis subsecuentes. Las columnas de las tablas son llamadas atributos, las filas objetos, y las entradas en la tabla son los valores de los atributos. (2) Pre-procesamiento. Si la tabla seleccionada contiene “huecos” en forma de valores perdidos o entradas de celdas vacías, la tabla puede ser preprocesada de varías formas para llenar o completar la tabla. (3) Transformación. Los atributos numéricos pueden ser discretizados, es decir el uso de intervalos o rangos en vez de los valores de los datos exactos. (4) Minería de datos. En la metodología de los conjuntos aproximados, se producen conjunciones de proposiciones elementales o reglas si-entonces. Esto se realiza en un proceso de dos etapas, en el cual subconjuntos de mínimos atributos son primero calculados antes de que los patrones o reglas sean generados. (5) Interpretación y evaluación. Los patrones individuales o reglas pueden ser ordenados por alguna medida de “bondad” y manualmente inspeccionados. Conjuntos de reglas pueden ser empleados para clasificar nuevos casos y registrar el desempeño de la clasificación.

La “teoría de los conjuntos aproximados” se confirma frecuentemente como una herramienta matemática para el análisis de objetos descritos vagamente. El adjetivo vago se refiere a la calidad de la información, significa inconsistencia o ambigüedad, las cuales obedecen a la granulación de la información en un sistema de conocimiento. La filosofía de los conjuntos aproximados está basada en el supuesto de que cada objeto en el universo está asociado a cierta cantidad de información expresada por medio de algunos rasgos usados para la descripción del objeto. Los objetos que tienen la misma descripción son indiscernibles con respecto a la información disponible. La relación de indiscernibilidad modela la indiscernibilidad de objetos, ésta constituye la base matemática de la teoría de los conjuntos aproximados. La relación de indiscernibilidad induce una partición del universo en bloques de objetos indiscernibles, llamada conjuntos elementales que pueden ser usados para construir conocimiento sobre un mundo real o abstracto.

En la teoría clásica de los conjuntos aproximados, la relación de indiscernibilidad es definida como una relación de equivalencia, que es reflexiva, simétrica y transitiva. Esta relación induce una partición del universo en clases de equivalencia correspondientes a la relación de un elemento del universo. Este enfoque clásico de la teoría de los conjuntos aproximados es extendido mediante la aceptación que objetos que no son indiscernibles pero si suficientemente cercanos o similares puedan ser agrupados en la misma clase. El objetivo es construir una relación de indiscernibilidad prima a partir de la relación de indiscernibilidad original pero relajando las condiciones originales para la indiscernibilidad. Esta relajación puede ser realizada de muchas formas, así como pueden ser dadas muchas definiciones posibles de similitud. Sin embargo, la relación indiscernibilidad prima debe satisfacer algunos requerimientos mínimos. Si la relación de indiscernibilidad es una relación de indiscernibilidad definida en el universo, la relación de indiscernibilidad prima es una relación de similitud extendida, entendiéndose que cualquier clase de similitud puede ser vista como un agrupamiento de clases de indiscernibilidad y la relación de indiscernibilidad prima induce un cubrimiento del universo. Cuando una relación de similitud es usada en lugar de una relación de indiscernibilidad, otros conceptos y propiedades de la teoría de conjuntos aproximados: medidas de aproximación, reducción y dependencia, se mantienen válidos.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Agosto 4 de 2008

No hay comentarios: