martes, 26 de octubre de 2010

Sistemas expertos Bayesianos

Es bastante común que los seres humanos tomen decisiones en condiciones de incertidumbre, es más la incertidumbre hace parte del diario vivir de las personas, un ejemplo tan cotidiano como el de ir tarde al trabajo y preguntarse si tomar bus o taxi, la persona decide con incertidumbre, porque no sabe si el bus se demore o no, o si estará lleno, por otro lado el taxi le costará más, pero debe tomar una decisión que lo lleve a su trabajo. Este tipo de decisiones se presenta a menudo tanto en la vida cotidiana, como en el ámbito científico o en el empresarial; aunque la incertidumbre esté presente en todos esos campos, el ser humano ha desarrollado técnicas y teorías, como la probabilidad y estadística, para enfrentar este tipo de decisiones, pero además de estos métodos, el rápido desarrollo de los sistemas ha permitido fusionar todo el conocimiento, en aplicaciones que permiten dar soluciones que aunque no son perfectas tienen un soporte teórico que le da mayor probabilidad de éxito, que a una decisión tomada al azar.

Un sistema experto puede ser definido como: el sistema informático que imita los procesos que realiza un experto en un área de especialidad, al resolver problemas y “debería ser capaz de procesar y memorizar información, aprender y razonar en situaciones deterministas e inciertas, comunicarse con los hombres y otros sistemas expertos, tomar decisiones apropiadas y explicar porque se han tomado tales decisiones”. Los sistemas expertos pueden ser clasificados, de acuerdo al tipo de problemas con el que tratan, en dos grandes grupos: deterministas y estocásticos. Los sistemas basados en reglas son aquellos que tratan con problemas deterministas y los resuelven utilizando una serie de reglas de producción. Los sistemas probabilísticos son aquellos donde se utiliza la probabilidad como medida intuitiva de la incertidumbre. Un sistema experto tiene básicamente dos partes: (1) La base de conocimiento y (2) La máquina de inferencia La base de conocimiento corresponde a las afirmaciones de validez general tales como reglas, distribuciones de probabilidad, manuales, entre otros. La máquina de inferencia son los algoritmos que manejan la base de conocimiento para obtener conclusiones y propagar el conocimiento.

Los sistemas expertos comunes, basados en reglas no tienen en cuenta la incertidumbre, ya que la forma de tratar los objetos y las reglas, es de tipo determinista, pero como se dijo anteriormente, es frecuente la toma de decisiones en condiciones de incertidumbre, ya sea en áreas de la ingeniería, en los negocios o inclusive en áreas tan sensibles como las sociales. El ejemplo que se presenta a continuación es el de un paciente que asiste al médico, con ciertos síntomas para que este determine con base en estos, que tipo de enfermedad de las posibles padece. Se dice que el sistema no es determinista, ya que la relación entre las enfermedades y los síntomas que tiene un paciente no son deterministas, porque los mismos síntomas pueden estar presentes en distintas enfermedades. Esto crea la necesidad, de herramientas que tengan la capacidad para funcionar, en estos ambientes, una buena opción son los sistemas de tipo probabilístico. Estos como los otros, cuentan con una base de conocimiento, pero esta se forma por el espacio probabilístico, que describe el problema. La máquina de inferencias está basada en probabilidades condicionales y se encarga de actualizar dichas probabilidades con base en los hechos que observa del ambiente en el que se desempeña. De manera principal existen tres tipos de sistemas expertos: (1) Basados en reglas previamente establecidas. (2) Basados en casos. (3) Basados en redes bayesianas. En cada uno de ellos, la solución a un problema planteado se obtiene: (1) Aplicando reglas heurísticas apoyadas generalmente en lógica difusa para su evaluación y aplicación. (2) Aplicando el razonamiento basado en casos, donde la solución a un problema similar planteado con anterioridad se adapta al nuevo problema. (3) Aplicando redes bayesianas, basadas en estadística y el teorema de Bayes.

El teorema de Bayes, dentro de la teoría probabilística, proporciona la distribución de probabilidad condicional de un evento "A" dado otro evento "B", probabilidad aposteriori, en función de la distribución de probabilidad condicional del evento "B" dado "A" y de la distribución de probabilidad marginal del evento "A", probabilidad simple o apriori. El teorema de Bayes es válido en todas las aplicaciones de la teoría de la probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades que emplea. En esencia, los seguidores de la estadística tradicional sólo admiten probabilidades basadas en experimentos repetibles y que tengan una confirmación empírica mientras que los llamados estadísticos bayesianos permiten probabilidades subjetivas. El teorema puede servir entonces para indicar cómo se debe modificar las probabilidades subjetivas cuando se recibe información adicional de un experimento. La estadística bayesiana está demostrando su utilidad en ciertas estimaciones basadas en conocimiento subjetivo apriori y el hecho de permitir revisar esas estimaciones en función de la evidencia empírica, es lo que está abriendo nuevas formas de hacer conocimiento. Una aplicación de esto son los clasificadores bayesianos que son frecuentemente usados en implementaciones de filtros de correo basura o spam.

Las redes bayesianas o probabilísticas se fundamentan en la teoría de la probabilidad y combinan la potencia del teorema de Bayes con la expresividad semántica de los grafos dirigidos; las mismas permiten representar un modelo causal por medio de una representación gráfica de las dependencias entre las variables que forman parte del dominio de aplicación. Una red bayesiana es un grafo acíclico dirigido, donde las uniones entre los nodos tienen definidas una dirección, y en la cual los nodos representan variables aleatorias y las flechas representan influencias causales; el que un nodo sea padre de otro implica que es causa directa del mismo. Se puede interpretar a una red bayesiana de dos formas: (1) Distribución de probabilidad. Representa la distribución de la probabilidad conjunta de las variables representadas en la red. (2) Base de reglas. Cada arco representa un conjunto de reglas que asocian a las variables involucradas. Dichas reglas están cuantificadas por las probabilidades respectivas.

Para un sistema experto de diagnóstico, por ejemplo, el modelado de una red bayesiana que la represente, podría ser una red binaria que encapsule la representatividad de la presencia o ausencia de un síntoma o enfermedad. La construcción de una red de éste tipo requiere de un estudio estadístico previo, para determinar las enfermedades y síntomas relacionados, que están presentes en el ambiente a implantarse, esto implica, lograr estimaciones de qué enfermedades están presentes en dicho entorno, y qué síntomas están asociados a cada una de ellas y en qué porcentaje. Obviamente los síntomas con alto grado de sensibilidad y especificidad con respecto a una enfermedad, serán considerados como síntomas verdaderos de dicha enfermedad. La sensibilidad es la probabilidad que indica una correlación entre la aparición de la enfermedad y la aparición del síntoma. Mientras que la especificidad es la probabilidad de no tener el síntoma, cuando no está la enfermedad presente. Los síntomas con baja especificidad y sensibilidad, cuando no son visibles, permiten establecer mucha más duda de que la enfermedad pueda aparecer, aún teniendo síntomas con altas sensibilidades visibles, por ello es recomendable usar siempre síntomas que traten de caracterizar en lo mejor posible a una enfermedad, teniendo altas sensibilidades y especificidades para tener mucha más precisión a la hora de responder una consulta.

Una red causal tiene como ventajas que al razonar sobre un hecho real, el sistema posee un conocimiento profundo de los procesos que intervienen, en vez de limitarse a una mera asociación de datos e hipótesis. Los programas resultantes son capaces de explicar la cadena causal de anomalías que va desde la enfermedad diagnosticada hasta los efectos observados. Se pueden realizar tres tipos de razonamiento: (1) Razonamiento abductivo, que consiste en buscar cuál es la causa que mejor explica los efectos observados. Se diría que se trata de un razonamiento “hacia arriba”. (2) Razonamiento deductivo, que es el recíproco del anterior, pues va desde las causas hasta los efectos, es decir “hacia abajo”. (3) Razonamiento intercausal, que es un razonamiento “en horizontal”. A partir de la seguridad de una causa se debilitan las otras posibilidades, se reduce la sospecha de otras. En la práctica los tres razonamientos se realizan simultáneamente, la distinción entre ellos permite que los modelos causales tengan presente la correlación que existe entre los hallazgos. Su inconveniente mayor es la limitación en su rango de aplicaciones.

Además de las ventajas comunes a otros métodos de razonamiento causal, las redes bayesianas poseen una sólida teoría de probabilidades que les permite dar una interpretación objetiva de los factores numéricos que intervienen y dicta de forma unívoca la manera de realizar la inferencia. Sus inconvenientes son la limitación en cuanto al rango de aplicaciones. Necesitan un gran número de probabilidades numéricas, y normalmente no se dispone de toda esta información por lo que es necesario recurrir a estimaciones de expertos humanos. La presencia de bucles complica extraordinariamente los cálculos ya que los métodos de simulación estocástica resultan más eficientes que los métodos exactos, aunque resulta costoso, en términos de tiempo de computación, lograr el grado de aproximación deseado. Por consiguiente, se hace necesario evitar una explosión combinatoria.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Agosto 16 de 2010

No hay comentarios: