sábado, 3 de mayo de 2008

Bibliominería de Datos

La minería de datos aunque en teoría puede ser aplicada a cualquier tipo de información comúnmente es aplicada a grandes volúmenes de datos de las organizaciones. Las técnicas que aporta esta disciplina se emplean para mejorar el rendimiento de procesos industriales o de negocio en los que se manejan grandes volúmenes de información estructurada y almacenada en bases de datos. La búsqueda de patrones en conjuntos de datos tiene una larga tradición en el ámbito académico; en principio en el área estadística y más recientemente en inteligencia artificial, de allí surgen métodos y procesos como el descubrimiento del conocimiento en bases de datos. Pero la reciente necesidad de la industria por explotar el potencial de sus enormes acumulaciones de datos en medios informáticos ha impulsado a vendedores de tecnologías y organizaciones de consultoría a crear metodologías o procesos para el uso de las herramientas computacionales disponibles que implantan los algoritmos propios de la minería de datos. El uso industrial y científico de la minería de datos, la aplicación en nuevas áreas como es el caso de las bibliotecas y el constante crecimiento del volumen y la tipología de datos, requieren mucho más que la aplicación de sofisticadas técnicas como redes neuronales o árboles de decisión sobre tablas de datos.

Ingresando en el contexto de la temática, las bibliotecas tienen una larga tradición en el uso y análisis de los patrones de conducta especialmente de la colección, con el cual se determina principalmente la utilización que se hace del material o la información por parte de los usuarios. A pesar de este uso, desafortunadamente pocas bibliotecas se han sabido aprovechar estos datos como una manera de mejorar el servicio de cara al cliente, de manejar presupuestos para la adquisición, o que estos datos sirvan para apoyar la toma de decisiones estratégicas sobre la orientación del consumo de información en sus organizaciones.

La aplicación de minería de datos en bibliotecas se denomina bibliominería. El término fue acuñado por Nicholson y Stanton el año 2003 como una derivación de los términos bibliometría y minería de datos, con el fin de favorecer la conceptualización y el trabajo de los investigadores del campo. Estos autores definen bibliominería como “la combinación de minería de datos, bibliometría, estadística y herramientas de elaboración de informes y extracción de patrones de comportamiento, basados en sistemas bibliotecarios”. El uso de este nuevo término está justificado porque el término biblioteca asociado a la minería de datos se refiere principalmente al conjunto de algoritmos que utiliza el software, por lo que puede dar lugar a errores y dificultades en la descripción y búsqueda de información sobre el tema. Si bien, aunque la conceptualización es reciente, la bibliominería es una actividad que se viene realizando desde finales de la década de 1990. Un ejemplo son los casos de las bibliotecas de la Universidad de Waterloo en Ontario, Canadá y la Universidad de Pennsylvania ubicada en Filadelfia, Estados Unidos. Otro caso reciente es el relacionado con la biblioteca de la Universität Karlsruhe ubicado en Karlsruhe, Alemania.

Como se ha señalado, la bibliominería suele relacionarse con la bibliometría, pues ambas tareas se ocupan del análisis y cruce de datos mediante técnicas estadísticas para descubrir y establecer patrones y tendencias en los datos como ayuda a la toma de decisiones, porque obtener el dato por el dato, la mera presentación de resultados es una tarea vacua e inútil. Si bien en bibliominería se trata de datos sobre la actuación previa a la utilización de la información, mientras que la bibliometría trabaja con los datos relativos a la información que ha sido finalmente utilizada. El proceso de bibliominería está compuesto por seis fases, las que a grandes rasgos coinciden con las propuestas sobre minería de datos, estas fases son las siguientes: (1) Determinar las áreas de interés. (2) Identificar las fuentes de datos internas y externas. (3) Recopilar, limpiar y hacer anónimos los datos en el almacén de datos. (4) Seleccionar las herramientas de análisis apropiadas. (5) Descubrir patrones a través de la minería de datos y generar informes con herramientas tradicionales de análisis. (6) Analizar e implementar los resultados. Por fuentes de datos internas se entienden los datos generados por la propia biblioteca en el transcurso de su actividad, lo que se denominan datos observacionales, es decir, datos que han sido recopilados en la actividad diaria. Por fuentes de datos externas se entienden aquellos tomados de fuentes ajenas a la organización y que sirven para contextualizar los primeros, se trata esencialmente de datos demográficos.

En las bibliotecas tradicionales, los datos internos proceden principalmente de dos fuentes: las consultas a los Catálogos de Acceso Publico Abiertos y los datos de circulación de materiales y préstamo, incluido el préstamo interbibliotecario. Estos datos muestran información de los materiales que son los más usados, el tiempo que son requeridos, los materiales relacionados o similares y las bibliotecas con las que se tiene mayor relación a través del préstamo interbibliotecario.

Sin embargo estos datos no recogen en su totalidad la actuación que el usuario realiza en la biblioteca, especialmente en el caso de las bibliotecas de acceso abierto a la colección, quedándose fuera la consulta de fondos que no se prestan en la estantería, normalmente obras de referencia y publicaciones periódicas en papel y que a su vez suelen ser los más caros. Por consiguiente, los resultados de bibliominería han de ser considerados como representativos de una gran parte del uso de la biblioteca, pero no de su totalidad, por lo que estos datos deben apoyarse en otros datos e información conexa. En el caso de bibliotecas digitales y fondos en línea, el abanico de datos puede llegar a ser mucho mayor, ya que es posible crear y utilizar archivos de registro de actividades que marquen todo el recorrido y acciones que realizan los usuarios de la colección de la biblioteca. La identificación del usuario puede hacerse de dos formas, dependiendo de la política de la biblioteca. Si se trata de un acceso restringido, el usuario se ve obligado a identificarse, y en el caso de bibliotecas digitales de acceso abierto, pueden estudiarse las sesiones que realiza cada usuario mediante la identificación de la dirección del protocolo de acceso a Internet.

De modo general, la utilización de los datos almacenados por la biblioteca puede realizarse de tres maneras: en primer lugar mediante la elaboración de informes periódicos de variables determinadas, lo que se denomina procesamiento analítico en línea o minería de datos dirigida; en segundo lugar, mediante preguntas concretas a la base de datos; y en tercer lugar, mediante exploración aleatoria de variables, lo que se denomina minería de datos no dirigida. Con ello se pueden realizar tres tareas básicas: (1) Asociaciones. Ver qué elementos están relacionados ya sea por derivación, causa-efecto o por similitud. (2) Agrupaciones. Crear grupos de datos con características similares. (3) Resumen. Presentar de modo abreviado los datos sobre la actividad diaria para una mejor comprensión de los mismos. Una cuestión de suma importancia en el estudio, interpretación y utilización de los resultados de bibliominería, es que, al igual que con los datos obtenidos mediante estudios bibliométricos, éstos no deben ser tomados como algo definitivo y autoexplicativo, sino que deben ser tomados en cuenta en su contexto y ser comparados, contrastados y estudiados en función de otras variables y otros datos.

En cuanto a aplicaciones concretas en bibliotecas, las posibilidades son múltiples y han sido tratadas por diferentes autores. Un caso es el que presenta el investigador Papatheodorou, quien en el año 2003, centrándose en bibliotecas digitales, indica que la bibliominería puede ayudar a las bibliotecas de las siguientes maneras: (1) Optimización de servicios. Ayuda a los administradores a reorganizar el contenido de la biblioteca, autoridades e interfaces. (2) Apoyo a la toma de decisiones. (3) Personalización. Ayuda a los usuarios a identificar información de interés para ellos por recomendación de materias similares. Lo que supondría una mejora de los tan útiles sistemas de difusión selectiva de la información. Con relación a otro grupo de aplicaciones, los investigadores Nicholson y Stanton, en el año 2003, señalan las siguientes: (1) Predicción de necesidades de los usuarios. Que consiste en ver la evolución de las temáticas consultadas, lo cual puede ayudar a predecir cuáles serán consultadas posteriormente. (2) Identificación de materiales no consultados. Debido a un inadecuado proceso de selección o por una catalogación o clasificación incorrecta. (3) Justificación del mantenimiento o supresión de acuerdos de préstamo interbibliotecario. Referido al gasto del préstamo frente al gasto de adquisición.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Abril 7 de 2008

No hay comentarios: