TAREAS DEL TEMA 1 DE LA ASIGNATURA
ACCESO INTELIGENTE A LA INFORMACIÓN


AUTOR: ALFREDO DE LA PRESA

Lectura introductoria

El artículo "Búsqueda de información multilingüe: estado del arte" ofrece una buena introducción al problema que aquí nos ocupa, por lo que el estudio debería comenzar por una lectura detallada del mismo para tener una visión global del tema.

Tras la lectura del artículo debéis realizar una búsqueda en scholar.google.com de artículos lo más recientes posibles que ilustren los diferentes aspectos tratados en él. Como material adicional, os sugerimos los siguientes artículos:

Debéis realizar un resumen del tema aportando bibliografía más reciente que ilustre los aspectos comentados en el artículo recomendado, destacando, además, aquellos en los que la investigación actual se encuentre en un estado más avanzado.

Respuesta

El problema a resolver es salvar la barrera del idioma en el proceso de búsqueda, lo que nos va a llevar al estudio de la recuperación de información multilingüe, realizar la consulta en un idioma origen y como resultado de la misma, obtener documentos distribuidos en varias colecciones de idiomas diferentes. Si sólo tenemos un idioma origen y un idioma destino, la búsqueda será bilingüe. Es importante el concepto de recuperación translingüe interactiva cuando el sistema proporcione asistencia para que un usuario formule sus consultas, identifique información relevante y sea capaz de refinar sus necesidades de búsqueda sobre información escrita en idiomas que desconoce, como se puede apreciar en [1], donde se habla de sugerir al usuario mediante interfaces interactivas. Esta búsqueda, vamos a dividirla en

Aspectos monolingües


Stemming

Es una de las técnicas que han resultado ser de mayor ayuda en la recuperación de la información , consiste en la obtención de la raíz de las palabras, de forma que el proceso de indexación se lleve a cabo sobre ellas en lugar de sobre las palabras originales. Si dos palabras tienen la misma raíz , pueden representar el mismo concepto y se pueden detectar las distintas formas morfológicas Un ejemplo de stemmer lo tenemos en la siguiente dirección web, obtenida a partir del artículo de Ostenero, Gonzalo y Verdejo:

Ejemplo de uso de un stemmer.

Si en el cuadro de texto introducimos la palabra "Wonderful" el stemmer nos dará la palabra "Wonder" . Si añadimos la palabra "excitement", tendremos una reducción a excit, como vemos en la siguiente captura de imagen:

Ejemplo de uso del stemmer Snowball

Otras alternativas a este algoritmo que Porter presentó en el 2001 serían los algoritmos SPLIT y STON de los que se puede consultar en [4] una buena introducción. La diferencia principal entre estos algoritmos y el anterior estriba en el enfoque probabilístico de estos últimos, ya que por ejemplo SPLIT detecta los sufijos y prefijos que forman las palabras y selecciona como raíz de la misma la más probable. En cambio el primero se basa en un conjunto sencillo de reglas que truncan las palabras hasta obtener una raíz común. Una explicación de los algoritmos de stemming se encuentra en [5]

Segmentación de compuestos

La idea que subyace a la segmentación de palabras en idiomas aglutinativos como el holandés es que la descomposición de estas palabras en lemas individuales produce una significativa mejora en las búsquedas de este tipo de idiomas al considerar cada elemento de la palabra compuesta como un término. También aquí, como alternativa a los métodos lingüisticos se recurre a métodos estadísticos. Se ha probado a realizar búsquedas sobre hexagramas y tetragramas, cuyos resultados se combinan con una búsqueda de palabras sin procesamiento adicional. El resultado es el mejor sobre idiomas aglutinativos en el CLEF 2000. En [3] se tiene un buen ejemplo de este método.

Segmentación de palabras

Los idiomas chino, japonés y coreano no marcan de manera explícita en el texto los límites de las palabras. Por ello es necesario identificar las palabras individuales para mejorar el proceso de búsqueda. A la hora de indexar los textos escritos en estos idiomas existen dos aproximaciones principales:

No obstante lo anterior, se ha argumentado que los bigramas son insuficientes cuando se indexan documentos conteniendo lenguaje técnico, ya que allí la longitud de las palabras es mayor de dos caracteres. Se ha comprobado [Ozawa et al, 1999] que un método adaptativo de segmentación que produce n-gramas de varias longitudes, supone una mejora sustancial con respecto a la utilización de bigramas.

Pese a lo anterior no hay un consenso claro sobre cuál es la mejor aproximación (n-gramas o palabras) es mejor para la indexación en este tipo de idomas. En muchos casos lo mejor es realizar una combinación de ambas

Enfoques basados en la traducción de la consulta

Siempre será menos costoso computacionalmente la traducción de la consulta que la de todos los documentos, ya que la consulta es sensiblemente más pequeña, sin embargo nos enfrentamos a tres problemas principales cuando tratamos de traducir la consulta:

Ahora vamos a ver algunas de las posibles soluciones que se han planteado a este problema:

Diccionarios

El uso directo de los diccionarios no resuelve el problema de encontrar traducciones a los términos, debido a las siguientes razones:

(Pirkola,1998) estudió los efectos de diferentes factores, llegando a la conclusión de que las consultas realizadas con lenguaje natural tenían una mayor precisión que auqellas realizadas con únicamente las palabras y sintagmas más relevantes de la consulta. Tras combinar dos diccionarios, uno específico de medicina y salud y otro general, se dió cuenta de que la mejor traducción se obtenía al combinar estos diccionarios. La estructuración de la consulta-De acuerdo con los operadores proporcionados por el motor de búsqueda Inquery- resultó ser el factor que más incrementaba la precisión de las búsquedas.

Se han intentado utilizar idiomas pivote para realizar la traducción cuando no se dispone de un diccionario directo, pero los resultados provocan una mayor pérdida de eficiencia que la utilización de un diccionario directo. Sin embargo, como método de desambiguación se puede utilizar el seleccionar sólo aquellas traducciones que pueden volver a ser traducidas al término de partida. Esta es mejor estrategia que usar Corpora Paralelo.

Utilización de corpora

El corpora paralelo hace referencia a varias colecciones de documentos escritos en varios idiomas.

Hay diferentes tecnicas de uso de corpora paralelo, desde Traducción Mediante Ejemplo/EBMT a LSI pasando por PRF y GSVM, todas ellas con sus ventajas e inconvenientes:

En el artículo "Translingual Information retrieval: Learning from bilingual corpora", de Yang et al., se dice que el rendimiento del LSI es comparable al de los otros métodos basados en corpus. En este artículo se habla también del mejor rendimiento que se obtendría si en vez de consultas se tradujesen los documentos, pero es poco práctico debido al extenso tamaño de las coleccionesde documentos. De los tres enfoques utilizados en este artículo el peor resultó ser el usar un corpus que pasase de término a frase Los otros dos enfoques fueron una traducción basada en diccionario y otra una traducción de términos basada en corpus. El estudio comparativo llevado a cabo en el artículo previamente citado indica que los métodos basados en corpora clararamente superan a los métodos basados en diccionarios de propósito general aunque los resultados se aproximan cuando se auemntan los diccionarios con glosarios desarrollados para sistemas de Traducción Automática. Son interesantes las preguntas con las que acaba el citado artículo, por ejemplo: ¿Pueden estos métodos ser extendidos a corpora comparable(Documentos sobre el mismo tema en distintos lenguajes, en vez de traducciones exactas? Y otra es ¿Se puede producir automaticamente un corpora paralelo para parte de una colección? La última pregunta a la que prestaremos atención es a la que hace referencia al interfaz del usuario: ¿Cómo debe ser?

Una alternativa al uso de corpora paralelo econsiste en utilizar la propia colección de documentos como corpus de referencia, llevándose a cabo la desambigüación de sintagmas, formados por secuencias de nombres y parejas nombre-adjetivo, mediante corpora paralelo, alineado a nivel de documentos o mediante coocurrenica estadística. En el artículo Resolving Ambiguity for cross-language retrieval, Ballesteros y Croft se decantan por el método de coocurrencia.

Otra posibilidad son los programas comerciales de traducción automática, sin embargo la utilización conjunta de corpus y diccionarios obtuvieron mejores resultados. Sin embargo, en consultas basadas en frases dan mejor resultado, pero la creación de estos traductores es costosa por lo que sólo existen para los pares de idiomas más demandados del mercado.

Tesauros: Están formados por la colección de terminos o palabras clave que se utilizan para realizar la indexación de los documentos(ya sea esta manual o automática)así como las relaciones semántica que las unen. Debido a que es necesario disponer de corpus paralelo para poder hacer uno multilingüe los tesauros no son moneda común. Un ejemplo de tesauro multilingüe sería el metatesauro de UMLS

El problema de la fusión. Dado que cuando se obtiene un resultado de una búsqueda no se tiene una única lista de documentos ordenados por relevancia, sino que se dispone de varias de ellas. El problema de mezclar estas listas en una única se conoce con el nombre de fusión de listas de documentos y aún no ha sido resuleto por completo, como enfoque podríamos decir: Si se traduce la consulta y se hace una búsqueda monolingüe ¿Cómo efectuar la fusión de las listas separadas en cada idioma? O bien normalizamos las listas por separado o utilizamos un algoritmo riund-robin, pero los problemas de esta aproximaciones son que tanto la normalización como el round-robin sólo tienen en cuenta la colección a la que pertenece el documento, sin tener en cuenta las otras. Hay una estrategia, presentada en [Martínez-Santiago] que tiene en cuenta el peso relativo de cada término de la consulta para realizar una reindexación de los documentos formando una nueva colección multilingüe.

Otros enfoques

Traducción de documentos

Aquí volveríamos a hace hincapié en lo anteriormente dicho respecto a que la traducción de documentos sería deseable aunque no sea practicable, aunque se echan de menos estrategias intermedias entre traducción palabra por palabra-demasiado imprecisa- y la traducción automática-Demasiado costosa-

Traducción bidireccional

Se pueden traducir tanto la consulta como los documentos y comprobar que este sistema híbrido tendrá mejores resultados que traducir sólo una de las dos posibilidades.

Indexación conceptual

Otra posibilidad consiste en realizar la traducción tanto de las consultas como de los documentos a un vocabulario de indexación conceptual independiente del idioma, esto tiene varias ventajas como que se evita el problema de la fusión , es más escalable, utiliza desambiguación automática, pero las técnicas no han alcanzado todavía la madurez suficiente para un enfoque tan ambicioso. Por otro lado es difícil encontrar el nivel de representación conceptual adecuado para la tarea. Como ejemplo está el proyecto ITEM[1] que usa el índice interlingua de EuroWordNet


Interactividad en la Recuperación de información Multilingüe

En general no se han considerado la interactividad con el usuario como pieza fundamental del diseño, por ello la investigación en este campo está en sus comienzos. Ha sido a partir del iCLEF que se ha proporcionado una infraestructura y una metodología específicas para la realización de experimentos interactivos de recuperación translingüe de información. En el iCLEF 2002, en concreto se trataba de proporcionar un marco de referencia común para realizar experimentos comparando dos sistemas de recuperación de información translingüe que permitan a un usuario que desconoce el idioma de los documentos realizar una expansión interactiva de la consulta, una selección interactiva de documentos(al igual que el año anterior) o ambas opciones a la vez. En [López-Ostenero et al, 2002a] se aprovecha el uso de sintagmas nominales extraidos con el Website Term Browser y se mejora no sólo en la búsqueda sino también de cara a los usuarios, los cuales se manifiestan en contra de tener que seleccionar interactivamente los términos de traducción

Recapitulación

Los experimentos demuestran que la recuperación translingüe es perfectamente realizable y con un nivel de eficiencia cercano a una búsqueda monolingüe

Sin embargo, aún quedan diversos problemas:

Referencias bibliográficas y enlaces

  1. ITEM: Un motor de búsqueda multilingüe basado en indexación semántica
  2. Metodos de optimizacion de la extraccion de lexico bilingüe a partir de corpus paralelos
  3. Algoritmo de decodificación de traducción automática estocástica basada en N-gramas
  4. Modelos probabilísticos para la producción automática de stemmers
  5. What is Stemming?
  6. Lematización
  7. Base de datos de WordNet
  8. El motor de traducción automática SYSTRAN
  9. Las bases de datos bilingües de STRAND
  10. Enlace a PTMiner
  11. Presentación que explica el uso de LSI
  12. HTML & XHTML the Definitive Guide, de Chuck Musciano y Bill Kennedy, editorial O'Reillly
  13. Enlace al diccionario SMART
  14. Enlace a Website Term Browser
  15. Enlace a proyecto Mulinex


Discusión sobre el estado actual de la investigación

Tras esta primera tarea os planteamos la realización de un segundo trabajo en el que se reflejen aquellos aspectos que la comunidad dedicada a la investigación en el área parece asumir como resueltos. ¿Están realmente resueltos? Como ayuda os recomendamos la lectura de los siguientes artículos publicados en Cross-Language Information Retrieval: A Research Roadmap Workshop at SIGIR-2002, Tampere Finland August 15, 2002, donde un grupo de investigadores del área se reunió para debatir el camino a seguir y una serie de objetivos a alcanzar. (incluir aquí artículos seleccionados) ¿Se han alcanzado dichos objetivos?

Respuesta

Los artículos seleccionados son los siguientes:

En el primero de ellos se habla precisamente de los problemas que se han resuelto y de lo que queda por hacer, señalando cuatro grandes áreas de mejora:
  1. Falta por ver si la experiencia en colecciones de noticias es trasladable a otros tipos de literatura, como temas médicos, artículos de grupos de noticias USENET, artículos de humanidades, etc.
  2. ¿Se pueden ofrecer estos servicios a un coste comparable al de una recuperación monolingüe de información?
  3. Interacción con el usuario, ya que el usuario no quiere una lista ordenada. La utilidad de tales rankings radica en la posibilidad de la lista de soportar los procesos adecuados. Pese a que es fácil ver los beneficios de la lista ordenada en una búsqueda monolingüe puede no ser así en una búsqueda multilingüe, ya que la lista podría no ser de utilidad. El autor sospecha que éste podría ser el motivo de que no haya buscadores interlingües en Internet-aunque existen para pares de idiomas
  4. Modalidades: Se pueden extender todos estos problemas a otro tipo de documentos como son PDFs y OCRs en combinación con la traducción automática
Sin embargo, sí queda expuesto el éxito en cuanto a la capacidad de crear nuevas listas ordenadas

El segundo artículo hace referencia a los posibes problemas derivados de la incertidumbre de la traducción y del hecho de que no esté integrada en el proceso de recuperación de la información, y propone la unificación de la traducción con la recuperación de información

El tercer artículo hace referencia al gran número de experimentos realizados hasta la fecha y a la creencia de que se podría aprender más de ellos si se examinasen cuidadosamente. También señala la profusión de datos multimedia en la web y la necesidad de que se la recuperación de información multimedia se convierta en un área de investigación significativa pese a haber limitaciones en la disponibilidad de tal material.

El cuarto artículo aborda los tres principios que en su opinión deberían guiar la investigación:

  1. La recuperación de información translingüe es sobre todo traducción. La parte de la recuperación de documentos y la parte de traducción son independientes.
  2. -La evaluación de la recuperación de los documentos por sí sola es insuficiente.
  3. -La recuperación monolingüe y bilingüe son diferentes(El problema de la fusión de los documentos)

La tarea anterior cambió al añadir la sugerencia de la lectura de los siguientes artículos

Por tanto, ahora, voy a pasar a describir las características de estos artículos:
El primero de ellos le he tratado brevemente más arriba, pero puede ser útil revisarlo en profundidad. En este artículo, se nos argumenta que se requiere un enfoque unificado para el CLIR. Es posible modelar el problema del CLIR de manera que sea más similar al problema monolingüe. Se sugiere que documentos en diferentesidiomas pueden ser puestos en una sola colección para evitar el problema de la fusión(Cuando sea posible) Como mapa de trabajo de CLIR en los próximos años, los responsables del artículo piensan que la comunidad debe trabajar en modelos integrados de CLIR. Hasta ahora los enfoques han estado basados en combinaciones ad hoc de un modelo compuesto de traducción + IR monolingüe. No hay un modelo específico para CLIR. Tales enfoques separados les faltan fundamentos formales estrictos. En esta situación, se pueden comparar los rendimientos de la CLIR a través de los experimentos pero no se pueden comparar sobre los principio utilizados. Creen que un modelo apropiado de CLIR podría mejorar mucho la calidad del CLIR y contribuir a una mejor comprensión del problema de la CLIR Para resolver el problema de la recuperación de Información multilingüe no se puede seguir trabajando en cada lenguaje por separado. El lenguaje debería ser considerado como un parámetro adicional más en una única colección de documentos, más que como una división de la colección de documentos. Al dividir una colección de documentos de acuerdo con los lenguajes, estamos amplificando la diferencia entre los lenguajes y haciendo que los resultados de recuperación en diferentes lenguajes sean menos comparables Una mejor solución sería marcar el lenguaje de cada índice con un parámetro adicional. Entonces todos los documentos pueden ser considerados como formando una colección única A pesar de que hay una sola coleción, el desequilibrio en la ponderación de los términos entre lenguajes es menos serio porque todos los índices se ponderan con el mismo esquema de ponderación (Por ejemplo, TF*IDF), el problema todavía existe. De todas formas, el autor cree que el desequilibrio es menos serio que con colecciones separadas Para resumir, la principal razón de ser de este artículo es que la recuperación de información trans-lingüe necesita un modelo más unificado y basado en principios que los enfoques actuales. Como herramientas de modelado para investigar se proponen modelos de lenguaje o Redes Bayesianas)

El segundo de estos artículos, es el de Juilo Gonzalo, y la parte más importante que tiene, a mi juicio, el artículo, son las posibilidades de investigación desde la perspectiva del usuario que enumera, las cuales procedo a comentar:

El tercer artículo se pregunta si los objetivos del CLEF eran apropiados hasta su fecha de publicación y hasta qué punto se han alcanzado, sabiendo que el objetivo principal es la prueba y evaluación de sistemas de recuperación de información para lengujaes europeos. Los resultados a los que se ha llegado durante los últimos seis años son los siguientes:

Su conclusión principal es que mientras el CLEF ha respondido hasta cierto punto los requerimientos iniciales de la comunidad investigadora, al mismo tiempo ha contribuido a la estimulación de demandas posteriores más complejas. Según los autores, debe desplazarse el foco gradualmente de la recuperación de textos multilingües y la medición delos rankings de documentos a la provisión de un conjunto global de tareas que cubran los aspectos más importantes del rendimiento de los sistemas multilingües, multimedia con una atención particular a las necesidades del usuario final También son de la opinión de que se deberían estrechar los lazos entre el CLEF, el TREC y el NTCIR

Teniendo en cuenta todo lo anterior creo que las vías de investigación están abiertas sobre todo en lo que se refiere a las posibles soluciones del problema de la fusión, a la expansión a otras colecciones de documentos con formato web y otras colecciones de documentos multimedia -PDFs, OCRs, PPts, etc. Y también en la forma de visualizar esa información, para lo que recomiendo el capítulo 14 del libro "Diseño de Interfaces de usuario", de Ben Shneidermann y Catherine Plaisant.

Hosted by www.Geocities.ws

1