Resumen del tema 1

Respuesta

El problema a resolver es salvar la barrera del idioma en el proceso de búsqueda, lo que nos va a llevar al estudio de la recuperación de información multilingüe, realizar la consulta en un idioma origen y como resultado de la misma, obtener documentos distribuidos en varias colecciones de idiomas diferentes. Si sólo tenemos un idioma origen y un idioma destino, la búsqueda será bilingüe. Es importante el concepto de recuperación translingüe interactiva cuando el sistema proporcione asistencia para que un usuario formule sus consultas, identifique información relevante y sea capaz de refinar sus necesidades de búsqueda sobre información escrita en idiomas que desconoce, como se puede apreciar en [1], donde se habla de sugerir al usuario mediante interfaces interactivas. Esta búsqueda, vamos a dividirla en

Aspectos monolingües

Stemming

Es una de las técnicas que han resultado ser de mayor ayuda en la recuperación de la información , consiste en la obtención de la raíz de las palabras, de forma que el proceso de indexación se lleve a cabo sobre ellas en lugar de sobre las palabras originales. Si dos palabras tienen la misma raíz , pueden representar el mismo concepto y se pueden detectar las distintas formas morfológicas Un ejemplo de stemmer lo tenemos en la siguiente dirección web, obtenida a partir del artículo de Ostenero, Gonzalo y Verdejo:

Ejemplo de uso de un stemmer.

Si en el cuadro de texto introducimos la palabra "Wonderful" el stemmer nos dará la palabra "Wonder" . Si añadimos la palabra "excitement", tendremos una reducción a excit, como vemos en la siguiente captura de imagen:

Otras alternativas a este algoritmo que Porter presentó en el 2001 serían los algoritmos SPLIT y STON de los que se puede consultar en [4] una buena introducción. La diferencia principal entre estos algoritmos y el anterior estriba en el enfoque probabilístico de estos últimos, ya que por ejemplo SPLIT detecta los sufijos y prefijos que forman las palabras y selecciona como raíz de la misma la más probable. En cambio el primero se basa en un conjunto sencillo de reglas que truncan las palabras hasta obtener una raíz común. Una explicación de los algoritmos de stemming se encuentra en [5]

Segmentación de compuestos

La idea que subyace a la segmentación de palabras en idiomas aglutinativos como el holandés es que la descomposición de estas palabras en lemas individuales produce una significativa mejora en las búsquedas de este tipo de idiomas al considerar cada elemento de la palabra compuesta como un término. También aquí, como alternativa a los métodos lingüisticos se recurre a métodos estadísticos. Se ha probado a realizar búsquedas sobre hexagramas y tetragramas, cuyos resultados se combinan con una búsqueda de palabras sin procesamiento adicional. El resultado es el mejor sobre idiomas aglutinativos en el CLEF 2000. En [3] se tiene un buen ejemplo de este método.

Segmentación de palabras

Los idiomas chino, japonés y coreano no marcan de manera explícita en el texto los límites de las palabras. Por ello es necesario identificar las palabras individuales para mejorar el proceso de búsqueda. A la hora de indexar los textos escritos en estos idiomas existen dos aproximaciones principales:

Indexación basada en texto segmentado que incluye la indexación de palabras y/o de sintagmas
Indexación de caracteres basada en n-gramas. Fundamentalmente bigramas, ya que en japonés, chino y coreano, la longitud media de las palabras es de dos caracteres al ser idiomas silábicos

No obstante lo anterior, se ha argumentado que los bigramas son insuficientes cuando se indexan documentos conteniendo lenguaje técnico, ya que allí la longitud de las palabras es mayor de dos caracteres. Se ha comprobado [Ozawa et al, 1999] que un método adaptativo de segmentación que produce n-gramas de varias longitudes, supone una mejora sustancial con respecto a la utilización de bigramas.

Pese a lo anterior no hay un consenso claro sobre cuál es la mejor aproximación (n-gramas o palabras) es mejor para la indexación en este tipo de idomas. En muchos casos lo mejor es realizar una combinación de ambas

Enfoques basados en la traducción de la consulta

Siempre será menos costoso computacionalmente la traducción de la consulta que la de todos los documentos, ya que la consulta es sensiblemente más pequeña, sin embargo nos enfrentamos a tres problemas principales cuando tratamos de traducir la consulta:

Saber cómo un término escrito en un idioma puede ser escrito en otro idioma
Decidir cuáles de las posibles traducciones de cada término son las adecuadas en cada contexto
Saber cómo pesar la importancia de las diferentes traducciones que se consideran adecuadas

Ahora vamos a ver algunas de las posibles soluciones que se han planteado a este problema:

Diccionarios

El uso directo de los diccionarios no resuelve el problema de encontrar traducciones a los términos, debido a las siguientes razones:

La terminología específica de un determinado dominio del conocimiento no suele estar contemplado en los diccionarios de uso común
No contemplan todas las posibles variantes morfológicas de una palabra. Este problema puede ser mitigado mediante el uso del stemming tal y como se explica en [6]
Hay nombres propios o de localizaciones que no van a estar contempladas en el diccionario. Esto tiene que ver con el "reconocimiento de entidades"
La polisemia de las palabras dificulta latraducción y no se cuenta con métodos automáticos que puedan resolveral satisfactoriamente
Traducción errónea detérminos multipalabra, por ejemplo el típico refrán español "De perdidos al río", su traducción literal sería "From lost to the river", cosa que un angloparlante no entendería

(Pirkola,1998) estudió los efectos de diferentes factores, llegando a la conclusión de que las consultas realizadas con lenguaje natural tenían una mayor precisión que auqellas realizadas con únicamente las palabras y sintagmas más relevantes de la consulta. Tras combinar dos diccionarios, uno específico de medicina y salud y otro general, se dió cuenta de que la mejor traducción se obtenía al combinar estos diccionarios. La estructuración de la consulta-De acuerdo con los operadores proporcionados por el motor de búsqueda Inquery- resultó ser el factor que más incrementaba la precisión de las búsquedas.

Se han intentado utilizar idiomas pivote para realizar la traducción cuando no se dispone de un diccionario directo, pero los resultados provocan una mayor pérdida de eficiencia que la utilización de un diccionario directo. Sin embargo, como método de desambiguación se puede utilizar el seleccionar sólo aquellas traducciones que pueden volver a ser traducidas al término de partida. Esta es mejor estrategia que usar Corpora Paralelo.

Utilización de corpora

El corpora paralelo hace referencia a varias colecciones de documentos escritos en varios idiomas.

Hay diferentes tecnicas de uso de corpora paralelo, desde Traducción Mediante Ejemplo/EBMT a LSI pasando por PRF y GSVM, todas ellas con sus ventajas e inconvenientes:

EBMT: Se parte de un corpus que contiene información acerca de la traducción de los sintagmas y frases contenidos en él. La principal desventaja es la necesidad de disponer de corpora paralelo alineado a nivel de sintagmas
PRF: Consiste en asumir que los documentos que ocupan los primeros lugares del ranking devuelto por el sistema son relevantes para la consulta. Esta técnica no es siempre efectiva
GVSM: Modelo de espacio vectorial: Los documentos son vectores y la similitud entre ellos se mide mediante los ángulos que forman éstos. La generalización del método requiere corpora paralelo alineado a nivel de documentos
LSI: Es una extensión del método anterior:Mientras que en el VSM se utilizan palabras como base ortogonal del espacio ortogonal, en el latent semantic index se utiliza la combinación lineal de las dimensiones originales que posea mayor significado. Una explicación de LSI puede encntrarse en [11](Junto con otras explicaciones sobre recuperación de información)

En el artículo "Translingual Information retrieval: Learning from bilingual corpora", de Yang et al., se dice que el rendimiento del LSI es comparable al de los otros métodos basados en corpus. En este artículo se habla también del mejor rendimiento que se obtendría si en vez de consultas se tradujesen los documentos, pero es poco práctico debido al extenso tamaño de las coleccionesde documentos. De los tres enfoques utilizados en este artículo el peor resultó ser el usar un corpus que pasase de término a frase Los otros dos enfoques fueron una traducción basada en diccionario y otra una traducción de términos basada en corpus. El estudio comparativo llevado a cabo en el artículo previamente citado indica que los métodos basados en corpora clararamente superan a los métodos basados en diccionarios de propósito general aunque los resultados se aproximan cuando se auemntan los diccionarios con glosarios desarrollados para sistemas de Traducción Automática. Son interesantes las preguntas con las que acaba el citado artículo, por ejemplo: ¿Pueden estos métodos ser extendidos a corpora comparable(Documentos sobre el mismo tema en distintos lenguajes, en vez de traducciones exactas? Y otra es ¿Se puede producir automaticamente un corpora paralelo para parte de una colección? La última pregunta a la que prestaremos atención es a la que hace referencia al interfaz del usuario: ¿Cómo debe ser?

Una alternativa al uso de corpora paralelo econsiste en utilizar la propia colección de documentos como corpus de referencia, llevándose a cabo la desambigüación de sintagmas, formados por secuencias de nombres y parejas nombre-adjetivo, mediante corpora paralelo, alineado a nivel de documentos o mediante coocurrenica estadística. En el artículo Resolving Ambiguity for cross-language retrieval, Ballesteros y Croft se decantan por el método de coocurrencia.

Otra posibilidad son los programas comerciales de traducción automática, sin embargo la utilización conjunta de corpus y diccionarios obtuvieron mejores resultados. Sin embargo, en consultas basadas en frases dan mejor resultado, pero la creación de estos traductores es costosa por lo que sólo existen para los pares de idiomas más demandados del mercado.

Tesauros: Están formados por la colección de terminos o palabras clave que se utilizan para realizar la indexación de los documentos(ya sea esta manual o automática)así como las relaciones semántica que las unen. Debido a que es necesario disponer de corpus paralelo para poder hacer uno multilingüe los tesauros no son moneda común. Un ejemplo de tesauro multilingüe sería el metatesauro de UMLS

El problema de la fusión. Dado que cuando se obtiene un resultado de una búsqueda no se tiene una única lista de documentos ordenados por relevancia, sino que se dispone de varias de ellas. El problema de mezclar estas listas en una única se conoce con el nombre de fusión de listas de documentos y aún no ha sido resuleto por completo, como enfoque podríamos decir: Si se traduce la consulta y se hace una búsqueda monolingüe ¿Cómo efectuar la fusión de las listas separadas en cada idioma? O bien normalizamos las listas por separado o utilizamos un algoritmo riund-robin, pero los problemas de esta aproximaciones son que tanto la normalización como el round-robin sólo tienen en cuenta la colección a la que pertenece el documento, sin tener en cuenta las otras. Hay una estrategia, presentada en [Martínez-Santiago] que tiene en cuenta el peso relativo de cada término de la consulta para realizar una reindexación de los documentos formando una nueva colección multilingüe.

Otros enfoques

Traducción de documentos

Aquí volveríamos a hace hincapié en lo anteriormente dicho respecto a que la traducción de documentos sería deseable aunque no sea practicable, aunque se echan de menos estrategias intermedias entre traducción palabra por palabra-demasiado imprecisa- y la traducción automática-Demasiado costosa-

Traducción bidireccional

Se pueden traducir tanto la consulta como los documentos y comprobar que este sistema híbrido tendrá mejores resultados que traducir sólo una de las dos posibilidades.

Indexación conceptual

Otra posibilidad consiste en realizar la traducción tanto de las consultas como de los documentos a un vocabulario de indexación conceptual independiente del idioma, esto tiene varias ventajas como que se evita el problema de la fusión , es más escalable, utiliza desambiguación automática, pero las técnicas no han alcanzado todavía la madurez suficiente para un enfoque tan ambicioso. Por otro lado es difícil encontrar el nivel de representación conceptual adecuado para la tarea. Como ejemplo está el proyecto ITEM[1] que usa el índice interlingua de EuroWordNet

Interactividad en la Recuperación de información Multilingüe

En general no se han considerado la interactividad con el usuario como pieza fundamental del diseño, por ello la investigación en este campo está en sus comienzos. Ha sido a partir del iCLEF que se ha proporcionado una infraestructura y una metodología específicas para la realización de experimentos interactivos de recuperación translingüe de información. En el iCLEF 2002, en concreto se trataba de proporcionar un marco de referencia común para realizar experimentos comparando dos sistemas de recuperación de información translingüe que permitan a un usuario que desconoce el idioma de los documentos realizar una expansión interactiva de la consulta, una selección interactiva de documentos(al igual que el año anterior) o ambas opciones a la vez. En [López-Ostenero et al, 2002a] se aprovecha el uso de sintagmas nominales extraidos con el Website Term Browser y se mejora no sólo en la búsqueda sino también de cara a los usuarios, los cuales se manifiestan en contra de tener que seleccionar interactivamente los términos de traducción

Recapitulación

Los experimentos demuestran que la recuperación translingüe es perfectamente realizable y con un nivel de eficiencia cercano a una búsqueda monolingüe

Sin embargo, aún quedan diversos problemas:

Dominio: La mayoría de las técnicas empleadas han sido probadas sólo sobre noticias de periódico(en las colecciones TREC, CLEF y NTCIR) y no se sabe si serán efectivas fuera de él
Eficiencia: El coste computacional que supone una traducción adecuada de las consultas puede resultar excesivo para un entorno real de búsqueda, aparte que la calidad de las traducciones aún no es óptima
Unificación:Normalmente se presentan dos clases de separaciones:
- Traducción y búsqueda: Los procesos de traducción y búsqueda se realizan, normalmente, por separado. De esta forma la incertidumbre de las traducciones no influye en el proceso de búsqueda
- Diferentes idiomas: cuando se realiza una búsqueda multilingüe, el problema de fusionar los resultados de cada una de las búsqueda monolingües en una única lista ordenada aún no ha sido resuelto
En [Nie,2002] se propone la creación de un único modelo de forma que integre estas diferencias y se pueda abordar la recuperación multilingüe de información de una manera similar a la recuperación multilingüe
Interacción: Los usuarios reales de los sistemas de búsqueda están interesados en la información contenida en los documentos, no en la lista ordenada que proporcionan los sistemas

Referencias bibliográficas y enlaces

La tarea anterior cambió al añadir la sugerencia de la lectura de los siguientes artículos

Towards a Unified Approach to CLIR and Multilingual IR de Jian-Yun Nie
Scenarios for Interactive CLIR systems de Julio Gonzalo
The Contribution of Evaluation de Carol Peters

Por tanto, ahora, voy a pasar a describir las características de estos artículos:
El primero de ellos le he tratado brevemente más arriba, pero puede ser útil revisarlo en profundidad. En este artículo, se nos argumenta que se requiere un enfoque unificado para el CLIR. Es posible modelar el problema del CLIR de manera que sea más similar al problema monolingüe. Se sugiere que documentos en diferentesidiomas pueden ser puestos en una sola colección para evitar el problema de la fusión(Cuando sea posible) Como mapa de trabajo de CLIR en los próximos años, los responsables del artículo piensan que la comunidad debe trabajar en modelos integrados de CLIR. Hasta ahora los enfoques han estado basados en combinaciones ad hoc de un modelo compuesto de traducción + IR monolingüe. No hay un modelo específico para CLIR. Tales enfoques separados les faltan fundamentos formales estrictos. En esta situación, se pueden comparar los rendimientos de la CLIR a través de los experimentos pero no se pueden comparar sobre los principio utilizados. Creen que un modelo apropiado de CLIR podría mejorar mucho la calidad del CLIR y contribuir a una mejor comprensión del problema de la CLIR Para resolver el problema de la recuperación de Información multilingüe no se puede seguir trabajando en cada lenguaje por separado. El lenguaje debería ser considerado como un parámetro adicional más en una única colección de documentos, más que como una división de la colección de documentos. Al dividir una colección de documentos de acuerdo con los lenguajes, estamos amplificando la diferencia entre los lenguajes y haciendo que los resultados de recuperación en diferentes lenguajes sean menos comparables Una mejor solución sería marcar el lenguaje de cada índice con un parámetro adicional. Entonces todos los documentos pueden ser considerados como formando una colección única A pesar de que hay una sola coleción, el desequilibrio en la ponderación de los términos entre lenguajes es menos serio porque todos los índices se ponderan con el mismo esquema de ponderación (Por ejemplo, TF*IDF), el problema todavía existe. De todas formas, el autor cree que el desequilibrio es menos serio que con colecciones separadas Para resumir, la principal razón de ser de este artículo es que la recuperación de información trans-lingüe necesita un modelo más unificado y basado en principios que los enfoques actuales. Como herramientas de modelado para investigar se proponen modelos de lenguaje o Redes Bayesianas)

El segundo de estos artículos, es el de Juilo Gonzalo, y la parte más importante que tiene, a mi juicio, el artículo, son las posibilidades de investigación desde la perspectiva del usuario que enumera, las cuales procedo a comentar:

Búsqueda de Respuestas ¿Cómo puede un sistema ayudar a un usuario a encontrar, reconocer y usar la respuesta a una pregunta particular, incluso si la respuesta se expresa en otro lenguaje? Este es un desafío de investigación interesante que difiere sustancialmente de los enfoques clásicos
Búsqueda de Imágenes(Capturas)El usuario, independientemente del lenguaje de captura de imágenes empleado puede reconocer y usar las imágenes recuperadas Éste es un ecenario común para periodistas que buscan imágenes en bases de datos
Búsquedas biliográficas. Está poco estudiada la integración con Bibliotecas Digitales(Datos semiestructurados o distribuidos, uso de tesauros) Un ejemplo podrñia ser un experto en leyes buscando legislación sobre un tema en los diferentes países de la Unión Europea
Surfeo de la web. Se refiere a búsquedas sin una necesidad predeterminada de información. Ésta es la forma más común de buscar en los motores generalistas. Varios portales de Internet ofrecen la posibilidad de traducir URL's. Debería integrarse para expandir la búsqueda más allá de los límites lingüísticos
Recuperación del discurso. Ofrece un desafío interesante desde un punto de vista interactivo. Por ejemplo, las máquinas actuales de Traducción Automática no pueden utilizar el discurso hablado porque resulta muy ruidoso -Con muchas interferencias

El tercer artículo se pregunta si los objetivos del CLEF eran apropiados hasta su fecha de publicación y hasta qué punto se han alcanzado, sabiendo que el objetivo principal es la prueba y evaluación de sistemas de recuperación de información para lengujaes europeos. Los resultados a los que se ha llegado durante los últimos seis años son los siguientes:

Hay interés en la comunidad educativa por una infraestructura de pruebas de sistemas de CLIR
Hay una voluntad creciente en el mundo industrial de investigación y desarrollo por involucrarse en las campañas de evaluación abierta
Los grupos que participan en varias campañas ven una mejora del rendimiento del sistema
Una campaña de evaluación proporciona un territorio común en el que discutir diferentes enfoques y estrategias, que pueden llevar a un trabajo colaborativo
Una campaña de evaluación puede servir para estimular la ormación de una comunidad en un área particular y puede ser vista como un punto focal de referencia para la comunidad ,yendo más allá de la provisión de un conjunto de herramientas de evaluación

Su conclusión principal es que mientras el CLEF ha respondido hasta cierto punto los requerimientos iniciales de la comunidad investigadora, al mismo tiempo ha contribuido a la estimulación de demandas posteriores más complejas. Según los autores, debe desplazarse el foco gradualmente de la recuperación de textos multilingües y la medición delos rankings de documentos a la provisión de un conjunto global de tareas que cubran los aspectos más importantes del rendimiento de los sistemas multilingües, multimedia con una atención particular a las necesidades del usuario final También son de la opinión de que se deberían estrechar los lazos entre el CLEF, el TREC y el NTCIR

Teniendo en cuenta todo lo anterior creo que las vías de investigación están abiertas sobre todo en lo que se refiere a las posibles soluciones del problema de la fusión, a la expansión a otras colecciones de documentos con formato web y otras colecciones de documentos multimedia -PDFs, OCRs, PPts, etc. Y también en la forma de visualizar esa información, para lo que recomiendo el capítulo 14 del libro "Diseño de Interfaces de usuario", de Ben Shneidermann y Catherine Plaisant.

TAREAS DEL TEMA 1 DE LA ASIGNATURA
ACCESO INTELIGENTE A LA INFORMACIÓN

AUTOR: ALFREDO DE LA PRESA

Lectura introductoria

Discusión sobre el estado actual de la investigación

Lectura introductoria

Respuesta

Aspectos monolingües

Stemming

Ejemplo de uso de un stemmer.

Segmentación de compuestos

Segmentación de palabras

Enfoques basados en la traducción de la consulta

Diccionarios

Utilización de corpora

Otros enfoques

Traducción de documentos

Traducción bidireccional

Indexación conceptual

Interactividad en la Recuperación de información Multilingüe

Recapitulación

Referencias bibliográficas y enlaces

Discusión sobre el estado actual de la investigación

Respuesta

TAREAS DEL TEMA 1 DE LA ASIGNATURA ACCESO INTELIGENTE A LA INFORMACIÓN

AUTOR: ALFREDO DE LA PRESA

Lectura introductoria

Discusión sobre el estado actual de la investigación

Lectura introductoria

Respuesta

Aspectos monolingües

Stemming

Ejemplo de uso de un stemmer.

Segmentación de compuestos

Segmentación de palabras

Enfoques basados en la traducción de la consulta

Diccionarios

Utilización de corpora

Otros enfoques

Traducción de documentos

Traducción bidireccional

Indexación conceptual

Interactividad en la Recuperación de información Multilingüe

Recapitulación

Referencias bibliográficas y enlaces

Discusión sobre el estado actual de la investigación

Respuesta

TAREAS DEL TEMA 1 DE LA ASIGNATURA
ACCESO INTELIGENTE A LA INFORMACIÓN