Tras la lectura del artículo debéis realizar una búsqueda en scholar.google.com de artículos lo más recientes posibles que ilustren los diferentes aspectos tratados en él. Como material adicional, os sugerimos los siguientes artículos:
Debéis realizar un resumen del tema aportando bibliografía más reciente que ilustre los aspectos comentados en el artículo recomendado, destacando, además, aquellos en los que la investigación actual se encuentre en un estado más avanzado.
El problema a resolver es salvar la barrera del idioma en el proceso de búsqueda, lo que nos va a llevar al estudio de la recuperación de información multilingüe, realizar la consulta en un idioma origen y como resultado de la misma, obtener documentos distribuidos en varias colecciones de idiomas diferentes. Si sólo tenemos un idioma origen y un idioma destino, la búsqueda será bilingüe. Es importante el concepto de recuperación translingüe interactiva cuando el sistema proporcione asistencia para que un usuario formule sus consultas, identifique información relevante y sea capaz de refinar sus necesidades de búsqueda sobre información escrita en idiomas que desconoce, como se puede apreciar en [1], donde se habla de sugerir al usuario mediante interfaces interactivas. Esta búsqueda, vamos a dividirla en
Es una de las técnicas que han resultado ser de mayor ayuda en la recuperación de la información , consiste en la obtención de la raíz de las palabras, de forma que el proceso de indexación se lleve a cabo sobre ellas en lugar de sobre las palabras originales. Si dos palabras tienen la misma raíz , pueden representar el mismo concepto y se pueden detectar las distintas formas morfológicas Un ejemplo de stemmer lo tenemos en la siguiente dirección web, obtenida a partir del artículo de Ostenero, Gonzalo y Verdejo:
Otras alternativas a este algoritmo que Porter presentó en el 2001 serían los algoritmos SPLIT y STON de los que se puede consultar en [4] una buena introducción. La diferencia principal entre estos algoritmos y el anterior estriba en el enfoque probabilístico de estos últimos, ya que por ejemplo SPLIT detecta los sufijos y prefijos que forman las palabras y selecciona como raíz de la misma la más probable. En cambio el primero se basa en un conjunto sencillo de reglas que truncan las palabras hasta obtener una raíz común. Una explicación de los algoritmos de stemming se encuentra en [5]
La idea que subyace a la segmentación de palabras en idiomas aglutinativos como el holandés es que la descomposición de estas palabras en lemas individuales produce una significativa mejora en las búsquedas de este tipo de idiomas al considerar cada elemento de la palabra compuesta como un término. También aquí, como alternativa a los métodos lingüisticos se recurre a métodos estadísticos. Se ha probado a realizar búsquedas sobre hexagramas y tetragramas, cuyos resultados se combinan con una búsqueda de palabras sin procesamiento adicional. El resultado es el mejor sobre idiomas aglutinativos en el CLEF 2000. En [3] se tiene un buen ejemplo de este método.
Los idiomas chino, japonés y coreano no marcan de manera explícita en el texto los límites de las palabras. Por ello es necesario identificar las palabras individuales para mejorar el proceso de búsqueda. A la hora de indexar los textos escritos en estos idiomas existen dos aproximaciones principales:
Pese a lo anterior no hay un consenso claro sobre cuál es la mejor aproximación (n-gramas o palabras) es mejor para la indexación en este tipo de idomas. En muchos casos lo mejor es realizar una combinación de ambas
Siempre será menos costoso computacionalmente la traducción de la consulta que la de todos los documentos, ya que la consulta es sensiblemente más pequeña, sin embargo nos enfrentamos a tres problemas principales cuando tratamos de traducir la consulta:
(Pirkola,1998) estudió los efectos de diferentes factores, llegando a la conclusión de que las consultas realizadas con lenguaje natural tenían una mayor precisión que auqellas realizadas con únicamente las palabras y sintagmas más relevantes de la consulta. Tras combinar dos diccionarios, uno específico de medicina y salud y otro general, se dió cuenta de que la mejor traducción se obtenía al combinar estos diccionarios. La estructuración de la consulta-De acuerdo con los operadores proporcionados por el motor de búsqueda Inquery- resultó ser el factor que más incrementaba la precisión de las búsquedas.
Se han intentado utilizar idiomas pivote para realizar la traducción cuando no se dispone de un diccionario directo, pero los resultados provocan una mayor pérdida de eficiencia que la utilización de un diccionario directo. Sin embargo, como método de desambiguación se puede utilizar el seleccionar sólo aquellas traducciones que pueden volver a ser traducidas al término de partida. Esta es mejor estrategia que usar Corpora Paralelo.
El corpora paralelo hace referencia a varias colecciones de documentos escritos en varios idiomas.
Hay diferentes tecnicas de uso de corpora paralelo, desde Traducción Mediante Ejemplo/EBMT a LSI pasando por PRF y GSVM, todas ellas con sus ventajas e inconvenientes:
En el artículo "Translingual Information retrieval: Learning from bilingual corpora", de Yang et al., se dice que el rendimiento del LSI es comparable al de los otros métodos basados en corpus. En este artículo se habla también del mejor rendimiento que se obtendría si en vez de consultas se tradujesen los documentos, pero es poco práctico debido al extenso tamaño de las coleccionesde documentos. De los tres enfoques utilizados en este artículo el peor resultó ser el usar un corpus que pasase de término a frase Los otros dos enfoques fueron una traducción basada en diccionario y otra una traducción de términos basada en corpus. El estudio comparativo llevado a cabo en el artículo previamente citado indica que los métodos basados en corpora clararamente superan a los métodos basados en diccionarios de propósito general aunque los resultados se aproximan cuando se auemntan los diccionarios con glosarios desarrollados para sistemas de Traducción Automática. Son interesantes las preguntas con las que acaba el citado artículo, por ejemplo: ¿Pueden estos métodos ser extendidos a corpora comparable(Documentos sobre el mismo tema en distintos lenguajes, en vez de traducciones exactas? Y otra es ¿Se puede producir automaticamente un corpora paralelo para parte de una colección? La última pregunta a la que prestaremos atención es a la que hace referencia al interfaz del usuario: ¿Cómo debe ser?
Una alternativa al uso de corpora paralelo econsiste en utilizar la propia colección de documentos como corpus de referencia, llevándose a cabo la desambigüación de sintagmas, formados por secuencias de nombres y parejas nombre-adjetivo, mediante corpora paralelo, alineado a nivel de documentos o mediante coocurrenica estadística. En el artículo Resolving Ambiguity for cross-language retrieval, Ballesteros y Croft se decantan por el método de coocurrencia.
Otra posibilidad son los programas comerciales de traducción automática, sin embargo la utilización conjunta de corpus y diccionarios obtuvieron mejores resultados. Sin embargo, en consultas basadas en frases dan mejor resultado, pero la creación de estos traductores es costosa por lo que sólo existen para los pares de idiomas más demandados del mercado.
Tesauros: Están formados por la colección de terminos o palabras clave que se utilizan para realizar la indexación de los documentos(ya sea esta manual o automática)así como las relaciones semántica que las unen. Debido a que es necesario disponer de corpus paralelo para poder hacer uno multilingüe los tesauros no son moneda común. Un ejemplo de tesauro multilingüe sería el metatesauro de UMLSEl problema de la fusión. Dado que cuando se obtiene un resultado de una búsqueda no se tiene una única lista de documentos ordenados por relevancia, sino que se dispone de varias de ellas. El problema de mezclar estas listas en una única se conoce con el nombre de fusión de listas de documentos y aún no ha sido resuleto por completo, como enfoque podríamos decir: Si se traduce la consulta y se hace una búsqueda monolingüe ¿Cómo efectuar la fusión de las listas separadas en cada idioma? O bien normalizamos las listas por separado o utilizamos un algoritmo riund-robin, pero los problemas de esta aproximaciones son que tanto la normalización como el round-robin sólo tienen en cuenta la colección a la que pertenece el documento, sin tener en cuenta las otras. Hay una estrategia, presentada en [Martínez-Santiago] que tiene en cuenta el peso relativo de cada término de la consulta para realizar una reindexación de los documentos formando una nueva colección multilingüe.
Aquí volveríamos a hace hincapié en lo anteriormente dicho respecto a que la traducción de documentos sería deseable aunque no sea practicable, aunque se echan de menos estrategias intermedias entre traducción palabra por palabra-demasiado imprecisa- y la traducción automática-Demasiado costosa-
Se pueden traducir tanto la consulta como los documentos y comprobar que este sistema híbrido tendrá mejores resultados que traducir sólo una de las dos posibilidades.
Otra posibilidad consiste en realizar la traducción tanto de las consultas como de los documentos a un vocabulario de indexación conceptual independiente del idioma, esto tiene varias ventajas como que se evita el problema de la fusión , es más escalable, utiliza desambiguación automática, pero las técnicas no han alcanzado todavía la madurez suficiente para un enfoque tan ambicioso. Por otro lado es difícil encontrar el nivel de representación conceptual adecuado para la tarea. Como ejemplo está el proyecto ITEM[1] que usa el índice interlingua de EuroWordNet
En general no se han considerado la interactividad con el usuario como pieza fundamental del diseño, por ello la investigación en este campo está en sus comienzos. Ha sido a partir del iCLEF que se ha proporcionado una infraestructura y una metodología específicas para la realización de experimentos interactivos de recuperación translingüe de información. En el iCLEF 2002, en concreto se trataba de proporcionar un marco de referencia común para realizar experimentos comparando dos sistemas de recuperación de información translingüe que permitan a un usuario que desconoce el idioma de los documentos realizar una expansión interactiva de la consulta, una selección interactiva de documentos(al igual que el año anterior) o ambas opciones a la vez. En [López-Ostenero et al, 2002a] se aprovecha el uso de sintagmas nominales extraidos con el Website Term Browser y se mejora no sólo en la búsqueda sino también de cara a los usuarios, los cuales se manifiestan en contra de tener que seleccionar interactivamente los términos de traducción
Los experimentos demuestran que la recuperación translingüe es perfectamente realizable y con un nivel de eficiencia cercano a una búsqueda monolingüe
Sin embargo, aún quedan diversos problemas:
Los artículos seleccionados son los siguientes:
El segundo artículo hace referencia a los posibes problemas derivados de la incertidumbre de la traducción y del hecho de que no esté integrada en el proceso de recuperación de la información, y propone la unificación de la traducción con la recuperación de información
El tercer artículo hace referencia al gran número de experimentos realizados hasta la fecha y a la creencia de que se podría aprender más de ellos si se examinasen cuidadosamente. También señala la profusión de datos multimedia en la web y la necesidad de que se la recuperación de información multimedia se convierta en un área de investigación significativa pese a haber limitaciones en la disponibilidad de tal material.
El cuarto artículo aborda los tres principios que en su opinión deberían guiar la investigación:
La tarea anterior cambió al añadir la sugerencia de la lectura de los siguientes artículos
Por tanto, ahora, voy a pasar a describir las características de estos artículos:
El primero de ellos le he tratado brevemente más arriba, pero puede ser útil revisarlo en profundidad.
En este artículo, se nos argumenta que se requiere un enfoque unificado para el CLIR. Es posible modelar el problema del CLIR de manera que sea más similar al problema
monolingüe. Se sugiere que documentos en diferentesidiomas pueden ser puestos en una sola colección para evitar el problema de la fusión(Cuando sea posible)
Como mapa de trabajo de CLIR en los próximos años, los responsables del artículo piensan que la comunidad debe trabajar en modelos integrados de CLIR. Hasta ahora
los enfoques han estado basados en combinaciones ad hoc de un modelo compuesto de traducción + IR monolingüe. No hay un modelo específico para CLIR. Tales enfoques
separados les faltan fundamentos formales estrictos. En esta situación, se pueden comparar los rendimientos de la CLIR a través de los experimentos pero no se pueden comparar
sobre los principio utilizados. Creen que un modelo apropiado de CLIR podría mejorar mucho la calidad del CLIR y contribuir a una mejor comprensión del problema de la CLIR
Para resolver el problema de la recuperación de Información multilingüe no se puede seguir trabajando en cada lenguaje por separado. El lenguaje debería ser considerado como
un parámetro adicional más en una única colección de documentos, más que como una división de la colección de documentos. Al dividir una colección de documentos de
acuerdo con los lenguajes, estamos amplificando la diferencia entre los lenguajes y haciendo que los resultados de recuperación en diferentes lenguajes sean menos comparables
Una mejor solución sería marcar el lenguaje de cada índice con un parámetro adicional. Entonces todos los documentos pueden ser considerados como formando una colección única
A pesar de que hay una sola coleción, el desequilibrio en la ponderación de los términos entre lenguajes es menos serio porque todos los índices se ponderan con el mismo
esquema de ponderación (Por ejemplo, TF*IDF), el problema todavía existe. De todas formas, el autor cree que el desequilibrio es menos serio que con colecciones separadas
Para resumir, la principal razón de ser de este artículo es que la recuperación de información trans-lingüe necesita un modelo más unificado y basado en principios que los
enfoques actuales. Como herramientas de modelado para investigar se proponen modelos de lenguaje o Redes Bayesianas)
El segundo de estos artículos, es el de Juilo Gonzalo, y la parte más importante que tiene, a mi juicio, el artículo, son las posibilidades de investigación desde la perspectiva del usuario que enumera, las cuales procedo a comentar:
El tercer artículo se pregunta si los objetivos del CLEF eran apropiados hasta su fecha de publicación y hasta qué punto se han alcanzado, sabiendo que el objetivo principal es la prueba y evaluación de sistemas de recuperación de información para lengujaes europeos. Los resultados a los que se ha llegado durante los últimos seis años son los siguientes:
Su conclusión principal es que mientras el CLEF ha respondido hasta cierto punto los requerimientos iniciales de la comunidad investigadora, al mismo tiempo ha contribuido a la estimulación de demandas posteriores más complejas. Según los autores, debe desplazarse el foco gradualmente de la recuperación de textos multilingües y la medición delos rankings de documentos a la provisión de un conjunto global de tareas que cubran los aspectos más importantes del rendimiento de los sistemas multilingües, multimedia con una atención particular a las necesidades del usuario final También son de la opinión de que se deberían estrechar los lazos entre el CLEF, el TREC y el NTCIR
Teniendo en cuenta todo lo anterior creo que las vías de investigación están abiertas sobre todo en lo que se refiere a las posibles soluciones del problema de la fusión, a la expansión a otras colecciones de documentos con formato web y otras colecciones de documentos multimedia -PDFs, OCRs, PPts, etc. Y también en la forma de visualizar esa información, para lo que recomiendo el capítulo 14 del libro "Diseño de Interfaces de usuario", de Ben Shneidermann y Catherine Plaisant.