Traducción automática

De Wikipedia

Puedes colaborar con Wikipedia mejorando este artículo.
En la página de discusión aparecen ideas concretas sobre cómo mejorarlo.

Si es posible, reemplaza esta plantilla por una más precisa; el listado completo está en la categoría correspondiente.

La traducción automática consiste en convertir un texto de un idioma a otro automáticamente, por medio del ordenador. Se trata de una disciplina que ha contribuido de manera determinante al desarrollo de la lingüística computacional. Es seguramente también una de las aplicaciones informáticas que mayores recursos humanos y económicos ha recibido. El mercado ofrece en la actualidad un amplio abanico de productos y es difícil para el profano elegir el más adecuado para sus necesidades. Con todo, es importante saber que un texto producido por un sistema de traducción automática debe ser revisado con cuidado antes de darlo por válido y publicarlo. Hay veces, sin embargo, que no es necesario obtener resultados de calidad y basta con una aproximación al contenido, si lo que queremos es detectar por ejemplo información relevante o crítica.

Tabla de contenidos

[ocultar]

[editar]

La traducción como problema

La traducción es hoy en día el principal cuello de botella de la sociedad de la información y su mecanización supone un importante avance frente al problema de la avalancha informativa y la necesidad de la comunicación translingüística.

Los primeros desarrollos informáticos reseñables se realizaron en el famoso ordenador ENIAC en 1946. Entre los investigadores pioneros hay que citar a Warren Weaver, de la Fundación Rockefeller. Él fue quien dio a conocer públicamente la disciplina anticipando posibles métodos científicos para abordarla: el uso de técnicas criptográficas, la aplicación de los teoremas de Shannon y la utilidad de la estadística, así como la posibilidad de aprovechar la lógica subyacente al lenguaje humano y sus aparentes propiedades universales.

1ª década de la TA

El mundo salía de una guerra mundial que en el plano científico había incentivado el desarrollo de métodos computacionales para descifrar mensajes en clave. A Weaver se le atribuye haber dicho "cuando veo un artículo escrito en ruso me digo, esto en realidad está en inglés, aunque codificado con extraños símbolos. ¡Vamos a descodificarlo ahora mismo!" (citado por Barr y Feigenbaum, 1981). No hace falta decir que tanto los ordenadores como las técnicas de programación de aquellos años eran muy rudimentarias (se programaba mediante el cableado de tableros en lenguaje máquina), por lo que las posibilidades reales de probar los métodos eran mínimas.

Actualidad

En la actualidad se obtienen altos niveles de calidad para la traducción entre lenguas romances (español, portugués, catalán o gallego). Sin embargo, los resultados empeoran ostensiblemente cuanto más tipológicamente alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e inglés ó alemán.

Otro factor muy influyente en la calidad es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecuan al tipo de texto y vocabulario que se vaya a traducir. Un sistema que se especialice en la traducción de partes meteorológicos conseguirá altas cotas de calidad incluso para traducir textos entre lenguas tipológicamente muy disparaes, pero será inservible para abordar, por ejemplo, crónicas deportivas o financieras.

Traducir es una de las artes más elevadas y que más talento y dedicación requiere. No basta con sustituir una palabra por otra, sino que se ha de ser capaz de reconocer todas las palabras de una frase y la influencia que tienen las unas sobre las otras. Los lenguajes humanos constan de morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado). Hasta el texto más simple puede estar plagado de ambigüedades. También hay que considerar cuestiones de estilo y de discurso o pragmáticas.

Sin embargo, hay métodos estadísticos que realizan traducciones sin reparar en cuestiones gramaticales. En la actualidad la tendencia es a integrar todo tipo de metodologías: lingüísticas, estadísticas, u otras, a la base de datos de un corpus.

[editar]

Historia de la traducción automática

La aspiración de obtener artilugios mecánicos que sirvan para superar las barreras lingüísticas viene de antiguo. En el siglo XVII se habla de la utilización de diccionarios mecánicos (basados en códigos numéricos universales) para superar las barreras del lenguaje, dentro de un movimiento a favor de la creación de una “lengua universal” no ambigua, basada en principios lógicos y símbolos icónicos, que permitiese comunicarse a toda la humanidad. Este empeño precede por bastante tiempo a la propia existencia del ordenador. Por ello, se puede entender que desde el momento en que un ordenador estuvo disponible en la década de 1940, la traducción automática pasó a convertirse inmediatamente en una de las aplicaciones estrella de la informática.

Desde entonces, ha dado tiempo a realizar numerosos experimentos, pequeños y grandes, así como inversiones institucionales e industriales sustanciosas. Un referente obligado para conocer con más detalle la evolución de la traducción automática es el académico británico John Hutchins, cuya bibliografía puede, por suerte, ser consultada libremente en Internet. En esta breve reseña de la TA vamos a seguir el esquema simplificado de Johnatan Slocum, que aborda la historia de la TA por décadas. A sus cuatro décadas hasta 1985 vamos añadir dos más: seis décadas.

[editar]

La Traducción automática en España

La investigación en España ha pasado a través de tres etapas importantes. Desde 1985, se inicia la investigación con un interés repentino en España. Después de una año a su entrada a la Comunidad Europea. Fueron tres compañías transnacionales quienes financiaron la creación de varios grupos de investigación. IBM, SIEMENS y FUJITSU. Paradójicamente, 1992, que era el año de la celebración del 5to centenario del descubrimiento de América y de los juegos olímpicos también se llevaban a cabo en Barcelona. Primero IBM y luego SIEMENS, formaron en 1985 grupos de I+D en sus laboratorios de Madrid y Barcelona, liderados por Luis de Sopeńa y Montserrat Meya, respectivamente. IBM utilizó el Centro de Investigación en inteligencia artificial de la Universidad Autónoma de Madrid como sede de un equipo especializado en lenguaje natural. Este equipo tomó parte primero en el diseńo del prototipo MENTOR, junto con otro centro IBM de Israel, y más tarde en la adaptación al espańol de LMT, sistema diseńado en el T.J. Watson Research Center de Estados Unidos. A tenor de las publicaciones del grupo en la revista Procesamiento del lenguaje natural, entre los ańos 1985 y 1992 trabajaron en los proyectos de IBM al menos los siguientes especialistas: Teo Redondo, Pilar Rodríguez, Isabel Zapata, Celia Villar, Alfonso Alcalá, Carmen Valladares, Enrique Torrejón, Begońa Carranza, Gerardo Arrarte y Chelo Rodríguez.

Por su parte, SIEMENS decidió acercar a Barcelona el desarrollo del módulo espańol de su prestigioso sistema METAL. Montserrat Meya, que hasta entonces había trabajado en los laboratorios centrales de SIEMENS en Munich, contactó con el filólogo e ingeniero Juan Alberto Alonso, y juntos formaron el núcleo de un equipo en el que luego participaría una interminable lista de colaboradores: Xavier Gómez Guinovart, Juan Bosco Camón, Begońa Navarrete, Ramón Fanlo, Clair Corbishley, Begońa Vázquez, etc. Después de 1992 el grupo dedicado a proyectos lingüísticos se constituyó en empresa independiente, INCYTA. Tras un convenio con la Generalidad de Cataluña y la Universitat Autónoma de Barcelona, se desarrolló el módulo catalán, que es ahora su principal línea de actividad.

A finales de 1986 se crearon en Barcelona y Madrid dos nuevos grupos entre quienes se repartió el desarrollo de los módulos del sistema EUROTRA, financiado por la Comisión Europea. Ramón Cerdá reunió en la Universitat de Barcelona a un nutrido grupo de especialistas, integrado por, entre otros, Jesús Vidal, Juan Carlos Ruiz, Toni Badia, Sergi Balari, Marta Carulla y Nuria Bel. Mientras este grupo se ocupaba de las cuestiones de sintaxis y semántica, otro grupo se encargaba en Madrid de los aspectos de morfología y lexicografía, liderados por Francisco Marcos Marín. Colaboraban con él, entre otros, Antonio Moreno, Pilar Salamanca y Fernando Sánchez-León.

Un ańo más tarde, en 1987, se formó en los laboratorios de I+D de la empresa FUJITSU en Barcelona un quinto grupo para el desarrollo de los módulos de traducción al espańol del sistema japonés ATLAS. Este grupo estaba liderado por el ingeniero Jorge Vivaldi y los filólogos José Soler, procedente de EUROTRA, y Joseba Abaitua. Juntos crearán el embrión de un equipo al que más adelante se incorporaron Elisabet Cayuelas, Lluis Hernŕndez, Xavier Lloré y Ana de Aguilar-Amat. La empresa interrumpió esta línea de investigación en 1992.

Otro grupo dedicado a la traducción automática por aquellos ańos fue el formado por Isabel Herrero y Elisabeth Nebot en la Universidad de Barcelona. Este grupo, tutelado por Juan Alberto Alonso, creó un prototipo de traducción árabe - espańol en colaboración con la Universidad de Túnez.

Está claro que la traducción automática fue el principal catalizador del nacimiento de la lingüística computacional en Espańa. No es casualidad que la Sociedad Espańola para el Procesamiento del Lenguaje Natural (SEPLN) se constituyera en 1983. Junto a Felisa Verdejo, otras dos personas se destacaron en su fundación, los citados Montserrat Meya y Luis de Sopeńa, quienes por aquel entonces lideraban, como se ha dicho, grupos de traducción automática. El tercer congreso de la asociación (entonces todavía bajo la denominación de Ťjornadas técnicasť) se celebró en julio de 1987 en la Universitat Politčcnica de Catalunya, con dos platos fuertes sobre traducción automática: una conferencia de Sergei Nirenburg, entonces adscrito al Center for Machine Translation de la Universidad Carnegie Mellon, y una mesa redonda participada por Jesús Vidal y Juan Carlos Ruiz (de EUROTRA), Luis de Sopeńa (de IBM), Juan Alberto Alonso (de SIEMENS), y el propio Nirenburg.

Algunos datos estadísticos constatan la relevancia de la traducción automática en la SEPLN entre los ańos 1987 y 1991. Durante aquellos ańos, de los 60 artículos publicados en la revista de la asociación, Procesamiento del lenguaje natural, 23 (más de un tercio) versaron sobre traducción automática. El nivel de participación refleja la relevancia de los grupos: 8 describen EUROTRA, 7 las investigaciones de IBM, 4 METAL, de SIEMENS, y 3 ATLAS, de FUJITSU. Sólo uno de los artículos publicados, de los 23, era ajeno a los cuatro proyectos estrella. Éste fue el presentado en el congreso de 1990 por Gabriel Amores, actual investigador del área de traducción automática, con los resultados de su investigación en el Centre for Computational Linguistics de UMIST. Se han citado 35 personas y esta cifra da una idea de la actividad. En una estimación aproximada, se puede calcular que en 1989 la investigación en traducción automática contaba en Espańa con un presupuesto anual de unos 200 millones de pesetas., una cifra que, por modesta que parezca, multiplica varias veces la cantidad que se maneja hoy en día en nuestro país, una década después.

Desde 1998, el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante desarrolla sistemas de traducción automática entre lenguas románicas; estos sistemas están accesibles libremente por Internet: interNOSTRUM, entre el español y el catalán; Traductor Universia, entre el español y el portugués, y, más recientemente, Apertium, un sistema de traducción automática de código abierto desarrollado en colaboración con un consorcio de empresas y universidades españolas, que acutalmente traduce entre el español y el catalán, el gallego y el portugués.

[editar]

Sistemas de Traducción Automática

Se dividen en sistemas bilingües o multilingües. Los sistemas bilingües están desarrollados para un único par de lenguas. En cambio, los sistemas multilingües se desarrollaron para traducir a diversos pares de lenguas: de una única lengua origen son capaces de traducir a varias lenguas metas. Hace quince ańos, en 1985, se pusieron las bases del lustro dorado (1987-1991) de la investigación y desarrollo (I+D) de la traducción automática en Espańa. La entrada en la UE (en 1984), así como la creciente relevancia del espańol como lengua internacional movió a las grandes empresas de la informática a incluir el espańol en sus prototipos de traducción automática. De la mano de tres empresas transnacionales y de las instituciones europeas, cuatro importantes proyectos llevaron a la formación de grupos espańoles de investigación.

[editar]

Dirección de la Traducción

Las traducciones pueden hacerse en una única dirección, por ejemplo del inglés al español; en este caso la traducción sería unidireccional. son bidireccionales aquellos que traducen de una lengua a otra y viceversa, por ejemplo del ingés al español y del español al inglés.

[editar]

Grado de Automatización

Los sistemas de traducción totalmente automática, son aquellos que realizan la traducción sin intervención alguna del traductor humano (salvo en la revisión).

En los sistemas de traducción asistida la intervención del traductor humano es constante.

En los sistemas de traducción humana asistida por ordenador, el ordenador se utiliza como herramienta de ayuda al traductor, facilitándole el uso de, por ejemplo, procesadores de textos con diccionarios en línea, información gramátical y morfológica de las palabras, verificación ortográfica etc.

[editar]

Enfoque

Desde el punto de vista del diseño hay tres enfoques diferentes de traducción automática. Los sistemas adoptan un determinado tipo de diseño que permite que las traducciones se desarrollen de una forma u otra, de tal forma que varía el resultado obtenido. Los diferentes sistemas son: los sitemas directos, los de transferencia y los sistemas interlingua.

Los sistemas de traducción directa, podrían equipararse con grandes diccionarios. Generalmente realizan la traducción casi palabra por palabra, ya que la información sintáctica que poseen es mínima. Por ello los resultados que ofrecen suelen ser bastante pobres.

Los sistemas de transferencia contienen además de grandes léxicos bilingües y multilingües, un amplio conocimiento sintáctico y semántico de las lenguas tratadas. Esto permite traducir palabras de una lengua a otra teniendo en cuenta además el contexto morfológico, sintáctico y semántico de la frase. Es capaz de llevar a cabo también la transferencia estructural, es decir, los cambios en el orden de elementos y en la estructura de la frase para adecuarse a la de cada lengua.

Los sistemas interlingua: Se lleva a cabo un análisis mucho más profundo de la frase. La idea detrás de este enfoque, es el crear un lenguaje artificial conocido como "interlingua", el cual comparte todas las características y hace todas las distinciones entre todos los idiomas. Para traducir entre dos diferentes idiomas, se usa un analizador para convertir el texto en idioma fuente al interlingua, y un generador que convierte el interlingua en el texto en idioma objetivo. "Aunque teóricamente se trataría del mejor enfoque de los tres, en realidad estos sistemas están en fase de laboratorio o se utilizan para aplicaciones muy restringidas, debido a los problemas prácticos que presenta el diseño y la implementación de una “interlingua” eficaz."

"Hay que tener en cuenta que no existen sistemas puros de traducción directa, de transferencia o interlingua, sino sistemas que se aproximan más a un enfoque determinado, pero que también pueden tener características de los otros sistemas."

[editar]

Ventajas e inconvenientes de cada enfoque

Como hemos dicho anteriormente existen dos tipos de traducción automática: transferencia e interlingüa para traducir textos. La primera consta de tres fases: procesación, transferencia y generación. En la interlingüa no encontramos fase de transferencia. Ambas tienen sus ventajas e inconvenientes. A continuación mediante el link podemos acceder a la página ofrecida por Arturo Trujillo de la que hemos extraído la información y en la que se amplia el tema [1]

Traducción automática por transferencia: es demasiado caro para hacerlo entre más de dos lenguas, debido a que se necesitaría un módulo de transferencia específico por cada dos lenguas. Lo que como antes he dicho sería muy caro y se pude considerar su mayor ámbito de problemas. Cada lengua tiene unas estructuras semánticas y sintácticas; éstas a su vez están compuestas por otras. El problema viene cuando las estructuras en la lengua en que tenemos el texto y la lengua en la que lo queremos traducir no siguen la misma linealidad. Durante la transferencia las estructuras de una lengua deberán cambiarse a su equivalente en la lengua a la que queremos traducirla, para así, transformarla en la que sería la correcta de la nueva lengua.

Los sistemas de transferencia expresan sus relaciones mediante módulos de análisis, que a su vez pueden generar un resultado compresible a través de ellas o no. Para poder hacerlo hay que dominar las dos lenguas, ya que una misma regla puede cambiar de idioma a idioma.

Traducción automática por interlingua: parece más fácil de lo que en realidad es. La razón es que resulta pesado el mantenimiento actualización de diccionarios, analizadores y generadores. Otra de las razones de su complejidad es la representación adecuada de la interlíngüa, ya que la misma debería servir para decir cualquier cosa en cualquier idioma. Muchos expertos dicen que esto es imposible porque sería casi imposible reunir todos los conceptos que los hablantes serían capaces de expresar. Con esto me refiero a las frases hechas, que, en cada idioma cambian por ello sería casi imposible juntar todas las posibles. Además cada día nacen muchas nuevas, por ello como digo al principio resulta tan difícil su mantenimiento y actualización, nunca acabaría. Se añade a todo esto la falta de formalismo, se ha intentado un consenso mediante teorías lingüísticas, pero ninguna convence demasiado. Los formalismos prácticos de la lógica va evolucionando poco a poco, añadiendo nuevos conceptos o estructuras. Se hace difícil cuál va a ser la representación de cada palabra, dependería mucho si se analizara en un idioma o en otro, debido a que existen diferentes perspectivas de ver las palabras.

[editar]