sábado, 16 de noviembre de 2013

Almacenando millones de palabras para alcanzar la traducción automática perfecta

kLos seres humanos siempre han soñado con máquinas para traducir las lenguas de los extranjeros, acaso como ese dispositivo tipo Star Trek que nos permitiría acceder a la comunicación universal. La traducción automática, de hecho, ya fue un objetivo de los pioneros de la informática en la década de 1940, cuando los ordenadores ocupaban habitaciones enteras.


En 1954, combinando reglas gramaticales y un diccionario bilingüe, un ordenador de IBM tradujo 60 frases rusas al inglés. Concretamente usó 250 pares de palabras de vocabulario y 6 reglas gramaticales. Alguna de las frases que se tradujeron impecablemente fueron, por ejemplo, “Mi pyeryedayem mislyi posryedstvom ryechyi”. Tras el reverberar del IBM 701, por medio de tarjetas perforadas, salió: “Transmitimos pensamientos por medio del habla”.


El logro fue tan celebrado, resultó tan impresionante para todo el mundo, que al director del programa de investigación, Leon Dostert, no le dolieron prendas al pronosticar que en un plazo de cinco años, aproximadamente, la traducción automática constituiría un “hecho acabado.”



Sin embargo, con el transcurrir de los años, los expertos advirtieron que traducir automáticamente entrañaba más obstáculos de lo que parecía. El ordenador no sólo debe aprender las reglas, sino las excepciones; y la traducción no consiste sólo en memorizar y recordar, sino en usar la inteligencia para escoger las palabras correctas entre muchas opciones.


A partir de 1980, los investigadores empezaron a permitir que el ordenador usara la probabilidad estadística para calcular qué palabra o frase de un idioma en concreto era la más oportuna, además de tener en cuenta las reglas lingüísticas explícitas junto con un diccionario. En la década de 1990, el programa Candide de IBM usó el equivalente a 10 años de transcripciones de sesiones del Parlamento de Canadá publicadas en francés y en inglés: unos tres millones de pares de frases.


Empezaba, pues, un salto conceptual, una nueva era llamada traducción estadística automática, lo que permitió que las traducciones a través de un ordenador se volvieran mucho más precisas. Con todo, las buenas traducciones distaban mucho de producirse. Hasta 2006.


Google TraductorFue entonces cuando Google se propuso traducir. En vez de basarse en páginas de texto bien traducidas en dos idiomas, lo que hizo Google fue usar un conjunto de datos mucho más amplio, aunque también más confuso: todo lo que había en Internet. Tal y como explica Viktor Mayer-Schönberger en Big Data:


Su sistema absorbió todas las traducciones que pudo encontrar, para entrenar al ordenador. Así, entraron páginas web corporativas en múltiples idiomas, traducciones idénticas de documentos oficiales e informes de organismos intergubernamentales como las Naciones Unidas y la Unión Europea. Se incluyeron hasta traducciones de libros del proyecto de escaneo de libros de Google. Mientras Candide había usado tres millones de frases cuidadosamente traducidas, el sistema de Google aprovechó miles de millones de páginas de traducciones de calidad muy variable, según el director de Google Translate, Franz Josef Och, una de las autoridades punteras en este campo. Su corpus de un billón de palabras representaba noventa y cinco mil millones de frases en inglés, aunque fueran de dudosa calidad.

Aunque sea más confusa, la mayor información de la que dispone Google permite ser mucho más preciso en sus traducciones que los sistemas anteriores. Y también es más rico: a mediados de 2012, su base de datos cubría más de 60 idiomas. Y también es más flexible: puede añadir y retirar palabras conforme vayan introduciéndose y cayendo en desuso. El algoritmo de Google no es más sofisticado, sino que tiene acceso a una mayor cantidad de datos.


Como trata el lenguaje sencillamente como un conjunto de datos confusos con los que estimar probabilidades, puede incluso traducir entre idiomas para los que existen escasas traducciones directas que añadirle, por ejemplo, el hindi y el catalán. En esos casos, recurre al inglés como puente.

-

La noticia Almacenando millones de palabras para alcanzar la traducción automática perfecta fue publicada originalmente en Xatakaciencia por Sergio Parra.





















Vía Xatakaciencia

10 Momentos inolvidables

Dicen que una imagen vale más que mil palabras y las siguientes fotos comprueban esto. Pero chécalas y dinos lo que opinas. 1) La cruda realidad de la hambruna en las manos de un niño y una misionera 2) Aunque habrá alguien que no quiera apartarse de nosotros 3) O alguien que dejó una huella […]



Vía Curiosidades

Diez cosas que posiblemente no sabía la semana pasada

Repase con BBC Mundo algunas de las noticias más curiosas de esta semana que acaba. Desde la mala conducta de John Lennon hasta los problemas con la justicia de "Batman, hijo de Superman".



Vía BBCMundo.com | Curiosidades

Tensiones en América Latina, ¿proyectos complementarios o excluyentes?

Probablemente hoy y como cíclicamente ha sucedido, aunque con más claridad que nunca, los procesos de integración en América presentan proyectos conceptualmente dísímiles, desde los intereses que los sustentan hasta la extensión pretendida; se los vislumbra como recuperando la impronta fundacional de los mismos allá por 1823, con la Doctrina Monroe pilar del Panamericanismo y con el Congreso Anfictiónico de Panamá en 1826, germen político del Latinoamericanismo.






Vía Noticias de Ecoportal

Aprueban iniciativa para fomentar la construcción de casas con tierra cruda en Río Negro

Esta semana se aprobó en primera vuelta el proyecto de ley que busca fomentar y promocionar la construcción de edificaciones realizadas con el método de construcción con tierra cruda.






Vía Noticias de Ecoportal

¿Sabias que tener un fin de semana “perezoso” no nos relaja?

Sin lugar a dudas la faceta laboral de nuestra vida nos agota tanto y nos provoca muchos estrés, que lo único que queremos es descansar, aunque tener un “fin de semana perezoso” puede parecer la mejor manera de relajarse, solo nos hace sentir más estresados y muy aburridos. Recientemente se hizo un estudio donde se […]



Vía Curiosidades

Paga tu boleto con 30 sentadillas

Para promover el ejercicio y las Olimpiadas de Invierno 2014 en Moscú, Olympics Changes instaló máquinas repartidoras de boletos en la estación del Metro de Moscú. En vez de aceptar dinero, esta máquina, solo te puede dar boletos si haces 30 sentadillas en un máximo de dos minutos. No se puede engañar a la máquina […]



Vía Curiosidades