18 Julio

Meta presenta una nueva inteligencia artificial capaz de traducir 200 idiomas, incluso el asturiano

A día de hoy, en el mundo se hablan más de 7.000 idiomas y a pesar de la habilidad de algunas personas para ser políglotas, abarcar semejante número es complicado incluso para las máquinas. Actualmente existen distintos traductores más o menos simultáneos, sin embargo, uno de sus hándicaps es el hecho de pasar por el inglés como intermediario para pasar de un idioma a otro. Esto conlleva a algunos errores de traducción y significados que se pierden por el camino.

Meta, la empresa matriz de Mark Zuckerberg, que parecía demasiado ocupada con el metaverso, lleva seis meses trabajando en 'No Language Left Behind' (ningún idioma se queda atrás), un proyecto que esperaba mejorar las tecnologías actuales de traducción en tiempo real. Parece haberlo conseguido, estrenando esta misma semana la IA (inteligencia artificial) para traducir entre distintos idiomas sin pasar por el inglés.

Ayer miércoles presentaron su primer gran éxito, NLLB-200, un modelo de IA capaz de hablar 200 idiomas, entre los que se encuentran algunos minoritarios oriundos de África, Europa y Asia. De hecho, el sistema está preparado para realizar 25.000 traducciones diarias en todas las apps de Meta, según destaca Zuckerberg. En la propia página del proyecto señalan algunos de estos lenguajes que incluyen urdu, luganda y asturiano. Por su parte, el propio Zuckerberg aseguraba en una publicación de Facebook que esta tecnología no solo se usará en distintos productos y servicios de Meta como la propia red social e Instagram, sino que se ha implementado en sitios como Wikipedia.

UN METAVERSO MÁS INCLUSIVO

De esta forma, la enciclopedia online puede mostrar resultados coherentes y bien traducidos en idiomas como el islandés. Permitiendo además que los editores trabajen en sus idiomas nativos sin temor a que el resultado final, cuando se traduzca a cualquier otro idioma, pierda cohesión. Incluyendo, por ejemplo, 55 lenguas africanas, muchas de ellas no disponibles en ningún otro servicio de traducción automática, es decir, idiomas infrarrepresentados en Internet.

Mientras que el sueco, hablado en el país que le da nombre y en Finlandia, que es hablado por 10 millones de personas, cuenta con 2,5 millones de artículos en Wikipedia; el africano, hablado por 45 millones de personas tan solo cuenta con 3.260 artículos. Un hecho que Meta pretende cambiar con su nueva tecnología.

"Miles de millones de personas en todo el mundo no tienen acceso a una tecnología o un servicio de traducción que realmente funcione bien para su idioma", explica Angela Fan, científica investigadora de Meta AI, en un video producido por la compañía. "Realmente esperamos que la tecnología que estamos desarrollando haga que el metaverso sea inclusivo por diseño", añade la experta.

CÓMO SE ENTRENA ESTA IA

El modelo NLLB-200, cuyo origen está en el M2M-100 presentado en 2020, que ya prescindía del inglés para traducir entre idiomas, es capaz de analizar meticulosamente oraciones y distinta información procedente de los servicios de Meta para alimentar las bases de datos de las que se nutre el algoritmo de traducción. Mientras que antes se necesitaba de personas que hablaran estos idiomas minoritarios en internet, para proporcionar datos y verificar las traducciones, la IA de meta entrena con datos que recopila en el idioma de entrada y en el de salida deseados.

Después, estos datos son incorporados a los modelos de entrenamiento que se componen de dos partes, el codificador, que convierte la oración de entrada en una representación vectorial interna; y el decodificador, que toma esta representación y genera la oración de salida con precisión. De esta forma, cuanto más se use esta tecnología, más aprenderán estos modelos, pudiendo así ofrecer traducciones más exactas, en las que se pierdan menos matices.

Para perfeccionar esta IA, Meta evalúa el modelo respecto a las traducciones de las oraciones realizadas por humanos, para poder confirmar la calidad de la traducción. Aunque hay un punto, señalado en la propia página del proyecto, que podría generar debate. "Esto incluye detectar y filtrar blasfemias y otro contenido ofensivo mediante el uso de listas de toxicidad que creamos para todos los idiomas admitidos. El resultado es un modelo bien entrenado que puede traducir directamente un idioma."

UNA TECNOLOGÍA GRATIS PARA TODO EL MUNDO

Lo interesante de este hallazgo es que este modelo se ha lanzado bajo una licencia de código abierto en github, incluyendo tests, modelos y scripts, para que cualquier persona pueda utilizar esta tecnología e incluso mejorarla. De igual modo supera a otros traductores actuales como el de Google que solo cuenta con 133 idiomas, además de así mismo, doblando el número de idiomas con los que trabajaba hasta ahora Meta.

"Para dar una idea de la escala del programa, el modelo de 200 idiomas analiza más de 50.000 millones de parámetros. Lo hemos entrenado usando el Research SuperCluster, uno de los superordenadores más rápidos del mundo", subraya Zuckerberg en una publicación colgada ayer en su cuenta de Facebook.

Fuente: elmundo.es

Esta página web utiliza cookies para analizar de forma anónima y estadística el uso que haces de la web, mejorar los contenidos y tu experiencia de navegación. Para más información accede a la Política de cookies
Las cookies necesarias ayudan a hacer una página web utilizable activando funciones básicas como la navegación en la página y el acceso a áreas seguras de la página web. La página web no puede funcionar adecuadamente sin estas cookies.
Nombre Caducidad Finalidad Proveedor
SL_C*
_ga
_gid
ci_session
Sesión Cookies para el correcto funcionamiento de las operaciones de la página web. Ninguna de estas cookies contiene datos de caracter personal. Propias
cookie_consent 1 año Guarda las preferencias del usuario sobre el consentimiento de cookies. Propias
Las cookies de personalización permiten a la página web recordar información que cambia la forma en que la página se comporta o el aspecto que tiene, como su idioma preferido o la región en la que usted se encuentra.
Nombre Caducidad Finalidad Proveedor
Las cookies de análisis ayudan a los propietarios de páginas web a comprender cómo interactúan los visitantes con las páginas web reuniendo y proporcionando información de forma anónima.
Nombre Caducidad Finalidad Proveedor
_utma 2 años. Genera un id de usuario único, que es el que se utiliza para hacer recuento de cuantas veces visita el sitio un determinado usuario. También registra cuando fue la primera y la última vez que visitó el sitio web. Google
_utmb 30 minutos. Calcula cuando se ha terminado una sesión, registrando la hora de llegada a la página. Google
_utmc Sesión. Comprueba si se debe mantener la sesión abierta o se debe crear una sesión nueva. Google
_utmt 10 minutos. Se utiliza para limitar la velocidad de solicitud del servicio y limitar la recogida de datos en los sitios de alto tráfico. Google
_utmz 6 meses. Registra el origen del usuario, así como las palabras clave. Google
Las cookies publicitarias se utilizan para rastrear a los visitantes en las páginas web. La intención es mostrar anuncios relevantes y atractivos para el usuario individual, y por lo tanto, más valiosos para los editores y terceros anunciantes.
Nombre Caducidad Finalidad Proveedor
Las cookies de afiliados permiten realizar un seguimiento de las visitas procedentes de otras webs, con las que el sitio web establece un contrato de afiliación.
Nombre Caducidad Finalidad Proveedor