La IA añade una nueva función al móvil: la traducción simultánea elimina las barreras idiomáticas (¿y el diccionario?)

image_pdfimage_print

Estamos acostumbrados a ver cómo la IA de los nuevos procesadores móviles se aplica de forma generalizada a los aspectos fotográficos de los smartphones.

Pero hay otras áreas en las que la inteligencia artificial permite mejorar las posibilidades de aplicaciones que antes dependían de la nube para funcionar correctamente, y que ahora ofrecen una experiencia de uso excelente usando exclusivamente los recursos de procesamiento del System on a Chip (SoC) que usen los dispositivos móviles.

Huawei ha sido pionera en este tipo de iniciativas desde la introducción de sus SoC con NPU integrada como el Kirin 970 del Mate 10 y los Huawei P20 y P20 Pro, primero, y el Kirin 980 del Huawei Mate 20 Pro. Además de usar la IA como parte de su plataforma de fotografía computacional, también ha trabajado con Microsoft para conseguir que su aplicación de traducción simultánea, Microsoft Translator, funcione sin conexión con Internet tan bien como usando la nube para acelerar el procesamiento de los algoritmos de reconocimiento de voz.

La IA ya no necesita de la nube

Los algoritmos empleados en las aplicaciones de IA, tales como el reconocimiento de imágenes o el procesamiento del lenguaje natural, han necesitado tradicionalmente de la elevada capacidad de procesamiento de la nube para que su funcionamiento fuera ágil y preciso. Es posible, en IA, jugar con variables como la precisión para hacer que un algoritmo de, por ejemplo, reconocimiento de imágenes, funcione más rápido a expensas de que el error obtenido en los procesos de reconocimiento de imágenes o tratamiento del lenguaje natural sea mayor.

La nube, a pesar de ser uno de los grandes milagros tecnológicos de nuestro tiempo, no siempre es una solución óptima y deseable. Los datos, cuando se llevan a la nube para su procesamiento, se exponen a posibles ataques por parte de hackers o a un uso fraudulento por parte de aquellas empresas que usan los datos de los usuarios como una fuente de monetización para su negocio. Además, aspectos como la latencia de las conexiones o la estabilidad de las redes de comunicaciones pueden afectar negativamente a la experiencia de uso cuando se depende de la nube en vez de usar los recursos locales.

Microsoft Translator: traducciones offline de calidad

Uno de los ejemplos prácticos del uso de los aceleradores de IA en el propio dispositivo, tales como la NPU de los procesadores Kirin 980 de Huawei, es la app de traducción Microsoft Translator. En su versión convencional, esta app necesita de una conexión de Internet para que las traducciones tengan lugar usando los máximos niveles de calidad en el reconocimiento del lenguaje. Esta conexión se usa para llevar a la nube las interacciones lingüísticas de los usuarios con la app, donde se procesan para extraer los vectores necesarios para realizar la traducción a otro idioma.

Las traducciones basadas en redes neuronales mejoran los resultadosde un modo notable frente a los algoritmos usados antes del renacimiento de la IA. Tradicionalmente, los sistemas offline han tenido que sacrificar la calidad de las traducciones debido a las limitaciones de los procesadores convencionales, poco eficientes a la hora de procesar algoritmos neuronales. Para medir la calidad de las traducciones, Microsoft usa la escala estándar BLEU (Bilingual Evaluation Understudy), que basa su puntuación en la cercanía de las traducciones realizadas por la máquina y las realizadas por humanos para un texto dado.

Según la puntuación BLEU, las optimizaciones de la app para los dispositivos Mate 20 de Huawei con doble NPU, permite mejorar en más de un 20% la calidad de las traducciones comparadas con otras soluciones offline que no usan los aceleradores para algoritmos de IA. Es más, además de mejorar la calidad, se mejora la velocidad de las traducciones y los paquetes de idiomas para su procesamiento offline se pueden reducir en tamaño entre un 20% y un 50%.

Asimismo, comparando la puntuación BLEU usando la traducción en la nube y la offline en los Mate 20, se obtienen cifras para la traducción offline que son solamente un punto inferiores a las obtenidas usando la tecnología cloud. Eso sí, de momento hablamos de traducciones basadas en texto. Las traducciones a partir de la voz siguen precisando de una conexión de Internet para funcionar.

Procesamiento neuronal acelerado por la NPU

La Neural Processing Unit o NPU es una parte del Kirin 980 especialmente diseñada para procesamiento de algoritmos de IA basados en redes neuronales. Estos algoritmos se caracterizan por su paralelismo, por lo que un procesador convencional con unos pocos cores es incapaz de procesar más que cuatro u ocho operaciones por cada ciclo de reloj. Mientras, la NPU es capaz de procesar centenares de ellas. Y, además, el Kirin 980 tiene una NPU doble, lo que multiplica por dos el paralelismo de las operaciones.

Microsoft ha modificado el código de su app de traducción para derivar los cálculos hacia la NPU, en vez de usar la CPU o incluso la GPU. De este modo, la ejecución de los algoritmos que procesan el lenguaje natural es más rápida y limpia, arrojando resultados de alta precisión e invirtiendo poco tiempo en ello sin necesidad de llevar los datos de voz o imagen a la nube.

Es más, incluso es posible aprovechar esta cualidad para realizar traducciones simultáneas entre dos o más dispositivos enlazados, cada uno de ellos en manos de un usuario. Por ejemplo, uno de ellos puede hablar castellano y otro inglés, o chino o cualquier otro idioma contemplado por Microsoft. Cada uno de ellos habla en su idioma y la app hace llegar al otro la traducción correspondiente, por lo que, a efectos prácticos, la conversación elimina las barreras idiomáticas casi por completo.

La cámara como sustituta del diccionario

Y si se hablamos de traducción simultánea, es obligatorio hacer una referencia a HiVision, el sistema de reconocimiento de imágenes de Huawei que incluye, entre otros modelos de la firma, el Huawei Mate 20 Pro y que permite obtener más información de todo aquello que se ve a través de su pantalla. Si nos situamos frente a un monumento o un edificio, nos brindará información sobre él; si apuntamos hacia un plato de comida o un alimento, nos suministrará información nutricional; o si nos detenemos sobre un texto, podremos ver su traducción en uno de los 10 idiomas que reconoce (español, inglés, chino, alemán, francés, italiano, portugués, ruso, japonés y coreano).

Por ejemplo, como muestran las dos imágenes de arriba, tras escanear su entorno con la cámara, el teléfono cuenta con una funcionalidad que facilita la traducción automática de textos y sin necesidad de hacer la foto. Tan fácil como pulsar el icono de cámara de la interfaz del móvil, optar por la funcionalidad HiVision, seleccionar la opción de traducción, apuntar al objeto y enfocar bien el texto que quiere traducirse. Veremos cómo se superponen en la pantalla la traducción y el texto original. Toda una experiencia con efecto WoW las primeras veces que seamos testigo de ella, y que agradeceremos, sobre todo, cuando estemos en otro país en el que no manejemos el idioma y nos sintamos perdidos ante la información que vayamos encontrando en las calles o en cualquier local. Seguro que muchos están deseando viajar para probarla in situ.

Fuente: xataka.com

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *