Meta rompe barreras del idioma: su nueva IA transcribe voz a texto en más de 1.600 lenguas

Meta ha presentado Omnilingual ASR, un nuevo y potente modelo de inteligencia artificial, con la capacidad de reconocer y transcribir voz a texto en más de 1.600 idiomas. Lo más llamativo de esta función, es que incluye 500 lenguas, muchas de estas minoritarias.
500 idiomas que nunca antes habían sido digitalizados
Históricamente, la tecnología de reconocimiento automático de voz, lo que conoce como ASR, ha presentado una gran limitación y es que necesita cantidades masivas de datos de audio y texto para funcionar.
Esto provocó la exclusión tecnológica de miles de idiomas con pocos hablantes o recursos digitales. Sin embargo, el nuevo modelo de Meta, Omnilingual ASR, busca revertir esta situación.

Su más significativo avance es que incluye a 500 lenguas, la mayoría minoritarias, que nunca antes habían sido digitalizadas por un sistema de reconocimiento de voz.
Ya no se necesitan miles de horas, el aprendizaje contextual lo cambia todo
Para lograrlo, Meta no solo desarrolló un modelo potente, sino que también creó uno de los conjuntos de datos de entrenamiento (llamados corpus) más grandes y diversos hasta la fecha, el cual también ha puesto a disposición de los usuarios.
De modo que, en lugar de necesitar miles de horas de audio, el modelo utiliza un enfoque de aprendizaje contextual. Esto le permite aprender a transcribir un idioma con calidad aceptable a partir de unos pocos ejemplos.
De hecho, Meta explica que esta es una vía mucho más escalable, para implementar nuevas lenguas en distintos ecosistemas digitales.
La verdadera hazaña: 36% de éxito en lenguas (casi) sin datos
Se trata de un nuevo sistema de alto rendimiento, y es una pieza clave dentro del plan más ambicioso de Zuckerberg: llenar tus redes con IA. Su viabilidad es garantizada según estos datos de Meta:
- El modelo logra una tasa de error de caracteres menor al 10% en el 78% de los 1.600 idiomas que maneja, lo que se definiría como un estándar de alta calidad.
- En el caso de lenguas consideradas de bajos recursos (poco material disponible), con menos de diez horas de datos de entrenamiento, el 36% de estos alcanzan esa misma alta precisión.

La herramienta para preservar y utilizar cientos de idiomas, ahora es pública
Meta ha decidido liberar esta tecnología como código abierto, con el propósito de que desarrolladores, investigadores y comunidades de todo el mundo la utilicen y la mejoren. Entre las herramientas publicadas, se encuentran las siguientes:
- El corpus Omnilingual ASR: se trata de todo el conjunto de datos de entrenamiento.
- Omnilingual ASR (7B): es un modelo de 7.000 millones de parámetros, dirigido a tareas de alta potencia en servidores.
- Omnilingual ASR (300M): es una versión más pequeña de 300 millones de parámetros, diseñada para ser eficiente y funcionar en dispositivos de bajo consumo, como celulares.
- wav2vec 2.0: es un modelo base de reconocimiento de voz de propósito general.
Sin duda, este lanzamiento no es solo una mejora técnica, sino un paso fundamental hacia la inclusión en el ámbito digital, ya que ofrece una herramienta para preservar y utilizar cientos de idiomas, que anteriormente corrían el riesgo de quedar obsoletos en la era de la IA.

Deja una respuesta