Estudiantes universitarios desarrollan modelo de IA de voz que compite con herramientas de gigantes tecnológicos
Dos estudiantes universitarios sin experiencia extensa en inteligencia artificial han creado un modelo de IA de código abierto capaz de generar clips de audio similares a los producidos por NotebookLM de Google. Los jóvenes emprendedores, con sede en Corea del Sur, demostraron que la innovación en IA no está reservada exclusivamente para las grandes compañías tecnológicas.
El nacimiento de un proyecto ambicioso
Toby Kim, cofundador de Nari Labs, explicó que él y su compañero comenzaron a estudiar IA de voz hace apenas tres meses. Inspirados por NotebookLM, buscaron crear un modelo que ofreciera mayor control sobre las voces generadas y más libertad en los guiones. Utilizaron el programa Google's TPU Research Cloud, que proporciona acceso gratuito a los chips TPU de Google para investigación, para entrenar su modelo llamado Dia.
Características técnicas del modelo Dia
Con 1.6 mil millones de parámetros, Dia puede generar diálogos a partir de un guión, permitiendo a los usuarios personalizar tonos de voz e insertar elementos no verbales como toses, risas o pausas.
Disponible en las plataformas Hugging Face y GitHub, Dia puede ejecutarse en la mayoría de los PCs modernos con al menos 10GB de VRAM. El modelo genera voces aleatorias a menos que se le indique un estilo específico, y también incluye función de clonación de voz.
Pruebas y potencial de uso
En pruebas realizadas por TechCrunch, Dia mostró un rendimiento notable, generando conversaciones bidireccionales sobre diversos temas sin dificultad. La calidad de las voces resultó competitiva con otras herramientas del mercado, y la función de clonación de voz se destacó por su facilidad de uso.
Sin embargo, como muchos generadores de voz, Dia carece de salvaguardas robustas contra usos maliciosos. Sus creadores advierten contra el uso del modelo para suplantación de identidad, engaños o campañas ilícitas, aunque reconocen que no se harán responsables por posibles malos usos.
Cuestiones legales y planes futuros
Nari Labs no ha revelado los datos utilizados para entrenar a Dia, lo que plantea posibles problemas de derechos de autor. Algunos observadores han notado similitudes entre muestras generadas y voces de podcasters conocidos. Esta práctica, común pero legalmente cuestionable en la industria de IA, sigue siendo tema de debate entre desarrolladores y titulares de derechos.
Kim compartió que los planes a futuro incluyen crear una plataforma de voces sintéticas con un "aspecto social" basada en Dia y modelos posteriores más grandes. También pretenden publicar un informe técnico detallado sobre Dia y expandir su soporte a idiomas además del inglés.
El mercado de IA de voz en auge
El mercado de herramientas de voz sintética está experimentando un crecimiento significativo. Según datos de PitchBook, las startups de tecnología de voz AI recaudaron más de $398 millones en fondos de capital de riesgo el año pasado. Aunque ElevenLabs sigue siendo uno de los principales actores, la aparición de nuevos competidores como Nari Labs demuestra el dinamismo de este sector.
Este desarrollo coincide con otros movimientos importantes en la industria de IA, como la reciente asociación entre The Washington Post y OpenAI para integrar contenido periodístico en ChatGPT, o los ajustes en la estrategia de marketing de Apple respecto a su tecnología Apple Intelligence.