Hard Tech • 04/22/2025

Estudiantes universitarios desarrollan modelo de IA de voz que compite con herramientas de gigantes tecnológicos

Martín Sepúlveda

Dos estudiantes universitarios sin experiencia extensa en inteligencia artificial han creado un modelo de IA de código abierto capaz de generar clips de audio similares a los producidos por NotebookLM de Google. Los jóvenes emprendedores, con sede en Corea del Sur, demostraron que la innovación en IA no está reservada exclusivamente para las grandes compañías tecnológicas.

El nacimiento de un proyecto ambicioso

Toby Kim, cofundador de Nari Labs, explicó que él y su compañero comenzaron a estudiar IA de voz hace apenas tres meses. Inspirados por NotebookLM, buscaron crear un modelo que ofreciera mayor control sobre las voces generadas y más libertad en los guiones. Utilizaron el programa Google's TPU Research Cloud, que proporciona acceso gratuito a los chips TPU de Google para investigación, para entrenar su modelo llamado Dia.

Características técnicas del modelo Dia

Con 1.6 mil millones de parámetros, Dia puede generar diálogos a partir de un guión, permitiendo a los usuarios personalizar tonos de voz e insertar elementos no verbales como toses, risas o pausas.

Los parámetros, variables internas que los modelos usan para hacer predicciones, generalmente indican que a mayor cantidad, mejor rendimiento.

Disponible en las plataformas Hugging Face y GitHub, Dia puede ejecutarse en la mayoría de los PCs modernos con al menos 10GB de VRAM. El modelo genera voces aleatorias a menos que se le indique un estilo específico, y también incluye función de clonación de voz.

Pruebas y potencial de uso

En pruebas realizadas por TechCrunch, Dia mostró un rendimiento notable, generando conversaciones bidireccionales sobre diversos temas sin dificultad. La calidad de las voces resultó competitiva con otras herramientas del mercado, y la función de clonación de voz se destacó por su facilidad de uso.

Sin embargo, como muchos generadores de voz, Dia carece de salvaguardas robustas contra usos maliciosos. Sus creadores advierten contra el uso del modelo para suplantación de identidad, engaños o campañas ilícitas, aunque reconocen que no se harán responsables por posibles malos usos.

Cuestiones legales y planes futuros

Nari Labs no ha revelado los datos utilizados para entrenar a Dia, lo que plantea posibles problemas de derechos de autor. Algunos observadores han notado similitudes entre muestras generadas y voces de podcasters conocidos. Esta práctica, común pero legalmente cuestionable en la industria de IA, sigue siendo tema de debate entre desarrolladores y titulares de derechos.

Kim compartió que los planes a futuro incluyen crear una plataforma de voces sintéticas con un "aspecto social" basada en Dia y modelos posteriores más grandes. También pretenden publicar un informe técnico detallado sobre Dia y expandir su soporte a idiomas además del inglés.

El mercado de IA de voz en auge

El mercado de herramientas de voz sintética está experimentando un crecimiento significativo. Según datos de PitchBook, las startups de tecnología de voz AI recaudaron más de $398 millones en fondos de capital de riesgo el año pasado. Aunque ElevenLabs sigue siendo uno de los principales actores, la aparición de nuevos competidores como Nari Labs demuestra el dinamismo de este sector.

Este desarrollo coincide con otros movimientos importantes en la industria de IA, como la reciente asociación entre The Washington Post y OpenAI para integrar contenido periodístico en ChatGPT, o los ajustes en la estrategia de marketing de Apple respecto a su tecnología Apple Intelligence.

News.Streetflow.cl

Estudiantes universitarios desarrollan modelo de IA de voz que compite con herramientas de gigantes tecnológicos

El nacimiento de un proyecto ambicioso

Características técnicas del modelo Dia

Pruebas y potencial de uso

Cuestiones legales y planes futuros

El mercado de IA de voz en auge

Palantir y Lumen Technologies anuncian alianza estratégica multimillonaria para servicios empresariales de IA

Usuarios denuncian ante la FTC daños psicológicos causados por ChatGPT

General Motors lanzará sistema de conducción autónoma nivel 3 en 2028

General Motors revoluciona la arquitectura eléctrica de sus vehículos para competir en la era del software

Palantir y Lumen Technologies anuncian alianza estratégica multimillonaria para servicios empresariales de IA

Usuarios denuncian ante la FTC daños psicológicos causados por ChatGPT

General Motors lanzará sistema de conducción autónoma nivel 3 en 2028

General Motors revoluciona la arquitectura eléctrica de sus vehículos para competir en la era del software

Amazon lanza programa de becas de doctorado en IA con inversión de 68 millones de dólares

Video

Categories

Tags