Expandiendo las fronteras de la generación del audio

Nuestras tecnologías pioneras en generación de habla están ayudando a las personas de todo el mundo a interactuar con más naturalidad, mediante conversaciones y asistentes digitales intuitivos. La voz es fundamental para la conexión humana, facilitando la intercambio de información e ideas, la expresión de emociones y la comprensión mutua. Mientras nuestra tecnología para generar voces se mejora, estamos desbloqueando experiencias digitales más ricas y atractivas. En los últimos años hemos estado explorando nuevas formas de generar diálogos naturales en nuestros productos y experimentos, incluyendo Gemini Live, Project Astra, Journey Voices y el doblaje automático de YouTube.

Recientemente, hemos contribuido al desarrollo de dos características nuevas que permiten generar diálogo a largo plazo, multi-parlante, lo que hace el contenido complejo más accesible: NotebookLM Audio Overviews transforma documentos subidos en un diálogo atractivo y animado. Iluminate crea discusiones formales generadas por IA sobre trabajos de investigación para ayudar a hacer el conocimiento más accesible e interpretable. Aquí, brindamos una visión general de nuestras últimas investigaciones en generación de habla que apoyan todos estos productos y herramientas experimentales. Estos tokens capturan toda la información necesaria para reconstruir el audio de alta calidad, incluyendo características como prosodia y timbre. AudioLM trata la generación de audio como una tarea de modelado de lenguaje para producir tokens acústicos de códecs como SoundStream. Como resultado, el marco de AudioLM no hace suposiciones sobre el tipo o la composición del audio que se está generando y puede manejar flexiblemente una variedad de sonidos sin necesidad de ajustes arquitectónicos, por lo que es un buen candidato para el modelado de diálogos multi-parlantes. Descarga muestra de audio de dos altavoces demostrando sorpresa e incredulidad. Descarga muestra de audio de dos altavoces mostrando una historia divertida, con risas en el chiste. Descarga clip de audio de dos altavoces expresando emoción por una fiesta de cumpleaños sorpresa. Descarga ejemplo de un diálogo multi-parlante generado por NotebookLM Audio Overview, basado en unos pocos documentos relacionados con la patata. En base a esta investigación, nuestra última tecnología de generación de voz puede producir 2 minutos de diálogo, con mejores resultados en naturalidad, consistencia del altavoz y calidad acústica, cuando se le proporciona un guión de diálogo y marcadores de giro del altavoz. Ejecuta esta tarea en menos de 3 segundos en un único chip Tensor Processing Unit (TPU) v5e, en un paso de inferencia. genera audio más de 40 veces más rápido que en tiempo real. Para ayudar a nuestro último modelo de generación de voz a producir segmentos de habla más largos, hemos creado un códec de voz eficiente para comprimir audio en una secuencia de tokens, en tan solo 600 bits por segundo, sin comprometer la calidad de su salida. Los tokens generados por nuestro códec tienen una estructura jerárquica y se agrupan por marcos de tiempo.
Los primeros tokens dentro de un grupo capturan información fonética y prosódica, mientras que los últimos tokens codifican detalles acústicos finos. Con nuestro nuevo códec de habla, generar un diálogo de 2 minutos requiere generar más de 5000 tokens. Desarrollamos una arquitectura especializada de Transformer que puede manejar eficientemente jerarquías de información, emparejando la estructura con esta técnica, podemos generar eficientemente fichas acústicas que corresponden al diálogo, dentro del marco temporal. Una vez generados, estos tokens pueden ser decodificados de nuevo en una forma de onda de audio usando nuestro discurso. codec. Unmute video Mute video Pausa video Reproducir video Animación mostrando cómo nuestro modelo de generación de voz produce una corriente de audio tokens autorregresivamente, que se decodifican de nuevo a una forma de onda que consiste en un diálogo de dos altavoces. Para enseñar a nuestro modelo cómo generar intercambios realistas entre múltiples oradores, lo entrenamos en cientos de miles de horas de datos del habla. Luego lo afinamos en un conjunto de datos mucho más pequeño de diálogo con alta calidad acústica y altavoz preciso anotaciones, consistentes en conversaciones no escritas de una serie de actores de voz y disfluencias realistas — los “umm” y “aah” de conversación real. Este paso enseñó al modelo cómo cambiar de manera fiable entre los oradores durante un diálogo generado y para producir solo audio de calidad de estudio con pausas realistas, tono y tiempo. De acuerdo con nuestros Principios de IA y nuestro compromiso con Desarrollando e implementando tecnologías de IA de manera responsable, estamos incorporando nuestra tecnología SynthID para marca de agua generar contenido de audio a partir de estos modelos, para ayudar a salvaguardar contra el posible uso indebido de esta tecnología. Nuevas experiencias de discurso por delante Ahora nos centramos en mejorar la fluidez de nuestro modelo, la calidad acústica y la adición de más grano fino controles para funciones, como la prosodia, mientras se explora la mejor manera de combinar estos avances con otras modalidades, como el vídeo. Las aplicaciones potenciales para la generación avanzada del habla son vastas, especialmente cuando se combinan con nuestra familia de modelos Géminis. Desde mejorar las experiencias de aprendizaje hasta hacer que el contenido sea más accesible a todos, estamos emocionados de seguir impulsando la límites de lo que es posible con las tecnologías basadas en la voz.

Video

Tags

    There are no post in the library.