Google DeepMind está presentando su investigación en NeurIPS 2024. Está construyendo agentes de inteligencia artificial (IA) adaptativa, inteligente y segura que utilizan modelos de lenguaje largo (LLM). Los agentes basados en LLM han demostrado ser prometedores en la realización de tareas digitales, pero necesitan una interacción precisa con complejas interfaces de usuario, lo que requiere un amplio conjunto de datos de entrenamiento. Para esta finalidad, están compartiendo el conjunto de datos de control más diverso hasta la fecha, recolectado por humanos a través de más de 800 aplicaciones.
Esto ayudará a que los agentes de IA demostren mayores ganancias en rendimiento, lo que esperan facilite su avance en todas las tareas. Los agentes de IA necesitan aprender de cada experiencia, por lo que presentaron un método para el aprendizaje de abstracción en contexto que les ayudará a comprender los patrones de tareas clave y las relaciones entre demostraciones imperfectas y retroalimentación del lenguaje natural. Además, se propuso un método teórico para medir el objetivo de un sistema de IA: guiarlo en la dirección deseada y también mostrar cómo la percepción de su usuario puede influir en sus filtros de seguridad. Juntos, estas ideas subrayan la importancia de una alineación solida para garantizar que las acciones de los agentes de IA permanezcan alineadas con objetivos seguros y previstos. Finalmente, se presentó CAT3D, un sistema que permite crear contenido 3D a partir de cualquier número de imágenes en solo un minuto. Simulamos escenas con muchos objetos rígidos, como una mesa llena o bloques de Lego, también permanece computacionalmente. Para superar este obstáculo presentamos una nueva técnica conocida como SDF-Sim que representa las formas de los objetos en un escalable modo, acelerando la detección de colisiones y permitiendo una simulación eficiente de escenas grandes y complejas. Una simulación compleja de cientos de objetos cayendo y chocando, modelada con precisión utilizando SDF-Sim. Generadores de imágenes AI basados en modelos de difusión luchan por controlar la posición 3D y orientación de múltiples objetos. Solución, Neural Assets, introduce representaciones de objetos específicos que capturan su apariencia y pose 3D, aprendido a través de. Los activos neuronales permiten a los usuarios mover, rotar o intercambiar objetos entre escenas, una herramienta útil para animación, juegos y realidad virtual. Dado una imagen de origen y un objeto en 3D, podemos traducir, rotar y volver a escalar el objeto, o transferir objetos o fondos entre imágenes. Mejorando cómo aprenden y responden los LLM también estamos avanzando en cómo los LLMs entrenan, aprenden y responden a los usuarios, mejorando el rendimiento y eficiencia en varios frentes. Con ventanas de contexto más grandes, LLMs ahora puede aprender de miles de ejemplos potenciales a la vez - conocido como aprendizaje en contexto (ICL, por sus siglas en inglés). Este proceso aumenta el rendimiento del modelo en tareas como matemáticas, traducción y. Para que la formación sea más rentable, exploramos métodos para mejorar la calidad de la formación, pero a menudo necesitamos datos de alta calidad y generados por el ser humano.
adaptando el ICL de muchas imágenes que reducen la dependencia de datos curados manualmente. Hay tantos datos disponibles para la formación de modelos de idiomas, la principal restricción para los equipos que los construyen se convierte en el cálculo disponible. Abordamos una pregunta importante: con un fijo presupuesto, ¿cómo elegir el tamaño del modelo adecuado para lograr los mejores resultados? Otro enfoque innovador que llamamos Modelos de lenguaje revertidos en el tiempo (TRLM), explora preentrenamiento y ajuste de un LLM para trabajar en reversa. Respuestas como entrada, un TRLM genera consultas que podrían haber producido esas respuestas. Cuando se empareja con un LLM tradicional, este método no solo ayuda a asegurar que las respuestas sigan mejor las instrucciones del usuario, sino que también mejora la generación de respuestas y la eficiencia en tareas como matemáticas, traducción y. Mostramos que la planeación en sí misma puede considerarse como una inferencia probabilística y propongo un marco para clasificar diferentes técnicas de inferencia y medir su efectividad en el proceso de la planeación.