El próximo año, los investigadores de Inteligencia Artificial (IA) se reunirán en la 12a Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), que tendrá lugar entre mayo 7-11 en Viena, Austria. Raia Hadsell, Vicepresidente de Investigación de Google DeepMind, presentará una charla sobre los avances en el campo de IA durante las últimas dos décadas, destacando cómo las lecciones aprendidas están dando forma al futuro de la IA beneficiosa para la humanidad. Además ofreceremos demostraciones en vivo que muestren cómo llevar nuestra investigación fundacional a la realidad, desde el desarrollo de Robótica Transformadores para la creación de herramientas y modelos de código abierto como Gemma. Otras investigaciones destacadas de todo Google DeepMind también se presentarán: Agentes de resolución de problemas basados en enfoques inspirados por el ser humano, agentes de IA capaces de tomar medidas eficaces que podrían transformarse en asistentes digitales más útiles e intuitivos.
Además, mostraríamos una presentación oral llamada WebAgent , un modelo lingüístico impulsado por un agente que aprende a través de la experiencia para navegar y gestionar tareas complejas en sitios web del mundo real. También nos centramos en mejorar las habilidades de resolución de problemas de los modelos lingüísticos mediante la producción y uso de 'herramientas'. La técnica de formación que garantiza que los modelos lingüísticos produzcan resultados aceptables socialmente de manera más coherente. Un espacio de ensayo llamado sandbox representa los valores de la sociedad. Nuestro modelo Dynamic Scene Transformer (DyST) aprovecha videos de una sola cámara del mundo real para extraer representaciones 3D de objetos en la escena y sus movimientos. Hasta hace poco, los grandes modelos de IA se enfocaron principalmente en el texto y las imágenes, lo que sentó las bases para el reconocimiento de patrones a gran escala y la interpretación de datos. Ahora, el campo está progresando más allá de estos reinos estáticos para abrazar la dinámica del mundo real visual ambientes. Mientras la computación avanza en todos los ámbitos, es cada vez más importante que su código subyacente se genera y optimizado con la máxima eficiencia. Al ver un video en una pantalla plana, uno percibe intuitivamente la naturaleza tridimensional del escenario. Sin embargo, las máquinas tienen dificultad para imitar esta habilidad sin supervisión explícita. El modelo Transformer (DyST), que extrae representaciones 3D de objetos en la escena y sus movimientos a partir de videos de una sola cámara del mundo real, es un ejemplo de esto. Además, DyST también permite la generación de versiones nuevas del mismo video, con el control del usuario sobre las emulaciones de estrategias cognitivas humanas. Además, mejora los generadores de código IA, donde cuando los programadores escriben código complejo, lo ‘descomponen’ en tareas más sencillas. Con ExeDec, introducimos una nueva forma de abordar el código que aprovecha un enfoque de descomposición para mejorar la programación y el rendimiento generalización de los sistemas de IA. Al trabajar en paralelo, exploramos nuevos usos del aprendizaje automático no solo para generar código, sino para optimizarlo, introduciendo un conjunto de datos para la evaluación robusta comparativa del rendimiento del código.
La optimización del código es difícil, requiere razonamiento complejo y nuestro conjunto de datos permite explorar una variedad de técnicas de aprendizaje automático. Demostramos que las estrategias resultantes de aprendizaje superan las optimizaciones de código hechas por humanos. ExeDec es un enfoque nuevo para la generación de código que aprovecha una forma de descomposición para mejorar la programación de los sistemas de IA y la generalización.