Presentación de AutoRT, SARA-RT y RT-Trayectory para mejorar la recolección de datos robot del mundo real y su velocidad y generalización. Estos avances en investigación robótica se basan en nuestro trabajo histórico de Robotic Transformers, ayudando a los robots a tomar decisiones más rápidas y a entender y navegar por sus entornos. AutoRT aprovecha el potencial de grandes modelos de aprendizaje profundo para crear robots que puedan entender objetivos humanos. Por medio de la recolección de datos de formación experiencial más amplios, AutoRT puede mejorar el aprendizaje robótico en el mundo real.
AutoRT combina grandes modelos de base como un modelo de lenguaje grande (LLM) o lenguaje visual (VLM), y un modelo de control robot (RT-1 o RT-2) para crear un sistema que puede dirigir múltiples robots en entornos nuevos. El sistema es capaz de llevar a cabo tareas creativas como ‘colocar el snack en la mesa’ y se encarga de tomar decisiones sobre qué tarea es adecuada para cada robot. Las capas de protocolos de seguridad son críticas antes de que los robots sean integrados en nuestra vida diaria. Necesitan ser desarrollados con investigación sólida que demuestre su seguridad en el mundo real. AutoRT, un sistema de recolección de datos, también es una prueba temprana de robots autónomos para usar en el mundo real. Incluye barreras de seguridad y reglas de seguridad que se activan cuando se seleccionan las tareas para los robots. Estas normas de seguridad están en parte inspiradas en las Tres Leyes de Robótica de Isaac Asimov, como la prioridad de no hacer daño a los seres humanos. Aunque los modelos grandes funcionen correctamente gracias al autocriticación, esto por sí solo no garantiza la seguridad. Por lo tanto, el sistema AutoRT consta de medidas prácticas de seguridad de robótica clásica. Los robots son programados para detenerse automáticamente si la fuerza en sus articulaciones supera un umbral determinado, y se mantienen todos los robots activos bajo la vigilancia de un supervisor humano con un interruptor de desactivación física. Nuestro nuevo sistema, Auto-Adaptive Robotica Robotica Transformadores (SARA-RT), utiliza la arquitectura de red neural RT desarrollada por nuestro equipo en los últimos sistemas de control, incluyendo el modelo RT-2 de última generación. Los mejores modelos SARA-RT-2 han sido más precisos y rápidos (un 10,6% y un 14%, respectivamente) que los modelos RT-2 después de haber recibido una corta historia de imágenes. Creemos que este es el primer mecanismo de atención escalable que proporciona mejoras computacionales sin perder calidad. Los transformadores son potentes pero limitados por las demandas computacionales que ralentizan sus decisiones. SARA-RT hace los modelos más eficientes utilizando un nuevo método de ajuste de modelos llamado “up-training”, lo que convierte la complejidad cuadrática en complejidad lineal, reduciendo drásticamente las demandas computacionales.
Esta conversión no solo incrementa la velocidad del modelo original sino que también mantiene su calidad. Diseñamos nuestro sistema de manera que sea usable y esperemos que muchos investigadores e ingenieros lo apliquen, en el campo de la robótica y más allá. SARA proporciona una receta universal para acelerar Transformers sin necesidad de un entrenamiento computacionalmente costoso. Este enfoque tiene el potencial de escalar masivamente el uso de la tecnología de transformadores. SARA-RT no requiere código adicional y se pueden utilizar varias variantes lineales de código abierto. Cuando lo aplicamos a un modelo RT-2 de última generación con miles de millones de parámetros, resultó en decisiones más rápidas y mejores rendimientos en una amplia variedad de tareas robóticas. Reproduzca el video: Modelo SARA-RT-2 para tareas de manipulación. Las acciones del Robot están condicionadas a imágenes e instrucciones de texto. Y con su puesta en práctica teórica robusta, SARA-RT se puede aplicar a una amplia variedad de modelos de transformadores. SARA-RT para el procesamiento de Point Cloud Transformers - utilizado para procesar datos espaciales de cámaras de profundidad robot - fue más del doble de su velocidad. Camino: Ayudar a los robots a generalizar Puede ser intuitivo para los humanos entender cómo limpiar una mesa, pero hay muchos movimientos físicos que un robot podría traducir a partir de una instrucción. Desarrollamos un modelo llamado RT-Trayectoria, que automáticamente agrega contornos visuales que describen los movimientos del robot en los videos de entrenamiento. RT-Trayectory se superpone con un boceto de trayectoria en 2D de la pinza del brazo del robot a medida que realiza la tarea en cada video del conjunto de datos de entrenamiento. Las trayectorias en forma de imágenes RGB proporcionan pistas visuales prácticas de bajo nivel al modelo mientras aprende su control robótico. Cuando se prueba en 41 tareas ocultas en los datos de entrenamiento, un brazo controlado por RT-Trayectory logró más del doble de resultados que los modelos RT existentes de última generación: obtuvo una tasa de éxito en las tareas del 63%, frente al 29% para RT-2.
Tradicionalmente, la formación de un brazo robótico se basa en el mapeo de lenguaje natural abstracto (“desliza la tabla”) a movimientos específicos (cierre la pinza, mueva a la izquierda, mueva a la derecha), lo que dificulta que los modelos generalicen tareas novedosas. Este modelo permite a los robots RT entender cómo realizar diferentes tarefas, utilizando la interpretación de movimientos robot específicos. El sistema es flexible y puede crear trayectorias observando demostraciones humanas o incluso aceptar bocetos dibujados a mano. Además, se puede adaptar fácilmente a diferentes plataformas de robots. El modelo RT-Trayectory también puede crear trayectorias de limpieza cuando es entrenado con datos aumentados de 2D. Un robot entrenado con esta tarea nueva (limpiar la mesa) puede generar diferentes trayectorias 2D, asistido por humanos o trabajando solo utilizando un modelo de visión. El modelo RT-Trayectory utiliza la información robótica-moción presente en todos los conjuntos de datos de robots, pero actualmente no representa todo el camino para crear robots que puedan moverse con precisión eficientemente en situaciones novedosas. Además, este modelo desbloquea el conocimiento existente en estos conjuntos de datos. Gracias a nuestros modelos RT-1 y RT-2 más recientes, cada uno de estos componentes ayuda a crear robots útiles. Esperamos un futuro en el que estos modelos y sistemas se puedan combinar para crear robots – con la generalización del movimiento de RT-Trayectory, la eficiencia de SARA-RT y la recolección de datos a gran escala de modelos como AutoRT. Continuaremos enfrentando los retos actuales de la robotica y nos adaptaremos a las nuevas capacidades y tecnologías de robótica más avanzada.