Anunciamos una suite completa e inhalable de pocos autoencoders, diseñada para ayudar a los investigadores a comprender cómo funcionan nuestros modelos lingüísticos. Estas herramientas son conocidas como Gemma Scope y dan acceso a cientos de autoencoders abiertos para las versiones 9B y 2B de Gemma 2, nuestra familia ligera de modelos abiertos. Esperamos que esto permita una investigación más ambiciosa sobre la interpretabilidad y contribuya a la construcción de sistemas más robustos. Para ayudarlo a comprender mejor cómo funciona un modelo lingüístico, consideren cada activación como una conexión entre las palabras que ha introducido.
Cada activación mapea estas relaciones y ayuda al modelo a escribir una respuesta. Como el modelo procesa la entrada de texto, los conceptos representados en diferentes capas en la red neuronal del modelo se convierten en características más complejas. Por ejemplo, las primeras capas aprenden a recordar hechos sencillos como que Michael Jordan juega al baloncesto, mientras que las capas posteriores reconocen conceptos más complejos. Una representación gráfica del uso de un autoencoder es un ejemplo de cómo analizar las activaciones en un modelo y determinar qué conceptos están presentes. Sin embargo, los investigadores que se dedican a la interpretabilidad se enfrentan a un problema fundamental: las activaciones del modelo son una mezcla de muchas características diferentes. Los primeros días de la interpretabilidad mecánica, los investigadores esperaban que las características en las activaciones de una red neuronal se alinearían con neuronas individuales, es decir, nodos de información. Sin embargo, en la práctica, las neuronas están activas para muchas características no relacionadas entre sí. Esto significa que no hay un método obvio para saber cuáles son las características que forman parte de la activación. Una activación determinada solo será una mezcla de un pequeño número de características, a pesar de que el modelo de idioma es probablemente capaz de detectar millones o incluso miles de millones de ellas – es decir, el modelo utiliza características escasamente. Por ejemplo, un modelo de lenguaje considerará la relatividad al responder a una pregunta sobre Einstein y considerar los huevos al escribir sobre tortillas, pero probablemente no tendrá en cuenta la relatividad al escribir sobre tortillas. Pocos autoencoders aprovechan este hecho para descubrir un conjunto de características que el modelo de idioma utiliza realmente. La tarea principal del disperso autoencoder para llevar a cabo esta tarea es encontrar las características subyacentes que se utilizan en el modelo de idioma. Como resultado, nosotros los investigadores le decimos al autoencoderraro cuál es la característica a buscar. Gracias a esto, podemos descubrir estructuras ricas que no predijimos. Sin embargo, debido a que no sabemos inmediatamente el significado de lo descubierto por las características, buscamos patrones significativos en ejemplos de texto donde el pequeño autoencoderraro dice que la característica es ‘fuego’.
En este caso, cada burbuja representa un token (palabra o fragmento de palabra) y el color azul variable ilustra la fuerza de la característica presente. En este ejemplo, la característica parece estar relacionada con los idiomas. La arquitectura de autoencoder original tuvo dificultades para balancear los objetivos gemelos de identificar qué características están presentes y, al mismo tiempo. La arquitectura JumpReLU hace más fácil lograr este equilibrio apropiado, reduciendo significativamente el error. La creación de pocos autoencoders fue un reto en ingeniería importante que requería una gran cantidad de energía computacional. Usamos alrededor del 15% de la potencia de entrenamiento de Gemma 2 9B (excluyendo los cálculos para generar etiquetas de distilación), lo que ahorró alrededor de 20 Pebibytes (PiB) en activaciones en disco (aproximadamente un millón de copias de Wikipedia en inglés) y produjo cientos de miles de millones de parámetros escasos de autoencoder en total. Al lanzar Gemma Scope, esperamos que Gemma 2 se convierta en la familia de modelos más poderosa para la mecánica abierta, investigación sobre interpretabilidad y aceleración del trabajo de la comunidad en este campo. Hasta ahora, la comunidad de interpretabilidad ha hecho grandes avances en el entendimiento de los modelos pequeños con pocos autoencoders y en el desarrollo de técnicas relevantes, como intervenciones causales, análisis automático de circuitos, interpretación de características y evaluación de autoencoders escasos. Esperamos ver a la comunidad adoptar estas técnicas en modelos modernos, analizar capacidades más complejas como la cadena de pensamiento, y encontrar aplicaciones prácticas de interpretabilidad, tales como abordar problemas como alucinaciones y fugas que sólo surgen con modelos más grandes.