Atribuimos una capa oculta a la función de valor, mostrando cuáles características de la observación (izquierda) se utilizan para predecir éxito (medio) y fracaso (derecha). La aplicación de reducción dimensional (NMF) produce características que detectan varios en el juego objetos. En este artículo, aplicamos técnicas de interpretabilidad a un modelo de aprendizaje por refuerzo entrenado para jugar el videojuego CoinRun. Utilizando la atribución combinada con la reducción de dimensión, como en , construimos una interfaz para explorar los objetos detectados por el modelo y cómo influyen en su función de valor y política.
Aprovechamos esta interfaz de varias maneras. Fallo en la disección. Realizamos un análisis paso a paso del comportamiento del agente en los casos en que no logró alcanzar el máximo puntaje, por ejemplo, causados por obstáculos momentáneamente ocultos de la vista. Analizamos paso a paso el comportamiento del agente en los casos en que no logró obtener la mayor recompensa, permitiéndonos identificar situaciones en las que el modelo “alucina” una característica no presente en la observación, explicando inexactitudes en su función de valor. Estas fueron lo suficientemente breves como para no afectar el comportamiento del agente. Las modificaciones del modelo se realizaron para que el agente se cegara a determinados peligros, sin cambiar de otro modo su comportamiento. Los efectos de estas ediciones se comprobaron mediante la verificación de los peligros que hacen que los nuevos agentes caigan. Esta edición solo es posible gracias a nuestra análisis previos, y por lo tanto proporciona una validación cuantitativa de este análisis. Los resultados de nuestro trabajo dependen del entorno de CoinRun. Si es correcto, podemos proponer una hipótesis sobre la diversidad de los resultados de interpretación. Esperamos que los modelos de aprendizaje profundo sean más interpretables a medida que los entornos en los que se entrenen se vuelvan más diversos, lo que nos permitirá explorar mejor la relación entre interpretabilidad y generalización. Hemos investigado varias técnicas de interpretación en el contexto del aprendizaje profundo en juegos de plataformas, y hemos planteado una serie de preguntas para guiar nuestras futuras investigaciones. Nuestro modelo de CoinRun es un juego de plataformas de desplazamiento lateral que genera niveles aleatoriamente. El agente debe evitar enemigos y otros peligros, recoger la moneda al final del nivel y saltar sobre obstáculos. Hemos entrenado nuestro modelo utilizando la versión original de CoinRun, no la versión de Procgen Benchmark que es ligeramente diferente.
Para jugarlo tú mismo, sigue las instrucciones aquí. Anexamos algunos ejemplos de niveles generados con paredes, pisos y objetos para jugar a CoinRun. Resolución completa: resolución del juego completo. Resolución del modelo: resolución dada al modelo (izquierda: el agente en el aire y a punto de saltar, derecha: el agente mediante la observación de 64x64 RGB) El agente se representa como beige, azul o verde. Monedas que hay que recoger. Barricadas fijas de la sierra que se deben evadir. Enemigos que también se deben evadir, Hay varios sprites alternativos, todos con caminos blancos. Cajas que el agente puede mover más allá y aterrizar en la parte superior de ellas, con lava al fondo de un abismo. La información de velocidad se encuentra pintada en la parte superior izquierda de cada observación, indicando las velocidades horizontales y verticales del agente. El agente tiene 9 acciones disponibles: Izquierda y derecha cambian la velocidad horizontal del agente. Aún funcionan mientras el agente está en el aire, pero tienen menos efecto. Abajo cancela un salto si se utiliza inmediatamente después de arriba, y hace que el agente descienda hacia las cajas. Arriba causa que el agente salte después de la siguiente acción no arriba. Las direcciones diagonales tienen el mismo efecto que las dos direcciones componentes combinadas. A, B y C no hacen nada.
La versión original de CoinRun solo tenía 1 acción ‘no hacer nada’, pero nuestra versión terminó con 3 cuando se agregaron las acciones 'B'. Para mantener la consistencia, hemos reetiquetado la acción original 'no hacer nada' como 'C'. Entrenamos una red neuronal convolucional en CoinRun por alrededor de 2 mil millones de pasos, utilizando PPO, un algoritmo actor-crítico. Usamos los hiperparámetros PPO estándar en CoinRun, con excepción de que usamos dos veces más copias del entorno por trabajador. Estos cambios aumentaron el tamaño efectivo del lote, lo que parecía ser necesario para alcanzar el mismo rendimiento con nuestra arquitectura menos extensa. Describimos nuestra red en el Apéndice C. Nuestra red es no periódica, con el objetivo de evitar la necesidad de ver múltiples cuadros a la vez. De esta manera, nuestro modelo observa una sola imagen de 64x64 y produce una función de valor (una estimación del total futuro premio descontado) y una política (una probabilidad distribución sobre las acciones, desde las cuales se muestrea la próxima acción). Nuestro modelo emplea un tipo de red convolucional actor-crítico, como nuestro. Dado que la única recompensa disponible es un premio fijo para recoger la moneda, la función de valor estima el tiempo de descuento We utilizando una tasa de descuento del 99,9%. La probabilidad de que el agente complete con éxito el nivel. Análisis de modelos. Después de entrenar a un fuerte agente de aprendizaje profundo, queríamos saber qué había aprendido. En consecuencia, desarrollamos una interfaz para examinar las trayectorias del agente que juega el juego. Esto incluye la atribución de una capa oculta que reconoce los objetos, lo que sirve para resaltar objetos que influyen positivamente o negativamente en una salida de red en particular. Reducción de la dimensión, obtenemos vectores de atribución cuyos componentes corresponden a diferentes tipos de objeto, que indican el uso de diferentes colores.
Aquí está nuestra interfaz para una trayectoria típica, con la función de valor como la salida de la red. Obstáculos, monedas, enemigos y más para calcular la función de valor. Fracaso en la disección. Nuestro modelo completamente entrenado no completa alrededor de 1 en cada 200 niveles. Investigamos algunos de estos fallos usando nuestra interfaz, y descubrimos que generalmente podíamos comprender por qué ocurrieron. El fracaso a menudo se redujo al hecho de que el modelo no tiene memoria, y por lo tanto debe elegir su acción basada sólo en la observación actual. También es frecuente que algunas muestreos no fortunados de las acciones políticas del agente tengan alguna responsabilidad. A continuación, se presentan algunos ejemplos seleccionados de fracasos, analizados paso a paso con cuidado. Barrera oculta por el enemigo. El evadirse para evitar saltar. Plataforma de aterrizaje móvil fuera del campo de visión. El agente se desplazó demasiado hacia la derecha como resultado de una barrera oculta en la niebla causada por el humo, mientras que en el aire. La barrera temporalmente se ocultó de la vista por un enemigo en movimiento. Cuando la barrera volvió a la vista, ya era tarde para evitar un choque. Presionó hacia abajo intentando retrasar un salto.
Esto provocó que el agente se desplazara accidentalmente de una caja hacia un enemigo. El movimiento demasiado a la derecha fue causado por la plataforma donde el agente tenía la intención de aterrizar siendo más baja en el campo de visión. Anterior. Inicio ► Siguiente. Fin. Alucinaciones. Buscamos errores en el modelo utilizando la estimación generalizada de ventajas (GAE), Utilizamos los mismos hiperparámetros GAE como en 9,9 λ=0,999 y λ = 0.95. La acción resultó ser diferente a las expectativas del agente. Un GAE excesivamente alto o bajo indica que algo inesperado se produjo, o que las expectativas del agente fueron mal calibradas. Si filtramos por tales momentos en el tiempo podemos encontrar problemas con la función o la política de valor. Utilizando nuestra interfaz, encontramos dos casos en los que el modelo “alucinaba” una característica no presente en la observación, lo que hizo que la función de valor se pinchara. Alucinaciones de monedas. En algún momento, el valor de la función aumentó del 95% al 98% durante un solo paso del tiempo. Un gráfico amarillo-marrón en el fondo apareció junto a una pared confundiéndola con una moneda. El valor de la función disminuyó de un 94% al 85% durante un solo paso del tiempo.
Este resultado se debe al agente que está camuflado como obstáculo de estalarón (sierra de zumbido) sobre un fondo texturizado, confundiéndose con tal obstáculo. Además, hubo una verdadera sierra de zumbido presente en la observación, pero el agente fue el principal responsable del fallo, como se puede ver por el círculo rojo grande alrededor del agente (haga clic sobre el primer elemento de la leyenda para aislarlo). Nuestro análisis hasta ahora ha sido principalmente cualitativo. Para validar cuantitativamente nuestras conclusiones, hemos editado manualmente el modelo para hacer al agente ciego a determinadas características identificadas por nuestra interfaz: obstáculos de estalarón en un caso y enemigos izquierdistas en otro. Nuestro método puede ser pensado como una forma primitiva de edición de circuitos, y lo explicamos detalladamente en el Apéndice A. Hemos evaluado cada edición midiendo el porcentaje de niveles que el nuevo agente no pudo completar, clasificados según el objeto que el agente chocó para causar el fracaso. Nuestros resultados muestran que nuestras ediciones fueron exitosas y dirigidas, sin efectos estadísticamente medibles sobre las otras habilidades del agente. Los datos de esta trama son los siguientes: Porcentaje de niveles fallados debido a: obstáculo de estalarón / enemigo que se mueve a la izquierda / enemigo que se mueve a la derecha / múltiple u otro: - Modelo original: 0,37% / 0,16% / 0,12% / 0,08% - Ceguera de obstáculos de estalarón: 12,76% / 0,16% / 0,08% / 0,05% - Ceguera izquierda en movimiento del enemigo: 0,36% / 4,69% / 0,97% / 0,07%. Cada modelo fue probado en 10.000 niveles. Modelo original con ceguera de obstáculos de estalarón, enemigo movimiento ceguera izquierda: 0% / 2% / 4% / 6% / 8% / 10% / 12%. Porcentaje de niveles fallidos por causa: Obstáculo de estalarón / Enemigo en movimiento a la izquierda / Enemigo en movimiento a la derecha / Múltiples o otros. Modelos originales y editados jugando algunos niveles seleccionados con atención. En español: Este resultado se debe al agente que está camuflado como obstáculo de estalarón (sierra de zumbido) sobre un fondo texturizado, confundiéndose con tal obstáculo. Además, hubo una verdadera sierra de zumbido presente en la observación, pero el agente fue el principal responsable del fallo, como se puede ver por el círculo rojo grande alrededor del agente (haga clic sobre el primer elemento de la leyenda para aislarlo). Nuestro análisis hasta ahora ha sido principalmente cualitativo. Para validar cuantitativamente nuestras conclusiones, hemos editado manualmente el modelo para hacer al agente ciego a determinadas características identificadas por nuestra interfaz: obstáculos de estalarón en un caso y enemigos izquierdistas en otro.
Nuestro método puede ser pensado como una forma primitiva de edición de circuitos, y lo explicamos detalladamente en el Apéndice A. Hemos evaluado cada edición midiendo el porcentaje de niveles que el nuevo agente no pudo completar, clasificados según el objeto que el agente chocó para causar el fracaso. Nuestros resultados muestran que nuestras ediciones fueron exitosas y dirigidas, sin efectos estadísticically medibles sobre las otras habilidades del agente. Los datos de esta trama son los siguientes: Porcentaje de niveles fallados debido a: obstáculo de estalarón / enemigo que se mueve a la izquierda / enemigo que se mueve a la derecha / múltiple u otro: - Modelo original: 0,37% / 0,16% / 0,12% / 0,08% - Ceguera de obstáculos de estalarón: 12,76% / 0,16% / 0,08% / 0,05% - Ceguera izquierda en movimiento del enemigo: 0,36% / 4,69% / 0,97% / 0,07%. Cada modelo fue probado en 10.000 niveles. Modelo original con ceguera de obstáculos de estalarón, enemigo movimiento ceguera izquierda: 0% / 2% / 4% / 6% / 8% / 10% / 12%. Porcentaje de niveles fallidos por causa: Obstáculo de estalarón / Enemigo en movimiento a la izquierda / Enemigo en movimiento a la derecha / Múltiples o otros. Modelos originales y editados jugando algunos niveles seleccionados con atención. La analísis anterior utiliza la misma capa oculta de nuestra red neural, es decir, la tercera de cinco capas convolucionales, ya que era mucho más difícil encontrar características interpretables en otras capas. Curiosamente, el nivel de abstracción en el que esta capa opera – identificar las ubicaciones de diversos objetos en el juego – es exactamente el mismo en el que se generan los niveles en un juego llamado CoinRun utilizando procedimientos de generación aleatoria. Además, descubrimos que el entrenamiento en muchas versiones aleatorias fue esencial para encontrar cualquier características interpretables. Esto nos llevó a sospechar que la diversidad introducida por la aleatorización de CoinRun está relacionada con la formación de ciertas características interpretativas. La hipótesis que planteamos es la siguiente: las características interpretativas tienden a surgir si y solo si la distribución de la formación es suficientemente diversa. Nuestra explicación para esta hipótesis es la siguiente. Para la implicación hacia adelante (“solo si”), sólo esperamos que las características sean significativas en lugar de meramente adaptadas a los datos. Para la implicación inversa (“si”), no esperamos que se mantenga exactamente: la diversidad por sí misma no es suficiente para garantizar el desarrollo de características interpretables, ya que también deben ser significativas.
En lugar de ello, nuestra intención con esta hipótesis inversa es proponer una hipótesis que a menudo se encuentra en la práctica, como resultado de la generalización de la diversidad. En CoinRun, la generación de procedimientos se utiliza para incentivar al modelo a aprender habilidades que se puedan aplicar a niveles invisibles. Sin embargo, solo el diseño de cada nivel es aleatorio y por lo tanto solo podemos encontrar características interpretables en el nivel de abstracción de los objetos. Probamos nuestra hipótesis mediante una distribución limitada de entrenamiento, capacitando al agente en un conjunto establecido de 100 niveles. Esto redujo considerablemente nuestra habilidad para interpretar los atributos del modelo. Aquí mostramos una interfaz para el nuevo modelo, generada de la misma manera que la anterior. La función valor que aumenta suavemente sugiera que el modelo ha memorizado el número de pasos hasta el final del nivel y las características que utiliza para este enfoque en objetos irrelevantes. El sobreajuste ocurre en otros juegos de video con un número limitado de niveles. Intentamos cuantificar este efecto variando el número de niveles utilizados para entrenar al agente y evaluando 8 características. Las interfaces utilizadas para esta evaluación se pueden encontrar aquí. Las características fueron anotadas en base a la coherencia con la que se enfocaron en los mismos objetos, y si la atribución de la función de valor tenía sentido - por ejemplo, los objetos de fondo no deberían ser relevantes. Este proceso fue subjetivo y ruidoso, pero eso puede ser inevitable. También midimos la capacidad de generalización de cada modelo, probando al agente en niveles invisibles. Los datos para este gráfico son como sigue. - Número de niveles de capacitación: 100 / 300 / 1000 / 3.000 / 10.000 / 30.000 / 100.000 - Porcentaje de niveles completados (tren, carrera 1): 99,96% / 99,82% / 99,67% / 99,65% / 99,47% / 99,55% / 99,57% - Porcentaje de niveles completados (tren, carrera 2): 99,97% / 99,83% / 99,70% / 99,61% / 99,49% / 99,45% / 99,41% - Porcentaje de niveles completados (examen del tren de generalización): 0% / 20% / 40% / 60% / 80% / 100% - Porcentaje de características interpretables: 0,0 / 0,2 / 0,4 / 0,6 / 0,8 / 1,0 Comparación de modelos formados en diferentes niveles.
Y dos evaluadores independientes examinaron lo interpretables que eran las características de cada modelo sin ver la información sobre el número de niveles de capacitación. Por lo tanto, estos resultados deben entenderse principalmente como ilustrativos. Las áreas sombreadas en el mapa izquierdo muestran la gama de valores para ambos modelos, aunque son los siguientes: Las barras de error en el mapa derecho muestran la desviación estándar de ±1 población en las cuatro pares modelo-investigador. Nuestros resultados ilustran cómo la diversidad puede llevar a características interpretables a través de la generalización, proporcionando apoyo a la hipótesis de la diversidad. No obstante, todavía consideramos que la hipótesis es muy poco probable. Visualización de características La visualización de características responde a preguntas sobre qué determinadas partes de una red están buscando mediante la generación de ejemplos. Se realiza aplicando el descenso de gradiente a la imagen de entrada, con el objetivo de activar un neurona particular o grupo de neuronas. Aunque este método funciona bien para un clasificador de imágenes entrenado en ImageNet, no es eficaz para nuestro modelo CoinRun que solo produce nubes de color sin características. Sólo para la primera capa, que realiza simples convoluciones de la entrada, el método produce visualizaciones comparables para los dos modelos. Comparación de la visualización de funciones basada en gradiente para CNNs entrenados en ImageNet (GoogLeNet ) y en CoinRun (arquitectura descrita a continuación). Cada imagen fue seleccionada para activar una neurona en el centro, con las tres imágenes correspondientes a los primeros 3 canales. El jittering se aplicó entre pasos de optimización de hasta 2 píxeles para la primera capa, y hasta 8 píxeles para la capa intermedia (mixto4a para ImageNet, 2b para CoinRun). La visualización de características basada en grados se ha demostrado previamente para luchar con los modelos de RL entrenados en juegos Atari . Para trabajar con CoinRun, hemos variado el método de varias maneras. Ninguno de los intentos que realizamos tuvo ningún efecto notable en la calidad de las visualizaciones.
La robustez de la transformación. Este método consiste en aplicar movimientos aleatorios, rotaciones y escalas a la imagen entre los pasos de optimización, buscando ejemplos resistentes a estas transformaciones. Intentamos aumentar y disminuir el grado de perturbación, ya que las rotaciones y escalas no son apropiadas para CoinRun, ya que las observaciones en sí mismas no son invariantes a estas transformaciones. El objetivo es buscar ejemplos resistentes a estas transformaciones. También intentamos penalizar los colores extremos, por entender bajo este término al negro, blanco, rojo, verde, azul, amarillo, cian y magenta (los colores con valores RGB máximos o mínimos). Notamos que nuestras visualizaciones tienden a usar colores extremos, por lo que intentamos incluir una penalización L2 en las activaciones de la primera capa, que redujo con éxito el tamaño de la región colorida extremadamente. En caso contrario, no ayudó. Intentamos utilizar objetivos alternativos como el objetivo de caricaturas. El objetivo de caricaturas es maximizar el producto punto entre las activaciones de la imagen de entrada y las activaciones de una imagen de referencia. Las caricaturas son especialmente útiles para visualizar características distintivas y obtener una visión inicial del trabajo realizado por un modelo. Se presentan en este libro. La versión más detallada de sus autores está en camino. Además, intentamos utilizar la reducción de la dimensión y direcciones no alineadas con el eje como una estrategia para maximizar resultados, así como objetivos de optimización alternativos como la caricatura. Nuestra intención es aumentar la diversidad en las imágenes visualizadas por el modelo y lo hemos logrado recapacitando en un juego con ruido tanto independiente como espacialmente relacionado. Finalmente, experimentamos brevemente con entrenamiento contradictorio.
Aquí presentamos ejemplos de conjuntos de datos para identificar canales humanamente interpretables. Por lo tanto, hemos encontrado que los métodos basados en gradiente han resistido nuestros esfuerzos, ya que CoinRun no requiere habilidad visual considerable. A pesar de las modificaciones, el juego se puede resolver usando atajos visuales simples. Nuestro análisis proporciona una visión más profunda de la hipótesis de la diversidad y nos permite inferir que esta podría ser necesaria a niveles bajos de abstracción, debido a que la visualización basada en gradiente requiere de una diversidad mayor. Además, parece ser que la diversidad debe evaluarse en el contexto de las exigencias de la tarea. Muestra una pequeña cantidad de observaciones no comunes del agente que juega el juego y las pasa a través del modelo. A continuación, aplicamos un método conocido como factorización de matriz no negativa (NMF) para reducir la dimensionalidad en los canales de activación. Esto permite encontrar una aproximación de factorización no negativa de bajo rango en la matriz obtenida al aplanar las dimensiones espaciales de las activaciones a la dimensión del lote, lo que ignora la información espacial. Para cada canal resultante (que corresponde a combinaciones ponderadas del original), seleccionamos las observaciones y posiciones espaciales con la mayor actividad y representamos un fragmento de la observación en esa posición. Presentamos una versión 'consciente del espacio' de las visualizaciones de características basadas en conjuntos de datos, donde fijamos cada posición espacial en su turno e incluyemos la observación con la mayor actividad en esa posición (limitando el número de reutilizaciones de la misma observación para diversidad). Aquí está una visualización de esta característica que responde fuertemente a las monedas. Los cuadrados blancos en la parte superior izquierda muestran que el
función también responde fuertemente a la información de velocidad horizontal cuando es blanco, correspondiente al agente que se mueve a la derecha en pleno
velocidad. Visualización de características basadas en ejemplos de conjuntos de datos espacialmente conscientes para la dirección NMF de la capa 2b que detecta monedas. Transparencia
(revelando el fondo diagonalmente rayado) indica una respuesta débil, por lo que la mitad izquierda de la visualización es mayormente
transparente porque las monedas nunca aparecen en la mitad izquierda de las observaciones. Atribución
Atribución responde a preguntas sobre las relaciones entre neuronas.
Se utiliza más comúnmente para ver cómo la entrada a un
red afecta a una salida particular – por ejemplo, en RL – pero también se puede aplicar a las activaciones de capas ocultas . Aunque hay muchos enfoques a la atribución que podríamos haber utilizado, elegimos el método de gradientes integrados. en el Apéndice B cómo aplicamos este método una capa oculta, y cómo la atribución de función de valor positivo puede ser considerada como “buena
las noticias” y la atribución de función de valor negativo pueden ser “malas noticias”. Reducción de la dimensión para la atribución
Se demostró anteriormente que un método de reducción de dimensionalidad conocido como factorización matricial no negativa (NMF) podría ser aplicado a la
canales de activaciones para producir direcciones significativas en el espacio de activación. Encontramos que es aún más eficaz aplicar
NMF no a las activaciones, sino a las atribuciones de la función de valor Como antes, obtenemos las instrucciones NMF por muestreo unos pocos miles
observaciones poco frecuentes del agente que juega el juego, computando las atribuciones, aplanando las dimensiones espaciales en
la dimensión del lote, y la aplicación de NMF. (trabajando en torno al hecho de que NMF sólo se puede aplicar a matrices no negativas
La solución es separar las partes positivas y negativas de las atribuciones y concatenarlas a lo largo del lote. dimensión. También podríamos haber concatenado a lo largo de la dimensión del canal. ) Ambos métodos tienden a producir direcciones NMF que
están cerca de uno-caliente, y por lo tanto se puede pensar en la elección de los canales más relevantes. Sin embargo, cuando se reduce a un pequeño
número de dimensiones, utilizando las atribuciones suele elegir características más destacadas, ya que la atribución no tiene en cuenta
sólo lo que las neuronas responden, pero también si su respuesta importa. A continuación, después de aplicar NMF a las atribuciones, las visualizamos asignando un color diferente a cada uno de los resultados
Canales. Superponemos estas visualizaciones sobre las observaciones y contextualizamos cada canal mediante la visualización de características, utilizando la visualización basada en el ejemplo del conjunto de datos. Esto nos proporciona una versión básica de nuestra interfaz, que permite ver el efecto de las características principales en diferentes posiciones espaciales. Positivas (buenas noticias) Negativas (malas noticias) Legenda (atrás para aislar). Buzzsaw Enemigo de moneda obstáculo Movimiento Izquierda Agente O enemigo Atribución de la función móvil para una observación seleccionada utilizando la capa 2b de nuestro modelo CoinRun, reducida a 4 canales que utilizan NMF basado en atribución.
Las visualizaciones de características basadas en el conjunto de datos de estas direcciones revelan más características que las visualizaciones de las primeras 4 direcciones NMF basadas en activación anterior. Para la versión completa de nuestra interfaz, simplemente repetimos esto para toda una trayectoria del agente que juega el juego. Incluimos controles de video, una vista cronológica de observaciones comprimidas e información adicional, como salidas del modelo y acciones de muestreo. Juntas permiten explorar y entender fácilmente la trayectoria. Debate sobre la atribución de créditos. Las atribuciones para nuestro modelo CoinRun presentan algunas propiedades interesantes que serían inusuales para un modelo ImageNet. La atribución tiende a concentrarse en un número muy pequeño de posiciones espaciales y canales (pos-NMF). En la figura anterior, los 10 pares de canales de posición superior representan más del 80% de la atribución absoluta total. Explicamos por nuestra hipótesis previa de que el modelo identifica objetos mediante la selección de ciertas pequeñas configuraciones de píxeles. Debido a esta escasez, suavizamos la atribución sobre las posiciones espaciales cercanas para la versión completa de nuestra interfaz, de modo que la cantidad de espacio visual ocupado se puede utilizar para juzgar la fuerza de atribución. Precisión con magnitudes. La atribución tiende a concentrarse en un número muy pequeño de posiciones espaciales y canales (pos-NMF). Esto podría ser explicable por nuestra hipótesis anterior de que el modelo identifica objetos mediante la selección de ciertas pequeñas configuraciones de píxeles. Debido a esta escasez, suavizamos la atribución sobre las posiciones espaciales cercanas para la versión completa de nuestra interfaz, de modo que el espacio visual ocupado se pueda utilizar para juzgar la fuerza de atribución. La precisión con las magnitudes.
Este es un signo inesperado. La asignación de la función del valor generalmente tiene el signo que uno esperaría: positivo para monedas, negativo para enemigos y así sucesivamente. Sin embargo, a veces no es así. Por ejemplo, en la figura superior, el canal rojo que detecta obstáculos se sierra tiene asignación tanto positiva como negativa en dos posiciones espaciales vecinas hacia la izquierda. Nuestra mejor suposición es que este fenómeno es un resultado de la colinealidad estadística, causada por ciertas correlaciones en el generación de niveles de procedimiento junto con el comportamiento del agente. Estos podrían ser visuales, tales como correlaciones entre píxeles, o más abstractos, tales como monedas y paredes largas que aparecen al final de cada nivel. Como un ejemplo de juguete, suponiendo que la función de valor debe aumentar un 2% cuando el final del nivel se hace visible, el modelo podría aumentar la función de valor en 1% para las monedas y 1% para las paredes largas, o en 3% para las monedas y −1% para las paredes largas, y el efecto sería similar. La asignación de función de valor generalmente tiene el signo que uno esperaría: positivo para las monedas, negativo para los enemigos, y así sucesivamente. Sin embargo, Por ejemplo, en la figura superior, el canal rojo que detecta los obstáculos de la sierra se sierra tiene ambos atributos positivos e inversos en dos posiciones espaciales vecinas hacia la izquierda. Nuestra mejor hipótesis es que este fenómeno es un resultado de la colinealidad estadística, causada por ciertas correlaciones en el generación de niveles de procedimiento junto con el comportamiento del agente. Estos podrían ser visuales, como las correlaciones entre píxeles cercanos, o más abstractos, como tanto monedas y paredes largas que aparecen al final de cada nivel. la red para obtener valores extremos, la atribución puede comportarse especialmente extrañamente. Por ejemplo, en el marco de la alucinación de la sierra de zumbido,
La mayoría de las características tienen una cantidad significativa de atribución positiva y negativa. No tenemos una buena explicación para esto,
pero tal vez las características están interactuando de maneras más complicadas de lo habitual. Además, en estos casos a menudo hay un
componente de la atribución que se encuentra fuera del espacio extendido por las direcciones NMF, que mostramos como un “residual” adicional
función.
Esto podría ser porque cada marco se pondera igualmente al calcular NMF, por lo que los marcos atípicos tienen poca influencia sobre
las direcciones NMF. Estas consideraciones sugieren que puede ser necesario tener cierto cuidado al interpretar las atribuciones. Preguntas para futuras investigaciones
La hipótesis de la diversidad
Validez. ¿La hipótesis de la diversidad se mantiene en otros contextos, tanto dentro como fuera del aprendizaje de refuerzo? a la generalización. ¿Cuál es la relación de tres vías entre la diversidad, las características interpretables y la generalización? ¿Características interpretables indican que un modelo fallará en generalizar de ciertas maneras? La generalización se refiere implícitamente a un
distribución subyacente – ¿cómo se debe elegir esta distribución? Por ejemplo, para medir la generalización de los modelos CoinRun
a un número limitado de niveles, se utilizó la distribución en todos los niveles posibles generados por el procedimiento. Sin embargo, para
formalizar el sentido en el que CoinRun no es diverso en sus patrones visuales o reglas dinámicas, uno necesitaría una distribución sobre
de una clase más amplia de juegos. Caveats. ¿Cómo se interpretan las características afectadas por otros factores, como la elección de
tarea o algoritmo, y cómo interactúan con la diversidad? Especulativamente, hacer modelos suficientemente grandes obtener características interpretables
a través del fenómeno de doble descenso , incluso en ausencia de diversidad ? Cuantificación . ¿Podemos predecir cuantitativamente cuánto
diversidad es necesaria para las características interpretables, tal vez utilizando métricas de generalización?
¿Podemos ser precisos sobre lo que se entiende por
¿Una “característica interpretable” y un “nivel de abstracción”? Interpretabilidad en ausencia de diversidad
Pervasividad de las características no-diversas. Hacer “características no-diversas”, por lo que nos referimos a las características difíciles de interpretar que tienden a
surgen en ausencia de diversidad, permanecen cuando la diversidad está presente? ¿Hay una conexión entre estas características no-diversas
y las “características no-robustas” que se han postulado para explicar ejemplos contradictorios ? Enfrentándose a niveles no-diversos de
abstracción. ¿Hay niveles de abstracción en los que incluso amplias distribuciones como ImageNet siguen siendo no-diversas, y cómo podemos
¿Mejor interpretar modelos en estos niveles de abstracción? Visualización de características basada en grados. la visualización se descompone en ausencia de diversidad, y se puede hacer para trabajar utilizando la robustez de la transformación,
regularización, aumento de datos, entrenamiento contradictorio u otras técnicas? Qué propiedad de la optimización conduce a la
las nubes de colores extremos? Fiabilidad de los ejemplos de dataset y la atribución. Cuán confiable y confiable podemos hacer muy
versiones muy regularizadas de visualización de características, como las basadas en ejemplos de conjuntos de datos? La visualización puede ser poco confiable ya que no se separa lo que causa cierto comportamiento de lo que simplemente explica este comportamiento. ¿Cómo explicamos el extraño comportamiento de los atributos y cuánto confiable es? La interpretabilidad en el marco del aprendizaje automático por recompensa (RL) tiene características no visuales e intangibles. ¿Qué son los mejores métodos para interpretar modelos con entradas no visuales?
También pueden tener características abstractas interpretables, como las relaciones entre objetos o eventos anticipados: cualquier método de generación de ejemplos es suficiente para entender esto, ¿o necesitamos un enfoque completamente nuevo? Para modelos con memoria, ¿cómo podemos mejorar su confiabilidad. ¿Cómo podemos identificar, entender y corregir los fracasos raros y otros errores? ¿Podemos realmente mejorar los modelos mediante la edición de modelos en lugar de simplemente deteriorarlos? Modificar el entrenamiento. ¿Cómo podemos crear modelos RL para hacerlos más interpretables sin un costo importante en rendimiento, como por ejemplo alterando las arquitecturas o agregando pérdidas predictivas auxiliares? Aprovechando el entorno. ¿Cómo podemos enriquecer las interfaces usando datos específicos del RL, como trayectorias de interacción entre el agente y su medio ambiente, distribuciones estatales y estimaciones de ventajas? ¿Cuáles son los beneficios de la incorporación de la interacción usuario-medio ambiente, por ejemplo, para la exploración de contrafactuales? Lo que nos gustaría ver en la investigación y por qué Estamos motivados a estudiar la interpretabilidad del RL por dos razones. Para poder interpretar modelos de RL. RL se puede aplicar a una gran variedad de tareas, y parece probable que sea parte de sistemas de IA cada vez más influyentes. Por lo tanto, es importante poder examinar los modelos de RL y entender cómo esto también puede beneficiar la investigación en RL mediante una mejor comprensión de las dificultades de diferentes algoritmos y ambientes. La regla de la recompensa (RL) puede aplicarse a una gran variedad de tareas y parece probable que forme parte de sistemas de inteligencia artificial (IA) cada vez más influyentes. Por lo tanto, es importante poder examinar los modelos de RL y comprender cómo pueden fallar.
Esto también puede beneficiar a la investigación de RL a través de una mejor comprensión de las trampas de diferentes algoritmos y entornos. Los modelos de RL plantean una serie de desafíos distintivos para las técnicas de interpretación. CoinRun cruza el límite entre memorización y generalización, lo que los hace útiles para estudiar la hipótesis de la diversidad e ideas relacionadas. Creemos que las grandes redes neuronales son actualmente el tipo de modelo más probable para ser utilizado en IA altamente capaz e influyente. Contrariamente a la percepción tradicional de las redes neuronales como cajas negras, pensamos que hay una lucha contra la posibilidad de entender clara y completamente el comportamiento, incluso de redes muy grandes. Por lo tanto, los investigadores están excitados por la investigación de la interpretabilidad de la red neuronal en función de los siguientes criterios: escalabilidad, fiabilidad y transparencia. Aunque no nos contemos la historia completa, al menos no deben ser sesgados en ninguna forma. Por ejemplo, no deberían utilizar un objetivo sesgado que conduzca a explicaciones inexactas pero sonadas, ni depender de modelos que son sesgos. Si el modelo nos proporciona información falsa en gran medida, la exhaustividad puede ser imposible a escala, pero debemos luchar por técnicas que expliquen todas las características esenciales de nuestros modelos. Si hay límites teóricos a la exhaustividad, debemos entender esto. Esto puede ser imposible a escala, pero debemos esforzarnos por encontrar técnicas que expliquen todas las características esenciales de nuestros modelos. Si hay límites teóricos a la exhaustividad, debemos entender estos. Por costo bajo, nuestras técnicas deben ser relativamente baratas computacionalmente y no ser significativamente más caras que entrenar el modelo. Esperamos no necesitemos entrenar modelos diferentes para ser interpretables, pero si lo hacemos, debemos tratar de minimizar tanto el gasto computacional como cualquier coste de rendimiento, para que los modelos interpretables sean atractivos para su uso práctico. Una de las razones por las que nos enfatizamos en la diversidad es porque puede aumentar la exhaustividad.
Cuando la diversidad está presente, entonces nuestras técnicas actuales no son exhaustivas y pueden carecer de alguna característica. El desarrollo de herramientas para entender las características no diversas podría iluminar si esto es un problema significativo. Creemos que puede haber un avance considerable en la simple aplicación de técnicas existentes, atendiendo al detalle, y que esta fue la mentalidad con la que nos acercamos al proyecto inicial. Si la hipótesis de la diversidad es correcta, entonces esto puede ser más fácil a medida que entrenemos a nuestros modelos para realizar tareas más complejas. La aparición de nuevas especies podría significar mucho que podamos recoger si examinamos detenidamente las criaturas.