Los métodos de atribución por gradiente son una forma de explicar modelos profundos basados en gradientes. Estos métodos necesitan elegir un hiperparámetro, el cual se refiere a un parámetro adicional que no se establece inicialmente en el algoritmo pero se ajusta durante la ejecución. Es importante entender cuál es su significado y cuán importante es, así que en este artículo examinamos estas preguntas utilizando redes neuronales convolucionales de clasificación de imágenes como caso de estudio. Discutimos varias formas diferentes de elegir una entrada de referencia y los supuestos implícitos en cada línea base.
Aunque aquí nos centramos en métodos de atribución por gradiente, nuestra discusión sobre las entradas de referencia está muy relacionada con el concepto de falta en el espacio de características - un concepto fundamental para comprender la importancia del hiperparámetro. Como estudio de caso, nos centraremos en los modelos de clasificación de imágenes para visualizar los efectos de la entrada de referencia. Vamos a explorar varias notiones de falta, incluyendo tanto las entradas de referencia constantes como las líneas de base definidas por el usuario, y luego discutiremos diferentes maneras de comparar las opciones de base. Nos centramos en la clasificación de imágenes ya que nos permite visualizar gradientes integrados atribuciones e ir Comparándolos con nuestra intuición sobre qué píxeles creemos que deberían ser importantes. En el conjunto de verificación ImageNet, Inception V4 obtiene una precisión superior al 80%. Descargamos pesos de TensorFlow-Slim y visualizamos las predicciones de la red en cuatro imágenes diferentes del conjunto de verificación. A la derecha: los logits predichos por la red para la imagen original, la red clasifica correctamente todas las imágenes con una alta confianza. A la izquierda: atribuciones de píxeles de la red Inception V4 utilizando gradientes integrados. Puede observar que algunas atribuciones resaltan píxeles que no parecen importantes en relación con la etiqueta de clase verdadera. Aunque los modelos de última generación funcionan bien con datos no vistos, los usuarios pueden seguir preguntándose cómo se dio cuenta el modelo y qué objeto estaba en la imagen. Existen muchos métodos para interpretar modelos de aprendizaje automático, como métodos para visualizar y entender cómo la red representa las entradas internamente, métodos de atribución de características que asignan una puntuación importante a cada característica para una entrada específica y métodos de excelencia que tienen como objetivo destacar qué regiones de la imagen el modelo tomó en consideración. Estas categorías no son mutuamente excluyentes: por ejemplo, un método de atribución puede ser visualizado como un método de salud, y un método de salud puede asignar una puntuación importante a cada píxel individual. En este artículo centraremos nuestra atención en los gradientes integrados del método de atribución de características. Formalmente, dada una entrada objetivo x y una red función f, los métodos de atribución de funciones asignan una puntuación de importancia φi(f, x) al valor de la característica i que representa cuánto esa característica añade o resta a la salida de la red. Un gran positivo o negativo φi(f, x) indica que la característica aumenta o disminuye fuertemente la salida de la red respectivamente, mientras que una puntuación de importancia cerrada a cero indica que la característica en cuestión no influyó en la salida.
Para trazar las atribuciones, seguimos las mismas opciones de diseño que . Es decir, trazamos el valor absoluto de
la suma de las atribuciones de las características a través de la dimensión del canal, y las atribuciones de las características de la tapa en el percentil 99 para evitar
Atribuciones de magnitud que dominan el esquema de color. Una mejor comprensión de los grados integrados A medida que mira a través de la
mapas de atribución, puede que encuentre algunos de ellos poco intuitivos. ¿Por qué la atribución para “goldfinch” resalta el verde
¿Por qué la atribución a la “ballena asesina” no resalta las partes negras de la ballena asesina? Para entender mejor
Este comportamiento, necesitamos explorar cómo generamos las atribuciones de las características. Formalmente, los gradientes integrados definen la importancia
valor para el valor de la característica \(i\)th de la siguiente manera: $$\phi_iIG}(f, x, x’) = \overbrace{(x_i - x’_i)text{Diferencia de
línea de base \tiempos \underbrace{\int_{\alpha = 0 1}_{De la línea de base a la entrada... \overbrace{\frac{\delta f(x’ + \alpha (x -
x’))•delta x_i} d \alphatext{...acumula gradientes locales• $$ donde \(x\) es la entrada actual, \(f\) es el modelo
función y \(x’\) es alguna entrada de base que se supone que representa “ausencia” de entrada de característica. El subíndice \(i\) se utiliza para
Denotar indexación en la función \(i\)th. Como la fórmula anterior dice, los gradientes integrados obtienen puntuaciones de importancia por
la acumulación de gradientes en las imágenes interpoladas entre el valor de referencia y la entrada actual. ¿Sentido? Recordemos que el gradiente de una función representa la dirección del aumento máximo. El gradiente nos está diciendo que
pixeles tienen la pendiente local más empinada con respecto a la salida. Por esta razón, el gradiente de una red en la entrada era uno
Desafortunadamente, hay muchos problemas con el uso de gradientes para interpretar los neuronales profundos. redes . Un problema específico es que las redes neuronales son propensas a un problema conocido como saturación: los gradientes de entrada
las características pueden tener pequeñas magnitudes alrededor de una muestra, incluso si la red depende en gran medida de esas características. función de red se aplana después de que esas características alcanzan una cierta magnitud.
Intuitivamente, cambiando los píxeles en una imagen por un
cantidad pequeña típicamente no cambia lo que la red ve en la imagen. Podemos ilustrar la saturación trazando la red
salida en todas las imágenes entre la línea de base \(x’\) y la imagen actual. La figura de abajo muestra que la salida de red para
la clase correcta aumenta inicialmente, pero luego se aplana rápidamente. Una parcela de salidas de red en \(x’ + \alpha (x - x’)\). Note que la salida de red satura la clase correcta a pequeños valores de \(\alpha\). Para el momento \(\alpha = 1\), la
Lo que realmente queremos saber es cómo nuestra red consiguió de predecir esencialmente nada en
\(x’\) a estar completamente saturado hacia la clase de salida correcta en \(x\). ¿Qué píxeles, cuando se escala a lo largo de esta ruta, la mayoría
Esto es exactamente lo que nos da la fórmula para gradientes integrados. Por
integración sobre un camino, gradientes integrados evita problemas con gradientes locales saturados. Podemos romper el original
ecuación hacia abajo y visualizarla en tres partes separadas: la imagen interpolada entre la imagen de base y la imagen de destino,
los gradientes en la imagen interpolada, y la acumulación de muchos de tales gradientes sobre \(\alpha\). $ \int_{\alpha’ = 0alpha}
\underbrace{(x_i - x’_i) \times \frac{\delta f(\text{ •overbrace{x’ + \alpha’ (x - x’)text{(1): Interpolated Imagetext{
})} {\delta x_i} d \alpha’} {\texto{(2): Gradientes en la Interpolation} = \overbrace{\phi_iIG}(f, x, x»; \alpha)text{(3):
Gradientes acumulados hasta â ¬alfa} $ Visualizamos estas tres piezas de la fórmula a continuación. Tenga en cuenta que en la práctica, utilizamos un
suma discreta aproximación de la integral con 500 puntos espaciados linealmente entre 0 y 1. Gradientes integrados, visualizados. En el gráfico de líneas, la línea roja se refiere a la ecuación (4) y la línea azul se refiere a \(f(x) - f(x’)\). Los gradientes se acumulan a pequeños valores de \(\alpha\). Hemos omitido casualmente una parte de la fórmula: el hecho de que
se multiplican por una diferencia con respecto a una línea de base.
Aunque no vamos a entrar en detalles aquí, este término cae porque nos preocupamos por el
derivado de la función de red \(f\) con respecto a la ruta que estamos integrando encima. Es decir, si nos integramos sobre el
línea recta entre \(x’\) y \(x\), que podemos representar como \(\gamma(\alpha) = x’ + \alpha(x - x’)\), entonces: $$
\frac{\delta f(\gamma(\alpha))\delta \alpha} = \frac{\delta f(\gamma(\alpha))\delta \gamma(\alpha)} \tiempos \frac{\delta
\gamma(\alpha)đdelta \alpha} = \frac{\delta f(x’ + \alpha’ (x - x’))•delta x_i} \times (x_i - x’_i) $$ La diferencia de
término de referencia es la derivada de la función de ruta \(\gamma\) con respecto a \(\alpha\). La teoría detrás de integrado
los gradientes se discuten con más detalle en el artículo original. En particular, los autores muestran que los gradientes integrados satisfacen
varias propiedades deseables, incluyendo el axioma de integridad: $ \textrm{Axioma 1: Completitud \sum_i \phi_iIG}(f, x, x’)
= f(x) - f(x’) $ Tenga en cuenta que este teorema tiene para cualquier línea de base \(x’\). La plenitud es una propiedad deseable porque establece
que las puntuaciones de importancia para cada característica desglosan la salida de la red: cada puntuación de importancia representa que
la contribución individual de la característica a la salida de la red, y añadido cuando juntos, recuperamos el valor de la salida en sí. no es esencial para nuestra discusión aquí, podemos probar que los gradientes integrados satisfacen este axioma utilizando el fundamental
teorema de cálculo para integrales de trayectoria. Dejamos una discusión completa de todas las propiedades que los gradientes integrados satisfacen
al documento original, ya que son independientes de la elección de la línea de base. El axioma de la integridad también proporciona una manera de
En la práctica, no podemos calcular el valor exacto de la integral. En su lugar, utilizamos una suma discreta
aproximación con \(k\) puntos linealmente espaciados entre 0 y 1 para algún valor de \(k\). Si sólo elegimos 1 punto para aproximar
la integral, que se siente como muy pocos. ¿Es 10 suficiente? 100? Intuitivamente 1.000 puede parecer suficiente, pero podemos estar seguros? propuesto en el documento original, podemos utilizar el axioma de integridad como un control de cordura en la convergencia: ejecutar gradientes integrados
con \(k\) puntos, medir \(sum_i \phi_iIG}(f, x, x’) - (f(x) - f(x’))), y si la diferencia es grande, volver a ejecutar con un
más grande \(k\) Por supuesto, esto plantea una nueva pregunta: ¿qué es “grande” en este contexto? Una heurística es comparar la
diferencia con la magnitud de la propia salida.
. El gráfico de línea de arriba traza la siguiente ecuación en rojo: $$
\underbrace{sum_i \phi_iIG}(f, x, x»; \alpha)}_{text{(4): Suma de Gradientes Cumulativos hasta {alfa} $$ Es decir, suma todo
Esto nos permite compararlo con la línea azul, que traza \(f(x) - f(x’)\). Podemos ver
que con 500 muestras, parecemos (al menos intuitivamente) haber convergido. Pero este artículo no se trata de cómo conseguir buenos
convergencia - se trata de líneas de base! Con el fin de avanzar en nuestra comprensión de la línea de base, vamos a necesitar una breve excursión en
el mundo de la teoría del juego. Teoría del juego y faltas Gradientes integrados se inspira en el trabajo de juego cooperativo
teoría, específicamente el valor Aumann-Shapley . En la teoría de juego cooperativo, un juego no atómico es una construcción utilizada para modelar
sistemas económicos a gran escala donde hay suficientes participantes que es deseable modelarlos continuamente. Aumann-Shapley
los valores proporcionan una forma teóricamente fundamentada de determinar cuánto contribuyen los diferentes grupos de participantes al sistema. En teoría de juegos, una noción de falta está bien definida. Juegos se definen en coaliciones - conjuntos de participantes - y para cualquier
la coalición específica, un participante del sistema puede estar dentro o fuera de esa coalición. El hecho de que los juegos pueden ser evaluados en
coaliciones es la base del valor de Aumann-Shapley. Intuitivamente, calcula cuánto valor un grupo de participantes añade
al juego computando cuánto aumentaría el valor del juego si añadimos más de ese grupo a cualquier coalición dada. Por desgracia, la falta es una noción más difícil cuando hablamos de modelos de aprendizaje automático. cuán importante es la función \(i\)th, queremos ser capaces de calcular cuánto aumentaría la salida de la red si
aumenta sucesivamente la "presencia" de la función \(i\)th. Pero, ¿qué significa esto, exactamente?
La característica de la ausencia de un determinado elemento requeriría que empecemos con el atributo de estar 'falta' y establezcamos una forma de interpolar entre el estado 'falta' y su valor actual conocido. Esperamos que esto suene terriblemente familiar. Las gradientes integradas poseen una línea base de entrada exactamente por esta razón: para modelar una característica ausente. Sin embargo, ¿cómo debemos elegir la entrada de base con el fin de mejorar representarla? A menudo se elige una entrada básica como vector de todos ceros. Pero considere el siguiente escenario: usted ha aprendido un modelo en un conjunto de datos de salud y una de las características es el nivel de azúcar en sangre. Correctamente hemos aprendido que los niveles de azúcar excesivamente bajos en sangre, correspondientes a la hipoglucemia, son peligrosos. ¿El nivel cero parece una buena opción para representar la ausencia? El problema radica en el hecho de que los valores fijos de las características pueden tener significado no deseado. El problema se agrava aún más al considerar la diferencia con respecto al valor de referencia x_i - x’_i. Supongamos un experimento mental: un paciente tiene un nivel de azúcar en sangre de cero. Para entender por qué nuestro modelo de aprendizaje automático piensa que este paciente está en riesgo alto, se realizan gradientes integrados en este punto de datos con una base de referencia del vector de todos ceros. El nivel de azúcar en sangre del paciente tendría poca relevancia característica, ya que x_i - x’_i = 0. Esto es a pesar del hecho que un nivel de azúcar en sangre cero sería mortal! Encontramos problemas similares al pasar al dominio de la imagen.
Una imagen negra continua sirve como base, los gradientes integrados no harán destacar a los píxeles negros como importantes, aún si los píxeles negros son en general cruciales para el método. Es ciego al color utilizado como una línea de referencia, lo que ilustramos con la figura siguiente. Tenga en cuenta que esto fue reconocido por los autores originales y es central para la definición de una línea de referencia: no queremos destacar características faltantes como importantes mediante los gradientes integrados! Pero entonces, cómo evitar darle poca importancia al color de la línea de referencia? Haga clic en la imagen segmentada para elegir un color diferente como una entrada de línea de referencia ('x’). Tenga en cuenta que los píxeles del color de la línea de referencia no serán destacados como importantes, aún si forman parte del objeto principal en el Alternativas de líneas de referencia básicas Se está claro que cualquier línea de referencia de color constante tendrá este problema. ¿Alternativas? En esta sección, comparamos cuatro opciones alternativas para una línea de referencia en el dominio de la imagen. Importante señalar que este artículo no es el primer artículo en señalar la dificultad de elegir una línea de referencia. En los artículos, incluido el documento original, se examinan y comparan varias nociones de “falta”, ambas en el contexto de la literatura existente. Sin embargo, la elección de la base de referencia adecuada sigue siendo un reto. Aquí vamos a presentar varios opciones para las líneas de referencia: algunas basadas en la literatura existente, otras inspiradas en los problemas discutidos anteriormente. El problema con la distancia máxima de referencia es que no realmente refleja falta. En realidad contiene una gran cantidad de información sobre la imagen original, lo que significa que ya no estamos explicando nuestra predicción relativa a la falta de información. Para preservar mejor el concepto de falta, nos inspiramos en métodos específicos, como un enfoque borroso de la imagen para representar la información faltante.
Esta abordaje es atractivo porque captura la notión de falta en las imágenes de una manera intuitiva muy humana. En la figura de abajo, este método se denota como borroso. Permite jugar con el parámetro del suavizado utilizado para definir este método. Este método borroso está sesgado hacia los datos de alta frecuencia. Los píxeles que son muy similares a sus vecinos pueden obtener menos importancia que los píxeles que son muy diferentes de sus vecinos, porque se define este método como una media ponderada de un pixel y sus vecinos. Para superar esto, podemos de nuevo tomar inspiración de ambos y el papel original de gradientes integrados. Otra manera de definir la falta es simplemente muestrear una imagen uniforme aleatoria en el píxel válido. La distribución uniforme no es la única distribución de la que podemos extraer ruido aleatorio; discutimos SmoothGrad (que abordaremos en la siguiente sección) y el uso frecuente de una distribución gaussiana centrada en la imagen actual con varianza \\sigma. Podemos utilizar la misma distribución como una línea de base para definir nuestras predicciones. Puede modificar la desviación estándar de la distribución σ utilizando el deslizador. Una cosa que debe tener en cuenta aquí es que cortamos la línea base gaussiana dentro del rango válido de píxeles, lo que significa que a medida que σ se acerca al infinito, la línea base gaussiana se aproxima a la línea base uniforme. Comparando opciones de base alternativas. Para las líneas de base borrosas y gaussianas, puede variar el parámetro σ, que se refiere a la anchura del núcleo de suavizado y a la desviación estándar del ruido, respectivamente. Puede tener dudas sobre esas dos últimas líneas de base, y sería correcto hacerlo. Una línea de base generada aleatoriamente puede padecer el mismo problema de ceguera que una imagen constante puede.
Si dibujamos una imagen aleatoria uniforme como línea de base, hay una pequeña probabilidad de que un pixel de la línea base esté muy cerca de su correspondiente pixel de entrada en valor. El mapa de excelencia resultante puede tener artefactos debido a la línea de base dibujada al azar. ¿Puede solucionar este problema? Tal vez sea más natural hacerlo promediando sobre varias líneas de base diferentes, como se discutió en . Aunque hacerlo puede no ser particularmente natural para imágenes de color constante (cómo y por qué elegir los colores a promediar), es una idea muy natural para líneas de base extraídas de distribuciones. Simplemente extraiga más muestras de la misma distribución y promedie los puntajes de importancia de cada muestra. Suponiendo una distribución En este punto, vale la pena conectar nuevamente la idea de promedio sobre varias líneas de base a la definición original de gradientes integrados. Cuando promediamos sobre varias basales de la misma distribución D, estamos tratando de utilizar la misma distribución como nuestra línea de base. distribución para definir la noción de falta: si no conocemos un valor de píxel, no suponemos que su valor sea 0 - en su lugar nosotros
asumir que tiene alguna distribución subyacente \(D\). Formalmente, dada una distribución de línea de base \(D\), nos integramos sobre todo
posibles líneas de base \(x’ \in D\) ponderadas por la función de densidad \(p_D\): $ \phi_i(f, x) =
\underbrace{\int_{x’_{texto{Integrar sobre las líneas de base... \bigg( \overbrace{\phi_iüIG}(f, x, x’ )texto{gradientes integrados
con línea de base } x } \times \underbrace{p_D(x’) dx}}_{text{...y peso por densidad \bigg) $$ En términos de falta,
Suponiendo que una distribución podría intuitivamente sentirse como una suposición más razonable que asumir un valor constante. esto no resuelve el problema: en lugar de tener que elegir una línea de base \(x’\), ahora tenemos que elegir una distribución de línea de base
\(D\). ¿Hemos simplemente pospuesto el problema? Discutiremos una manera teóricamente motivada de elegir \(D\) en un próximo
sección , pero antes de que lo hagamos , vamos a tomar un breve aparte para hablar de cómo calcular la fórmula anterior en la práctica , y una conexión
a un método existente que surge como resultado. Expectativas, y Conexiones a SmoothGrad Ahora que hemos introducido un
segunda integral en nuestra fórmula, necesitamos hacer una segunda suma discreta para aproximarla, lo que requiere un adicional
hyperparameter: el número de líneas de base a la muestra. En , Erion et al.
hacen la observación de que ambas integrales se pueden pensar en
como expectativas: la primera integral como una expectativa sobre \(D\), y la segunda integral como una expectativa sobre el camino
entre \(x’\) y \(x\). Esta formulación, llamada gradientes esperados, se define formalmente como: $$ \phi_i}EG}(f, x; D) =
\underbrace{\mathop{\mathbb{E_{x’ \sim D, \alpha \sim U(0, 1)__ {\text{Expectativa sobre \(D\) y la ruta... \bigg[
\overbrace{(x_i - x’_i) \times \frac{\delta f(x’ + \alpha (x - x’))
pixeles \bigg] $ Los gradientes esperados y los gradientes integrados pertenecen a una familia de métodos conocidos como “atribución de ruta”
métodos” porque integran gradientes en uno o más caminos entre dos entradas válidas. Los gradientes integrados utilizan rutas en línea recta, pero uno puede integrarse sobre rutas que no son rectas también. Para calcular los gradientes esperados en la práctica, utilizamos la siguiente fórmula: $$
\hat{phi}_iEG}(f, x; D) = \frac{1k} \sum_{j=1k (x_i - x’^j_i) \times \frac{delta f(x’^j + \alphaj} (x - x’^j)
x_i} $$ donde \(x’^j\) es la muestra \(j\) de \(D\) y \(\alpha^j\) es la muestra \(j\) de la distribución uniforme
Ahora supongamos que usamos la línea de base gaussiana con varianza \(\sigma^2\). Entonces podemos reescribir la fórmula para
gradientes esperados de la siguiente manera: $ \hat{phi}_i{EG}(f, x; N(x, \sigma^2 I)) = \frac{1k} \sum_{j=1k \epsilon_{\sigmaj}
\times \frac{\delta f(x + (1 - \alpha^j)\epsilon_{\sigmaj})\delta x_i} $ $ donde \(\epsilon_{\sigma \sim N(\bar{0},
\sigma^2 I)\) Para ver cómo llegamos a la fórmula anterior, primero observe que $ \begin{alineado} x’ \sim N(x, \sigma^2 I) &= x +
Ahora tenemos: $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $
\begin{alineado} x’ + \alpha(x - x’) &= ♥ x + \epsilon_{\sigma} + \alpha(x - (x + \epsilon_{\sigma}) &= ♥ x + (1 -
\alpha)\epsilon_{\sigma} \end{alineado} $La fórmula anterior simplemente substituye la última línea de cada bloque de ecuación en el
fórmula. . Esto parece muy familiar a un método existente llamado SmoothGrad . Si usamos la entrada (gradientes \(\times\)
imagen) variante de SmoothGrad SmoothGrad es un método diseñado para afilar los mapas de salubridad y estaba destinado a ser ejecutado en la parte superior de un
La idea es simple: en lugar de ejecutar un método de salubridad una vez en una imagen, primero añada un poco de gaussian
ruido a una imagen, a continuación, ejecutar el método de excelencia. Hacer esto varias veces con diferentes dibujos de ruido gaussiano, a continuación, promedio de la
resultados. Multipying los gradientes por la entrada y el uso de que como un mapa de relevancia se discute con más detalle en el original
Papel SmoothGrad. , entonces tenemos la siguiente fórmula: $ \phi_iSG}(f, x; N(\bar{0}, \sigma^2 I)) = \frac{1k} \sum_{j=1k
(x + \epsilon_{\sigmaj}) \times \frac{\delta f(x + \epsilon_{\sigmaj})\delta x_i} $$ Podemos ver que SmoothGrad y
Los gradientes esperados con un basal gaussiano son bastante similares, con dos diferencias clave: SmoothGrad multiplica el gradiente por
\(x + \epsilon_) mientras que los gradientes esperados se multiplican por \(\epsilon_), y mientras que los gradientes esperados
muestras uniformemente a lo largo de la ruta, SmoothGrad siempre muestra el punto final \(\alpha = 0\). Cuando asumimos la distribución gaussiana anterior como nuestra base,
Estamos asumiendo que cada uno de nuestros valores de píxel se extrae de un gaussiano independientemente de los otros valores de píxel. está lejos de ser cierto: en imágenes, hay una rica estructura de correlación entre píxeles cercanos. Una vez que su red sabe el valor de un
píxel, realmente no necesita utilizar sus vecinos inmediatos porque es probable que esos vecinos inmediatos tienen muy
intensidades similares. Suponiendo que cada píxel se extrae de un gaussiano independiente rompe esta estructura de correlación.
que los gradientes esperados tabulan la importancia de cada píxel independientemente de los otros valores de píxel. mapas serán menos ruidosos y mejor destacar el objeto de interés porque ya no estamos permitiendo que la red de confiar en
sólo píxel en un grupo de píxeles correlacionados. Esta puede ser la razón por la que SmoothGrad es suave: porque está asumiendo implícitamente la independencia
En la siguiente figura, puede comparar gradientes integrados con una única línea de base dibujada aleatoriamente con los esperados. gradientes muestreados sobre una distribución. Para la línea de base gaussiana, también puede cambiar la opción SmoothGrad para usar la
Fórmula de SmoothGrad arriba. Para todas las figuras, \(k=500\). la misma distribución. Utilice el botón “Multi-Referencia” para alternar entre los dos. Para la línea de base gaussiana, también puede
alternar el botón “Smooth Grad” para alternar entre gradientes esperados y SmoothGrad con gradientes * entradas. Distribución de entrenamiento ¿Es realmente razonable asumir la independencia entre píxeles mientras se generan mapas de excelencia? aprendizaje supervisado, hacemos la suposición de que los datos se extraen de alguna distribución \(D_{\text{data). que los datos de formación y pruebas comparten una distribución común, subyacente es lo que nos permite hacer el aprendizaje supervisado y hacer
En vista de esta suposición, no necesitamos modelar la falta usando un gaussiano o un uniforme. distribución: podemos utilizar \(D_{\text{data) para modelar la falta directamente. El único problema es que no tenemos acceso a
la distribución subyacente. Pero debido a que esta es una tarea de aprendizaje supervisado, tenemos acceso a muchos
la distribución subyacente: los datos de entrenamiento!
Simplemente podemos utilizar muestras de los datos de entrenamiento como sorteos aleatorios de
\(D_{\text{data). Esto nos lleva a la variante de gradientes esperados utilizados en , que de nuevo visualizamos en tres partes: $$
\frac{1\k} \sum_{j=1\k \underbrace{(x_i - x’^j_i) \times \frac{\delta f(\text{ } \overbrace{x’^j + \alphaj} (x -
x’^j)texto{(1): Imagen interpolada \text{ })
\overbrace{\hat{\phi_iEG}(f, x, k; D_{\text{data}} text{(3): Gradientes acumulados hasta alfa} $ A visual
representación de gradientes esperados. En lugar de tomar contribuciones de un solo camino, promedios de gradientes esperados
contribuciones de todas las rutas definidas por la distribución de datos subyacente. Tenga en cuenta que esta figura sólo muestra cada 10a muestra
para evitar cargar muchas imágenes. En (4) trazamos de nuevo la suma de los puntajes de importancia sobre píxeles. Como se menciona en el original
el papel de gradientes integrados, todos los métodos de trayectoria, incluyendo gradientes esperados, satisfacen el axioma de la integridad. ver que la integridad es más difícil de satisfacer cuando nos integramos tanto en un camino como en una distribución: es decir, con el mismo número
de muestras, los gradientes esperados no convergen tan rápidamente como los gradientes integrados. Si esto es o no aceptable
precio a pagar para evitar la ceguera de color en las atribuciones parece subjetivo. Estamos compareciendo con diferentes métodos de destacamiento para seleccionar la mejor opción base. ¿Cómo elegimos una? Las diferentes distribuciones y referencias de las bases tienen motivaciones teóricas y preocupaciones prácticas diversas. ¿Hay alguna manera de compararlas? En este artículo abordaremos varias ideas sobre cómo comparar los métodos de interpretación, pero no pretende ser una visión general de todas las métricas de evaluación existentes, sino que se centra en enfatizar que la evaluación de métodos de interpretación sigue siendo un problema difícil. ¿Por qué? Debido a los riesgos de la evaluación cualitativa.
Una manera fácil de evaluar nuestras líneas de base es mirando las mapas de relevancia que producen y viendo cuáles resaltan mejor el objeto en la imagen, pero solo puede confiar en estudios a gran escala con muchas imágenes del conjunto de pruebas. La evaluación cualitativa es peligrosa porque nos basamos en nuestro conocimiento humano de las relaciones entre los datos y las etiquetas, asumiendo que un modelo preciso ha aprendido la misma relación, pero no siempre es así. Este conjunto de datos es una versión modificada del conjunto de datos señuelo MNIST, en el que la esquina superior izquierda de las imágenes se ha alterado para codificar directamente la clase de la imagen. En otras palabras, la intensidad de la parte superior izquierda de cada imagen ha sido alterada de acuerdo con la ecuación 255 × (y/9), donde y es la clase a la que pertenece la imagen. Se puede comprobar mediante la eliminación de este parche en el conjunto de pruebas que la red depende en gran medida de él para hacer predicciones, lo que sugiere que podría estar involucrada. Sin embargo, ha habido muchas discusiones recientes sobre cuál es la forma más útil de evaluar mapas de excelencia y métodos de atribución en la literatura, con propuestas de pruebas cualitativas como alternativas. En resumen, estamos tratando de evaluar qué métodos mejor explican nuestra red sin saber realmente cuál es su función. Una manera simple de evaluar los puntajes de importancia que producen las gradientes esperados/integrados es ver si la ablación de las características k superiores según su clasificación por su importancia disminuye el logit de salida predicho. En la figura, podemos observar dos métodos de ablación: ablación media-imputada o sustitución de cada píxel por su contraparte gaussiana-blurred (Mean Top K y Blur superior en el gráfico). Para las características de desenfoque y la prueba de ablación de desenfoque, utilizamos sigma = 20. sigma = 1. Estas opciones son algo arbitrarias - una evaluación más completa se compararía entre muchos valores de sigma. Como control, también incluimos las características de clasificación aleatorias (ruido de random en la trama). El logit original y el logit de salida de la red en la clase verdadera son los siguientes: por ejemplo, si la imagen original es un goldfinch y la red predice correctamente la clase Goldfinch con confianza del 95%, se cae a la confianza del 60% después de eliminar el 10% superior de píxeles clasificados por importancia, lo que muestra una curva que va a través de los puntos (0.0, 0.95) y (0.1, 0.6). La línea base que mejor destaca cuáles son los píxeles de la red que causan un cambio más rápido en el valor logit es aquella que resalta los píxeles que más aumentan la confianza de la red. Lo que se quiere decir es cuál es la importancia del centro de masas al tratar la ablación, ya que un problema con las características superiores en una imagen es su correlación.
No importa cómo eliminemos un píxel individualmente, los vecinos inmediatos proporcionan mucha información sobre el valor original del píxel. Por lo tanto, puede hacerse la pregunta de si ablacionar píxeles individualmente tiene sentido o no. Podríamos en cambio realizar las ablaciones tomando en cuenta la correlación de características. Una manera sencilla de hacer esto es simplemente calcular el centro de masa del mapa de saliencia y eliminando una región cuadrada centrada en el mismo. Esto nos permite saber si el mapa de saliencia generalmente resalta una área importante en la imagen. Una parcela reemplazante alrededor del mapa de saliencia se calcula utilizando la imputación media-borrosa. Como control, comparamos con un mapa de salud generado a partir del ruido gaussiano aleatorio (ruido aleatorio). Hay varias pruebas de ablación en diferentes conjuntos de datos. La distribución uniforme funciona mejor que la mayoría de los otros métodos en las pruebas de ablación k superiores. Todos los métodos funcionan de manera similar en las pruebas de ablación del centro de masa. ¿Podría una línea de base inspirada en la distribución uniforme funcionar mejor si eliminamos la imagen con ruido aleatorio uniforme? Es posible que una red de distribución de entrenamiento mejore aún más si se sustituye progresivamente una imagen por otra. Estos experimentos quedan como trabajo futuro, ya que hay dudas sobre las pruebas de ablación presentadas. ¿Podemos confiar realmente en estas pruebas? ¿Hay alguna razón para hacerlo antes de ejecutarlas con 500 muestras?
Las líneas de base constantes tienden a necesitar menos muestras para converger que las líneas de base sobre. ¿Cómo comparamos justamente entre líneas de base con diferentes costos computacionales? En el futuro, la labor intensiva consistiría en comparar no sólo entre las líneas de base sino también el número de muestras tomadas y determinar si la línea gaussiana, el parámetro \\(\sigma\). Además hemos definido distintas notiones de faltas, como imputación o difuminación: las comparaciones extensas también compararían todas nuestras bases de referencia en todas sus correspondientes notiones de falta de datos. Sin embargo, las pruebas de ablación realmente proporcionan una métrica bien fundada, según los autores. Argumentan contra estas pruebas señalando que, al ablar artificialmente píxeles en una imagen, hemos creado entradas que no provienen de la distribución de datos original. ¿Cómo puedo esperar extraer información razonable del análisis de mi modelo si este nunca ha visto estas entradas? Las gradientes integrados y los gradientes esperados dependen de presentar imágenes interpoladas a su modelo, y a menos que haga una extraña suposición de convexidad, esas imágenes interpoladas también no pertenecen a la distribución de entrenamiento original. En general, ¿debería presentar un modelo con entradas que no provienen de la distribución de formación original? Sin embargo, sigue siendo importante preguntarse si el deterioro del rendimiento se debe al cambio de distribución o porque las características eliminadas son realmente informativas. ¿Qué hay de otras métricas de evaluación propuestas en la literatura reciente? En Hooker et al., se propone una variante de prueba de ablación donde primero se ablatan píxeles en los conjuntos de entrenamiento y pruebas, luego se re-entrena un modelo con esos datos ablatados y se mide cuánto se degrada el rendimiento del conjunto de pruebas. Este enfoque tiene la ventaja de capturar mejor los píxeles clave para predecir la clase final, pero presenta el inconveniente de requerir la reentrenamiento del modelo varias veces. Esta métrica puede confundirse con la correlación de características. Considere el siguiente escenario: nuestro conjunto de datos contiene dos características altamente correlacionadas.
Si utilizamos solo la primera y ignoramos por completo la segunda, un método de atribución de características podría revelar con precisión qué el modelo está haciendo: simplemente el uso de la primera característica. Puede suponerse que se está usando esa característica en el conjunto de datos, reentrenar el modelo y obtener resultados similares porque información similar se almacena en la segunda característica. Podríamos concluir que nuestro método de atribución de características no es eficaz - ¿es cierto? Este problema está relacionado con una discusión más amplia sobre si un método de atribución de características debe ser 'verdadero al modelo' o 'verdadero a los datos', que ha sido abordada en varios artículos recientes. En particular, los autores sugieren que un método de prueba de aleatorización de parámetros es una prueba que debiera pasar. En términos generales, un método de atribución de características debe producir atribuciones diferentes cuando se evalúa en un modelo entrenado y uno inicializado al azar. Esta métrica es intuitiva: si un método de atribución de características produce atribuciones similares para modelos aleatorios y entrenados, ¿es la atribución de características realmente utilizando la información del modelo? Confiando enteramente en la información del archivo de entrada. Pero considere la siguiente figura, que es otra versión modificada (MNIST). Ha generado las atribuciones de gradientes esperadas utilizando la distribución de entrenamiento como base para dos redes distintas. Una red está aprendiendo y obtiene más del 99% de precisión en el conjunto de pruebas, mientras que otra red inicializada al azar no supera el rendimiento que un modelo aleatorio. Si ahora concluimos que las atribuciones de gradientes esperadas son poco fiables, es similar al conjunto de datos MNIST, excepto que en lugar de la esquina superior izquierda codificando la etiqueta de clase, dispersamos aleatoriamente ruido en cada formación y prueba de imagen, donde la intensidad del ruido codifica la etiqueta de la clase real. Generalmente, las imágenes naturales no sabemos cómo debieran verse los mapas de excelencia de un modelo preciso, ya que diferentes arquitecturas entrenadas en ImageNet pueden obtener buen rendimiento y tener mapas de excelencia muy diferentes. ¿Podemos decir realmente que los modelos entrenados deben tener mapas de excelencia que no parecen mapas de excelencia generados en modelos inicializados al azar? Eso no quiere decir que la prueba de aleatorización del modelo no tiene mérito: revela cosas interesantes acerca de lo que los métodos de excelencia están haciendo.
Simplemente no dice todo la historia. Hay una variedad de métricas que se han propuesto para evaluar los métodos de interpretación. Hay muchas métricas que no discutimos explícitamente aquí. Cada métrica propuesta presenta sus ventajas y desventajas. En general, la evaluación de modelos supervisados es sencilla: simplemente dejamos un conjunto de pruebas a un lado para medir el rendimiento de nuestro modelo. Sin embargo, evaluar las explicaciones es difícil porque no sabemos qué está haciendo nuestro modelo y no tenemos información sobre la verdadera base de datos. Entonces, ¿qué debemos hacer? Tenemos muchas opciones pero no sabemos cual es la mejor. Aunque no proporcionamos resultados cuantitativos comparando cada una de las opciones, proporcionamos una base para el debate futuro sobre las mejores opciones de referencia en el contexto de las atribuciones de trayectoria y más generalmente sobre la relación entre las representaciones de la falta y cómo explicar modelos de aprendizaje automático. Este artículo nos da información sobre algunas de estas opciones y su impacto en el camino correspondiente. En particular, enfatizamos la importancia de los métodos de interpretación que se basan en gradientes integrados utilizando una base de referencia negra y gradientes esperados utilizando los datos de entrenamiento como base. Además, discutimos un método específico de interpretación: gradientes integrados y su extensión, esperada. Nos referimos a estos métodos como métodos de atribución de trayectoria porque integran la importancia sobre un camino. Sin embargo, los métodos de atribución representan solo una pequeña fracción de los métodos de interpretación existentes y son susceptibles de visualizaciones interesantes. También hablamos sobre un método modelo-agnóstico propuesto por Fong y Vedaldi para explicar redes neuronales que se basan en la eliminación mínima de una imagen que cambia la predicción del modelo, así como cómo representar las supresiones: es decir, cómo representar los píxeles faltantes.
También discutimos cómo el ruido puede ser utilizado para representar la falta, que fue parte de la inspiración para nuestras bases de ruido uniforme y gaussiano. En este artículo, Shrikumar y colaboradores proponen un método de atribución de características llamado deepLIFT. Este método asigna puntuaciones de importancia a las características mediante la propagación de puntuaciones de salida del modelo hasta la entrada. Además, deepLIFT define los puntajes de importancia relacionados con una línea de base, que ellos llaman referencia. El artículo debate extensamente sobre por qué explicar en relación a una base de referencia es significativo. Entre otras cosas, se menciona la utilización de una versión borrosa de la imagen original como ejemplo de línea de base. Además, se mencionan otros métodos relacionados que no se discuten en este artículo, tales como SHAP y DeepSHAP, propagación de relevancia por capas, LIME, RISE y Grad-CAM entre otros. Muchos métodos para explicar los modelos de aprendizaje automático definen alguna notión de referencia o falta, ya que la mayoría de los modelos no pueden manejar patrones arbitrarios de entradas faltantes. Este artículo no aborda todos los aspectos de cada método existente, pero es importante señalar que estos puntos de inspiración han sido clave para una discusión más amplia sobre la falta.