Una discusión sobre 'Los ejemplos contradictorios no son errores, sino características' (traducción literal: Una discusión de 'Los ejemplos contradictorios no son errores, sino características'),
El 6 de mayo, Andrew Ilyas y sus colegas publicaron un artículo que presentaban dos conjuntos de experimentos. En segundo lugar, se observa que los modelos creados a partir de datos derivados de representaciones de redes neuronales robustas parecen heredar una robustez no trivial. Proponen una interpretación interesante para sus resultados: las contradicciones observadas se deben a 'características no robustas' que son altamente predictivas pero imperceptibles para los seres humanos. El artículo fue recibido con gran interés y debate en redes sociales, listas de correo electrónico y grupos de lectura internacionales.
¿Cómo debemos interpretar estos experimentos? ¿Se repitirían? La investigación sobre ejemplos contradictorios es particularmente vulnerable a una cierta clase de no-replicación entre las disciplinas del aprendizaje automático, ya que requiere que los investigadores jueguen tanto el papel del atacante como el defensor. Es fácil que incluso investigadores muy rigurosos utilicen un ataque débil inadvertidamente. Sin embargo, como veremos, Ilyas et al's resultados se han mantenido hasta ahora. Y si existen características no robustas... ¿qué son? Distill decidió llevar a cabo un 'artículo de discusión' experimental para explorar estas preguntas. La ejecución de un artículo de discusión es algo que Distill ha querido intentar desde hace algún tiempo, fue sugerida originalmente por Ferenc Huszár, quien escribe muchos debates de artículos en su blog. ¿Por qué no hacer que todos escriban comentarios privados como Ferenc? Distill espera que proporcionar un foro más organizado para que muchas personas puedan participar puede dar a más investigadores la oportunidad de invertir energía en discutir el trabajo de otros y asegurarse de que existe una oportunidad para que todas las partes puedan comentar y responder antes de la publicación final del documento. A veces preocupamos por la limitada exhaustividad de la revisión entre pares, pero nos sorprendió el compromiso profundo de los participantes al punto de que algunos pasaron semanas replicando experimentos y clarificando resultados. En ocasiones, los participantes también actualizaron sus puntos de vista sobre las características no robustas mientras realizaban nuevos experimentos. Los autores originales también se enfocaron en el análisis detallado de sus resultados, resolviendo malentendidos y hasta corriendo nuevos experimentos en respuesta a los comentarios. Creemos que este compromiso profundo y el diálogo generado es realmente emocionante y esperamos repetirlo con otros artículos de discusión en el futuro. Algunas cuestiones de discusión incluyen las clarificaciones, la discusión entre los participantes y los autores originales, la replicación exitosa de muchos experimentos, así como temas relacionados con la robustez de los modelos y datos etiquetados incorrectamente.
Gabriel Goh analiza cómo características poco habituales pueden parecerse en modelos lineales. Por otro lado, Dan Hendrycks y Justin Gilmer discuten cómo los resultados se vinculan con el problema más general de la robustez a cambios de distribución, mientras que Reiichiro Nakano examina las diferencias cualitativas de modelos robustos en el contexto de transferencia de estilo. Distill recopiló siete comentarios sobre el artículo original, presentados en orden alfabético por el apellido del autor y con breves resúmenes de cada comentario y la respuesta correspondiente de los autores originales.