Parcheo de Activaciones y Mediación Causal Ponen a Prueba las Explicaciones de LLM
Dentro de las sondas a nivel de representación de LIBERTy que separan mecanismos de racionalizaciones
Las explicaciones plausibles pueden ser incorrectas—y en los modelos de lenguaje, a menudo lo son. Años de trabajo en interpretabilidad advierten que los destacados llamativos y las racionalizaciones coherentes pueden no reflejar lo que realmente causó la respuesta de un modelo, especialmente cuando los mapas de atención se tratan como explicaciones sin intervenciones [1,24,25,30]. LIBERTy, un marco de evaluación listo para 2026, aborda esto de frente al elevar las pruebas causales a nivel de representación—parcheo de activaciones y caminos, ablación/edición focalizada, y mediación/abstracción causal—de diagnósticos opcionales a evidencia de primera clase. La apuesta es sencilla: cambia las causas internas y observa el resultado; si se mueve como se predijo, la explicación gana credibilidad.
Este artículo se adentra en la metodología de “caja blanca cuando sea posible” de LIBERTy: cómo se convierten las hipótesis sobre cabezas de atención, características de MLP y circuitos en experimentos; cómo se sustituyen activaciones contrafácticas para verificar la influencia; cómo ablaciones específicas falsifican rutas espurias; cómo la mediación causal cuantifica efectos directos e indirectos; y cómo los diccionarios de características dispersas permiten intervenciones a nivel semántico, no solo a nivel de token. También cubrimos la puntuación y los controles que hacen que estas pruebas sean comparables entre distintas familias de modelos. Los lectores aprenderán cómo LIBERTy convierte la plausibilidad en afirmaciones causales comprobables, qué medir, cómo ejecutar experimentos internos robustos, y dónde se encuentran los modos de falla.
Detalles de Arquitectura/Implementación
Por qué la plausibilidad no es fidelidad—y por qué las intervenciones son la prueba que falta
Los mapas de saliencia, las racionalizaciones textuales e incluso el encadenamiento de pensamientos a menudo parecen persuasivos. Pero sin pruebas de intervención, siguen siendo correlacionales y vulnerables a sesgos [1,30]. La atención, en particular, es un generador de hipótesis, no un veredicto: las pruebas deben manipular los supuestos mediadores y verificar el efecto previsto en las salidas [24,25]. Por lo tanto, LIBERTy trata las intervenciones a nivel de representación como el estándar dorado para confirmar (o falsificar) afirmaciones explicativas, y las triangula con entradas contrafácticas y robustez ante cambios de entorno para evitar ser engañado por artefactos fuera del colector o pistas espurias [5,9,14].
De hipótesis a pruebas: ubicando mediadores candidatos
LIBERTy operacionaliza un proceso desde la explicación hasta el experimento:
- Hipotetizar mediadores. Los posibles lugares incluyen cabezas de atención, neuronas/características de MLP y circuitos implicados por análisis de atribución o mecánicos [24,25].
- Fundamentar hipótesis en estructura. La abstracción causal proporciona un lenguaje formal para proponer estructuras de rutas a probar. Los transformadores compilados de Tracr ofrecen un laboratorio controlado donde se pueden sondear circuitos conocidos de punta a punta.
- Seleccionar pares contrafácticos. Usar ediciones semánticas mínimas o conjuntos de contraste para aislar un único factor causal a nivel de entrada [12,47].
- Diseñar intervenciones internas. Elegir activación/parcheo de caminos o ablación/edición en los mediadores sospechosos; alinear intervenciones a unidades semánticas cuando sea posible (ver SAE más abajo) [27,41,42].
Parcheo de activación y caminos: sustitución contrafáctica para verificar la influencia
El parcheo de activación sustituye activaciones internas de un ejemplo contrafáctico en un ejemplo objetivo en mediadores hipotetizados (por ejemplo, capas específicas, cabezas o características). Si la explicación nombró correctamente al mediador, la salida del modelo debería desplazarse hacia el resultado contrafáctico [27,42]. LIBERTy registra la dirección y magnitud de estos cambios y los agrega en efectos causales promedio (ACE) de los sitios parcheados, atribuyendo peso causal a las rutas implicadas. Para protegerse contra el cambio de distribución y la filtración, LIBERTy empareja el parcheo con contrafácticos en el colector y pruebas de inserción que complementan las eliminaciones.
El parcheo de caminos extiende esta idea a rutas de múltiples saltos—probando si una cadena de componentes conjuntamente lleva influencia. Al parchear a lo largo de un camino hipotetizado, los evaluadores pueden contrastar los ACE de un solo nodo y múltiples nodos para estimar si son necesarias las interacciones para el comportamiento observado, un paso clave hacia la atribución a nivel de ruta en lugar de puntos críticos aislados.
Ablación y edición focalizada: falsificación de rutas espurias y confirmación de la necesidad
Donde el parcheo pregunta “¿es este mediador suficiente para llevar el contrafactual?”, la ablación pregunta “¿es necesario?” LIBERTy despliega la eliminación o edición focalizada de activaciones en los sitios sospechosos y mide la degradación de la salida resultante. Esto complementa la eliminación a nivel de entrada y las curvas de eliminación–inserción y desafía directamente explicaciones que sobrevaloran componentes visualmente destacados pero causualmente inertes [9,10]. Para reducir el sesgo de que los modelos puedan reajustar características restantes tras la eliminación, LIBERTy integra evidencia de tipo ROAR de eliminar y reentrenar, fortaleciendo las afirmaciones de necesidad cuando la caída del rendimiento persiste incluso después del reentrenamiento. Los métodos de edición que localizan asociaciones fácticas permiten pruebas precisas de si realmente la traza de memoria citada impulsa la respuesta.
Mediación y abstracción causal: estimación de efectos directos/indirectos y prueba de estructuras
Más allá de las intervenciones puntuales, LIBERTy estima efectos directos e indirectos mediante análisis de mediación alineados con hipótesis de abstracción causal. Concretamente, los experimentadores especifican un mapeo estructural de factores de entrada a mediadores internos y salidas, luego combinan parcheo y ablación para estimar cuánto del cambio de salida fluye a través de la ruta nombrada frente a rutas alternativas. Esto desplaza la evaluación de “¿qué se ilumina?” a “¿qué fracción del efecto explica esta ruta?”, permitiendo un reporte fundamentado de varianza explicada por mediadores identificados.
Alineación a nivel de características con diccionarios de características dispersas
Las manipulaciones a nivel de token o neurona pueden ser gruesas. Los avances recientes en interpretabilidad mecánica utilizan autoencoders dispersos para desenredar características interpretables en activaciones LLM, produciendo diccionarios de características que se alinean con factores semánticos. LIBERTy aprovecha estos para parchear o ablar a nivel de un concepto supuesto (por ejemplo, negación, cuantificador) en lugar de una posición de token en bruto, reduciendo la confusión de conceptos y agudizando las pruebas causales. Cuando un parche a nivel de característica invierte la salida en la dirección predicha, la explicación obtiene un crédito más fuerte por especificidad causal.
Diseño de experimentos internos robustos: caja negra vs. caja blanca, repetibilidad, controles de varianza
Los protocolos a nivel de representación requieren acceso interno; LIBERTy apoya ambos:
- Configuraciones de caja blanca: la instrumentación completa de activación permite la focalización de capas/cabezas/características y la estimación de mediación causal [27,37,41,42].
- Configuraciones de caja negra: las ediciones contrafácticas a nivel de entrada, eliminación–inserción, y pruebas de estrés por cambio de entorno proporcionan restricciones complementarias; las afirmaciones internas se califican en consecuencia [5,9,14].
Para asegurar la repetibilidad, LIBERTy sigue los controles de transparencia y varianza al estilo HELM: plantillas de prompt fijas, cuadrículas de decodificación estandarizadas, ensayos multi-semilla, intervalos de confianza por bootstrap, y modelos de efectos mixtos para inferencia, con hipótesis pre-registradas y análisis de poder [32,36]. Cuando la decodificación estocástica es necesaria, la varianza se modela y reporta explícitamente.
Cuantificación de efectos y reporte
El reporte de mediación y puntuación de rutas de LIBERTy incluye:
- Efecto causal promedio (ACE) de mediadores parcheados/ablados en las salidas (escala alineada con fidelidad)
- Proporción de varianza explicada por rutas identificadas
- Atribución de rutas: contribuciones de un solo nodo frente a múltiples nodos bajo parcheo de rutas
- Bandas de incertidumbre a través de bootstrap sobre ítems y semillas, con comparaciones múltiples controladas (ej., BH-FDR) Cada métrica se normaliza de 0 a 100 para la comparabilidad y se promedia macro con intervalos de confianza; los análisis de sensibilidad examinan la robustez de las elecciones de prompt y decodificación.
Comparabilidad entre familias de modelos
LIBERTy aplica protocolos de intervención idénticos entre familias de modelos cerrados y abiertos donde las interfaces lo permiten—sucesores de la clase GPT‑4, Claude, Gemini, y modelos abiertos líderes (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok) [49–57]. Cuando no está disponible el acceso de caja blanca, LIBERTy recurre a pruebas a nivel de entrada y cambios de entorno, y reporta afirmaciones de mediación solo donde exista evidencia a nivel de representación, preservando comparaciones equivalentes entre sistemas [14,32].
Modos de falla y salvaguardas
Las pruebas a nivel de representación no son inmunes a los escollos. LIBERTy se defiende contra amenazas comunes al:
- Combinar eliminación e inserción para evitar artefactos fuera del colector
- Usar ROAR para contrarrestar la adaptabilidad del modelo tras la eliminación
- Ejecutar verificaciones de cordura para detectar atribuciones no informativas
- Realizar pruebas de estrés bajo cambios de entorno para exponer rutas espurias
- Tratar las visualizaciones de atención como hipótesis para ser falsificadas vía intervenciones, no como prueba causal [24,25]
- Preferir manipulaciones a nivel de características a través de SAE para reducir confusiones de conceptos
🔬 El principio rector: intervenir en el mecanismo que afirmas, predecir la dirección del cambio y cuantificar el efecto con incertidumbre.
Tablas Comparativas
Técnicas de intervención interna de un vistazo
| Técnica | Lo que prueba | Insumos necesarios | Granularidad | Fortalezas | Riesgos clave/mitigaciones |
|---|---|---|---|---|---|
| Parcheo de activación | Suficiencia del mediador/ruta hipotetizado a través de sustitución contrafáctica | Ejemplo contrafáctico; acceso a activaciones | Capa/cabeza/característica | Mide directamente la influencia causal; soporta pruebas a nivel de ruta | Riesgo fuera del colector mitigado por ediciones en el colector y pruebas de inserción [5,27,42] |
| Ablación/edición focalizada | Necesidad del mediador; falsifica rutas espurias | Acceso a activaciones/parámetros | Neurona/característica/circuito | Prueba inversión/caída tras eliminación; ROAR fortalece la causalidad | Reajuste del modelo; abordar mediante eliminar y reentrenar (ROAR) [4,10,27] |
| Mediación/abstracción causal | Efectos directos/indirectos; hipótesis estructurales | Mapeo estructural + intervenciones | A nivel de ruta | Cuantifica la varianza explicada; prueba cadenas de múltiples saltos | Estructura mal especificada; validar con Tracr o supervisión de procesos [37,40] |
| Parcheo a nivel de características SAE | Intervenciones de unidad semántica (alineadas a conceptos) | Diccionario de características dispersas | Característica a nivel de concepto | Reduce confusiones de conceptos; afirmaciones causales más precisas | Desalineación de características; requiere diccionarios validados |
Mejores Prácticas
- Pre-registrar hipótesis de mediadores, pares contrafácticos, sitios de intervención, métricas y objetivos de poder; publicar código, registros y semillas para transparencia al estilo HELM [32,36].
- Emparejar eliminación con inserción y usar ediciones contrafácticas validadas por humanos para minimizar artefactos fuera del colector.
- Usar reentrenamiento al estilo ROAR cuando se afirme la necesidad desde la eliminación; reportar con y sin reentrenamiento.
- Preferir intervenciones a nivel de características a través de SAE cuando estén disponibles; de lo contrario, localizar a capas/cabezas mínimas para reducir la dispersión.
- Estimar ACE con intervalos de confianza por bootstrap; usar modelos de efectos mixtos para la inferencia entre tareas y modelos; controlar multiplicidad (ej., BH-FDR).
- En configuraciones de caja negra, calificar afirmaciones causales y triangulometrar con pruebas de robustez contrafactual y de cambio de entorno (ej., divisiones al estilo WILDS).
- Tratar los mapas de atención y los enlaces de conceptos tipo TCAV como hipótesis; insistir en la confirmación interventional antes de afirmar causalidad [24,25,28,29].
Ejemplos Prácticos
Aunque los detalles específicos de implementación no están disponibles públicamente más allá de la descripción del marco, LIBERTy describe varios experimentos internos canónicos y dónde aplican:
-
Prueba mediadora de NLI contrafáctico: Construir pares mínimos que cambien un solo factor semántico (ej., negación). Hipotetizar que una característica o cabeza específica media la sensibilidad a ese factor. Sustituir activaciones del ejemplo contrafáctico en ese mediador (parcheo de activación) y medir si la salida cambia o se desplaza como se predijo; reportar ACE con incertidumbre. Emparejar con pruebas de inserción para verificar que agregar el factor en un contexto neutro produce un cambio correspondiente, mitigando artefactos de eliminación.
-
Verificaciones de necesidad de encadenamiento de pensamiento (CoT): En tareas matemáticas/lógicas con supervisión de procesos (GSM8K, MATH), identificar las posiciones de tokens y capas asociadas con un paso de razonamiento particular [20,21,22,38]. Realizar ablación focalizada en esos estados internos; si el paso es necesario, los estados intermedios o respuestas finales deberían degradarse. Donde sea posible, parchar en las activaciones del paso correcto para probar suficiencia. Reportar precisión a nivel de paso, infidelidad y tamaños de efecto de las ablaciones.
-
Mediación a nivel de rutas en transformadores compilados: Usar Tracr para obtener un transformador con circuitos conocidos para una tarea algorítmica. Especificar una abstracción causal que mapee factores de entrada a subcircuitos internos y salidas. Ejecutar parcheo de rutas a lo largo de la cadena hipotetizada y estimar efectos directos/indirectos; comparar con parches de un solo nodo para evaluar interacciones. Esto proporciona una referencia comprobable para la atribución de rutas y valida el protocolo de mediación de punta a punta.
-
Parcheo a nivel de características con autoencoders dispersos: Entrenar o adoptar un diccionario de características dispersas que desenrede características interpretables en activaciones LLM. Para un concepto objetivo (ej., cuantificadores), parchar la característica correspondiente de un ejemplo contrafáctico en el contexto original. Si la explicación es causal-conceptual, la salida debería cambiar en la dirección predicha; ablar la característica para probar necesidad. Reportar ACE a nivel de concepto y discutir calidad de alineación.
-
Respaldo de comparabilidad de caja negra: Para modelos cerrados donde el acceso interno no está disponible, ejecutar las mismas pruebas contrafácticas y de cambio de entorno y reportar AUC de eliminación–inserción, tasas de cambio contrafactual y estabilidad de atribuciones. Reservar puntuaciones de mediación para modelos donde las intervenciones de activación/característica fueran posibles, y distinguir claramente niveles de evidencia en el reporte de LIBERTy [14,32].
En todos los casos, LIBERTy enfatiza semillas, cuadrículas de decodificación, y CIs por bootstrap; el modelado de efectos mixtos acomoda la variabilidad a través de tareas y modelos, y el control de multiplicidad evita afirmaciones excesivas de múltiples sondas. Las métricas específicas más allá de estos protocolos no están disponibles en el reporte.
Conclusión
La afirmación central de LIBERTy es que la fidelidad de las explicaciones debe ganarse a través de intervenciones, no de estética. Al convertir cabezas de atención, características de MLP y circuitos en hipótesis manipulables—y luego validándolas con parcheo de activaciones/rutas, ablación/edición y mediación—LIBERTy reemplaza la plausibilidad con evidencia causal. La alineación a nivel de características vía autoencoders dispersos eleva las intervenciones a unidades semánticas, mientras que los controles de varianza rigurosos y la transparencia al estilo HELM mantienen las comparaciones honestas entre familias de modelos abiertos y cerrados. El resultado es un marco que puede decir, con respaldo estadístico, qué explicaciones reflejan mecanismos internos y cuáles son meras racionalizaciones.
Puntos clave:
- Plausibilidad ≠ fidelidad; la atención y la saliencia son hipótesis hasta que las pruebas de intervención las confirmen [1,24,25,30].
- El parcheo de activaciones/rutas y la ablación/edición focalizada proporcionan pruebas complementarias de suficiencia y necesidad a nivel de representación [4,27,42].
- La mediación/abstracción causal cuantifica efectos directos/indirectos y varianza explicada por rutas.
- Los autoencoders dispersos permiten intervenciones alineadas a conceptos y a nivel de características que reducen confusiones.
- El reporte robusto requiere transparencia al estilo HELM, modelado de varianza multi-semilla y inferencia fundamentada [32,36].
Próximos pasos para los practicantes:
- Registrar previamente hipótesis de mediadores y protocolos; implementar experimentos de parcheo/ablación con reporte de incertidumbre.
- Construir conjuntos de datos contrafácticos mínimos, validados por humanos, adaptados a los factores que citan tus explicaciones [5,12].
- Invertir en diccionarios de características (SAEs) para alinear intervenciones a unidades semánticas.
- Donde los internos sean inaccesibles, usar pruebas contrafácticas y de cambio de entorno y calificar claramente las afirmaciones de causalidad.
De cara al futuro, una adopción amplia de intervenciones a nivel de representación—emparejada con un reporte estandarizado—debería agudizar la comprensión del campo sobre cómo realmente computan los LLM modernos y qué explicaciones podemos confiar.
Fuentes
- url: https://arxiv.org/abs/2004.03685; título: Towards Faithfully Interpretable NLP Systems; relevancia: Establece la distinción entre plausibilidad y fidelidad que motiva las pruebas de intervención.
- url: https://arxiv.org/abs/1806.10758; título: A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR); relevancia: Apoya el eliminar y volver a entrenar como comprobación de necesidad contra la adaptabilidad del modelo en ablación.
- url: https://arxiv.org/abs/1704.03296; título: Interpretable Explanations of Black Boxes by Meaningful Perturbations; relevancia: Justifica la inserción junto a la eliminación y las perturbaciones en el colector para evitar artefactos.
- url: https://arxiv.org/abs/1806.07421; título: RISE: Randomized Input Sampling for Explanation of Black-box Models; relevancia: Proporciona bases de perturbaciones que complementan las sondas a nivel de representación.
- url: https://arxiv.org/abs/1612.08220; título: Understanding Neural Networks Through Representation Erasure; relevancia: Basa la ablación focalizada a nivel de representación.
- url: https://arxiv.org/abs/1810.03292; título: Sanity Checks for Saliency Maps; relevancia: Advierte sobre atribuciones degeneradas y motiva las verificaciones de cordura.
- url: https://arxiv.org/abs/1909.12434; título: Learning the Difference That Makes a Difference with Counterfactual Examples in NLI; relevancia: Proporciona ediciones contrafácticas mínimas para pruebas causales de dependencia.
- url: https://arxiv.org/abs/2012.07421; título: WILDS: A Benchmark of in-the-Wild Distribution Shifts; relevancia: Suministra pruebas de estrés por cambios de entorno para detectar rutas espurias.
- url: https://arxiv.org/abs/1902.10186; título: Attention is not Explanation; relevancia: Advierte contra tratar la atención como evidencia causal sin intervenciones.
- url: https://arxiv.org/abs/1906.03731; título: Attention is not not Explanation; relevancia: Posiciona la atención como un generador de hipótesis que necesita confirmación causal.
- url: https://arxiv.org/abs/2202.05262; título: Locating and Editing Factual Associations in GPT; relevancia: Demuestra la edición y localización de representaciones para pruebas causales.
- url: https://arxiv.org/abs/1711.11279; título: Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV; relevancia: Muestra enlaces a nivel de conceptos que requieren confirmación por intervención para afirmaciones causales.
- url: https://arxiv.org/abs/1711.05611; título: Network Dissection: Quantifying Interpretability of Deep Visual Representations; relevancia: Proporciona análisis a nivel de conceptos que LIBERTy trata como hipótesis.
- url: https://arxiv.org/abs/2211.09110; título: Holistic Evaluation of Language Models (HELM); relevancia: Sustenta los estándares de transparencia, reproducibilidad y comparabilidad.
- url: https://arxiv.org/abs/1909.03004; título: Show Your Work: Improved Reporting of Experimental Results; relevancia: Guía la varianza multi-semilla, los IC por bootstrap y el control de comparaciones múltiples.
- url: https://arxiv.org/abs/2106.12482; título: Causal Abstractions of Neural Networks; relevancia: Formaliza hipótesis estructurales y mediación para análisis a nivel de ruta.
- url: https://arxiv.org/abs/2301.05062; título: Tracr: Compiled Transformers as a Laboratory for Interpretability; relevancia: Ofrece circuitos de veracidad para validar mediación y parcheo de caminos.
- url: https://transformer-circuits.pub/2023/monosemantic-features/index.html; título: Towards Monosemanticity: Decomposing Language Models With Superposition; relevancia: Introduce autoencoders dispersos que permiten intervenciones a nivel de características alineadas a conceptos.
- url: https://github.com/neelnanda-io/TransformerLens; título: TransformerLens (herramientas de parcheo/intervención e interpretabilidad); relevancia: Proporciona herramientas de parcheo de activaciones y caminos referenciadas por LIBERTy.
- url: https://arxiv.org/abs/2303.08774; título: GPT-4 Technical Report; relevancia: Citada para contextualizar la evaluación de modelos cerrados en comparaciones entre familias.
- url: https://www.anthropic.com/claude; título: Modelos de Anthropic Claude; relevancia: Familia de modelos incluida en la matriz comparativa de LIBERTy.
- url: https://ai.google.dev/gemini-api/docs/models/gemini; título: Modelos de Gemini de Google; relevancia: Familia de modelos incluida en comparaciones entre sistemas.
- url: https://ai.meta.com/blog/meta-llama-3/; título: Anuncio de Meta Llama 3; relevancia: Familia de modelos abiertos para comparabilidad.
- url: https://mistral.ai/news/mixtral-of-experts/; título: Modelos de Mistral/Mixtral; relevancia: Familia de modelos abiertos para comparabilidad.
- url: https://ai.google.dev/gemma; título: Modelos de Gemma de Google; relevancia: Familia de modelos abiertos para comparabilidad.
- url: https://github.com/QwenLM/Qwen2; título: Modelos de Qwen2; relevancia: Familia de modelos abiertos para comparabilidad.
- url: https://github.com/deepseek-ai/DeepSeek-LLM; título: DeepSeek LLM (modelos abiertos); relevancia: Familia de modelos abiertos para comparabilidad.
- url: https://x.ai/blog/grok-1; título: xAI Grok-1; relevancia: Familia de modelos abiertos para comparabilidad.