Las intervenciones causales y las características escasas superan a los mapas de atención en el razonamiento de LLM

Los modelos de lenguaje grande brillan con mapas de calor de atención, pero el resplandor a menudo es engañoso. A través de Transformers densos, modelos de Mixture-of-Experts (MoE) y sistemas de recuperación/uso de herramientas, los pesos de atención en bruto rutinariamente no pasan las comprobaciones básicas de fidelidad, integridad y estabilidad en tareas de razonamiento. Cuando la atención parece más persuasiva, a menudo es porque rastrea dónde fluyó la información, no cómo se realizaron los cálculos decisivos. La acción real vive en otro lugar: en las rutas de MLP/residuales, políticas de enrutamiento y características escasas y reutilizables que sobreviven a cambios de paráfrasis y decodificación.

Esto importa ahora porque los modelos están siendo cada vez más evaluados en pruebas de razonamiento composicional de varios pasos como GSM8K, MATH, BBH, MMLU, ARC y DROP. En estos entornos, inspeccionar solo la atención da una versión parcial—y frecuentemente incorrecta—de por qué un modelo llegó a una respuesta. Este artículo detalla los mecanismos subyacentes a esa brecha, explica dónde las explicaciones basadas en atención aún añaden valor y expone qué las reemplaza: intervenciones causales, análisis a nivel de características y atribuciones cuidadosamente validadas que pueden soportar pruebas contrafactuales. Los lectores aprenderán dónde y por qué fallan las explicaciones de atención, qué métodos de intervención y características escasas recuperan, y cómo evaluar las afirmaciones de razonamiento en sistemas densos, MoE y RAG/uso de herramientas con confianza.

Detalles de Arquitectura/Implementación

Límites de la atención en bruto: no unicidad, manipulabilidad y falta de fidelidad/estabilidad

No unicidad: Múltiples configuraciones de atención distintas pueden generar el mismo resultado. Eso socava cualquier afirmación de que los pesos observados explican de manera única una predicción.
Manipulabilidad: La atención puede ser perturbada sin cambiar las salidas, produciendo “explicaciones” atractivas pero infieles.
Mediación ausente: Incluso los métodos de trazado como rollout/flow de atención visualizan influencia pero omiten cálculos decisivos mediados en rutas no basadas en atención.
Fallos de estabilidad: Los patrones de atención cambian bajo paráfrasis, ediciones adversas y cambios de decodificación, rompiendo los requisitos de consistencia para las explicaciones.

Efecto neto: La atención en bruto funciona mejor como un mecanismo de visibilidad para el enrutamiento, no como un relato fiel del cálculo.

Transformers densos con solo decodificador: vías MLP/residuales como memorias de clave–valor; cabezas de inducción como excepción validada

Las auditorías mecánicas localizan repetidamente asociaciones factuales y transformaciones composicionales en la pila MLP/residual, no en las matrices de atención. Las capas feed-forward actúan como memorias de clave–valor, recuperando y transformando características latentes que en última instancia deciden predicciones. Esto se sostiene bajo ediciones de conocimiento dirigidas, que cambian confiablemente las salidas modificando parámetros no relacionados con atención, y bajo parcheo de activación y limpieza causal, que identifican cálculos decisivos fuera de la atención.

Excepción validada: Cabezas de inducción que implementan la copia/inducción del siguiente token son un circuito de atención mediada prominente y replicable. Aquí, las ablaciones a nivel de cabeza y el parcheo demuestran la necesidad causal; la atención es genuinamente explicativa porque el cálculo es mecánicamente comprendido y mediado por la atención.
Pruebas de razonamiento: En GSM8K, MATH, BBH, MMLU, ARC y DROP, el razonamiento se basa en características distribuidas a lo largo de muchas capas. Los pesos de atención no logran recuperar los pasos internos reales que producen respuestas correctas y se degradan bajo cambios de paráfrasis y decodificación. No hay métricas específicas disponibles, pero se enfatiza la consistencia de estos hallazgos a través de tareas.

Implicación: Tratar la atención en modelos densos como un componente de enrutamiento y rastreo de interacciones token-a-token, no como el principal locus de razonamiento.

Transformers MoE: rúters y MLPs de expertos dominan caminos causales omitidos por mapas de atención

Las arquitecturas MoE introducen enrutamiento por token a expertos especializados (más a menudo MLPs). Los logit del rúter y los cálculos del experto seleccionado añaden puntos de decisión que los pesos de atención no exponen.

Camino causal dominante: Las decisiones del rúter y las activaciones de los MLP de expertos determinan frecuentemente los resultados. Los mapas de atención, incluso cuando se agregan a través de cabezas y capas, omiten este flujo de control.
Mayor opacidad: Los roles de las cabezas se vuelven menos informativos porque los determinantes cruciales se trasladan al plano de enrutamiento. La interpretabilidad efectiva requiere examinar las distribuciones de enrutamiento e intervenciones en los internos del experto.

Conclusión: En modelos MoE, las explicaciones solo de atención son aún menos completas que en modelos densos porque ignoran las elecciones más consecuentes.

Sistemas de recuperación y uso de herramientas: la atención cruzada como procedencia, no prueba de dependencia

En generación aumentada por recuperación (RAG) y RETRO, la atención cruzada a pasajes específicos proporciona una procedencia creíble—qué fuentes fueron consultadas. Esa visibilidad ayuda en la auditoría, pero no valida si el modelo usó el contenido correctamente en el razonamiento. Las alucinaciones y atribuciones erróneas pueden persistir a pesar de la atención a los pasajes relevantes.

Prueba más fuerte: Eliminación de un documento y la eliminación controlada de contexto demuestran la dependencia real al observar cambios en el rendimiento cuando se retiran documentos supuestamente críticos.
Agentes aumentados con herramientas: La atención sobre tokens de herramientas y salidas refleja una lectura superficial, no políticas de decisión. Las explicaciones fieles requieren rastrear decisiones de enrutamiento, selección de funciones y resultados de ejecución a través de auditorías causales y ablaciones.

Conclusión: Usar la atención cruzada para la atribución de fuentes; usar intervenciones para establecer el razonamiento sobre contenido recuperado y elecciones de herramientas.

Rendimiento comparativo: gradientes versus atención; parcheo de activación, limpieza causal y edición de conocimiento como evidencia más fuerte

Atribuciones basadas en gradientes (Gradientes Integrados, Propagación de Relevancia por Capas) cumplen axiomas útiles como integridad y frecuentemente se alinean mejor con la influencia causal que la atención en bruto, especialmente cuando tienen conocimiento de trayectorias. Permanecen sensibles a los puntos de referencia y pueden capturar correlaciones sin causalidad a menos que sean validados.
Los métodos causales—parcheo de activación/atención, limpieza causal y edición de conocimiento dirigida—proporcionan la evidencia más sólida de fidelidad. Estas técnicas permiten pruebas de necesidad/suficiencia y localización de circuitos que se generalizan mejor a través de entradas que los pesos de atención.
Enfoques a nivel de representación: Codificadores auto-regresivos escasos (SAEs) e investigaciones descubren características escasas e interpretables que se repiten a través de capas y modelos. Estas características son más estables bajo variaciones de paráfrasis y decodificación y proporcionan un sustrato más verdadero para explicar el razonamiento que los patrones de atención en bruto.
Cadena de pensamiento generada por modelos (CoT): Útil para el rendimiento y la legibilidad, pero frecuentemente post hoc e infiel al cálculo interno; nunca se debe aceptar como explicación sin triangulación a través de intervenciones.

Hallazgos impulsados por pruebas: computación distribuida e inestabilidad bajo paráfrasis/decodificación

A través de GSM8K, MATH, BBH, MMLU, ARC y DROP:

Los métodos solo de atención no logran captar transformaciones de múltiples pasos, algebraicas y factuales que deciden respuestas finales.
La atención puede resaltar tokens o fragmentos plausibles mientras falla en fidelidad bajo auditorías basadas en intervención.
Aparecen pasos ocasionales mediados por atención (por ejemplo, copia), pero la corrección de principio a fin depende de interacciones en vías MLP/residuales y características distribuidas.
Los desgloses cuantitativos dependen del modelo y la configuración; no hay métricas específicas disponibles.

Efectos de escala y superposición: por qué los roles de atención se degradan con el tamaño y el largo del contexto

A medida que el tamaño del modelo y la longitud del contexto crecen:

Aumenta la superposición: Las características se superponen dentro de las neuronas y cabezas, haciendo que los roles de cabezas sean menos limpios y los patrones de atención menos estables.
La redundancia en configuraciones de cabezas embota las señales de importancia de cabeza; las variantes de atención escasa/lineal no mejoran consistentemente la fidelidad en el nivel de peso.
Los escenarios de largo contexto difunden la atención sobre muchos tokens; la visualización (por ejemplo, flujo de atención) puede ayudar pero sigue siendo incompleta sin intervenciones.
Los parámetros de decodificación alteran las distribuciones de atención y rutas de tokens, erosionando aún más la estabilidad. Los cambios de dominio/idioma cambian la especialización de las cabezas, limitando la transferencia entre tareas de las explicaciones basadas en atención.

Conclusión: La escala y largo contexto amplifican las debilidades de la atención-como-explicación mientras fortalecen el caso de los análisis a nivel de características y pruebas causales.

Tablas Comparativas

Métodos explicativos para LLMs de razonamiento

Familia de métodos	Fidelidad causal	Integridad	Estabilidad/robustez	Transferencia entre modelos/tareas	Cuando es más efectivo
Pesos de atención en bruto	Baja; se puede manipular sin cambio de salida	No	Baja; sensible a paráfrasis/decodificación	Pobre	Comprobaciones rápidas de plausibilidad; capas tempranas; modelos pequeños
Importancia de cabezas/poda	Mixta; la redundancia oscurece la causalidad	No	Moderada; dependiente de la tarea	Limitada	Identificación de cabezas dispensables; especialización gruesa
Despliegue/flujo de atención	Mejor que mapas crudos pero incompletos	Parcial en el mejor de los casos	Moderada; aún frágil sin intervenciones	Limitada	Visualización de influencia a largo alcance; emparejado con pruebas causales
Máscara/mediación de atención	Mayor cuando está pre-registrada y causal	Parcial	Moderada a alta (dependiente del experimento)	Moderada	Pruebas de circuitos específicos de atención (por ejemplo, cabezas de inducción)
Gradientes/IG/LRP	Moderada a alta con diseño cuidadoso	Sí (IG)	Moderada; sensible a puntos de referencia	Moderada	Atribución por token/capa; validado con intervenciones
Trazado/edición/parcheo causal	Alta; evidencia más fuerte	N/A (intervención)	Alta (con diseños controlados)	Moderada a alta (nivel de circuito)	Localización mecánica; pruebas contrafactuales
Características de representación (investigaciones/SAEs)	Moderada; mejora con intervenciones	N/A	Moderada a alta (dependiente de la característica)	Moderada a alta (nivel de característica)	Descubrimiento de características estables; complementa el parcheo
CoT generado por el modelo	Baja (a menudo post hoc)	No	Variable	Pobre	Racionales orientados al humano; no explicaciones

Lo que muestra la atención—y lo que omite—por arquitecturas/ajustes

Arquitectura/ajuste	Qué revela la atención	Qué omite la atención	Componentes adicionales necesarios
Transformers densos	Circuitos para inducción/copia; cierto seguimiento de entidades	Cálculos mediados por MLP/residual; características distribuidas	Parcheo de activación, mediación, análisis de características
LLMs MoE	Enrutamiento token-a-token a través de auto-atención	Decisiones del rúter; cálculos de expertos	Auditorías de logit de rúter; intervenciones por experto
RAG/RETRO	Qué pasajes fueron consultados (procedencia)	Si la evidencia fue usada correctamente; razonamiento sobre contenido	Recuperación de un documento y ablaciones de contexto; trazado causal
Agentes aumentados con herramientas	Atención superficial a tokens de herramientas	Política para la selección de herramientas; dependencia de ejecución	Auditorías causales de enrutamiento y resultados de herramientas

Mejores Prácticas

Un protocolo de evaluación disciplinado convierte la interpretabilidad de imágenes brillantes en ciencia comprobable 🔬

Comenzar con hipótesis mecánicas:
Especificar cabezas candidatas, caminos o características que se cree median un cálculo (por ejemplo, una cabeza de inducción o una característica escasa que representa un acarreo en aritmética).
Pre-registrar expectativas donde sea posible para evitar sesgos retrospectivos.
Triangular explicaciones:
Calcular múltiples señales: atención en bruto, flujo de atención, gradientes/IG/LRP y activaciones de características candidatas de SAEs o investigaciones.
Usar cada uno como un generador de hipótesis, no como una prueba.
Correr pruebas causales:
Máscaras de cabeza/camino y edición de atención para probar afirmaciones mediadas por atención.
Parcheo de activación a través de capas para identificar ubicaciones y características decisivas.
Limpieza causal para reemplazar variables hipotetizadas con contrafactuales y verificar si las predicciones siguen.
Evaluar en pruebas de razonamiento con verificaciones de robustez:
Utilizar GSM8K, MATH, BBH, MMLU, ARC y DROP como escenarios principales.
Poner a prueba la estabilidad con paráfrasis, ediciones adversariales/contrafactuales y configuraciones de decodificación variadas.
Rastrear el rendimiento y comportamiento cualitativo bajo intervenciones dirigidas; las métricas específicas pueden no estar disponibles pero deben registrarse cuando sea posible.
Para modelos MoE:
Registrarse y analizar logits de rúter y selecciones de expertos junto con la atención.
Realizar intervenciones por experto para validar roles causales.
Para sistemas RAG y uso de herramientas:
Tratar la atención cruzada como procedencia, no dependencia.
Usar recuperación de un documento y ablaciones de contexto estructuradas para verificar la dependencia de fuentes específicas.
Para herramientas, auditar decisiones de enrutamiento y resultados de ejecución; ablatar las salidas de herramientas para confirmar la necesidad.
Preferir sustratos a nivel de características:
Usar SAE o investigaciones dirigidas para revelar características escasas e interpretables que se repiten a través de capas/modelos.
Validar la causalidad de características con parcheo de activación y ediciones localizadas.
Manejar CoT cuidadosamente:
Recoger CoT para la comprensión humana y mejoras de rendimiento.
No equiparar CoT con el cálculo interno del modelo sin pruebas causales de apoyo.
Documentar controles:
Registrar tamaño del modelo, configuraciones de cabezas de atención, visibilidad del rúter (MoE), composición del conjunto de recuperación, hiperparámetros de decodificación, uso de CoT y dominio/idioma para que los resultados sean interpretables y transferibles.
Reportar limitaciones:
Ser explícito cuando las métricas no están disponibles o cuando la evidencia es específica de tareas, arquitecturas o configuraciones.

Conclusión

Los mapas de atención cambiaron cómo los practicantes visualizan los modelos neuronales, pero no están a la altura del trabajo de explicar el razonamiento en los LLM de hoy. Los cálculos decisivos generalmente se desarrollan en rutas MLP/residuales y políticas de enrutamiento, y las señales que mejor recuperan esos cálculos provienen de intervenciones causales y análisis a nivel de características, opcionalmente respaldados por gradientes cuidadosamente diseñados. La atención conserva valor en entornos estrechos y mecánicamente especificados—cabezas de inducción y procedencia de atención cruzada—pero falla como una explicación de propósito general del razonamiento. El camino a seguir combina experimentos impulsados por hipótesis con auditorías intervencionales y características escasas que resisten la paráfrasis, la variación de decodificación y los cambios arquitectónicos.

Aspectos clave:

La atención es visibilidad, no cálculo: trátala como evidencia de enrutamiento a menos que esté validada causalmente.
Las vías MLP/residuales y las elecciones de enrutamiento/expertos MoE son los loci causales dominantes.
Los métodos causales (parcheo de activación, limpieza causal, edición de conocimiento) proporcionan la prueba más fuerte de la fidelidad de explicación.
Las características escasas de SAEs e investigaciones ofrecen un sustrato explicativo más estable que los pesos a nivel de cabeza.
La atención cruzada en RAG es buena para procedencia; la dependencia requiere pruebas de eliminación de uno y ablación.

Próximos pasos accionables:

Construir arneses de evaluación que automaticen el parcheo de activación, mediación, y pruebas de eliminación de uno a través de pruebas de referencia.
Incorporar registro/logger de enrutador/expertos en tuberías de interpretabilidad MoE.
Entrenar y desplegar SAEs para proporcionar características candidatas; priorizar características que se transfieran entre tareas.
Tratar CoT como una característica de interfaz de usuario, no como una explicación, a menos que sea validada causalmente.

Mirando hacia adelante, el escalado continuará magnificando la superposición y distribuyendo el cálculo. Las explicaciones que se centran en intervenciones causales y características escasas y mecánicas viajarán mejor a través de arquitecturas y tareas, mientras que los mapas de atención seguirán siendo útiles—pero solo en los carriles estrechos donde el cálculo en sí se sabe que es mediado por atención.

Fuentes y Referencias

Attention is not Explanation Establishes that raw attention weights are not faithful explanations and can be manipulated without changing model outputs, supporting the article's critique of attention maps.

Is Attention Interpretable? Shows limitations and non-uniqueness of attention-based explanations, reinforcing the article's faithfulness and stability concerns.

Attention is not not Explanation Discusses nuanced conditions where attention may be informative, aligning with the article's constrained-use stance.

Quantifying Attention Flow in Transformers Introduces attention flow/rollout approaches, used in the article to argue that these visualizations still miss non-attention mediation without causal validation.

Transformer Interpretability Beyond Attention Presents alternative interpretability techniques beyond attention, supporting the pivot toward gradients and interventions.

Causal Mediation Analysis for Interpreting Neural NLP Provides causal analysis tools and evidence that intervention-based methods yield more faithful explanations than raw attention.

Transformer Feed-Forward Layers Are Key-Value Memories Supports the claim that decisive computations and factual knowledge reside in MLP/residual pathways rather than attention weights.

Locating and Editing Factual Associations in GPT (ROME) Demonstrates targeted knowledge editing in non-attention parameters, reinforcing the centrality of MLP/residual pathways for causality.

In-Context Learning and Induction Heads Validates induction heads as a genuine attention-mediated circuit, a key exception highlighted in the article.

Scaling Monosemanticity: Sparse Autoencoders Learn Interpretable Features in LLMs Provides evidence that sparse feature-level analyses yield stable, interpretable substrates for explanations.

Causal Scrubbing Offers a rigorous interventional methodology to test hypothesized causal pathways, central to the article’s recommendations.

Sanity Checks for Saliency Maps Underpins the article's warnings about attribution instability and the need for validation beyond plausibility.

ERASER: A Benchmark to Evaluate Rationalized NLP Models Documents that attention-aligned rationales can look plausible yet fail faithfulness under interventions.

Language Models Don’t Always Say What They Think Shows chain-of-thought can be unfaithful to internal computation, aligning with the article’s caution on CoT.

Measuring Faithfulness in Chain-of-Thought Provides criteria and evidence that CoT rationales are often post hoc, supporting the article's stance.

Retrieval-Augmented Generation (RAG) Supports the claim that cross-attention offers provenance in retrieval settings but not guaranteed reliance without leave-one-out tests.

RETRO Corroborates retrieval settings where cross-attention to sources is visible yet insufficient to prove reasoning reliance.

Switch Transformers: Scaling to Trillion Parameter Models Introduces MoE routing and expert specialization, supporting the argument that routers and experts dominate causal pathways.

GLaM: Efficient Scaling with Mixture-of-Experts Provides MoE evidence on routing/expert roles, aligning with the article’s critique of attention-only explanations in MoE.

Mixtral of Experts Offers context on modern MoE implementations where routing/expert analysis is critical beyond attention maps.

GSM8K Benchmark reference for multi-step arithmetic reasoning used in the article’s evaluation framing.

MATH Benchmark reference for mathematical reasoning to situate claims about attention’s limitations.

MMLU Benchmark reference for multi-task language understanding to support generality of findings.

ARC Benchmark reference for commonsense reasoning as a stress test for explanation stability.

DROP Benchmark reference for reading comprehension with discrete reasoning, where attention-only methods fall short.

BIG-bench Benchmark reference for broad reasoning evaluation, grounding the article’s cross-task perspective.

Challenging BIG-bench Tasks and Whether Chain-of-Thought Helps (BBH) Benchmark reference emphasizing difficult reasoning tasks where attention explanations are brittle.

Axiomatic Attribution for Deep Networks (Integrated Gradients) Supports the article’s claim about completeness and improved alignment with causal influence compared to raw attention.

Layer-wise Relevance Propagation Provides foundation for path-aware attributions used as more faithful alternatives to attention.

A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Underscores the need to evaluate interpretability methods with removal-based tests, consistent with the article’s protocol.

A Primer in BERTology: What we know about how BERT works Contextualizes head specialization, redundancy, and the need to look beyond attention for faithful explanations.

Toolformer Supports claims about tool-use settings where attention over tool tokens is insufficient to explain decision policies.

Self-RAG Reinforces the requirement for leave-one-out and causal audits to validate reliance on retrieved content in RAG systems.