Les Interventions Causales et Les Caractéristiques Éparses Surpassent Les Cartes d’Attention Dans Les Raisonnements des LLM

Les grands modèles de langue s’illuminent avec les cartes de chaleur de l’attention, mais cette lueur est souvent trompeuse. Dans les Transformers denses, les modèles à Mixture-of-Experts (MoE) et les systèmes de récupération/utilisation d’outils, les poids bruts d’attention échouent régulièrement aux tests de base de fidélité, de complétude et de stabilité dans les tâches de raisonnement. Lorsque l’attention semble la plus persuasive, c’est souvent parce qu’elle suit où l’information a circulé, et non comment les calculs décisifs ont été réalisés. La véritable action se passe ailleurs: dans les voies MLP/résiduelles, les politiques d’acheminement, et les caractéristiques éparses, réutilisables, qui survivent aux paraphrases et aux changements de décodage.

Cela est important maintenant car les modèles sont de plus en plus évalués sur des benchmarks de raisonnement multi-étapes et composites tels que GSM8K, MATH, BBH, MMLU, ARC et DROP. Dans ces contextes, l’inspection de l’attention seule donne une histoire partielle – et souvent erronée – de la raison pour laquelle un modèle a atteint une réponse. Cet article détaille les mécanismes sous-jacents à cet écart, explique où les explications basées sur l’attention ajoutent encore de la valeur, et expose ce qui les remplace: les interventions causales, les analyses au niveau des caractéristiques et les attributions soigneusement validées qui peuvent résister aux tests contrefactuels. Les lecteurs apprendront où et pourquoi les explications par attention échouent, ce que les méthodes interventionales et de caractéristiques éparses récupèrent, et comment évaluer les affirmations de raisonnement dans les systèmes denses, MoE et RAG/utilisation d’outils avec confiance.

Détails d’Architecture/Implémentation

Limites de l’attention brute: non-unicité, manipulabilité et échec de fidélité/stabilité

Non-unicité: Plusieurs configurations d’attention distinctes peuvent mener au même résultat. Cela sape toute affirmation selon laquelle les poids observés expliquent de manière unique une prédiction.
Manipulabilité: L’attention peut être perturbée sans changer les résultats, produisant des « explications » attrayantes mais peu fidèles.
Médiation manquante: Même les méthodes de chemin agrégé comme le déploiement/flux d’attention visualisent l’influence mais manquent les calculs décisifs médiés dans des voies non-atentionnelles.
Échecs de stabilité: Les motifs d’attention vacillent sous paraphrase, modifications adverses et changements de décodage, rompant les exigences de cohérence pour les explications.

Effet net: L’attention brute fonctionne mieux comme un mécanisme de visibilité pour l’acheminement, pas comme un compte-rendu fidèle du calcul.

Transformers denses uniquement décodeurs: les voies MLP/résiduelles comme mémoires de clé–valeur; exceptions validées avec les têtes d’induction

Les audits mécanistes localisent à plusieurs reprises les associations factuelles et les transformations compositionnelles dans la pile MLP/résiduelle, et non dans les matrices d’attention. Les couches réseau feed-forward agissent comme des mémoires de clé–valeur, récupérant et transformant les caractéristiques latentes qui décident en fin de compte des prédictions. Cela tient sous l’édition de connaissance ciblée, qui change de manière fiable les résultats en modifiant des paramètres non-atentionnels, et sous le patching d’activation et le nettoyage causal, qui identifient des calculs décisifs en dehors de l’attention.

Exception validée: Les têtes d’induction mettant en œuvre la copie/induction du prochain token constituent un circuit attentionnel médié proéminent et reproductible. Ici, les ablations au niveau des têtes et le patching démontrent la nécessité causale; l’attention est vraiment explicative car le calcul est compris mécaniquement et médié par l’attention.
Benchmarks de raisonnement: Sur GSM8K, MATH, BBH, MMLU, ARC et DROP, le raisonnement repose sur des caractéristiques distribuées à travers de nombreuses couches. Les poids d’attention échouent à récupérer les véritables étapes internes produisant des réponses correctes et se dégradent sous les changements de paraphrase et de décodage. Des métriques spécifiques ne sont pas disponibles, mais la cohérence de ces découvertes à travers les tâches est soulignée.

Implication: Traitez l’attention dans les modèles denses comme un composant d’acheminement et de suivi des interactions token-à-token, et non comme le principal lieu du raisonnement.

Transformers Mixture-of-Experts: les routeurs et les MLP experts dominent les voies causales omises par les cartes d’attention

Les architectures MoE introduisent un acheminement par token vers des experts spécialisés (le plus souvent des MLP). Les logits du routeur et les calculs sélectionnés des experts ajoutent des points de décision que les poids de l’attention proprement dite n’exposent pas.

Voie causale dominante: Les décisions du routeur et les activations des MLP experts déterminent fréquemment les résultats. Les cartes d’attention, même lorsqu’elles sont agrégées à travers les têtes et les couches, omettent ce flux de contrôle.
Opacité accrue: Les rôles des têtes deviennent moins informatifs car les déterminants cruciaux se déplacent vers le plan d’acheminement. Une interprétabilité efficace nécessite d’examiner les distributions d’acheminement et d’intervenir sur les internes experts.

Conclusion: Dans les modèles MoE, les explications basées uniquement sur l’attention sont encore moins complètes que dans les modèles denses car elles ignorent les choix les plus conséquents.

Systèmes de récupération et d’utilisation d’outils: l’attention croisée comme provenance, non comme preuve de reliance

Dans la génération augmentée par récupération (RAG) et RETRO, l’attention croisée vers des passages spécifiques fournit une provenance crédible – quelles sources ont été consultées. Cette visibilité aide à l’audit, mais elle ne valide pas si le modèle a utilisé correctement le contenu dans le raisonnement. Les hallucinations et les attributions erronées peuvent persister malgré l’attention aux passages pertinents.

Test plus fort: Laisser-un-document-en-dehors de la récupération et la suppression contrôlée de contexte démontrent la reliance réelle en observant les changements de performance lorsque des documents censément critiques sont retirés.
Agents augmentés par outils: L’attention sur les tokens d’outil et leurs sorties reflète une lecture superficielle, pas des politiques de décision. Des explications fidèles nécessitent de tracer les décisions d’acheminement, la sélection des fonctions et les résultats d’exécution à travers des audits et des ablations causales.

Conclusion: Utilisez l’attention croisée pour l’attribution de source; utilisez les interventions pour établir le raisonnement sur le contenu récupéré et les choix d’outils.

Performance comparative: gradients contre attention; patching d’activation, nettoyage causal, et édition de connaissance comme preuves les plus fortes

Les attributions basées sur les gradients (Integrated Gradients, Layer-wise Relevance Propagation) satisfont des axiomes utiles comme la complétude et s’alignent souvent mieux avec l’influence causale que l’attention brute, surtout lorsqu’elles sont conscientes des chemins. Elles restent sensibles aux points de référence de base et peuvent capturer des corrélations sans la causalité sauf si elles sont validées.
Les méthodes causales—patching d’activation/attention, nettoyage causal, et édition ciblée de connaissances—fournissent les preuves les plus fortes de fidélité. Ces techniques permettent des tests de nécessité/suffisance et la localisation de circuits qui généralisent mieux à travers des entrées que les poids d’attention.
Approches au niveau de la représentation: les autoencodeurs éparses (SAEs) et le sondage découvrent des caractéristiques éparses et interprétables qui se répètent à travers les couches et les modèles. Ces caractéristiques sont plus stables sous les variations de paraphrase et de décodage et fournissent un substrat plus vrai pour expliquer le raisonnement que les motifs d’attention bruts.
Chaîne-de-pensée générée par le modèle (CoT): Utile pour la performance et la lisibilité, mais fréquemment a posteriori et infidèle au calcul interne; ne l’acceptez jamais comme explication sans triangulation via des interventions.

Découvertes basées sur les benchmarks: calcul distribué et instabilité sous paraphrase/décodage

À travers GSM8K, MATH, BBH, MMLU, ARC et DROP:

Les méthodes basées uniquement sur l’attention manquent de transformations multi-étapes, algébriques, et factuelles qui décident des réponses finales.
L’attention peut mettre en évidence des tokens ou des spans plausibles tout en échouant en fidélité lors des audits basés sur des interventions.
Des sous-étapes médiées par l’attention occasionnelles (par exemple, la copie) apparaissent, mais la justesse de bout en bout dépend des interactions dans les voies MLP/résiduelles et les caractéristiques distribuées.
Les décompositions quantitatives dépendent du modèle et de la configuration; des métriques spécifiques ne sont pas disponibles.

Effets de mise à l’échelle et superposition: pourquoi les rôles d’attention se dégradent avec la taille et le long contexte

À mesure que la taille du modèle et la longueur du contexte augmentent:

La superposition augmente: Les caractéristiques se chevauchent au sein des neurones et des têtes, rendant les rôles des têtes moins nets et les motifs d’attention moins stables.
La redondance dans les configurations des têtes estompe les signaux d’importance des têtes; les variantes d’attention éparses/linéaires n’améliorent pas systématiquement la fidélité au niveau des poids.
Les scénarios de long contexte diffusent l’attention sur de nombreux tokens; la visualisation (par exemple, le flux d’attention) peut aider mais reste incomplète sans interventions.
Les paramètres de décodage modifient les distributions d’attention et les chemins de tokens, érodant davantage la stabilité. Les changements de domaine/langue modifient la spécialisation des têtes, limitant le transfert inter-tâches d’explications basées sur l’attention.

Conclusion: L’échelle et le long contexte amplifient les faiblesses de l’attention comme explication tout en renforçant l’argumentation en faveur d’analyses au niveau des caractéristiques et de tests causaux.

Tableaux Comparatifs

Méthodes explicatives pour les LLM de raisonnement

Catégorie de méthode	Fidélité causale	Complétude	Stabilité/robustesse	Transfert inter-modèle/tâche	Moment le plus efficace
Poids d’attention bruts	Faible; peut être manipulé sans changement de sortie	Non	Faible; sensible à la paraphrase/décodage	Mauvais	Vérifications rapides de plausibilité; premières couches; petits modèles
Importance des têtes/élimination	Varié; redondance obscurcit la causalité	Non	Modéré; dépendant de la tâche	Limité	Identifier les têtes dispensables; spécialisation grossière
Déploiement/flux d’attention	Mieux que les cartes brutes mais incomplet	Partiel au mieux	Modéré; toujours fragile sans interventions	Limité	Visualisation de l’influence à longue portée; associé à des tests causaux
Masquage/médiation d’attention	Plus élevé quand pré-enregistré et causal	Partiel	Modéré à élevé (dépendant de l’expérience)	Modéré	Tester des circuits d’attention spécifiques (par exemple, têtes d’induction)
Gradients/IG/LRP	Modéré à élevé avec conception minutieuse	Oui (IG)	Modéré; sensible aux baselines	Modéré	Attribution par token/couche; validée avec interventions
Traçage/patching/édition causale	Élevé; preuves les plus fortes	N/A (interventionnelle)	Élevé (avec conceptions contrôlées)	Modéré à élevé (niveau circuit)	Localisation mécaniste; tests contrefactuels
Caractéristiques de représentation (sondes/SAEs)	Modéré; s’améliore avec des interventions	N/A	Modéré à élevé (dépendant des caractéristiques)	Modéré à élevé (niveau caractéristique)	Découvrir des caractéristiques stables; complète le patching
Chaîne-de-pensée générée par le modèle	Faible (souvent a posteriori)	Non	Variable	Mauvais	Raisonnements orientés vers l’humain; pas des explications

Ce que montre l’attention—et ce qu’elle manque—par architecture/situation

Architecture/situation	Ce que révèle l’attention	Ce que l’attention manque	Composants supplémentaires nécessaires
Transformers denses	Circuits pour l’induction/la copie; certain suivi d’entités	Calculations médiées par MLP/résiduelles; caractéristiques distribuées	Patching d’activation, médiation, analyses de caractéristiques
LLM MoE	Routage token-à-token via auto-attention	Décisions de routage; calculs d’experts	Audits de logit du routeur; interventions par expert
RAG/RETRO	Quels passages ont été consultés (provenance)	Si l’évidence a été utilisée correctement; raisonnement sur le contenu	Récupération laisser-un-dehors et ablations de contexte; traçage causal
Agents augmentés par outils	Attention superficielle sur les tokens d’outils	Politique pour la sélection d’outils; reliance d’exécution	Audits causals du routage d’outil et des sorties

Meilleures Pratiques

Un protocole d’évaluation discipliné transforme l’interprétabilité de belles images en science testable 🔬

Commencez par des hypothèses mécanistes:
Spécifiez les têtes, chemins ou caractéristiques candidats censés médiatiser un calcul (par exemple, une tête d’induction ou une caractéristique éparse représentant une retenue arithmétique).
Enregistrez à l’avance les attentes dans la mesure du possible pour éviter le biais de rétrospection.
Triangulez les explications:
Calculez plusieurs signaux: attention brute, flux d’attention, gradients/IG/LRP, et activations de caractéristiques candidates à partir de SAEs ou de sondes.
Utilisez chacun comme générateur d’hypothèses, pas comme preuve.
Effectuez des tests causaux:
Masquage de tête/chemin et édition d’attention pour tester les revendications médiées par l’attention.
Patching d’activation à travers les couches pour identifier les emplacements et caractéristiques décisifs.
Nettoyage causal pour remplacer les variables hypothétisées par des contrefactuels et vérifier si les prédictions suivent.
Évaluez sur des benchmarks de raisonnement avec des contrôles de robustesse:
Utilisez GSM8K, MATH, BBH, MMLU, ARC et DROP comme principales arènes.
Stressez la stabilité avec des paraphrases, des modifications adverses/contrefactuelles, et des configurations de décodage variées.
Suivez la performance et le comportement qualitatif sous les interventions ciblées; des métriques spécifiques peuvent être indisponibles mais devraient être enregistrées si possible.
Pour les modèles MoE:
Connectez et analysez les logits de routage et les sélections d’experts en parallèle avec l’attention.
Exécutez des interventions par expert pour valider les rôles causals.
Pour les systèmes RAG et d’utilisation d’outils:
Traitez l’attention croisée comme provenance, non reliance.
Utilisez la récupération laisser-un-document-dehors et les ablations de contexte structurées pour vérifier la dépendance à des sources spécifiques.
Pour les outils, auditez les résultats du routage et d’exécution; ablatez les sorties des outils pour confirmer la nécessité.
Préférez les substrats au niveau des caractéristiques:
Utilisez les SAEs ou des sondes ciblées pour faire émerger des caractéristiques éparses et interprétables qui se répètent à travers les couches/modèles.
Validez la causalité des caractéristiques avec le patching d’activation et les modifications localisées.
Manipulez le CoT avec précaution:
Recueillez le CoT pour la compréhension humaine et les gains de performance.
N’équivalez pas le CoT avec le calcul interne du modèle sans tests causaux à l’appui.
Documentez les contrôles:
Enregistrez la taille du modèle, les configurations de tête d’attention, la visibilité du routeur (MoE), la composition de l’ensemble de récupération, les hyperparamètres de décodage, l’utilisation du CoT, et le domaine/langue pour que les résultats soient interprétables et transférables.
Signalez les limitations:
Soyez explicite lorsque des métriques sont indisponibles ou lorsque les preuves sont spécifiques aux tâches, aux architectures ou aux configurations.

Conclusion

Les cartes d’attention ont changé la manière dont les praticiens visualisent les modèles neuronaux, mais elles ne sont pas à la hauteur de la tâche d’expliquer le raisonnement dans les LLMs actuels. Les calculs décisifs se déroulent généralement dans les voies MLP/résiduelles et les politiques de routage, et les signaux qui récupèrent le mieux ces calculs proviennent des interventions causales et des analyses au niveau des caractéristiques, soutenues optionnellement par des gradients soigneusement conçus. L’attention conserve sa valeur dans des contextes étroits, spécifiquement mécanistes—les têtes d’induction et la provenance d’attention croisée—mais échoue en tant qu’explication polyvalente du raisonnement. La voie à suivre mélange des expériences orientées par hypothèse avec des audits interventionnels et des caractéristiques éparses qui résistent aux paraphrases, aux variations de décodage, et aux changements d’architecture.

Points clés à retenir:

L’attention est visibilité, pas calcul: traitez-la comme une preuve d’acheminement à moins d’être validée causalement.
Les voies MLP/résiduelles et les choix de routage/experts MoE sont les principaux loci causaux.
Les méthodes causales (activation patching, nettoyage causal, édition de connaissances) fournissent les plus fortes preuves de fidélité explicative.
Les caractéristiques éparses à partir de SAEs et de sondage offrent un substrat explicatif plus stable que les poids au niveau des têtes.
L’attention croisée dans RAG est bonne pour la provenance; la reliance nécessite des tests de laisser-un-en-dehors et des tests d’ablation.

Étapes suivantes actionnables:

Construisez des harnais d’évaluation qui automatisent le patching d’activation, la médiation, et les tests de laisser-un-en-dehors à travers les benchmarks.
Intégrez le journal des routeurs/expert dans les pipelines d’interprétation MoE.
Formez et déployez des SAEs pour fournir des caractéristiques candidates; priorisez les caractéristiques qui se transfèrent à travers les tâches.
Traitez le CoT comme une fonctionnalité de l’interface utilisateur, pas une explication, à moins d’être causalement validé.

À l’avenir, l’agrandissement continuera à magnifier la superposition et à distribuer le calcul. Les explications centrées sur les interventions causales et les caractéristiques mécaniques éparses voyageront le mieux à travers les architectures et les tâches, tandis que les cartes d’attention resteront utiles—mais uniquement dans les voies étroites où le calcul lui-même est connu pour être médié par l’attention.

Sources & Références

Attention is not Explanation Establishes that raw attention weights are not faithful explanations and can be manipulated without changing model outputs, supporting the article's critique of attention maps.

Is Attention Interpretable? Shows limitations and non-uniqueness of attention-based explanations, reinforcing the article's faithfulness and stability concerns.

Attention is not not Explanation Discusses nuanced conditions where attention may be informative, aligning with the article's constrained-use stance.

Quantifying Attention Flow in Transformers Introduces attention flow/rollout approaches, used in the article to argue that these visualizations still miss non-attention mediation without causal validation.

Transformer Interpretability Beyond Attention Presents alternative interpretability techniques beyond attention, supporting the pivot toward gradients and interventions.

Causal Mediation Analysis for Interpreting Neural NLP Provides causal analysis tools and evidence that intervention-based methods yield more faithful explanations than raw attention.

Transformer Feed-Forward Layers Are Key-Value Memories Supports the claim that decisive computations and factual knowledge reside in MLP/residual pathways rather than attention weights.

Locating and Editing Factual Associations in GPT (ROME) Demonstrates targeted knowledge editing in non-attention parameters, reinforcing the centrality of MLP/residual pathways for causality.

In-Context Learning and Induction Heads Validates induction heads as a genuine attention-mediated circuit, a key exception highlighted in the article.

Scaling Monosemanticity: Sparse Autoencoders Learn Interpretable Features in LLMs Provides evidence that sparse feature-level analyses yield stable, interpretable substrates for explanations.

Causal Scrubbing Offers a rigorous interventional methodology to test hypothesized causal pathways, central to the article’s recommendations.

Sanity Checks for Saliency Maps Underpins the article's warnings about attribution instability and the need for validation beyond plausibility.

ERASER: A Benchmark to Evaluate Rationalized NLP Models Documents that attention-aligned rationales can look plausible yet fail faithfulness under interventions.

Language Models Don’t Always Say What They Think Shows chain-of-thought can be unfaithful to internal computation, aligning with the article’s caution on CoT.

Measuring Faithfulness in Chain-of-Thought Provides criteria and evidence that CoT rationales are often post hoc, supporting the article's stance.

Retrieval-Augmented Generation (RAG) Supports the claim that cross-attention offers provenance in retrieval settings but not guaranteed reliance without leave-one-out tests.

RETRO Corroborates retrieval settings where cross-attention to sources is visible yet insufficient to prove reasoning reliance.

Switch Transformers: Scaling to Trillion Parameter Models Introduces MoE routing and expert specialization, supporting the argument that routers and experts dominate causal pathways.

GLaM: Efficient Scaling with Mixture-of-Experts Provides MoE evidence on routing/expert roles, aligning with the article’s critique of attention-only explanations in MoE.

Mixtral of Experts Offers context on modern MoE implementations where routing/expert analysis is critical beyond attention maps.

GSM8K Benchmark reference for multi-step arithmetic reasoning used in the article’s evaluation framing.

MATH Benchmark reference for mathematical reasoning to situate claims about attention’s limitations.

MMLU Benchmark reference for multi-task language understanding to support generality of findings.

ARC Benchmark reference for commonsense reasoning as a stress test for explanation stability.

DROP Benchmark reference for reading comprehension with discrete reasoning, where attention-only methods fall short.

BIG-bench Benchmark reference for broad reasoning evaluation, grounding the article’s cross-task perspective.

Challenging BIG-bench Tasks and Whether Chain-of-Thought Helps (BBH) Benchmark reference emphasizing difficult reasoning tasks where attention explanations are brittle.

Axiomatic Attribution for Deep Networks (Integrated Gradients) Supports the article’s claim about completeness and improved alignment with causal influence compared to raw attention.

Layer-wise Relevance Propagation Provides foundation for path-aware attributions used as more faithful alternatives to attention.

A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Underscores the need to evaluate interpretability methods with removal-based tests, consistent with the article’s protocol.

A Primer in BERTology: What we know about how BERT works Contextualizes head specialization, redundancy, and the need to look beyond attention for faithful explanations.

Toolformer Supports claims about tool-use settings where attention over tool tokens is insufficient to explain decision policies.

Self-RAG Reinforces the requirement for leave-one-out and causal audits to validate reliance on retrieved content in RAG systems.