ai 5 min • intermediate

L'interprétabilité mécanistique devient courante : la feuille de route 2026-2028

Des autoencodeurs rares et de la découverte des circuits à la transparence des routeurs et aux audits standardisés de récupération/outils, la recherche passe de la plausibilité à la fidélité causale

Par AI Research Team
L'interprétabilité mécanistique devient courante : la feuille de route 2026-2028

markdown

L’interprétabilité mécanistique se généralise: la feuille de route 2026–2028

Des autoencodeurs spartiate à la découverte de circuits en passant par la transparence des routeurs et les audits normés de récupération/outils, la recherche passe de la plausibilité à la fidélité causale.

Les cartes de chaleur d’attention semblaient autrefois être la panacée pour expliquer comment les grands modèles de langue raisonnent. Mais le domaine a passé des années à découvrir une vérité difficile: les visualisations les plus convaincantes échouent souvent aux tests les plus basiques de causalité, de complétude et de stabilité. Les poids d’attention bruts peuvent changer radicalement sans modifier les prédictions. Le raisonnement en plusieurs étapes est guidé par des caractéristiques distribuées dans les voies résiduelles et les blocs MLP plutôt que par la seule attention. Et lorsque les modèles récupèrent des documents ou utilisent des outils, les choix décisifs se situent dans les routeurs, les experts et les politiques que l’auto-attention ne révèle tout simplement pas.

Aujourd’hui, un autre paradigme s’impose. Au lieu d’extraire des schémas à partir de matrices d’attention, les chercheurs interviennent, réparent, modifient et vérifient les véritables parcours causaux de calcul – et soutiennent chaque revendication par des tests contrefactuels. En même temps, les approches au niveau des caractéristiques telles que les autoencodeurs épars transforment les activations opaques en blocs de construction interprétables et réutilisables qui se transfèrent mieux entre les tâches. Au cours des deux prochaines années, attendez-vous à ce que ce pivot de la plausibilité à la fidélité causale façonne les méthodes, les normes et les benchmarks – depuis la façon dont nous localisons les circuits jusqu’à la façon dont nous vérifions les décisions de routage dans les systèmes MoE et ceux axés sur la récupération.

Cette feuille de route expose la direction dans laquelle s’achemine l’interprétabilité mécanistique jusqu’en 2028: automatiser la découverte causale; l’échelle des représentations au niveau des caractéristiques; remodeler les objectifs de la formation; rendre auditable les routeurs et les experts en MoE; normaliser les explications de récupération/usage d’outils; faire évoluer les benchmarks pour prioriser la stabilité, le transfert et la fidélité des processus; et affronter les risques qui persistent, notamment l’infidélité de la chaîne de pensée, la superposition, la fuite d’évaluation et le problème difficile de mesurer la complétude.

Percées de Recherche

Le changement décisif de l’attention en tant qu’explication est soutenu par des preuves convergentes. Les cartes d’attention brutes sont non-uniques par rapport aux sorties et peuvent être manipulées sans changer les prédictions. Elles échouent souvent aux tests causals de nécessité et de suffisance, et leurs schémas sont fragiles sous les paraphrases, les perturbations adverses et les changements de décodage. Cela les rend utiles pour des vérifications rapides de la plausibilité ou la provenance dans la cross-attention de récupération — où elles montrent quels documents ont été consultés — mais pas pour des explications de bout en bout du raisonnement.

Les interventions causales ont établi la nouvelle norme. Le remède d’activation, le masquage de tête et de chemin, l’édition d’attention, et l’analyse médiationnelle causale permettent aux chercheurs de poser des questions “et si” sur des composants spécifiques – et d’observer si les sorties changent selon ces hypothèses. Ces méthodes révèlent à plusieurs reprises que les calculs décisifs pour le raisonnement sont distribués et souvent médiés par des composants non-attentionnels, en particulier les couches feed-forward qui agissent comme des mémoires clé-valeur. Les méthodes d’édition de connaissances qui ciblent les paramètres non-attentionnels peuvent modifier de manière fiable les sorties, renforçant l’idée que l’attention est surtout un mécanisme de routage plutôt que le lieu du calcul.

Les analyses au niveau des représentations mûrissent en un second pilier. La sonde et les autoencodeurs épars retrouvent des caractéristiques éparses, interprétables, qui se répètent à travers les couches et modèles. Bien que les sondes puissent refléter des corrélations et que les SAEs soulèvent des questions de couverture et de pureté, les représentations au niveau des caractéristiques se sont révélées plus stables que les schémas d’attention et servent de meilleur support pour les interventions causales et la découverte de circuits.

L’attribution basée sur le gradient offre un complément pragmatique. Des techniques telles que les gradients intégrés et la propagation de la pertinence par couche satisfont des axiomes utiles (notamment, la complétude pour les gradients intégrés) et s’alignent souvent mieux avec l’influence causale que l’attention brute lorsqu’elles sont conçues soigneusement. Elles nécessitent toujours une validation par intervention, mais ajoutent une perspective raisonnée sur la contribution de chaque jeton ou voie.

Les résultats spécifiques à l’architecture soutiennent cette direction. Dans les Transformers décodeurs uniques denses, les têtes d’induction/copier sont une exception répétitive où les analyses d’attention, validées par interventions, fonctionnent bien. Pour les modèles Mixture-of-Experts, cependant, l’image change: les routeurs sélectionnent les experts par jeton, et les calculs de routage et d’expert dominent souvent le parcours causal. Les cartes d’attention manquent ces décisions. Et dans les réglages de récupération et d’utilisation d’outils, la cross-attention aide la provenance, mais seuls les tests de type “laisser-un-document-de-côté”, les ablations de contexte, et les audits de routage d’outil établissent une véritable reliance et un raisonnement correct.

Pris ensemble, ces résultats pointent vers un écosystème basé sur des méthodes interventionnelles, des variables au niveau des caractéristiques et une validation rigoureuse. L’attention reste une couche de visibilité utile pour des cas spécifiques — notamment la provenance dans la récupération — mais n’est plus le centre de gravité pour expliquer le raisonnement dans les systèmes modernes.

Feuille de Route & Directions Futures

Les deux prochaines années consisteront à transformer ces perspectives en pratiques évolutives et standardisées. Plusieurs priorités se détachent.

  • Automatisation de la découverte causale

  • Échelle du remède d’activation et de l’analyse médiationnelle. Le remède manuel, couche par couche, ne passe pas à l’échelle pour les modèles plus grands ou les comportements complexes. La direction claire est un outil qui propose des circuits candidats, mène des expériences d’ablation/remède pré-enregistrées, et rapporte des métriques de fidélité par défaut. Les cadres spécifiques et les métriques de débit ne sont pas disponibles, mais les ingrédients — remède d’activation, masquage/édition d’attention, et entrées contrefactuelles — sont établis.

  • Construire des actifs de circuit réutilisables. Les explications au niveau des circuits existent déjà par endroits (par ex. induction). Créer des artefacts de circuit partageables, testables, alignés sur des hypothèses précises, accélérerait le transfert et la réplication. Les formats de bibliothèque concrets ne sont pas spécifiés; le besoin est sous-entendu par le succès du travail au niveau des circuits et des protocoles robustes.

  • Représentations au niveau des caractéristiques à grande échelle

  • Pousser les SAEs monosemantiques. Les autoencodeurs épars ont montré qu’ils pouvaient récupérer des caractéristiques interprétables qui se stabilisent entre les couches et les modèles. Étendre la couverture, résoudre la pureté des caractéristiques, et cartographier les interactions avec les voies MLP/résiduelles rendra les SAEs un support routinier pour la traçabilité et l’édition causale.

  • Désengagement et transfert entre tâches et langues. Les variables au niveau des caractéristiques semblent plus stables que les schémas d’attention, et le transfert s’améliore au niveau des caractéristiques. Des audits systématiques sous changement de domaine et de langue quantifieront ce qui se transfère et où une revalidation est nécessaire. Les métriques spécifiques ne sont pas fournies au-delà des tests de stabilité et de transfert existants.

  • Progrès en temps de formation

  • Supervision par intervention. Aujourd’hui, les interventions et les audits sont principalement post hoc. L’étape naturelle suivante est d’incorporer des signaux provenant de tests causals (par exemple si un composant est nécessaire/suffisant) dans la boucle de formation pour encourager des parcours de calcul fidèles. Des recettes spécifiques ne sont pas disponibles, mais le but est clair: décourager les raccourcis sp

Échanges et attentions adverses, et renforcer l’alignement des processus.

  • Objectifs alignés sur le processus. La supervision par chaîne de pensée améliore les performances, mais est souvent infidèle au calcul interne. Les objectifs qui récompensent la fidélité des processus — mesurée par les métriques interventionnelles, pas seulement par la justesse des sorties — sont une direction logique. Les mises en œuvre concrètes ne sont pas spécifiées.

  • Robustesse adversative pour les explications. Les modèles devraient maintenir la stabilité explicative sous les paraphrases, les changements de décodage, et les perturbations contrefactuelles. Renforcer la robustesse en temps de formation face à ces facteurs de stress complète les audits post hoc.

  • Transparence des routeurs et MoE

  • Exposer et auditer le routage. Dans les LLMs MoE, les logiques de routage et les calculs propres à chaque expert déterminent souvent les résultats. Une explication crédible doit montrer les distributions de routeurs, les sélections d’experts par jeton, et l’effet causal du changement ou de l’ablation d’experts. Dans la mesure du possible, les interventions devraient établir la nécessité et la suffisance pour les décisions au niveau des jetons.

  • Introspection experte. Les analyses par expert — quelles caractéristiques ils encodent, comment ils médient les calculs résiduels — doivent s’accompagner des audits de routeurs. Normaliser ces audits comblera un angle mort important dans les explications actuelles.

  • Normes d’explicabilité RAG et agents

  • Récupération par élimination et ablations de contexte. La cross-attention aux passages récupérés aide à la provenance, mais la provenance n’est pas une reliance. Supprimer ou modifier le contenu récupéré et observer les changements de sortie devrait être une pratique standard pour démontrer l’utilisation effective des preuves.

  • Audits d’utilisation d’outils. Pour les agents augmentés par outils, l’attention à la surface des jetons d’outils en dit peu sur les politiques de décision. Auditer la sélection de fonctions, les décisions de routage, et la reliance sur les résultats d’exécution par ablations et contrefactuels doit devenir une routine.

  • Schémas de provenance. La provenance — ce qui a été consulté et quand — devrait être capturée aux côtés des preuves causales de reliance. Les détails spécifiques du schéma ne sont pas fournis, mais le besoin de séparer “consulté” de “causalement utilisé” est explicite dans les meilleures pratiques actuelles.

Évolution des Benchmarks

Les explications qui semblent plausibles ne suffisent plus. Les benchmarks et protocoles évoluent pour tester si les explications sont fidèles, stables, robustes et transférables — et pour ce faire dans des conditions où le raisonnement est le plus difficile.

  • Fidélité et complétude

  • Fidélité causale: Mesurez si les perturbations ciblées sur les composants mis en avant modifient les prédictions dans le sens prévu; testez la nécessité et la suffisance via des ablations et des patchs.

  • Complétude: Utiliser des méthodes d’attribution avec des propriétés formelles de complétude (par exemple, les gradients intégrés) pour tester si les attributions expliquent les différences de sortie. La complétude au-delà de ces axiomes reste un problème ouvert.

  • Calibrage et stabilité

  • Calibrage: Alignez la confiance dans une explication avec l’effet causal mesuré.

  • Stabilité: Stressez les attributions explicatives sous les paraphrases, les perturbations adversatives/contrefactuelles, et les différents hyperparamètres de décodage. Les paramètres longue distance et la diffusion de l’attention ajoutent une pression supplémentaire.

  • Robustesse et transfert

  • Robustesse: Testez la résilience contre les corrélations spurious et les attentions adverses.

  • Transfert: Évaluez si les schémas explicatifs (pas seulement les sorties) se transfèrent entre modèles, tâches, domaines et configurations de formation. Les bascules domaine/langue et la taille des modèles souvent cassent le transfert naïf, soulignant le besoin de variables au niveau des caractéristiques et de revalidation.

  • Audits de récupération et d’utilisation d’outils

  • Récupération: Standardisez les expérimentations laisser-un-document-en-dehors et la suppression contrôlée du contexte pour confirmer la reliance sur les preuves récupérées plutôt que sur une simple co-attention.

  • Outils: Enregistrez et auditez les décisions de politique pour la sélection d’outils et la reliance du modèle sur les résultats retournés via des interventions causales.

  • Couverture des tâches

  • Benchmarks de raisonnement: Les tâches multiples et compositionnelles telles que GSM8K, MATH, BIG-bench and BBH, MMLU, ARC et DROP mettent à l’épreuve les capacités où les explications par attention seule échouent et les méthodes interventionnelles au niveau des caractéristiques apportent le plus de valeur.

  • Benchmarks de méthode d’interprétabilité: Les cadres comme ROAR restent utiles pour vérifier si les estimations de l’importance des caractéristiques s’alignent avec des chutes réelles de performance sous suppression.

Les protocoles d’évaluation qui commencent par des hypothèses mécanistiques—puis triangulent le flux d’attention, les gradients, les caractéristiques candidates, et les circuits avant de réaliser des tests interventionnels—se révèlent déjà plus robustes. Attendez-vous à ce qu’ils deviennent la norme: pré-enregistrés, contrefactuels, et conscients de l’architecture.

Risques et Questions Ouvertes

Même avec des méthodes plus solides, plusieurs risques et lacunes demeurent.

  • Infidélité de la CoT

  • La chaîne de pensée améliore souvent la compréhensibilité humaine et la performance des tâches mais peut diverger du calcul interne du modèle. Sans triangulation par des tests interventionnels, les raisonnements risquent de devenir des justifications post hoc.

  • Superposition à l’échelle

  • Au fur et à mesure de l’agrandissement des modèles, les caractéristiques se superposent plus fortement, et les rôles des têtes deviennent moins nets. Cela complique l’interprétation et augmente les chances que les schémas d’attention soient instables. L’échelle de caractéristiques monosemantiques et le désengagement restent un défi central.

  • Fuite d’évaluation et lignes de base

  • Les méthodes d’attribution sont sensibles aux lignes de base et peuvent réussir des tests superficiels tout en échouant aux audits causals. Les vérifications de bon sens et les contrôles contrefactuels doivent faire partie de toute évaluation sérieuse.

  • Mesurer la complétude au-delà d’IG

  • Les axiomes de complétude d’attribution sont utiles mais incomplets en tant que mesure pour savoir si une explication “capture” un calcul. Définir et mesurer la couverture pour les explications au niveau des caractéristiques et des circuits est une question en suspens.

  • Couverture et pureté des SAEs et sondes

  • Les autoencodeurs épars fournissent des caractéristiques prometteuses mais soulèvent des questions sur la façon dont ils capturent de manière exhaustive et purement les variables réellement utilisées dans le calcul. Les interventions restent l’arbitre de la fidélité.

  • Comportement de routage MoE sous changement

  • Les routeurs et les experts peuvent se comporter de manière imprévisible sous les changements de domaine ou de langue. Les audits systématiques à travers les changements – et les tests interventionnels qui vérifient les décisions au niveau des jetons – sont essentiels pour un déploiement sûr dans des environnements dynamiques.

Impact & Applications

L’impact pratique est clair: les explications qui survivent aux audits causals remplaceront les cartes de chaleur d’attention comme norme pour les évaluations sérieuses du raisonnement. Dans les modèles denses, cela signifie des pipelines interventionnels liés à des variables au niveau des caractéristiques. Dans les systèmes MoE, cela signifie exposer les logiques de routeurs, enregistrer les sélections d’experts par jeton, et tester la reliance causale sur les experts. Dans les configurations de récupération intensive et d’outils augmentés, cela signifie la provenance plus les ablations laisser-un-en-dehors/le contexte et les audits de routage d’outils, et pas seulement de jolies cartes de cross-attention.

Méthodologiquement, la recherche convergera vers une approche en couches:

  • Commencez avec des hypothèses mécanistiques explicites.
  • Générez plusieurs explications candidates: flux d’attention, gradients/attributions, caractéristiques candidates via SAEs.
  • Confirmez ou rejetez les hypothèses avec interventions: masquage de tête/chemin, remède d’activation, édition d’attention, entrées contrefactuelles, et, le cas échéant, édition de connaissance.
  • Rapporter les métriques de fidélité, complétude, calibration, stabilité, robustesse, et transfert aux côtés de la précision primaire de la tâche.

Alors que ces pratiques se normalisent, attendez-vous à moins d’argumentation sur ce qu’une tête d’attention “signifie” et à plus de d’informations sur les circuits et caractéristiques testées qui résistent à l’épreuve contrefactuelle. Les systèmes de récupération et d’utilisation d’outils passeront de montrer ce qui a été regardé à prouver ce qui a effectivement été utilisé. Et comme les tailles de modèle et les architectures continuent d’évoluer, le focus restera sur les parcours causals vérifiables qui se généralisent entre les tâches et les domaines.

Conclusion

L’interprétabilité mécanistique entre dans une nouvelle phase. Le domaine a appris que l’attention est une lentille de routage inestimable et un signal de provenance utile – mais pas un compte rendu fidèle et complet du raisonnement dans les modèles de langue modernes. Les interventions causales, les représentations au niveau des caractéristiques et la validation rigoureuse comblent cet écart, avec des audits de router et d’outil élargissant la portée de ce qui doit être expliqué dans les pipelines MoE et de récupération/outils.

Principaux enseignements:

  • Remplacer les récits uniquement basés sur l’attention par des tests interventionnels de la nécessité et de la suffisance.
  • Utiliser les représentations au niveau des caractéristiques (par ex., SAEs) comme support stable pour la traçabilité causale et l’édition.
  • Exposez et auditez les routeurs et experts MoE; incluez les distributions de routage dans les explications.
  • Normalisez les tests de récupération par élimination et les audits d’utilisation d’outils pour distinguer la provenance de la reliance.
  • Faites évoluer les benchmarks pour mesurer la fidélité, la complétude, la stabilité, la robustesse, et le transfert – pas seulement la plausibilité.

Prochaines étapes réalisables:

  • Adoptez des protocoles pré-enregistrés, contrefactuels pour toute revendication explicative sur le raisonnement.
  • Construisez des pipelines qui proposent et testent automatiquement des hypothèses de circuit avec un remède d’activation.
  • Intégrez des méthodes d’attribution avec des propriétés formelles (par ex., complétude) et validez-les avec des interventions.
  • Enregistrez et auditez les routeurs, experts, et les décisions de routage/outils comme objets explicatifs de première classe.

Les deux prochaines années seront définies par ce pivot de ce qui semble explicatif à ce qui est causalement vrai. L’interprétabilité mécanistique ne sera pas jugée par la clarté d’une carte de chaleur, mais par la survie des explications aux modifications chirurgicales du calcul lui-même — et si elles se transfèrent lorsque le modèle, la tâche, le domaine ou la langue change. 🔬

Sources & Références

arxiv.org
Attention is not Explanation Establishes that raw attention weights often fail to provide faithful explanations, motivating the pivot toward causal methods.
arxiv.org
Is Attention Interpretable? Shows instability and non-uniqueness of attention-based explanations, supporting claims about brittleness and plausibility gaps.
arxiv.org
Quantifying Attention Flow in Transformers Illustrates path-based attention analyses and their limits without causal validation, informing the shift to interventions.
arxiv.org
Transformer Interpretability Beyond Attention Demonstrates gradient-/path-based techniques that often align better with causal influence than raw attention.
arxiv.org
Causal Mediation Analysis for Interpreting Neural NLP Provides a framework for causal tests of necessity/sufficiency used in the roadmap’s interventional protocols.
arxiv.org
Transformer Feed-Forward Layers Are Key-Value Memories Shows decisive computations and knowledge storage in MLP/residual pathways, explaining why attention-only views are incomplete.
arxiv.org
Locating and Editing Factual Associations in GPT (ROME) Evidence that non-attention parameter edits change outputs reliably, underscoring the causal role of MLP/residual layers.
transformer-circuits.pub
In-Context Learning and Induction Heads A concrete, validated example where attention-mediated circuits can be causally explained.
transformer-circuits.pub
Scaling Monosemanticity: Sparse Autoencoders Learn Interpretable Features in LLMs Supports the roadmap’s emphasis on feature-level representations and SAEs for stable, transferable explanations.
www.alignmentforum.org
Causal Scrubbing Presents interventional testing of hypothesized circuits, central to automating causal discovery and faithfulness.
arxiv.org
Sanity Checks for Saliency Maps Warns that attribution methods can fail superficial tests, motivating rigorous baselines and validations.
arxiv.org
Axiomatic Attribution for Deep Networks (Integrated Gradients) Provides a completeness-based attribution method referenced for benchmark completeness criteria.
arxiv.org
Retrieval-Augmented Generation (RAG) Frames retrieval provenance vs reliance and motivates leave-one-out retrieval audits.
arxiv.org
RETRO Shows retrieval cross-attention’s utility for provenance and the need for causal tests of reliance.
arxiv.org
Switch Transformers: Scaling to Trillion Parameter Models Introduces MoE routing and expert selection, motivating router/expert audits for explanations.
arxiv.org
GLaM: Efficient Scaling with Mixture-of-Experts Reinforces the importance of routing logits and expert specialization in MoE interpretability.
mistral.ai
Mixtral of Experts Represents an open MoE release context where router and expert transparency is crucial for explanations.
arxiv.org
Self-RAG Highlights retrieval/tool-use evaluation practices relevant to provenance vs reliance and auditing standards.
arxiv.org
Toolformer Anchors tool-use scenarios where attention to tool tokens is insufficient without policy and reliance audits.
arxiv.org
GSM8K Representative reasoning benchmark referenced for stress-testing explanation faithfulness.
arxiv.org
MATH Reasoning benchmark emphasizing multi-step algebraic reasoning, where attention-only methods falter.
arxiv.org
BIG-bench Broad evaluation suite for compositional reasoning, informing benchmark evolution.
arxiv.org
Challenging BIG-bench Tasks and Whether Chain-of-Thought Helps (BBH) Targets hard reasoning settings where process faithfulness matters beyond CoT plausibility.
arxiv.org
MMLU Knowledge-intensive benchmark cited for evaluating explanation stability and transfer.
arxiv.org
ARC Benchmark stressing reasoning and generalization; relevant for stability/robustness tests.
arxiv.org
DROP Reading comprehension with numerical reasoning; used to assess process faithfulness.
arxiv.org
Layer-wise Relevance Propagation Attribution technique discussed as a complement to interventional methods.
arxiv.org
A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Methodology for testing whether importance estimates reflect causal impact under removal.
arxiv.org
ERASER: A Benchmark to Evaluate Rationalized NLP Models Early evidence that attention-aligned rationales can fail faithfulness under intervention-based audits.
arxiv.org
Language Models Don’t Always Say What They Think Evidence that model-generated rationales can be unfaithful to internal computation.
arxiv.org
Measuring Faithfulness in Chain-of-Thought Analyzes CoT faithfulness issues and motivates process-aligned objectives and audits.
arxiv.org
A Primer in BERTology: What we know about how BERT works Synthesizes findings on attention redundancy and specialization, contextualizing the limits of head-level explanations.

Advertisement