Interprétabilité Causale: Le Fossé Franchi
Directions de recherche émergentes qui redéfiniront les explications fidèles au-delà de 2026
Les raisonnements plausibles pour l’humain étaient autrefois considérés comme de l’« interprétabilité », mais la communauté a appris à ses dépens que ce qui semble juste n’est souvent pas ce que les modèles utilisent réellement. Les cartes de chaleur d’attention peuvent paraître convaincantes mais échouer aux vérifications causales, et la chaîne de raisonnement peut être persuasive sans refléter le fonctionnement interne du modèle. En 2026, cet écart se réduit. Une nouvelle vague d’évaluations interventionnelles et multi-méthodes—illustrée par le cadre LIBERTy—pousse les explications à respecter une norme plus élevée: démontrer une fidélité causale ou être traitée comme des récits.
Cet article cartographie l’avenir proche des explications fidèles. Il retrace le changement culturel du domaine des récits vers les mécanismes; met en lumière de nouveaux paradigmes de données—traces fondées sur les processus, justifications multimodales et paires contrastives; examine la base des traces de programme; et explore la généralisation centrée sur l’environnement, l’instrumentation préservant la confidentialité, et la génération contrefactuelle sur-manifold. Nous concluons avec des conseils sur les systèmes augmentés par outils, comment les signaux d’évaluation peuvent façonner la formation, des garanties contre le détournement des métriques, et des problèmes ouverts pour 2026 et au-delà.
Percées de Recherche
Des récits aux mécanismes: le tournant interventionnel
L’idée centrale est simple mais rigoureuse: une explication est fidèle si elle capture les facteurs causaux et les chemins réellement utilisés par le modèle, pas seulement une histoire plausible. Cette norme impose des interventions. Au niveau de l’entrée, les protocoles de suppression–insertion et les courbes AUC testent si les caractéristiques priorisées par une explication sont nécessaires et/ou suffisantes—les explications fidèles provoquent des chutes abruptes lors de la suppression et des gains significatifs lors de l’insertion. ROAR (supprimer et réentraîner) renforce les revendications de nécessité en montrant que la suppression de caractéristiques prétendument importantes dégrade toujours les performances même après réentrainement, contrôlant pour la capacité du modèle à réévaluer les alternatives.
La dépendance contrefactuelle dépasse l’effacement: des modifications sémantiques minimales—négation, quantificateurs, ou permutation d’un seul attribut—devraient inverser à la fois les attributions de l’explication et la sortie du modèle dans la direction attendue. CheckList formalise ces modifications comportementales à grande échelle. Pour éviter les artefacts hors-manifold issus de la suppression, des tests d’insertion complémentaires et des contrefactuels validés par des humains aident à garantir que les modifications sont fluides et bien formées sur le plan sémantique.
Les interventions au niveau de la représentation introduisent la causalité au sein du modèle. L’appariement de l’activation/chemin substitue les activations internes d’un exemple contrefactuel aux médiateurs hypothétiques; si la sortie change en conséquence, ces caractéristiques sont des conducteurs causaux. L’analyse de médiation et l’abstraction causale formalisent les hypothèses de parcours et quantifient les effets directs/indirects. Les autoencodeurs épars (SAEs) promettent des ablations et des patchs de caractéristiques plus fins et alignés sémantiquement, resserrant le lien entre les concepts humains et les circuits internes—tout en exigeant toujours une confirmation interventionnelle avant les revendications causales.
Cette triangulation—perturbations de niveau d’entrée, robustesse contrefactuelle, et interventions au niveau de la représentation—ancre le changement culturel. LIBERTy l’associe à la transparence de style HELM, aux rapports de variance multi-graines, et aux protocoles préenregistrés pour rendre les résultats crédibles et reproductibles à l’échelle de 2026. Le résultat est une barre interventionnelle que les explications doivent franchir pour être qualifiées de fidèles.
Nouveaux paradigmes de données: traces fondées sur les processus, justifications multimodales et paires contrastives à grande échelle
Une évaluation fidèle nécessite les bons signaux de supervision. Les ensembles de données fondés sur les preuves fournissent des spans d’or ou des phrases pour tester la suffisance et la nécessité minimales (ERASER, FEVER, HotpotQA). Les corpus supervisés par processus comme GSM8K et MATH permettent la vérification au niveau des étapes et les modifications contrefactuelles étape par étape, cruciales pour sonder les revendications de chaîne de raisonnement. Les raisonnements uniquement plausibles (par ex., e-SNLI) restent utiles mais nécessitent des tests causaux explicites avant de tirer des conclusions sur la fidélité.
Les tâches multimodales étendent le paradigme au-delà du texte. VQA-X/ACT-X associe des justifications à des pointages, ScienceQA couple des images et du texte avec des explications, A-OKVQA injecte des connaissances mondiales dans VQA avec des raisonnements, VCR met l’accent sur le sens commun visuel, et FEVEROUS mélange du texte avec des tables structurées—chacun offrant des ancrages pour évaluer si les attributions correspondent aux modalités réellement utilisées par les modèles. Les ensembles de contrastes et les paires adversariales/diagnostiques minimalement éditées sondent directement la dépendance contrefactuelle et les inversions d’explication à grande échelle.
LIBERTy prescrit également des méthodes de construction pour des ensembles de données adaptés à 2026: demander aux annotateurs de marquer les preuves suffisantes minimales et de proposer des contrefactuels propres, validés par une revue humaine et des contrôles automatisés; profiler les corrélations spureuses et définir des divisions environnement/sous-groupe suivant WILDS; et, lorsque c’est possible, valider les étapes au niveau du processus pour leur correction et leur minimalité.
Ancrage des traces de programme: raisonnement exécutable et références alignées sur le circuit
Alors que les LLMs planifient de plus en plus, utilisent des outils, et exécutent des programmes, les explications doivent s’aligner avec ce que ces systèmes augmentés par outils ont réellement fait. LIBERTy évalue l’utilisation d’outils et les traces de programme en ablationnant des outils ou des étapes de programme et en mesurant l’impact en aval; en modifiant contrefactuellement les sorties d’outils; et en basant sur des histoires d’actions explicites (ReAct) ou des programmes compilés, récupérables par circuit (Tracr). Les métriques ici sont nettes: succès sous ablation d’outil, nécessité des étapes, et taux d’inversions contrefactuelles dues aux résultats d’outils intervenus. La fidélité représentationnelle devient traitable lorsque la structure algorithmique est connue, permettant des tests au niveau des parcours qui relient les étapes narratives aux médiateurs causaux dans le réseau.
Génération contrefactuelle automatisée, sur-manifold pour le texte et la vision
Les modifications contrefactuelles sont les plus convaincantes lorsqu’elles restent sur le manifold des données. Les protocoles de LIBERTy soulignent les modifications sémantiques minimales et les tests d’insertion complémentaires pour atténuer les artefacts hors-manifold. Pour la construction d’ensembles de données, il prescrit des contrefactuels rédigés par des humains et validés par les examinateurs et les contrôles automatisés—fournissant une base pour une évaluation contrefactuelle robuste et évolutive. Bien que des outils d’automatisation de bout en bout spécifiques ne soient pas détaillés, la combinaison de modèles de modifications comportementalement définis (par ex., CheckList), de paires contrastives, et de pipelines de validation pointe vers des pipelines de génération contrefactuelle semi-automatisée à travers le texte et la vision à court terme.
Feuille de Route & Directions Futures
Évaluation centrée sur l’environnement: changements prédéfinis qui testent la généralisation
Les explications fidèles devraient désaccentuer les caractéristiques spureuses qui échouent sous changement de distribution. Les divisions de l’environnement de type WILDS rendent cette idée opérationnelle à travers des domaines du monde réel, quantifiant si la stabilité de l’attribution prédit la stabilité de la performance lorsque les indices spureux faiblissent ou s’inversent. La minimisation des risques invariants offre une lentille conceptuelle pour juger si les modèles s’accrochent à des signaux causaux stables à travers les environnements. Même dans les régimes “simples” de la vision, les ensembles de tests de distribution appariée comme CIFAR-10.1 révèlent une fragilité de généralisation—utile pour tester si les explications sont stables à travers des entrées légèrement décalées. LIBERTy intègre ces tests centrés sur l’environnement à la construction de référence et au rapport, liant directement le comportement des explications à la généralisation causale.
Instrumentation préservant la confidentialité: crochets standardisés sans fuite
Les interventions au niveau de la représentation sont puissantes, mais exposer les activations internes peut soulever des préoccupations de sécurité et de confidentialité. LIBERTy soutient l’évaluation dans des régimes en boîte noire et en boîte blanche et équilibre explicitement la transparence avec la sécurité du système—appelant à l’examen par des équipes rouges des journaux d’intervention et à des pratiques de diffusion prudentes. Bien que les APIs de crochet spécifiques ne soient pas prescrites, l’utilisation par le cadre des outils d’interprétabilité établis (par ex., patching d’activation avec TransformerLens) suggère une voie vers des interfaces standardisées, minimales et révélatrices qui permettent des tests de médiation et de patching sans exposition complète des éléments internes du modèle.
Fidélité dans les systèmes augmentés par outils: modifier les outils, mesurer les inversions
Dans les contextes d’utilisation d’outils, les explications devraient citer les étapes qui sont prouvées nécessaires. Le protocole de LIBERTy—ablationner les outils/étapes de programme, modifier contrefactuellement les sorties d’outils et mesurer les inversions—traduit la norme abstraite de la fidélité causale en contrôles concrets, automatisables pour les systèmes de style ReAct et les programmes compilés. Le résultat: la nécessité des étapes devient testable empiriquement plutôt qu’assertée rhétoriquement.
Boucler la boucle avec la formation: utiliser les signaux d’évaluation pour façonner la dépendance causale
Bien que LIBERTy soit un cadre d’évaluation, ses métriques sont des signaux prêts pour la formation. Les chutes de performance de style ROAR après la suppression de caractéristiques, les impacts de suffisance/intégralité d’ERASER, et les estimations ACE des médiateurs à partir du patching d’activation fournissent des gradients pour façonner les modèles vers une dépendance causale robuste. Les recettes de formation spécifiques ne sont pas fournies, mais le pont est clair: utiliser les mêmes interventions qui valident la fidélité pour récompenser les mécanismes causaux stables et pénaliser les raccourcis spureux.
Garde contre le détournement des métriques: triangulation par-dessus les scores uniques
Les métriques uniques invitent à l’ajustement excessif. LIBERTy contre cela avec des défenses multisectorielles: associer suppression avec insertion; valider les contrefactuels; utiliser ROAR pour contrôler l’adaptabilité; exécuter des tests de changement d’environnement; appliquer des contrôles de cohérence pour détecter des attributions dégénérées; et confirmer / infirmer des hypothèses via des interventions au niveau de la représentation. La pré-enregistrement, le rapport de variance multi-graines, et la transparence de style HELM réduisent encore les degrés de liberté et rendent le détournement des métriques visible.
Impact & Applications
LIBERTy transforme l’interprétabilité de l’art en une science responsable. En unifiant les ensembles de données fondés sur les preuves et supervisés par processus avec des tests interventionnels et des contraintes de changement d’environnement, il fournit un étalon commun pour les modèles textuels et multimodaux [43–46]. Le rapport de style HELM du cadre, les fiches modèle/données, et la comptabilisation des calculs rendent les comparaisons entre modèles crédibles; son orientation éthique nous rappelle que dans les domaines à enjeux élevés, des systèmes interprétables par conception peuvent encore être préférables à des explications post hoc. Le résultat: des explications qui gagnent la confiance en survivant au scrupule causal—non pas en paraissant bonnes.
Exemples Pratiques
Voici des workflows d’évaluation prototypes fondés sur les tests et ensembles de données prescrits par LIBERTy. Ils illustrent comment les normes causales se traduisent en expériences concrètes; des métriques spécifiques sont rapportées par définition de métrique, mais les chiffres de performance globaux ne sont pas fournis ici (métriques spécifiques indisponibles).
-
Dépendance contrefactuelle en NLI: Prenez une paire prémisse–hypothèse et appliquez une modification sémantique minimale (par ex., basculer un quantificateur). Une explication fidèle qui cite le quantificateur devrait changer l’attribution en conséquence, et le label du modèle devrait bouger ou changer dans la direction attendue. Complétez par un test d’insertion pour atténuer les artefacts de suppression, et confirmez la nécessité en patchant les activations aux tokens médiateurs du quantificateur à ceux du contrefactuel; un changement de sortie correspondant renforce la revendication causale.
-
Suffisance / nécessité minimale dans l’évidence fondée sur QA: Sur FEVER ou HotpotQA, supprimez les spans d’or de l’évidence et observez la chute de la confiance de support / réponse du modèle (intégralité). Isoler juste l’évidence (suffisance) devrait maintenir la décision si le raisonnement est minimalement suffisant. La courbe AUC suppression–insertion pour les tokens surlignés ajoute une vue de sensibilité graduée, tandis que ROAR teste si supprimer les caractéristiques les mieux classées nuit toujours après réentraîner—renforçant les revendications de nécessité.
-
Raisonnement fondé sur le processus pour les mathématiques: Pour un élément GSM8K, vérifiez la correction au niveau des étapes d’une chaîne de raisonnement, puis modifiez contrefactuellement une étape intermédiaire clé et vérifiez si la réponse finale et les étapes subséquentes changent comme attendu. Patchez ou ablationnez les activations internes alignées avec les tokens d’étape pour tester si ces étapes étaient des médiateurs nécessaires de la réponse finale.
-
Pointage et justification multimodales: Dans VQA-X/ACT-X, vérifiez que le pointage s’aligne avec la justification textuelle et qu’occulter la région pointée change matériellement la réponse. Les modifications contrefactuelles de l’image ou de la question—validées pour la plausibilité sur-manifold—devraient inverser à la fois l’attribution et la sortie de manière cohérente.
-
Traces augmentées par outils: Pour un agent de style ReAct, ablationnez un appel d’outil (par ex., supprimez son résultat) et mesurez si la réponse finale échoue; modifiez contrefactuellement la sortie de l’outil et vérifiez les inversions de label. Avec des programmes compilés Tracr, utilisez une structure algorithmique connue pour patcher des médiateurs prétendus et quantifiez l’ACE du médiateur, reliant les étapes narratives aux parcours causaux.
Conclusion
L’interprétabilité causale franchit le fossé des récits plausibles aux mécanismes vérifiés. Le plan d’intervention multi-méthodes de LIBERTy—englobant la dépendance contrefactuelle, la suffisance / nécessité minimale, la robustesse environnementale et la médiation—fixe une barre plus élevée et fournit l’échafaudage pour la respecter. De nouveaux paradigmes de données, l’ancrage des traces de programme, et les tests centrés sur l’environnement élargissent la couverture; les interventions au niveau de la représentation et les SAEs resserrent la lentille causale; et la transparence de style HELM plus les contrôles de cohérence nous gardent honnêtes. La prochaine frontière est opérationnelle: resserrer l’instrumentation préservant la confidentialité, évoluer la génération contrefactuelle sur-manifold, et utiliser les signaux d’évaluation pour façonner la formation.
Principaux enseignements:
- Plausibilité n’est pas fidélité; une confirmation interventionnelle est requise.
- La triangulation à travers les perturbations d’entrée, les contrefactuels, et les interventions au niveau de l’activation est la nouvelle norme.
- Les ensembles de données fondés sur les preuves et supervisés par processus, plus les ensembles de contrastes et les divisions environnementales, permettent des tests causaux à grande échelle.
- Les systèmes augmentés par outils doivent démontrer la nécessité des étapes via l’ablation d’outils et les modifications d’outils contrefactuelles.
- La transparence et la pré-enregistrement limitent le détournement des métriques; dans les contextes à enjeux élevés, les modèles interprétables par conception restent un choix prudent.
Prochaines étapes pour les équipes: adopter la pré-enregistrement de style LIBERTy; ajouter des données de contraste et de division environnementale à votre banc d’essai; intégrer la suppression–insertion, ROAR, et le patching d’activation dans votre harnais d’évaluation; et expérimenter l’ablation d’outils pour les agents. Regardant vers l’avenir, attendez-vous à ce que les infrastructures d’évaluation s’élargissent à travers les modalités et les langues, et pour que les régimes de formation optimisent de plus en plus ce que les explications prouvent comme causalement vrai—pas simplement ce qui semble bien.
—
Sources
- url: https://arxiv.org/abs/2004.03685 title: Towards Faithfully Interpretable NLP Systems relevance: Établit la distinction entre la plausibilité et la fidélité qui sous-tend le passage aux normes interventionnelles.
- url: https://arxiv.org/abs/1911.03429 title: ERASER: A Benchmark to Evaluate Rationalized NLP Predictions relevance: Fournit des métriques fondées sur les preuves (intégralité/suffisance) centrales pour les tests de suffisance/nécessité minimale.
- url: https://arxiv.org/abs/1704.03296 title: Interpretable Explanations of Black Boxes by Meaningful Perturbations relevance: Introduit des perturbations de style suppression/insertion pour tester la nécessité/la suffisance tout en atténuant les artefacts hors-manifold.
- url: https://arxiv.org/abs/1806.07421 title: RISE: Randomized Input Sampling for Explanation of Black-box Models relevance: Fournit une base d’attribution basée sur la perturbation et complète les analyses AUC de suppression–insertion.
- url: https://arxiv.org/abs/1806.10758 title: A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) relevance: Démonstre des protocoles de suppression-et-réentrainement qui renforcent les revendications causales de nécessité des caractéristiques.
- url: https://arxiv.org/abs/1909.12434 title: Learning the Difference That Makes a Difference with Counterfactual Examples in NLI relevance: Ancre les tests de dépendance contrefactuelle par des modifications sémantiques minimales qui devraient inverser les sorties et les explications.
- url: https://arxiv.org/abs/2005.04118 title: Checklist: A Behavioral Testing Framework for NLP relevance: Fournit des modèles de modifications comportementalement définies pour des tests contrefactuels évolutifs.
- url: https://arxiv.org/abs/2202.05262 title: Locating and Editing Factual Associations in GPT relevance: Soutient les interventions au niveau de l’activation (patching/édition) pour tester les médiateurs causaux.
- url: https://github.com/neelnanda-io/TransformerLens title: TransformerLens relevance: Outils pour les protocoles d’activation/patching utilisés dans les tests causaux au niveau de la représentation.
- url: https://transformer-circuits.pub/2023/monosemantic-features/index.html title: Towards Monosemanticity: Decomposing Language Models With Superposition relevance: Avance dans la découverte de caractéristiques désentrelacées (SAEs) qui permettent des interventions causales alignées sémantiquement.
- url: https://arxiv.org/abs/2106.12482 title: Causal Abstractions of Neural Networks relevance: Formalise les analyses de médiation/parcours causaux pour les mécanismes internes.
- url: https://arxiv.org/abs/2012.07421 title: WILDS: A Benchmark of in-the-Wild Distribution Shifts relevance: Établit des décalages de l’environnement pour tester l’invariance et la dépendance aux caractéristiques spureuses.
- url: https://arxiv.org/abs/1907.02893 title: Invariant Risk Minimization relevance: Offre une base conceptuelle pour évaluer les explications sous hétérogénéité environnementale.
- url: https://github.com/modestyachts/CIFAR-10.1 title: CIFAR-10.1 relevance: Fournit un ensemble de tests de distribution appariée pour sonder la généralisation et la stabilité des explications en vision.
- url: https://arxiv.org/abs/2211.09110 title: Holistic Evaluation of Language Models (HELM) relevance: Informe des normes d’évaluation et de rapport transparentes et préenregistrées adoptées par LIBERTy.
- url: https://arxiv.org/abs/1909.03004 title: Show Your Work: Improved Reporting of Experimental Results relevance: Soutient le rapport de variance multi-graines, la modélisation hiérarchique, et les analyses de puissance pour prévenir le détournement des métriques.
- url: https://arxiv.org/abs/1810.03292 title: Sanity Checks for Saliency Maps relevance: Avertit des artefacts d’explication et motive la triangulation multi-méthode.
- url: https://arxiv.org/abs/1802.08129 title: Multimodal Explanations: Justifying Decisions and Pointing to the Evidence relevance: Ancre la fidélité multimodale via des ensembles de données de justification et de pointage.
- url: https://arxiv.org/abs/2209.09513 title: ScienceQA relevance: QA multimodal avec explications utilisées pour évaluer la fidélité inter-modale.
- url: https://arxiv.org/abs/2206.01718 title: A-OKVQA relevance: Teste le raisonnement multimodal avec des connaissances mondiales et des raisonnements.
- url: https://arxiv.org/abs/1811.10830 title: Visual Commonsense Reasoning (VCR) relevance: Évalue le sens commun visuel avec des raisonnements pour des tests d’explications multimodales.
- url: https://arxiv.org/abs/2106.05707 title: FEVEROUS relevance: Mélange du texte non structuré et des tables pour une vérification multimodale fondée sur les preuves.
- url: https://arxiv.org/abs/1809.09600 title: HotpotQA relevance: Fournit des faits à l’appui pour les tests de fidélité fondée sur des preuves multi-pass.
- url: https://arxiv.org/abs/1803.05355 title: FEVER relevance: Fournit des preuves d’or pour tester la suffisance/nécessité minimale dans la vérification de faits.
- url: https://arxiv.org/abs/2110.14168 title: Training Verifiers to Solve Math Word Problems (GSM8K) relevance: Données supervisées par processus permettant des contrôles de fidélité au niveau des étapes dans le raisonnement.
- url: https://arxiv.org/abs/2103.03874 title: Measuring Mathematical Problem Solving With the MATH Dataset relevance: Un autre ensemble de référence supervisé par processus pour l’évaluation au niveau des étapes.
- url: https://arxiv.org/abs/2201.11903 title: Chain-of-Thought Prompting Elicits Reasoning in LMs relevance: Motive les contrôles d’explication au niveau du processus et les modifications contrefactuelles d’étapes.
- url: https://openai.com/research/improving-mathematical-reasoning-with-process-supervision title: Improving Mathematical Reasoning with Process Supervision relevance: Établit une supervision au niveau du processus pour évaluer et façonner le raisonnement intermédiaire.
- url: https://arxiv.org/abs/2004.02709 title: Contrast Sets: A Test Suite for the NLP Community relevance: Fournit des paires minimalement éditées pour tester directement la dépendance contrefactuelle.
- url: https://arxiv.org/abs/1902.10186 title: Attention is not Explanation relevance: Met en garde contre le traitement de l’attention comme causale sans interventions, catalysant le passage du domaine.
- url: https://arxiv.org/abs/1906.03731 title: Attention is not not Explanation relevance: Nuance le rôle de l’attention tout en renforçant le besoin d’interventions ciblées.
- url: https://arxiv.org/abs/2004.13735 title: Evaluating Faithfulness in NLP Explanations relevance: Enquête sur les écueils et renforce le besoin de validation causale des explications.
- url: https://arxiv.org/abs/1810.03993 title: Model Cards for Model Reporting relevance: Soutient la documentation transparente accompagnant l’évaluation causale.
- url: https://arxiv.org/abs/1803.09010 title: Datasheets for Datasets relevance: Guide la documentation des ensembles de données critique pour une évaluation reproductible, fondée causalement.
- url: https://aclanthology.org/Q18-1041/ title: Data Statements for NLP: Towards Mitigating System Bias and Enabling Better Science relevance: Encourage la divulgation qui soutient les analyses de niveau environnemental et de sous-groupes.
- url: https://www.nature.com/articles/s42256-019-0048-x title: Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead relevance: Rappelle aux praticiens que dans les domaines à enjeux élevés, l’interprétabilité par conception peut surpasser les explications post hoc.
- url: https://arxiv.org/abs/2210.03629 title: ReAct: Synergizing Reasoning and Acting in Language Models relevance: Fournit des histoires d’actions pour systèmes augmentés par outils, permettant des tests de nécessité des étapes.
- url: https://arxiv.org/abs/2301.05062 title: Tracr: Compiled Transformers as a Laboratory for Interpretability relevance: Fournit des programmes exécutables, ancrés dans le circuit pour tester la fidélité représentationnelle à la structure algorithmique.
- url: https://arxiv.org/abs/1711.11279 title: Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV relevance: Connecte les fonctionnalités internes aux concepts humains tout en soulignant le besoin de confirmation causale.
- url: https://arxiv.org/abs/1711.05611 title: Network Dissection: Quantifying Interpretability of Deep Visual Representations relevance: Cartographie les neurones aux concepts, motivant des analyses au niveau conceptuel mais validées causalement.