Effectuer une évaluation LIBERTy en 30 jours

Le fossé entre des explications de modèles persuasives et réellement fidèles est désormais trop important pour être ignoré. La littérature sur l’interprétabilité avertit que la plausibilité n’est pas la fidélité et que les cartes de chaleur d’attention seules ne sont pas causalement diagnostiques sans interventions. LIBERTy—un cadre complet pour 2026—répond à ce défi en prescrivant des tests rigoureux et interventionnels, un rapport transparent et une puissance statistique pour une évaluation à grande échelle de la fidélité causale à travers les tâches, les modèles et les types d’explications. Cet article est un guide pratique: comment constituer une équipe et définir le périmètre, quoi exécuter chaque semaine, quels ensembles de données et mesures commencer, comment s’adapter à l’accès boîte noire versus boîte blanche, et quoi livrer à la fin.

En 30 jours, vous allez pré-enregistrer des hypothèses et des invites; exécuter des essais pilotes pour dimensionner votre étude; effectuer une batterie de tests au niveau des entrées, contrefactuels et représentations; et livrer un paquet prêt à la réplication avec des résultats désagrégés et une comptabilité coût-par-point. Vous apprendrez comment choisir les types d’explications (chaînes de pensée, justifications textuelles, cartes de saillance, traces d’outils/programmes), sélectionner des ensembles de données qui permettent réellement des tests causaux, et assembler une boîte à outils de mesures—de ERASER à suppression–insertion à réentraînement après suppression et correction d’activation—qui triangule la fidélité tout en atténuant les menaces connues pour la validité.

Détails de l’architecture/implémentation

Équipe, périmètre et critères de réussite

Définir la fidélité dès le départ: les explications doivent suivre les facteurs causaux réellement utilisés par le modèle, pas seulement des rationalisations plausibles pour l’homme. Évitez les suppositions selon lesquelles les poids d’attention sont explicatifs sans confirmation interventionnelle.
Choisir les types d’explications et les points de terminaison:
Chaîne de pensée (CoT): exactitude au niveau de l’étape et sensibilité à l’intervention.
Justifications textuelles: intervalles fondés sur des preuves, tests de style ERASER.
Cartes de saillance/attribution: courbe AUC suppression–insertion, ROAR, infidélité/sensibilité.
Traçages d’utilisation d’outils/programmes: supprimer des étapes ou éditer de manière contrefactuelle les sorties des outils; utiliser les historiques ReAct ou les programmes compilés Tracr comme références exploitables.
Choisir les points de terminaison principaux selon la propriété causale: dépendance contrefactuelle, suffisance/nécessité minimale, invariance aux caractéristiques factices, médiation/parcours.

Le succès se traduit par des mesures pré-enregistrées avec puissance, des résultats positifs convergents à travers des tests complémentaires et un rapport d’incertitude qui soutient une comparaison équitable entre modèles.

Semaine 1: pré-enregistrement, invites fixes, définitions des mesures et planification des tailles d’échantillons

Pré-enregistrer des hypothèses, ensembles de données, modèles d’invites, grilles de décodage, mesures et points de terminaison principaux/secondaires (transparence à la HELM; rapport “Montrez votre travail”).
Verrouiller les invites et les paramètres de décodage (par exemple, températures standardisées telles que 0.0, 0.3, 0.7; cohérence par échantillon k là où c’est approprié) pour contrôler la variance.
Définir les mesures par propriété:
Exhaustivité/suffisance ERASER pour la suppression/l’isolation de justifications.
Courbes AUC suppression–insertion; inclure l’insertion pour atténuer les problèmes hors-manifold.
Réentraîner après suppression (ROAR) pour des revendications de nécessité plus fortes.
Taux de bascule contrefactuelle sur des modifications minimales; aligner les modifications avec les changements d’attribution.
Stabilité de l’attribution au niveau de l’environnement sous des changements de type WILDS.
Médiation par correction d’activation/parchemin; estimer les effets causaux moyens (ACE) pour les médiateurs hypothétiqués.
Planifier la puissance: utiliser la variance pilote et les IC boostrap; adopter des modèles à effets mixtes hiérarchiques à travers les tâches/modèles; contrôler la multiplicité (BH-FDR). Des mesures spécifiques indisponibles jusqu’à ce que la variance pilote soit observée.

Semaine 2: exécutions pilotes pour l’estimation de la variance et vérifications de la validité des ensembles de données

Exécuter de petits lots par modèle–tâche–mesure pour estimer la variance et affiner les tailles d’échantillons et grilles de décodage.
Effectuer des vérifications de santé mentale pour les dégénérescences de la méthode d’attribution; vérifier les modifications contrefactuelles fluentes et sur-manifold pour réduire les artefacts de suppression.
Valider les signaux de supervision des ensembles de données: les intervalles de preuves dorées (tâches ERASER, FEVER, HotpotQA) et la supervision des processus au niveau des étapes (GSM8K, MATH) devraient se comporter comme attendu sur un petit sous-ensemble.

Semaine 3: perturbations, robustesse contrefactuelle et divisions de l’environnement

Tests au niveau des entrées et des caractéristiques: calculer l’exhaustivité/suffisance de ERASER, AUC suppression–insertion; préparer des ensembles de données ROAR pour le réentraînement.
Robustesse contrefactuelle: utiliser des paires modifiées minimalement (NLI Contrefactuel; CheckList) pour mesurer les taux de bascule et si l’attribution et les sorties évoluent dans la direction attendue.
Robustesse de l’environnement: évaluer la stabilité de l’attribution et la précision à travers des changements de type WILDS; relier la dévalorisation des indices factices à la stabilité des performances.
Probes au niveau des représentations (boîte blanche uniquement): correction d’activation/parchemin et ablations ciblées sur des médiateurs hypothétiqués; considérer des caractéristiques désengagées SAE pour des interventions plus alignées sémantiquement.

Semaine 4: exécutions à grande échelle, contrôles basés sur le réentraînement et rapport d’incertitude

Exécuter la matrice complète à travers modèles (familles fermées et ouvertes répertoriées dans les rapports contemporains), tâches et types d’explications avec des essais multigraine et décodage standardisé.
Exécuter ROAR (supprimer et réentraîner) pour renforcer les revendications de nécessité, atténuer l’adaptabilité des modèles et les interactions de caractéristiques.
Résumer avec des moyennes, déviations standard et intervalles de confiance bootstrap à 95% par configuration; ajuster les modèles à effets mixtes pour inférence avec des intercepts aléatoires pour les tâches/modèles; contrôler les comparaisons multiples.
Calculer la comptabilité: rapporter le nombre de paramètres là où communiqué, les longueurs de contexte, les budgets de génération par élément, les temps en temps réel, et les statistiques coût-par-point par mesure; normaliser en correspondant les comptes d’échantillons et paramètres de décodage pour des comparaisons équitables entre modèles. Des mesures spécifiques indisponibles là où les fournisseurs ne divulguent pas les FLOPs.
Publier un paquet de réplication: ensembles/découpes versionnés, invites, journaux de génération, graines, scripts de mesures, conteneurs; inclure des fiches de modèles, fiches de données et déclarations de données.

Pile d’outils

Chargeurs d’ensembles de données avec supervision de preuves/processus et découpes contrefactuelles/environnementales: suite ERASER, FEVER, HotpotQA, GSM8K, MATH, NLI Contrefactuel, CheckList, WILDS; extensions multimodales au besoin.
Lignes de base d’attribution: Integrated Gradients (axiomatique), LIME et SHAP (agnostique au modèle), RISE et occlusion (basés sur la perturbation).
Pipelines de perturbation: suppression–insertion, exhaustivité/suffisance, validateurs d’édition sur-manifold.
Interventions au niveau des représentations: TransformerLens pour les flux de travail d’activation/parchemin; édition de caractéristiques basée sur SAE quand disponible.
Statistiques: scripts CI bootstrap, modélisation à effets mixtes, contrôle BH-FDR, journalisation de variance à travers graines/générations.

Exécution en boîte noire versus boîte blanche

Exécution en boîte noire uniquement: mettre l’accent sur les perturbations au niveau des entrées (ERASER, suppression–insertion), tests de bascule contrefactuelle, robustesse de l’environnement et vérifications de santé mentale.
Boîte blanche: ajouter la correction d’activation/parchemin, les ablations ciblées, et l’analyse de médiation; utiliser Tracr pour les circuits de vérité fondamentale et traces ReAct pour les tests de causalité d’utilisation d’outils là où c’est applicable.
Dans les deux modes: trianguler à travers des méthodes complémentaires pour atténuer les menaces pour la validité—perturbations hors-manifold, instabilité de l’attribution à travers méthodes/graines, et pièges de l’attention comme explication.

Tableaux de comparaison

Ensembles de données à commencer et les propriétés qu’ils testent

Catégorie d’ensemble de données	Exemples	Signal de supervision	Propriétés principales testées
Vérification/QA fondée sur des preuves	HotpotQA; FEVER	Faits de soutien d’or/intervalles de preuves	Suffisance/Nécéssité minimale; dépendance contrefactuelle via des modifications aux faits cités
Mathématiques/logique supervisées par processus	GSM8K; MATH	Solutions au niveau de l’étape	Exactitude étape par étape CoT; modifications contrefactuelles aux étapes; médiation via correction des positions des étapes
Paires contrefactuelles/tests comportementaux	NLI Contrefactuel; CheckList; Ensembles Contrastés	Modifications sémantiques minimales	Taux de bascule contrefactuels; alignement des changements d’attribution
Suites de changement	WILDS; CIFAR-10.1	Divisions d’environnement/sous-groupe	Invariance aux caractéristiques factices; stabilité de l’attribution vs précision sous changement
Justification multimodale	VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS	Justifications dorées ou signaux de type processus	Effets d’occlusion localisés; enracinement des preuves à travers les modalités

Boîte à outils de mesures en un coup d’œil

Mesure/protocole	Ce qu’elle mesure	Remarques
Exhaustivité/suffisance ERASER	Nécessité/suffisance des intervalles de justification	Standard pour les justifications textuelles
Courbes suppression–insertion (AUC)	Sensibilité de la sortie aux caractéristiques prioritaires	Coupler avec insertion pour réduire les artefacts hors-manifold
ROAR (supprimer et réentraîner)	Nécessité des caractéristiques sous réentraînement	Atténue le biais de réattribution
Infidélité/sensibilité	Cohérence entre perturbations, sortie, et explication	Diagnostique pour la stabilité de l’explication
Taux de bascule contrefactuel	Dépendance aux facteurs modifiés	Utiliser CNLI/CheckList/ensembles contrastés
Correction d’activation/parcours; médiation	Impact causal des médiateurs hypothétiques	Boîte blanche uniquement; estimation ACE

Boîte noire vs boîte blanche: quels tests conviennent

Accès	Tests faisables	Limitations
Boîte noire	ERASER, suppression–insertion, tests contrefactuels, changements WILDS, vérifications de santé mentale	Pas de médiation au niveau de l’activation; s’appuyer sur les perturbations des entrées
Boîte blanche	Tous les tests boîte noire plus correction/activation, ablation, abstraction causale	Nécessite une instrumentation sûre; des considérations de sécurité s’appliquent

Bonnes pratiques

Pré-enregistrer tout: ensembles de données, invites, mesures, points de terminaison, et objectifs de puissance; publier code, données, graines, et conteneurs (style HELM; “Montrez votre travail”).
Trianguler à travers des méthodes complémentaires pour contrer les menaces pour la validité: utiliser suppression et insertion; modifications contrefactuelles validées pour fluidité; ROAR pour aborder l’adaptabilité; interventions au niveau des représentations pour confirmer les hypothèses d’attribution.
Considérer les cartes d’attention comme des hypothèses à falsifier ou confirmer via des interventions ciblées—pas comme des explications par défaut.
Prioriser les ensembles de données avec des preuves d’or ou supervision de processus; lorsque seuls des labels de plausibilité existent (e-SNLI), qualifier les interprétations et mettre l’accent sur les tests causaux.
Évaluer l’invariance: tester la stabilité de l’explication et la performance à travers des environnements/sous-groupes prédéfinis; analyser la dévalorisation de la corrélation fallacieuse.
Contrôler la variance: invites fixes; grilles de décodage standardisées; exécutions multi-graines; IC bootstrap; modèles à effets mixtes; BH-FDR pour comparaisons multiples.
Documenter de manière responsable: fiches de modèles, fiches de données, et déclarations de données pour les sources, les démographies, les risques, et les limitations.

Exemples pratiques

Bien que les résultats quantitatifs spécifiques dépendent de vos modèles et budgets, voici comment le plan sur 30 jours se déroule avec les ensembles de données et mesures spécifiés dans LIBERTy.

QA fondée sur des preuves (HotpotQA/FEVER): Dans la semaine 1, pré-enregistrer des points de terminaison de style ERASER (exhaustivité/suffisance) avec AUC suppression–insertion comme secondaire. Dans les essais pilotes de la semaine 2, vérifier que la suppression des faits de soutien étiquetés par l’homme dégrade les prédictions plus que la suppression de fragments aléatoires (vérification de santé mentale). Dans la semaine 3, ajouter des modifications contrefactuelles aux faits cités et mesurer les taux de bascule, en veillant à ce que les modifications soient fluides/sur-manifold. Si vous avez un accès boîte blanche, corrigez les activations correspondant aux phrases de soutien des documents contrefactuels pour tester les hypothèses de médiateurs. Dans la semaine 4, exécuter ROAR en réentraînant des modèles avec des intervalles importants supprimés pour renforcer les revendications de nécessité.
Mathématiques supervisées par processus (GSM8K/MATH): Définir les points de terminaison CoT: exactitude au niveau de l’étape, sensibilité aux modifications contrefactuelles des étapes, et effets de suppression ou substitution des étapes. Dans les essais pilotes, estimer la variance de l’exactitude des étapes sous décodage par auto-cohérence. Dans la semaine 3, ablater ou corriger les activations aux positions des tokens associés aux étapes pour tester si des étapes spécifiques médiatisent causalement les réponses finales (boîte blanche). Rapporter la médiation ACE et l’incertitude dans la semaine 4.
Robustesse contrefactuelle (CNLI/CheckList/Ensembles contrastés): Pré-définir des modifications minimales (négation, quantificateurs, changements d’entité) et mesurer les taux de bascule contrefactuels et l’alignement des changements d’attribution. Utiliser des tests d’insertion avec la suppression pour réduire les biais hors-manifold.
Invariance au niveau de l’environnement (WILDS; CIFAR-10.1): Partager les évaluations par environnement/sous-groupe et mesurer si la stabilité de l’attribution prédit la stabilité des performances sous changement; évaluer si les attributions dévalorisent les indices factices connus.
Justification multimodale (VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS): Associer des contrôles de pointage et de justification avec une occlusion croisée; confirmer que l’enracinement des preuves corrèle avec les effets d’occlusion localisés et les taux de bascule contrefactuels.
Exécutions boîte noire versus boîte blanche: Pour les modèles fermés (par ex., GPT-4-class, Claude, Gemini), s’appuyer sur des tests au niveau des entrées et de l’environnement avec un rapport d’incertitude complet. Pour les modèles ouverts (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok), ajouter la correction/activation ainsi que les interventions de caractéristiques basées sur SAE là où c’est faisable. Dans les deux cas, appliquer l’harnachement style HELM et la comptabilité coût-par-point.

Ces exemples illustrent le principe LIBERTy: mesurer la fidélité causale par des tests interventionnels convergents appariés à des signaux de supervision, et rapporter avec suffisamment de transparence et de puissance pour soutenir des comparaisons crédibles.

Conclusion

En un mois, les équipes ML peuvent passer d’explications apparemment plausibles à des explications causalement fidèles en suivant le plan reproductible de LIBERTy. Ancrer les évaluations dans des données fondées sur des preuves ou supervisées par processus, combiner les perturbations au niveau des entrées avec une robustesse contrefactuelle et une médiation au niveau des représentations, et rapporter avec une transparence style HELM et une rigueur statistique. Que vous ayez des API en boîte noire ou un accès complet en boîte blanche, le cadre fournit des routes faisables et évolutives pour faire des affirmations crédibles sur ce que signifient réellement les explications de votre modèle.

Principaux points à retenir:

La fidélité nécessite des interventions; la plausibilité et les cartes d’attention sont insuffisantes sans tests causaux.
Commencer avec des ensembles de données qui permettent une évaluation causale: preuves style ERASER, supervision de processus, paires contrefactuelles, et découpes d’environnement.
Trianguler les mesures: ERASER, suppression–insertion, ROAR, taux de bascule contrefactuels, et médiation via correction d’activation.
Contrôler la variance et la puissance: pré-enregistrer, standardiser invites/décodage, IC bootstrap, et utiliser des modèles à effets mixtes.
Livrer un paquet de réplication complet avec fiches de modèle/données, résultats désagrégés, et tableaux coût-par-point 📦.

Prochaines étapes: Rédiger votre pré-enregistrement cette semaine; assembler des ensembles de données avec preuves/processus supervision; construire vos pipelines de perturbation et de correction; exécuter un pilote de 2 jours pour la variance; et programmer les tests contrefactuels et environnementaux de la semaine 3. En regardant vers l’avenir, des avancées mécaniques comme les autoencodeurs clairsemés et des bibliothèques telles que TransformerLens rendront les tests de médiation au niveau des parcours plus précis, réduisant encore l’écart entre explication et cause.

Sources & Références

Towards Faithfully Interpretable NLP Systems Defines the distinction between plausibility and faithfulness that motivates LIBERTy's causal evaluation approach.

ERASER: A Benchmark to Evaluate Rationalized NLP Predictions Provides evidence-grounded datasets and rationale-based metrics (comprehensiveness/sufficiency) used in the playbook.

On the (In)fidelity and Sensitivity of Explanations Introduces infidelity/sensitivity metrics for checking consistency of explanations under perturbations.

A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Supplies the retrain-after-removal protocol to strengthen causal necessity claims for features.

Interpretable Explanations of Black Boxes by Meaningful Perturbations Supports on-manifold perturbation design and insertion tests to mitigate deletion artifacts.

Axiomatic Attribution for Deep Networks (Integrated Gradients) Serves as a principled attribution baseline in the tooling stack.

A Unified Approach to Interpreting Model Predictions (SHAP) Provides a model-agnostic attribution baseline for black-box settings.

“Why Should I Trust You?” Explaining the Predictions of Any Classifier (LIME) Adds a widely used model-agnostic attribution method for comparison and sanity checks.

RISE: Randomized Input Sampling for Explanation of Black-box Models Supports deletion–insertion curve methodology for saliency evaluation.

Sanity Checks for Saliency Maps Warns about attribution degeneracies; informs Week 2 sanity checks and triangulation guidance.

Learning the Difference That Makes a Difference with Counterfactual Examples in NLI Provides counterfactual pairs for measuring flip rates and attribution shifts.

Invariant Risk Minimization Conceptually grounds evaluation of invariance to spurious features across environments.

WILDS: A Benchmark of in-the-Wild Distribution Shifts Supplies environment/subgroup splits to test explanation stability under distribution shift.

e-SNLI: Natural Language Inference with Natural Language Explanations Shows plausibility-only rationales that require caution for faithfulness claims.

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence Provides multimodal datasets with justifications for cross-modal faithfulness tests.

HotpotQA: A Dataset for Diverse, Explainable Multi-hop QA Evidence-grounded QA dataset for sufficiency/necessity and counterfactual tests.

FEVER: a Large-scale Dataset for Fact Extraction and VERification Evidence-grounded fact verification dataset used for rationale tests.

Training Verifiers to Solve Math Word Problems (GSM8K) Process-supervised math benchmark for step-level CoT evaluation.

Measuring Mathematical Problem Solving With the MATH Dataset Another process-supervised math dataset to evaluate reasoning steps.

Chain-of-Thought Prompting Elicits Reasoning in LMs Motivates CoT explanations and step-level evaluation protocols.

Self-Consistency Improves Chain of Thought Reasoning Supports standardized decoding with k-sample self-consistency in variance controls.

Attention is not Explanation Cautions against interpreting attention as explanation without interventions.

Attention is not not Explanation Nuances attention as hypothesis rather than definitive explanation, motivating interventional tests.

Locating and Editing Factual Associations in GPT Backs representation-level interventions (activation/patching) to test mediators.

Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV Supports concept-level analysis that requires interventional confirmation for causal claims.

Network Dissection: Quantifying Interpretability of Deep Visual Representations Provides concept-level interpretability tools to bridge features and human concepts.

Holistic Evaluation of Language Models (HELM) Informs transparent evaluation harnessing, fixed prompts, and reproducible reporting.

Model Cards for Model Reporting Guides documentation of model capabilities and risks in deliverables.

Datasheets for Datasets Guides dataset documentation and transparency in the replication package.

Data Statements for NLP: Towards Mitigating System Bias and Enabling Better Science Adds standardized data documentation practices for disaggregated reporting.

Show Your Work: Improved Reporting of Experimental Results Supports power analyses, variance reporting, and mixed-effects modeling practices.

Causal Abstractions of Neural Networks Provides formal grounding for mediation and pathway analyses in white-box settings.

Improving Mathematical Reasoning with Process Supervision Motivates step-level supervision and interventions for evaluating CoT.

ReAct: Synergizing Reasoning and Acting in Language Models Supports evaluation of tool-use traces via ablation and counterfactual editing.

Tracr: Compiled Transformers as a Laboratory for Interpretability Offers ground-truth circuits for representational faithfulness tests.

Towards Monosemanticity: Decomposing Language Models With Superposition Introduces SAEs to enable feature-level, semantically aligned interventions.

TransformerLens (activation/patching and interpretability tooling) Provides practical tooling for activation patching and mechanistic probes.

ScienceQA: A Large-scale Multi-modal Science Question Answering Dataset Supplies multimodal tasks with explanations for cross-modal faithfulness tests.

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Adds multimodal justification tasks to evaluate cross-modal explanations.

Visual Commonsense Reasoning (VCR) Provides multimodal rationales for evaluating explanation grounding.

FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information Extends evidence-grounded verification to tables and text for multimodal evaluation.

Contrast Sets: A Test Suite for the NLP Community Offers minimally edited pairs to directly test counterfactual dependence.

CIFAR-10.1 Provides matched-distribution test sets for probing generalization and spurious reliance.

GPT-4 Technical Report Represents the class of closed models included in the comparative experimental matrix.

Anthropic Claude models Represents closed-model family considered in LIBERTy’s comparative evaluation.

Google Gemini models Represents closed-model family evaluated under the framework.

Meta Llama 3 announcement Represents open-model family included in comparative experiments.

Mistral/Mixtral models Represents open-model family considered in experiments.

Google Gemma models Represents open-model family in the comparative matrix.

Qwen2 models Represents open-model family included in the LIBERTy evaluation scope.

DeepSeek LLM (open models) Represents open-model family for white-box/black-box adaptations.

xAI Grok-1 Represents open-model family potentially evaluated under LIBERTy.