ai 10 min • intermediate

Réalisez une évaluation LIBERTy en 30 jours

Un guide pratique et reproductible pour les équipes de ML afin de mesurer la fidélité causale à grande échelle

Par AI Research Team
Réalisez une évaluation LIBERTy en 30 jours

Effectuer une évaluation LIBERTy en 30 jours

Le fossé entre des explications de modèles persuasives et réellement fidèles est désormais trop important pour être ignoré. La littérature sur l’interprétabilité avertit que la plausibilité n’est pas la fidélité et que les cartes de chaleur d’attention seules ne sont pas causalement diagnostiques sans interventions. LIBERTy—un cadre complet pour 2026—répond à ce défi en prescrivant des tests rigoureux et interventionnels, un rapport transparent et une puissance statistique pour une évaluation à grande échelle de la fidélité causale à travers les tâches, les modèles et les types d’explications. Cet article est un guide pratique: comment constituer une équipe et définir le périmètre, quoi exécuter chaque semaine, quels ensembles de données et mesures commencer, comment s’adapter à l’accès boîte noire versus boîte blanche, et quoi livrer à la fin.

En 30 jours, vous allez pré-enregistrer des hypothèses et des invites; exécuter des essais pilotes pour dimensionner votre étude; effectuer une batterie de tests au niveau des entrées, contrefactuels et représentations; et livrer un paquet prêt à la réplication avec des résultats désagrégés et une comptabilité coût-par-point. Vous apprendrez comment choisir les types d’explications (chaînes de pensée, justifications textuelles, cartes de saillance, traces d’outils/programmes), sélectionner des ensembles de données qui permettent réellement des tests causaux, et assembler une boîte à outils de mesures—de ERASER à suppression–insertion à réentraînement après suppression et correction d’activation—qui triangule la fidélité tout en atténuant les menaces connues pour la validité.

Détails de l’architecture/implémentation

Équipe, périmètre et critères de réussite

  • Définir la fidélité dès le départ: les explications doivent suivre les facteurs causaux réellement utilisés par le modèle, pas seulement des rationalisations plausibles pour l’homme. Évitez les suppositions selon lesquelles les poids d’attention sont explicatifs sans confirmation interventionnelle.
  • Choisir les types d’explications et les points de terminaison:
  • Chaîne de pensée (CoT): exactitude au niveau de l’étape et sensibilité à l’intervention.
  • Justifications textuelles: intervalles fondés sur des preuves, tests de style ERASER.
  • Cartes de saillance/attribution: courbe AUC suppression–insertion, ROAR, infidélité/sensibilité.
  • Traçages d’utilisation d’outils/programmes: supprimer des étapes ou éditer de manière contrefactuelle les sorties des outils; utiliser les historiques ReAct ou les programmes compilés Tracr comme références exploitables.
  • Choisir les points de terminaison principaux selon la propriété causale: dépendance contrefactuelle, suffisance/nécessité minimale, invariance aux caractéristiques factices, médiation/parcours.

Le succès se traduit par des mesures pré-enregistrées avec puissance, des résultats positifs convergents à travers des tests complémentaires et un rapport d’incertitude qui soutient une comparaison équitable entre modèles.

Semaine 1: pré-enregistrement, invites fixes, définitions des mesures et planification des tailles d’échantillons

  • Pré-enregistrer des hypothèses, ensembles de données, modèles d’invites, grilles de décodage, mesures et points de terminaison principaux/secondaires (transparence à la HELM; rapport “Montrez votre travail”).
  • Verrouiller les invites et les paramètres de décodage (par exemple, températures standardisées telles que 0.0, 0.3, 0.7; cohérence par échantillon k là où c’est approprié) pour contrôler la variance.
  • Définir les mesures par propriété:
  • Exhaustivité/suffisance ERASER pour la suppression/l’isolation de justifications.
  • Courbes AUC suppression–insertion; inclure l’insertion pour atténuer les problèmes hors-manifold.
  • Réentraîner après suppression (ROAR) pour des revendications de nécessité plus fortes.
  • Taux de bascule contrefactuelle sur des modifications minimales; aligner les modifications avec les changements d’attribution.
  • Stabilité de l’attribution au niveau de l’environnement sous des changements de type WILDS.
  • Médiation par correction d’activation/parchemin; estimer les effets causaux moyens (ACE) pour les médiateurs hypothétiqués.
  • Planifier la puissance: utiliser la variance pilote et les IC boostrap; adopter des modèles à effets mixtes hiérarchiques à travers les tâches/modèles; contrôler la multiplicité (BH-FDR). Des mesures spécifiques indisponibles jusqu’à ce que la variance pilote soit observée.

Semaine 2: exécutions pilotes pour l’estimation de la variance et vérifications de la validité des ensembles de données

  • Exécuter de petits lots par modèle–tâche–mesure pour estimer la variance et affiner les tailles d’échantillons et grilles de décodage.
  • Effectuer des vérifications de santé mentale pour les dégénérescences de la méthode d’attribution; vérifier les modifications contrefactuelles fluentes et sur-manifold pour réduire les artefacts de suppression.
  • Valider les signaux de supervision des ensembles de données: les intervalles de preuves dorées (tâches ERASER, FEVER, HotpotQA) et la supervision des processus au niveau des étapes (GSM8K, MATH) devraient se comporter comme attendu sur un petit sous-ensemble.

Semaine 3: perturbations, robustesse contrefactuelle et divisions de l’environnement

  • Tests au niveau des entrées et des caractéristiques: calculer l’exhaustivité/suffisance de ERASER, AUC suppression–insertion; préparer des ensembles de données ROAR pour le réentraînement.
  • Robustesse contrefactuelle: utiliser des paires modifiées minimalement (NLI Contrefactuel; CheckList) pour mesurer les taux de bascule et si l’attribution et les sorties évoluent dans la direction attendue.
  • Robustesse de l’environnement: évaluer la stabilité de l’attribution et la précision à travers des changements de type WILDS; relier la dévalorisation des indices factices à la stabilité des performances.
  • Probes au niveau des représentations (boîte blanche uniquement): correction d’activation/parchemin et ablations ciblées sur des médiateurs hypothétiqués; considérer des caractéristiques désengagées SAE pour des interventions plus alignées sémantiquement.

Semaine 4: exécutions à grande échelle, contrôles basés sur le réentraînement et rapport d’incertitude

  • Exécuter la matrice complète à travers modèles (familles fermées et ouvertes répertoriées dans les rapports contemporains), tâches et types d’explications avec des essais multigraine et décodage standardisé.
  • Exécuter ROAR (supprimer et réentraîner) pour renforcer les revendications de nécessité, atténuer l’adaptabilité des modèles et les interactions de caractéristiques.
  • Résumer avec des moyennes, déviations standard et intervalles de confiance bootstrap à 95% par configuration; ajuster les modèles à effets mixtes pour inférence avec des intercepts aléatoires pour les tâches/modèles; contrôler les comparaisons multiples.
  • Calculer la comptabilité: rapporter le nombre de paramètres là où communiqué, les longueurs de contexte, les budgets de génération par élément, les temps en temps réel, et les statistiques coût-par-point par mesure; normaliser en correspondant les comptes d’échantillons et paramètres de décodage pour des comparaisons équitables entre modèles. Des mesures spécifiques indisponibles là où les fournisseurs ne divulguent pas les FLOPs.
  • Publier un paquet de réplication: ensembles/découpes versionnés, invites, journaux de génération, graines, scripts de mesures, conteneurs; inclure des fiches de modèles, fiches de données et déclarations de données.

Pile d’outils

  • Chargeurs d’ensembles de données avec supervision de preuves/processus et découpes contrefactuelles/environnementales: suite ERASER, FEVER, HotpotQA, GSM8K, MATH, NLI Contrefactuel, CheckList, WILDS; extensions multimodales au besoin.
  • Lignes de base d’attribution: Integrated Gradients (axiomatique), LIME et SHAP (agnostique au modèle), RISE et occlusion (basés sur la perturbation).
  • Pipelines de perturbation: suppression–insertion, exhaustivité/suffisance, validateurs d’édition sur-manifold.
  • Interventions au niveau des représentations: TransformerLens pour les flux de travail d’activation/parchemin; édition de caractéristiques basée sur SAE quand disponible.
  • Statistiques: scripts CI bootstrap, modélisation à effets mixtes, contrôle BH-FDR, journalisation de variance à travers graines/générations.

Exécution en boîte noire versus boîte blanche

  • Exécution en boîte noire uniquement: mettre l’accent sur les perturbations au niveau des entrées (ERASER, suppression–insertion), tests de bascule contrefactuelle, robustesse de l’environnement et vérifications de santé mentale.
  • Boîte blanche: ajouter la correction d’activation/parchemin, les ablations ciblées, et l’analyse de médiation; utiliser Tracr pour les circuits de vérité fondamentale et traces ReAct pour les tests de causalité d’utilisation d’outils là où c’est applicable.
  • Dans les deux modes: trianguler à travers des méthodes complémentaires pour atténuer les menaces pour la validité—perturbations hors-manifold, instabilité de l’attribution à travers méthodes/graines, et pièges de l’attention comme explication.

Tableaux de comparaison

Ensembles de données à commencer et les propriétés qu’ils testent

Catégorie d’ensemble de donnéesExemplesSignal de supervisionPropriétés principales testées
Vérification/QA fondée sur des preuvesHotpotQA; FEVERFaits de soutien d’or/intervalles de preuvesSuffisance/Nécéssité minimale; dépendance contrefactuelle via des modifications aux faits cités
Mathématiques/logique supervisées par processusGSM8K; MATHSolutions au niveau de l’étapeExactitude étape par étape CoT; modifications contrefactuelles aux étapes; médiation via correction des positions des étapes
Paires contrefactuelles/tests comportementauxNLI Contrefactuel; CheckList; Ensembles ContrastésModifications sémantiques minimalesTaux de bascule contrefactuels; alignement des changements d’attribution
Suites de changementWILDS; CIFAR-10.1Divisions d’environnement/sous-groupeInvariance aux caractéristiques factices; stabilité de l’attribution vs précision sous changement
Justification multimodaleVQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUSJustifications dorées ou signaux de type processusEffets d’occlusion localisés; enracinement des preuves à travers les modalités

Boîte à outils de mesures en un coup d’œil

Mesure/protocoleCe qu’elle mesureRemarques
Exhaustivité/suffisance ERASERNécessité/suffisance des intervalles de justificationStandard pour les justifications textuelles
Courbes suppression–insertion (AUC)Sensibilité de la sortie aux caractéristiques prioritairesCoupler avec insertion pour réduire les artefacts hors-manifold
ROAR (supprimer et réentraîner)Nécessité des caractéristiques sous réentraînementAtténue le biais de réattribution
Infidélité/sensibilitéCohérence entre perturbations, sortie, et explicationDiagnostique pour la stabilité de l’explication
Taux de bascule contrefactuelDépendance aux facteurs modifiésUtiliser CNLI/CheckList/ensembles contrastés
Correction d’activation/parcours; médiationImpact causal des médiateurs hypothétiquesBoîte blanche uniquement; estimation ACE

Boîte noire vs boîte blanche: quels tests conviennent

AccèsTests faisablesLimitations
Boîte noireERASER, suppression–insertion, tests contrefactuels, changements WILDS, vérifications de santé mentalePas de médiation au niveau de l’activation; s’appuyer sur les perturbations des entrées
Boîte blancheTous les tests boîte noire plus correction/activation, ablation, abstraction causaleNécessite une instrumentation sûre; des considérations de sécurité s’appliquent

Bonnes pratiques

  • Pré-enregistrer tout: ensembles de données, invites, mesures, points de terminaison, et objectifs de puissance; publier code, données, graines, et conteneurs (style HELM; “Montrez votre travail”).
  • Trianguler à travers des méthodes complémentaires pour contrer les menaces pour la validité: utiliser suppression et insertion; modifications contrefactuelles validées pour fluidité; ROAR pour aborder l’adaptabilité; interventions au niveau des représentations pour confirmer les hypothèses d’attribution.
  • Considérer les cartes d’attention comme des hypothèses à falsifier ou confirmer via des interventions ciblées—pas comme des explications par défaut.
  • Prioriser les ensembles de données avec des preuves d’or ou supervision de processus; lorsque seuls des labels de plausibilité existent (e-SNLI), qualifier les interprétations et mettre l’accent sur les tests causaux.
  • Évaluer l’invariance: tester la stabilité de l’explication et la performance à travers des environnements/sous-groupes prédéfinis; analyser la dévalorisation de la corrélation fallacieuse.
  • Contrôler la variance: invites fixes; grilles de décodage standardisées; exécutions multi-graines; IC bootstrap; modèles à effets mixtes; BH-FDR pour comparaisons multiples.
  • Documenter de manière responsable: fiches de modèles, fiches de données, et déclarations de données pour les sources, les démographies, les risques, et les limitations.

Exemples pratiques

Bien que les résultats quantitatifs spécifiques dépendent de vos modèles et budgets, voici comment le plan sur 30 jours se déroule avec les ensembles de données et mesures spécifiés dans LIBERTy.

  • QA fondée sur des preuves (HotpotQA/FEVER): Dans la semaine 1, pré-enregistrer des points de terminaison de style ERASER (exhaustivité/suffisance) avec AUC suppression–insertion comme secondaire. Dans les essais pilotes de la semaine 2, vérifier que la suppression des faits de soutien étiquetés par l’homme dégrade les prédictions plus que la suppression de fragments aléatoires (vérification de santé mentale). Dans la semaine 3, ajouter des modifications contrefactuelles aux faits cités et mesurer les taux de bascule, en veillant à ce que les modifications soient fluides/sur-manifold. Si vous avez un accès boîte blanche, corrigez les activations correspondant aux phrases de soutien des documents contrefactuels pour tester les hypothèses de médiateurs. Dans la semaine 4, exécuter ROAR en réentraînant des modèles avec des intervalles importants supprimés pour renforcer les revendications de nécessité.

  • Mathématiques supervisées par processus (GSM8K/MATH): Définir les points de terminaison CoT: exactitude au niveau de l’étape, sensibilité aux modifications contrefactuelles des étapes, et effets de suppression ou substitution des étapes. Dans les essais pilotes, estimer la variance de l’exactitude des étapes sous décodage par auto-cohérence. Dans la semaine 3, ablater ou corriger les activations aux positions des tokens associés aux étapes pour tester si des étapes spécifiques médiatisent causalement les réponses finales (boîte blanche). Rapporter la médiation ACE et l’incertitude dans la semaine 4.

  • Robustesse contrefactuelle (CNLI/CheckList/Ensembles contrastés): Pré-définir des modifications minimales (négation, quantificateurs, changements d’entité) et mesurer les taux de bascule contrefactuels et l’alignement des changements d’attribution. Utiliser des tests d’insertion avec la suppression pour réduire les biais hors-manifold.

  • Invariance au niveau de l’environnement (WILDS; CIFAR-10.1): Partager les évaluations par environnement/sous-groupe et mesurer si la stabilité de l’attribution prédit la stabilité des performances sous changement; évaluer si les attributions dévalorisent les indices factices connus.

  • Justification multimodale (VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS): Associer des contrôles de pointage et de justification avec une occlusion croisée; confirmer que l’enracinement des preuves corrèle avec les effets d’occlusion localisés et les taux de bascule contrefactuels.

  • Exécutions boîte noire versus boîte blanche: Pour les modèles fermés (par ex., GPT-4-class, Claude, Gemini), s’appuyer sur des tests au niveau des entrées et de l’environnement avec un rapport d’incertitude complet. Pour les modèles ouverts (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok), ajouter la correction/activation ainsi que les interventions de caractéristiques basées sur SAE là où c’est faisable. Dans les deux cas, appliquer l’harnachement style HELM et la comptabilité coût-par-point.

Ces exemples illustrent le principe LIBERTy: mesurer la fidélité causale par des tests interventionnels convergents appariés à des signaux de supervision, et rapporter avec suffisamment de transparence et de puissance pour soutenir des comparaisons crédibles.

Conclusion

En un mois, les équipes ML peuvent passer d’explications apparemment plausibles à des explications causalement fidèles en suivant le plan reproductible de LIBERTy. Ancrer les évaluations dans des données fondées sur des preuves ou supervisées par processus, combiner les perturbations au niveau des entrées avec une robustesse contrefactuelle et une médiation au niveau des représentations, et rapporter avec une transparence style HELM et une rigueur statistique. Que vous ayez des API en boîte noire ou un accès complet en boîte blanche, le cadre fournit des routes faisables et évolutives pour faire des affirmations crédibles sur ce que signifient réellement les explications de votre modèle.

Principaux points à retenir:

  • La fidélité nécessite des interventions; la plausibilité et les cartes d’attention sont insuffisantes sans tests causaux.
  • Commencer avec des ensembles de données qui permettent une évaluation causale: preuves style ERASER, supervision de processus, paires contrefactuelles, et découpes d’environnement.
  • Trianguler les mesures: ERASER, suppression–insertion, ROAR, taux de bascule contrefactuels, et médiation via correction d’activation.
  • Contrôler la variance et la puissance: pré-enregistrer, standardiser invites/décodage, IC bootstrap, et utiliser des modèles à effets mixtes.
  • Livrer un paquet de réplication complet avec fiches de modèle/données, résultats désagrégés, et tableaux coût-par-point 📦.

Prochaines étapes: Rédiger votre pré-enregistrement cette semaine; assembler des ensembles de données avec preuves/processus supervision; construire vos pipelines de perturbation et de correction; exécuter un pilote de 2 jours pour la variance; et programmer les tests contrefactuels et environnementaux de la semaine 3. En regardant vers l’avenir, des avancées mécaniques comme les autoencodeurs clairsemés et des bibliothèques telles que TransformerLens rendront les tests de médiation au niveau des parcours plus précis, réduisant encore l’écart entre explication et cause.

Sources & Références

arxiv.org
Towards Faithfully Interpretable NLP Systems Defines the distinction between plausibility and faithfulness that motivates LIBERTy's causal evaluation approach.
arxiv.org
ERASER: A Benchmark to Evaluate Rationalized NLP Predictions Provides evidence-grounded datasets and rationale-based metrics (comprehensiveness/sufficiency) used in the playbook.
arxiv.org
On the (In)fidelity and Sensitivity of Explanations Introduces infidelity/sensitivity metrics for checking consistency of explanations under perturbations.
arxiv.org
A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Supplies the retrain-after-removal protocol to strengthen causal necessity claims for features.
arxiv.org
Interpretable Explanations of Black Boxes by Meaningful Perturbations Supports on-manifold perturbation design and insertion tests to mitigate deletion artifacts.
arxiv.org
Axiomatic Attribution for Deep Networks (Integrated Gradients) Serves as a principled attribution baseline in the tooling stack.
arxiv.org
A Unified Approach to Interpreting Model Predictions (SHAP) Provides a model-agnostic attribution baseline for black-box settings.
arxiv.org
“Why Should I Trust You?” Explaining the Predictions of Any Classifier (LIME) Adds a widely used model-agnostic attribution method for comparison and sanity checks.
arxiv.org
RISE: Randomized Input Sampling for Explanation of Black-box Models Supports deletion–insertion curve methodology for saliency evaluation.
arxiv.org
Sanity Checks for Saliency Maps Warns about attribution degeneracies; informs Week 2 sanity checks and triangulation guidance.
arxiv.org
Learning the Difference That Makes a Difference with Counterfactual Examples in NLI Provides counterfactual pairs for measuring flip rates and attribution shifts.
arxiv.org
Invariant Risk Minimization Conceptually grounds evaluation of invariance to spurious features across environments.
arxiv.org
WILDS: A Benchmark of in-the-Wild Distribution Shifts Supplies environment/subgroup splits to test explanation stability under distribution shift.
arxiv.org
e-SNLI: Natural Language Inference with Natural Language Explanations Shows plausibility-only rationales that require caution for faithfulness claims.
arxiv.org
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence Provides multimodal datasets with justifications for cross-modal faithfulness tests.
arxiv.org
HotpotQA: A Dataset for Diverse, Explainable Multi-hop QA Evidence-grounded QA dataset for sufficiency/necessity and counterfactual tests.
arxiv.org
FEVER: a Large-scale Dataset for Fact Extraction and VERification Evidence-grounded fact verification dataset used for rationale tests.
arxiv.org
Training Verifiers to Solve Math Word Problems (GSM8K) Process-supervised math benchmark for step-level CoT evaluation.
arxiv.org
Measuring Mathematical Problem Solving With the MATH Dataset Another process-supervised math dataset to evaluate reasoning steps.
arxiv.org
Chain-of-Thought Prompting Elicits Reasoning in LMs Motivates CoT explanations and step-level evaluation protocols.
arxiv.org
Self-Consistency Improves Chain of Thought Reasoning Supports standardized decoding with k-sample self-consistency in variance controls.
arxiv.org
Attention is not Explanation Cautions against interpreting attention as explanation without interventions.
arxiv.org
Attention is not not Explanation Nuances attention as hypothesis rather than definitive explanation, motivating interventional tests.
arxiv.org
Locating and Editing Factual Associations in GPT Backs representation-level interventions (activation/patching) to test mediators.
arxiv.org
Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV Supports concept-level analysis that requires interventional confirmation for causal claims.
arxiv.org
Network Dissection: Quantifying Interpretability of Deep Visual Representations Provides concept-level interpretability tools to bridge features and human concepts.
arxiv.org
Holistic Evaluation of Language Models (HELM) Informs transparent evaluation harnessing, fixed prompts, and reproducible reporting.
arxiv.org
Model Cards for Model Reporting Guides documentation of model capabilities and risks in deliverables.
arxiv.org
Datasheets for Datasets Guides dataset documentation and transparency in the replication package.
aclanthology.org
Data Statements for NLP: Towards Mitigating System Bias and Enabling Better Science Adds standardized data documentation practices for disaggregated reporting.
arxiv.org
Show Your Work: Improved Reporting of Experimental Results Supports power analyses, variance reporting, and mixed-effects modeling practices.
arxiv.org
Causal Abstractions of Neural Networks Provides formal grounding for mediation and pathway analyses in white-box settings.
openai.com
Improving Mathematical Reasoning with Process Supervision Motivates step-level supervision and interventions for evaluating CoT.
arxiv.org
ReAct: Synergizing Reasoning and Acting in Language Models Supports evaluation of tool-use traces via ablation and counterfactual editing.
arxiv.org
Tracr: Compiled Transformers as a Laboratory for Interpretability Offers ground-truth circuits for representational faithfulness tests.
transformer-circuits.pub
Towards Monosemanticity: Decomposing Language Models With Superposition Introduces SAEs to enable feature-level, semantically aligned interventions.
github.com
TransformerLens (activation/patching and interpretability tooling) Provides practical tooling for activation patching and mechanistic probes.
arxiv.org
ScienceQA: A Large-scale Multi-modal Science Question Answering Dataset Supplies multimodal tasks with explanations for cross-modal faithfulness tests.
arxiv.org
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Adds multimodal justification tasks to evaluate cross-modal explanations.
arxiv.org
Visual Commonsense Reasoning (VCR) Provides multimodal rationales for evaluating explanation grounding.
arxiv.org
FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information Extends evidence-grounded verification to tables and text for multimodal evaluation.
arxiv.org
Contrast Sets: A Test Suite for the NLP Community Offers minimally edited pairs to directly test counterfactual dependence.
github.com
CIFAR-10.1 Provides matched-distribution test sets for probing generalization and spurious reliance.
arxiv.org
GPT-4 Technical Report Represents the class of closed models included in the comparative experimental matrix.
www.anthropic.com
Anthropic Claude models Represents closed-model family considered in LIBERTy’s comparative evaluation.
ai.google.dev
Google Gemini models Represents closed-model family evaluated under the framework.
ai.meta.com
Meta Llama 3 announcement Represents open-model family included in comparative experiments.
mistral.ai
Mistral/Mixtral models Represents open-model family considered in experiments.
ai.google.dev
Google Gemma models Represents open-model family in the comparative matrix.
github.com
Qwen2 models Represents open-model family included in the LIBERTy evaluation scope.
github.com
DeepSeek LLM (open models) Represents open-model family for white-box/black-box adaptations.
x.ai
xAI Grok-1 Represents open-model family potentially evaluated under LIBERTy.

Advertisement