Effectuer une évaluation LIBERTy en 30 jours
Le fossé entre des explications de modèles persuasives et réellement fidèles est désormais trop important pour être ignoré. La littérature sur l’interprétabilité avertit que la plausibilité n’est pas la fidélité et que les cartes de chaleur d’attention seules ne sont pas causalement diagnostiques sans interventions. LIBERTy—un cadre complet pour 2026—répond à ce défi en prescrivant des tests rigoureux et interventionnels, un rapport transparent et une puissance statistique pour une évaluation à grande échelle de la fidélité causale à travers les tâches, les modèles et les types d’explications. Cet article est un guide pratique: comment constituer une équipe et définir le périmètre, quoi exécuter chaque semaine, quels ensembles de données et mesures commencer, comment s’adapter à l’accès boîte noire versus boîte blanche, et quoi livrer à la fin.
En 30 jours, vous allez pré-enregistrer des hypothèses et des invites; exécuter des essais pilotes pour dimensionner votre étude; effectuer une batterie de tests au niveau des entrées, contrefactuels et représentations; et livrer un paquet prêt à la réplication avec des résultats désagrégés et une comptabilité coût-par-point. Vous apprendrez comment choisir les types d’explications (chaînes de pensée, justifications textuelles, cartes de saillance, traces d’outils/programmes), sélectionner des ensembles de données qui permettent réellement des tests causaux, et assembler une boîte à outils de mesures—de ERASER à suppression–insertion à réentraînement après suppression et correction d’activation—qui triangule la fidélité tout en atténuant les menaces connues pour la validité.
Détails de l’architecture/implémentation
Équipe, périmètre et critères de réussite
- Définir la fidélité dès le départ: les explications doivent suivre les facteurs causaux réellement utilisés par le modèle, pas seulement des rationalisations plausibles pour l’homme. Évitez les suppositions selon lesquelles les poids d’attention sont explicatifs sans confirmation interventionnelle.
- Choisir les types d’explications et les points de terminaison:
- Chaîne de pensée (CoT): exactitude au niveau de l’étape et sensibilité à l’intervention.
- Justifications textuelles: intervalles fondés sur des preuves, tests de style ERASER.
- Cartes de saillance/attribution: courbe AUC suppression–insertion, ROAR, infidélité/sensibilité.
- Traçages d’utilisation d’outils/programmes: supprimer des étapes ou éditer de manière contrefactuelle les sorties des outils; utiliser les historiques ReAct ou les programmes compilés Tracr comme références exploitables.
- Choisir les points de terminaison principaux selon la propriété causale: dépendance contrefactuelle, suffisance/nécessité minimale, invariance aux caractéristiques factices, médiation/parcours.
Le succès se traduit par des mesures pré-enregistrées avec puissance, des résultats positifs convergents à travers des tests complémentaires et un rapport d’incertitude qui soutient une comparaison équitable entre modèles.
Semaine 1: pré-enregistrement, invites fixes, définitions des mesures et planification des tailles d’échantillons
- Pré-enregistrer des hypothèses, ensembles de données, modèles d’invites, grilles de décodage, mesures et points de terminaison principaux/secondaires (transparence à la HELM; rapport “Montrez votre travail”).
- Verrouiller les invites et les paramètres de décodage (par exemple, températures standardisées telles que 0.0, 0.3, 0.7; cohérence par échantillon k là où c’est approprié) pour contrôler la variance.
- Définir les mesures par propriété:
- Exhaustivité/suffisance ERASER pour la suppression/l’isolation de justifications.
- Courbes AUC suppression–insertion; inclure l’insertion pour atténuer les problèmes hors-manifold.
- Réentraîner après suppression (ROAR) pour des revendications de nécessité plus fortes.
- Taux de bascule contrefactuelle sur des modifications minimales; aligner les modifications avec les changements d’attribution.
- Stabilité de l’attribution au niveau de l’environnement sous des changements de type WILDS.
- Médiation par correction d’activation/parchemin; estimer les effets causaux moyens (ACE) pour les médiateurs hypothétiqués.
- Planifier la puissance: utiliser la variance pilote et les IC boostrap; adopter des modèles à effets mixtes hiérarchiques à travers les tâches/modèles; contrôler la multiplicité (BH-FDR). Des mesures spécifiques indisponibles jusqu’à ce que la variance pilote soit observée.
Semaine 2: exécutions pilotes pour l’estimation de la variance et vérifications de la validité des ensembles de données
- Exécuter de petits lots par modèle–tâche–mesure pour estimer la variance et affiner les tailles d’échantillons et grilles de décodage.
- Effectuer des vérifications de santé mentale pour les dégénérescences de la méthode d’attribution; vérifier les modifications contrefactuelles fluentes et sur-manifold pour réduire les artefacts de suppression.
- Valider les signaux de supervision des ensembles de données: les intervalles de preuves dorées (tâches ERASER, FEVER, HotpotQA) et la supervision des processus au niveau des étapes (GSM8K, MATH) devraient se comporter comme attendu sur un petit sous-ensemble.
Semaine 3: perturbations, robustesse contrefactuelle et divisions de l’environnement
- Tests au niveau des entrées et des caractéristiques: calculer l’exhaustivité/suffisance de ERASER, AUC suppression–insertion; préparer des ensembles de données ROAR pour le réentraînement.
- Robustesse contrefactuelle: utiliser des paires modifiées minimalement (NLI Contrefactuel; CheckList) pour mesurer les taux de bascule et si l’attribution et les sorties évoluent dans la direction attendue.
- Robustesse de l’environnement: évaluer la stabilité de l’attribution et la précision à travers des changements de type WILDS; relier la dévalorisation des indices factices à la stabilité des performances.
- Probes au niveau des représentations (boîte blanche uniquement): correction d’activation/parchemin et ablations ciblées sur des médiateurs hypothétiqués; considérer des caractéristiques désengagées SAE pour des interventions plus alignées sémantiquement.
Semaine 4: exécutions à grande échelle, contrôles basés sur le réentraînement et rapport d’incertitude
- Exécuter la matrice complète à travers modèles (familles fermées et ouvertes répertoriées dans les rapports contemporains), tâches et types d’explications avec des essais multigraine et décodage standardisé.
- Exécuter ROAR (supprimer et réentraîner) pour renforcer les revendications de nécessité, atténuer l’adaptabilité des modèles et les interactions de caractéristiques.
- Résumer avec des moyennes, déviations standard et intervalles de confiance bootstrap à 95% par configuration; ajuster les modèles à effets mixtes pour inférence avec des intercepts aléatoires pour les tâches/modèles; contrôler les comparaisons multiples.
- Calculer la comptabilité: rapporter le nombre de paramètres là où communiqué, les longueurs de contexte, les budgets de génération par élément, les temps en temps réel, et les statistiques coût-par-point par mesure; normaliser en correspondant les comptes d’échantillons et paramètres de décodage pour des comparaisons équitables entre modèles. Des mesures spécifiques indisponibles là où les fournisseurs ne divulguent pas les FLOPs.
- Publier un paquet de réplication: ensembles/découpes versionnés, invites, journaux de génération, graines, scripts de mesures, conteneurs; inclure des fiches de modèles, fiches de données et déclarations de données.
Pile d’outils
- Chargeurs d’ensembles de données avec supervision de preuves/processus et découpes contrefactuelles/environnementales: suite ERASER, FEVER, HotpotQA, GSM8K, MATH, NLI Contrefactuel, CheckList, WILDS; extensions multimodales au besoin.
- Lignes de base d’attribution: Integrated Gradients (axiomatique), LIME et SHAP (agnostique au modèle), RISE et occlusion (basés sur la perturbation).
- Pipelines de perturbation: suppression–insertion, exhaustivité/suffisance, validateurs d’édition sur-manifold.
- Interventions au niveau des représentations: TransformerLens pour les flux de travail d’activation/parchemin; édition de caractéristiques basée sur SAE quand disponible.
- Statistiques: scripts CI bootstrap, modélisation à effets mixtes, contrôle BH-FDR, journalisation de variance à travers graines/générations.
Exécution en boîte noire versus boîte blanche
- Exécution en boîte noire uniquement: mettre l’accent sur les perturbations au niveau des entrées (ERASER, suppression–insertion), tests de bascule contrefactuelle, robustesse de l’environnement et vérifications de santé mentale.
- Boîte blanche: ajouter la correction d’activation/parchemin, les ablations ciblées, et l’analyse de médiation; utiliser Tracr pour les circuits de vérité fondamentale et traces ReAct pour les tests de causalité d’utilisation d’outils là où c’est applicable.
- Dans les deux modes: trianguler à travers des méthodes complémentaires pour atténuer les menaces pour la validité—perturbations hors-manifold, instabilité de l’attribution à travers méthodes/graines, et pièges de l’attention comme explication.
Tableaux de comparaison
Ensembles de données à commencer et les propriétés qu’ils testent
| Catégorie d’ensemble de données | Exemples | Signal de supervision | Propriétés principales testées |
|---|---|---|---|
| Vérification/QA fondée sur des preuves | HotpotQA; FEVER | Faits de soutien d’or/intervalles de preuves | Suffisance/Nécéssité minimale; dépendance contrefactuelle via des modifications aux faits cités |
| Mathématiques/logique supervisées par processus | GSM8K; MATH | Solutions au niveau de l’étape | Exactitude étape par étape CoT; modifications contrefactuelles aux étapes; médiation via correction des positions des étapes |
| Paires contrefactuelles/tests comportementaux | NLI Contrefactuel; CheckList; Ensembles Contrastés | Modifications sémantiques minimales | Taux de bascule contrefactuels; alignement des changements d’attribution |
| Suites de changement | WILDS; CIFAR-10.1 | Divisions d’environnement/sous-groupe | Invariance aux caractéristiques factices; stabilité de l’attribution vs précision sous changement |
| Justification multimodale | VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS | Justifications dorées ou signaux de type processus | Effets d’occlusion localisés; enracinement des preuves à travers les modalités |
Boîte à outils de mesures en un coup d’œil
| Mesure/protocole | Ce qu’elle mesure | Remarques |
|---|---|---|
| Exhaustivité/suffisance ERASER | Nécessité/suffisance des intervalles de justification | Standard pour les justifications textuelles |
| Courbes suppression–insertion (AUC) | Sensibilité de la sortie aux caractéristiques prioritaires | Coupler avec insertion pour réduire les artefacts hors-manifold |
| ROAR (supprimer et réentraîner) | Nécessité des caractéristiques sous réentraînement | Atténue le biais de réattribution |
| Infidélité/sensibilité | Cohérence entre perturbations, sortie, et explication | Diagnostique pour la stabilité de l’explication |
| Taux de bascule contrefactuel | Dépendance aux facteurs modifiés | Utiliser CNLI/CheckList/ensembles contrastés |
| Correction d’activation/parcours; médiation | Impact causal des médiateurs hypothétiques | Boîte blanche uniquement; estimation ACE |
Boîte noire vs boîte blanche: quels tests conviennent
| Accès | Tests faisables | Limitations |
|---|---|---|
| Boîte noire | ERASER, suppression–insertion, tests contrefactuels, changements WILDS, vérifications de santé mentale | Pas de médiation au niveau de l’activation; s’appuyer sur les perturbations des entrées |
| Boîte blanche | Tous les tests boîte noire plus correction/activation, ablation, abstraction causale | Nécessite une instrumentation sûre; des considérations de sécurité s’appliquent |
Bonnes pratiques
- Pré-enregistrer tout: ensembles de données, invites, mesures, points de terminaison, et objectifs de puissance; publier code, données, graines, et conteneurs (style HELM; “Montrez votre travail”).
- Trianguler à travers des méthodes complémentaires pour contrer les menaces pour la validité: utiliser suppression et insertion; modifications contrefactuelles validées pour fluidité; ROAR pour aborder l’adaptabilité; interventions au niveau des représentations pour confirmer les hypothèses d’attribution.
- Considérer les cartes d’attention comme des hypothèses à falsifier ou confirmer via des interventions ciblées—pas comme des explications par défaut.
- Prioriser les ensembles de données avec des preuves d’or ou supervision de processus; lorsque seuls des labels de plausibilité existent (e-SNLI), qualifier les interprétations et mettre l’accent sur les tests causaux.
- Évaluer l’invariance: tester la stabilité de l’explication et la performance à travers des environnements/sous-groupes prédéfinis; analyser la dévalorisation de la corrélation fallacieuse.
- Contrôler la variance: invites fixes; grilles de décodage standardisées; exécutions multi-graines; IC bootstrap; modèles à effets mixtes; BH-FDR pour comparaisons multiples.
- Documenter de manière responsable: fiches de modèles, fiches de données, et déclarations de données pour les sources, les démographies, les risques, et les limitations.
Exemples pratiques
Bien que les résultats quantitatifs spécifiques dépendent de vos modèles et budgets, voici comment le plan sur 30 jours se déroule avec les ensembles de données et mesures spécifiés dans LIBERTy.
-
QA fondée sur des preuves (HotpotQA/FEVER): Dans la semaine 1, pré-enregistrer des points de terminaison de style ERASER (exhaustivité/suffisance) avec AUC suppression–insertion comme secondaire. Dans les essais pilotes de la semaine 2, vérifier que la suppression des faits de soutien étiquetés par l’homme dégrade les prédictions plus que la suppression de fragments aléatoires (vérification de santé mentale). Dans la semaine 3, ajouter des modifications contrefactuelles aux faits cités et mesurer les taux de bascule, en veillant à ce que les modifications soient fluides/sur-manifold. Si vous avez un accès boîte blanche, corrigez les activations correspondant aux phrases de soutien des documents contrefactuels pour tester les hypothèses de médiateurs. Dans la semaine 4, exécuter ROAR en réentraînant des modèles avec des intervalles importants supprimés pour renforcer les revendications de nécessité.
-
Mathématiques supervisées par processus (GSM8K/MATH): Définir les points de terminaison CoT: exactitude au niveau de l’étape, sensibilité aux modifications contrefactuelles des étapes, et effets de suppression ou substitution des étapes. Dans les essais pilotes, estimer la variance de l’exactitude des étapes sous décodage par auto-cohérence. Dans la semaine 3, ablater ou corriger les activations aux positions des tokens associés aux étapes pour tester si des étapes spécifiques médiatisent causalement les réponses finales (boîte blanche). Rapporter la médiation ACE et l’incertitude dans la semaine 4.
-
Robustesse contrefactuelle (CNLI/CheckList/Ensembles contrastés): Pré-définir des modifications minimales (négation, quantificateurs, changements d’entité) et mesurer les taux de bascule contrefactuels et l’alignement des changements d’attribution. Utiliser des tests d’insertion avec la suppression pour réduire les biais hors-manifold.
-
Invariance au niveau de l’environnement (WILDS; CIFAR-10.1): Partager les évaluations par environnement/sous-groupe et mesurer si la stabilité de l’attribution prédit la stabilité des performances sous changement; évaluer si les attributions dévalorisent les indices factices connus.
-
Justification multimodale (VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS): Associer des contrôles de pointage et de justification avec une occlusion croisée; confirmer que l’enracinement des preuves corrèle avec les effets d’occlusion localisés et les taux de bascule contrefactuels.
-
Exécutions boîte noire versus boîte blanche: Pour les modèles fermés (par ex., GPT-4-class, Claude, Gemini), s’appuyer sur des tests au niveau des entrées et de l’environnement avec un rapport d’incertitude complet. Pour les modèles ouverts (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok), ajouter la correction/activation ainsi que les interventions de caractéristiques basées sur SAE là où c’est faisable. Dans les deux cas, appliquer l’harnachement style HELM et la comptabilité coût-par-point.
Ces exemples illustrent le principe LIBERTy: mesurer la fidélité causale par des tests interventionnels convergents appariés à des signaux de supervision, et rapporter avec suffisamment de transparence et de puissance pour soutenir des comparaisons crédibles.
Conclusion
En un mois, les équipes ML peuvent passer d’explications apparemment plausibles à des explications causalement fidèles en suivant le plan reproductible de LIBERTy. Ancrer les évaluations dans des données fondées sur des preuves ou supervisées par processus, combiner les perturbations au niveau des entrées avec une robustesse contrefactuelle et une médiation au niveau des représentations, et rapporter avec une transparence style HELM et une rigueur statistique. Que vous ayez des API en boîte noire ou un accès complet en boîte blanche, le cadre fournit des routes faisables et évolutives pour faire des affirmations crédibles sur ce que signifient réellement les explications de votre modèle.
Principaux points à retenir:
- La fidélité nécessite des interventions; la plausibilité et les cartes d’attention sont insuffisantes sans tests causaux.
- Commencer avec des ensembles de données qui permettent une évaluation causale: preuves style ERASER, supervision de processus, paires contrefactuelles, et découpes d’environnement.
- Trianguler les mesures: ERASER, suppression–insertion, ROAR, taux de bascule contrefactuels, et médiation via correction d’activation.
- Contrôler la variance et la puissance: pré-enregistrer, standardiser invites/décodage, IC bootstrap, et utiliser des modèles à effets mixtes.
- Livrer un paquet de réplication complet avec fiches de modèle/données, résultats désagrégés, et tableaux coût-par-point 📦.
Prochaines étapes: Rédiger votre pré-enregistrement cette semaine; assembler des ensembles de données avec preuves/processus supervision; construire vos pipelines de perturbation et de correction; exécuter un pilote de 2 jours pour la variance; et programmer les tests contrefactuels et environnementaux de la semaine 3. En regardant vers l’avenir, des avancées mécaniques comme les autoencodeurs clairsemés et des bibliothèques telles que TransformerLens rendront les tests de médiation au niveau des parcours plus précis, réduisant encore l’écart entre explication et cause.