Le test d’explications par patching d’activation et médiation causale des modèles de langage

Dans les sondes de représentation de LIBERTy séparant les mécanismes des rationalisations

Les explications plausibles peuvent être fausses—et dans les modèles de langage, elles le sont souvent. Des années de recherche en interprétabilité avertissent que les mises en évidence accrocheuses et les raisonnements cohérents peuvent ne pas refléter ce qui a réellement causé une réponse d’un modèle, surtout lorsque les cartes d’attention sont traitées comme des explications sans interventions [1,24,25,30]. LIBERTy, un cadre d’évaluation prêt pour 2026, aborde cela de front en élevant les tests causaux au niveau de la représentation—patching d’activation et de chemin, ablation/édition ciblée, et médiation/abstraction causale—d’outils diagnostiques optionnels à preuves de premier plan. Le pari est simple: modifiez les causes internes et observez la sortie; si elle change comme prévu, l’explication gagne en crédibilité.

Cet article explore la méthodologie “boîte blanche lorsque possible” de LIBERTy: comment les hypothèses concernant les têtes d’attention, les caractéristiques MLP et les circuits sont transformées en expériences; comment les activations contrefactuelles sont substituées pour vérifier l’influence; comment les ablations ciblées falsifient les cheminements fallacieux; comment la médiation causale quantifie les effets directs et indirects; et comment les dictionnaires de fonctionnalités rares permettent une intervention sémantique, pas seulement au niveau du token. Nous abordons également les scores et contrôles qui rendent ces tests comparables entre les familles de modèles. Les lecteurs découvriront comment LIBERTy convertit la plausibilité en affirmations causales testables, quoi mesurer, comment exécuter des expériences internes robustes, et où résident les modes d’échec.

Détails de l’architecture/mise en œuvre

Pourquoi la plausibilité n’est pas la fidélité—et pourquoi les interventions sont la preuve manquante

Les cartes de saillance, les raisonnements textuels, et même les chaînes de pensées semblent souvent persuasifs. Mais sans tests interventionnels, ils restent corrélationnels et vulnérables aux confusions [1,30]. L’attention, en particulier, est un générateur d’hypothèses, pas un verdict: les tests doivent manipuler les médiateurs supposés et vérifier l’effet prédit sur les sorties [24,25]. LIBERTy considère donc les interventions au niveau de la représentation comme la norme pour confirmer (ou falsifier) les affirmations explicatives, et les triangule avec des entrées contrefactuelles et la robustesse aux changements d’environnement pour éviter d’être trompé par des artefacts hors-manifold ou des indices fallacieux [5,9,14].

Des hypothèses aux tests: localiser les médiateurs candidats

LIBERTy met en œuvre un pipeline de l’explication à l’expérience:

Émettre des hypothèses de médiateurs. Les lieux candidats incluent les têtes d’attention, les neurones/caractéristiques MLP, et les circuits impliqués par analyse d’attribution ou mécanique [24,25].
Ancrer les hypothèses dans la structure. L’abstraction causale fournit un langage formel pour proposer des structures de voies à tester. Les transformateurs compilés de Tracr offrent un laboratoire contrôlé où des circuits connus peuvent être sondés de bout en bout.
Sélectionner des paires contrefactuelles. Utiliser des modifications sémantiques minimales ou des jeux de contraste pour isoler un facteur causal unique au niveau de l’entrée [12,47].
Concevoir des interventions internes. Choisir le patching d’activation/chemin ou l’ablation/édition aux médiateurs suspectés; aligner les interventions sur les unités sémantiques si possible (voir les SAEs ci-dessous) [27,41,42].

Patching d’activation et de chemin: substitution contrefactuelle pour vérifier l’influence

Le patching d’activation substitue les activations internes d’un exemple contrefactuel dans un exemple cible aux médiateurs hypothétisés (par exemple, des couches, têtes ou caractéristiques spécifiques). Si l’explication a correctement nommé le médiateur, la sortie du modèle devrait se déplacer vers le résultat contrefactuel [27,42]. LIBERTy enregistre la direction et l’ampleur de ces changements et les agrège en effets causaux moyens (ACE) des sites patchés, attribuant un poids causal aux cheminements impliqués. Pour se prémunir contre les changements de distribution et les fuites, LIBERTy associe le patching avec des contrefactuels sur-manifold et des tests d’insertion qui complètent les suppressions.

Le patching de chemin étend cette idée aux parcours multi-étapes—testant si une chaîne de composants porte conjointement de l’influence. En patchant le long d’un chemin supposé, les évaluateurs peuvent comparer les ACE de nœuds uniques et multi-nœuds pour estimer si des interactions sont nécessaires pour le comportement observé, une étape clé vers l’attribution au niveau du chemin plutôt que des points chauds isolés.

Ablation et édition ciblée: falsification des cheminements fallacieux et confirmation de la nécessité

Là où le patching demande “ce médiateur est-il suffisant pour porter le contrefactuel?”, l’ablation demande “est-il nécessaire?” LIBERTy met en œuvre une suppression ou édition ciblée des activations aux sites suspectés et mesure la dégradation résultante de la sortie. Cela complète l’effacement au niveau de l’entrée et les courbes de suppression-insertion et défi directement les explications qui sur-indexent des composants visuellement saillants mais causalement inertes [9,10]. Pour réduire la confusion que les modèles peuvent réajuster les caractéristiques restantes après suppression, LIBERTy intègre des preuves de suppression-et-réentrainement de type ROAR, renforçant les affirmations de nécessité lorsque les baisses de performance persistent même après réentrainement. Les méthodes d’édition qui localisent les associations factuelles permettent en outre des tests précis de si la trace de mémoire citée motive réellement la réponse.

Médiation et abstraction causale: estimation des effets directs/indirects et test de la structure

Au-delà des interventions ponctuelles, LIBERTy estime les effets directs et indirects par analyse de médiation alignée avec les hypothèses d’abstraction causale. Concrètement, les expérimentateurs spécifient un mappage structurel des facteurs d’entrée aux médiateurs internes et sorties, puis combinent patching et ablation pour estimer la part d’un changement de sortie qui passe par le chemin nommé face à des itinéraires alternatifs. Cela déplace l’évaluation de “qu’est-ce qui s’éclaire?” à “quelle fraction de l’effet ce chemin explique-t-il?”, permettant un rapport judicieux de la variance expliquée par les médiateurs identifiés.

Alignement au niveau des fonctionnalités avec des dictionnaires de fonctionnalités rares

Les manipulations au niveau des tokens ou des neurones peuvent être grossières. Les progrès récents en interprétabilité mécanique utilisent des autoencodeurs rares pour détacher des caractéristiques interprétables dans les activations des modèles de langage, produisant des dictionnaires de fonctionnalités qui s’alignent sur les facteurs sémantiques. LIBERTy utilise ces derniers pour patcher ou ablater au niveau d’un concept putatif (par exemple, négation, quantificateur) plutôt qu’une position de token brute, réduisant la confusion de concepts et affinant les tests causaux. Lorsqu’un patch au niveau des fonctionnalités inverse la sortie dans la direction prévue, l’explication gagne un crédit accru pour la spécificité causale.

Conception d’expériences internes robustes: boîte noire vs. boîte blanche, répétabilité, contrôles de variance

Les protocoles au niveau de la représentation nécessitent un accès interne; LIBERTy supporte les deux:

Paramètres boîte blanche: instrumentation d’activation complète permettant le ciblage de couches/têtes/caractéristiques et estimations de médiation causale [27,37,41,42].
Paramètres boîte noire: éditions contrefactuelles au niveau des entrées, suppression-insertion et tests de résistance aux changements d’environnement fournissent des contraintes complémentaires; les affirmations internes sont qualifiées en conséquence [5,9,14].

Pour assurer la répétabilité, LIBERTy suit les contrôles de transparence et de variance de type HELM: modèles de invites fixes, grilles de décodage standardisées, essais multi-graines, intervalles de confiance par bootstrap, et modèles à effets mixtes pour l’inférence, avec hypothèses préenregistrées et analyses de puissance [32,36]. Lorsque le décodage stochastique est nécessaire, la variance est explicitement modélisée et rapportée.

Quantification des effets et rapport

Les rapports de médiation et de notation de cheminement de LIBERTy comprennent:

Effet causal moyen (ACE) des médiateurs patchés/ablatés sur les sorties (échelle alignée sur la fidélité)
Proportion de variance expliquée par les cheminements identifiés
Attribution de cheminement: contributions de nœuds uniques vs. multi-nœuds sous le patching de chemin
Bandes d’incertitude via bootstrap sur les articles et graines, avec comparaisons multiples contrôlées (par exemple, BH-FDR) Chaque métrique est normalisée de 0 à 100 pour comparabilité et macro-moyennée avec intervalles de confiance; des analyses de sensibilité testent la robustesse aux choix d’invite et de décodage.

Comparabilité des familles de modèles

LIBERTy applique des protocoles d’intervention identiques entre les familles de modèles fermés et ouverts où les interfaces le permettent—les successeurs de classe GPT‑4, Claude, Gemini, et modèles ouverts de pointe (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok) [49–57]. Lorsque l’accès en boîte blanche n’est pas disponible, LIBERTy se rabat sur les tests au niveau des entrées et changements d’environnement et ne rapporte des affirmations de médiation que là où des preuves au niveau de la représentation existent, préservant des comparaisons pomme-à-pomme entre les systèmes [14,32].

Modes d’échec et garde-fous

Les tests au niveau de la représentation ne sont pas à l’abri des écueils. LIBERTy se défend contre les menaces communes en:

Combinant suppression et insertion pour éviter les artefacts hors-manifold
Utilisant ROAR pour contrer l’adaptabilité des modèles après une suppression
Effectuant des vérifications de cohérence pour détecter des attributions non informatives
Testant sous des changements d’environnement pour exposer des cheminements fallacieux
Traitant les visualisations d’attention comme des hypothèses à falsifier via des interventions, non comme preuves causales [24,25]
Préférant les manipulations au niveau des fonctionnalités via les SAEs pour réduire la confusion des concepts

🔬 Le principe directeur: intervenir sur le mécanisme que vous revendiquez, prédire la direction du changement, et quantifier l’effet avec incertitude.

Tableaux de comparaison

Aperçu des techniques d’intervention internes

Technique	Ce qu’elle teste	Entrées requises	Granularité	Forces	Risques/atténuations clés
Patching d’activation	Suffisance du médiateur/chemin supposé via substitution contrefactuelle	Exemple contrefactuel; accès aux activations	Couche/tête/caractéristique	Mesure directement l’influence causale; soutient les tests au niveau du chemin	Risque hors-manifold atténué par des éditions sur-manifold et tests d’insertion [5,27,42]
Ablation/édition ciblée	Nécessité du médiateur; falsifie les cheminements fallacieux	Accès aux activations/paramètres	Neurone/caractéristique/circuit	Teste le retournement/la chute sous suppression; ROAR renforce la causalité	Réajustement du modèle; adresse via suppression-et-réentrainement (ROAR) [4,10,27]
Médiation/abstraction causale	Effets directs/indirects; hypothèses structurelles	Mappage structurel + interventions	Niveau du chemin	Quantifie la variance expliquée; teste les chaînes multi-étapes	Structure mal spécifiée; valider avec Tracr ou supervision de processus [37,40]
Patching au niveau des fonctionnalités SAE	Interventions d’unités sémantiques (alignées aux concepts)	Dictionnaire de fonctionnalités rares	Fonctionnalité de niveau concept	Réduit la confusion des concepts; affirmations causales plus précises	Mauvais alignement des fonctionnalités; nécessite des dictionnaires validés

Bonnes pratiques

Préenregistrer les hypothèses de médiateur, paires contrefactuelles, sites d’intervention, métriques, et objectifs de puissance; publier le code, les journaux, et les graines pour une transparence de type HELM [32,36].
Associer suppression et insertion, et utiliser des éditions contrefactuelles validées humainement pour minimiser les artefacts hors-manifold.
Utiliser le réentrainement de style ROAR lors des affirmations de nécessité à partir de la suppression; rapporter avec et sans réentrainement.
Préférer les interventions au niveau des fonctionnalités via les SAEs lorsque disponibles; sinon, localiser aux couches/têtes minimales pour réduire l’étalement.
Estimer l’ACE avec intervalles de confiance par bootstrap; utiliser des modèles à effets mixtes pour l’inférence inter-tâches, inter-modèles; contrôler la multiplicité (par exemple, BH-FDR).
Dans les paramètres de boîte noire, qualifier les affirmations causales et trianguler avec des tests de robustesse contrefactuelle et de changement d’environnement (par exemple, divisions de type WILDS).
Traiter les cartes d’attention et les liens conceptuels de type TCAV comme des hypothèses; insister sur la confirmation interventionnelle avant les affirmations causales [24,25,28,29].

Exemples pratiques

Bien que les détails de mise en œuvre spécifiques ne soient pas disponibles publiquement au-delà de la description du cadre, LIBERTy décrit plusieurs expériences internes canoniques et où elles s’appliquent:

Test de médiateur contrefactuel NLI: Construire des paires minimales qui changent un seul facteur sémantique (par exemple, la négation). Supposer qu’une fonctionnalité ou tête spécifique médiatise la sensibilité à ce facteur. Substituer les activations de l’exemple contrefactuel à ce médiateur (patching d’activation) et mesurer si la sortie se retourne ou se déplace comme prévu; rapporter l’ACE avec incertitude. Associer avec des tests d’insertion pour vérifier que l’ajout du facteur dans un contexte neutre produit une modification correspondante, atténuant les artefacts de suppression.
Vérifications de nécessité de chaîne de pensée (CoT): Sur des tâches de mathématiques/logique supervisées par processus (GSM8K, MATH), identifier les positions de token et couches associées à une étape de raisonnement particulière [20,21,22,38]. Effectuer une ablation ciblée à ces états internes; si l’étape est nécessaire, les états intermédiaires ou réponses finales devraient se dégrader. Là où c’est possible, patcher les activations de l’étape correcte pour tester la suffisance. Rapporter la précision au niveau de l’étape, l’infidélité, et les tailles d’effet des ablations.
Médiation au niveau du cheminement dans les transformateurs compilés: Utiliser Tracr pour obtenir un transformateur avec des circuits connus pour une tâche algorithmique. Spécifier une abstraction causale qui mappe les facteurs d’entrée aux sous-circuits internes et sorties. Effectuer le patching de chemin le long de la chaîne supposée et estimer les effets directs/indirects; comparer aux patchs de nœuds uniques pour évaluer les interactions. Cela fournit une référence fundamentée pour l’attribution de cheminement et valide le protocole de médiation de bout en bout.
Patching au niveau des fonctionnalités avec autoencodeurs rares: Former ou adopter un dictionnaire de fonctionnalités rares qui détache les fonctionnalités interprétables dans les activations des modèles de langage. Pour un concept cible (par exemple, quantificateurs), patcher la fonctionnalité correspondante d’un exemple contrefactuel dans le contexte original. Si l’explication est causale-conceptuelle, la sortie devrait changer dans la direction prédite; ablater la fonctionnalité pour tester la nécessité. Rapporter l’ACE au niveau du concept et discuter de la qualité de l’alignement.
Fallback de comparabilité en boîte noire: Pour les modèles fermés où l’accès interne n’est pas disponible, exécuter les mêmes tests de contrefactuel et de changement d’environnement et rapporter l’AUC de suppression-insertion, les taux de retournement contrefactuel, et la stabilité de l’attribution. Réserver les scores de médiation pour les modèles où des interventions d’activation/caractéristique étaient possibles, et distinguer clairement les niveaux de preuve dans le rapport LIBERTy [14,32].

Dans tous les cas, LIBERTy met l’accent sur les graines, les grilles de décodage, et les CIs par bootstrap; le modèle à effets mixtes accueille la variabilité à travers les tâches et les modèles, et le contrôle de multiplicité prévient la surenchère à partir de multiples sondes. Des métriques spécifiques au-delà de ces protocoles ne sont pas disponibles dans le rapport.

Conclusion

L’affirmation centrale de LIBERTy est que la fidélité de l’explication doit être gagnée par des interventions, et non par l’esthétique. En transformant les têtes d’attention, caractéristiques MLP, et circuits en hypothèses manipulables—puis en les validant avec du patching d’activation/de chemin, de l’ablation/édition et de la médiation—LIBERTy remplace la plausibilité par une preuve causale. L’alignement au niveau des fonctionnalités via des autoencodeurs rares élève les interventions aux unités sémantiques, tandis que des contrôles de variance rigoureux et une transparence de type HELM maintiennent des comparaisons honnêtes entre les familles de modèles ouvertes et fermées. Le résultat est un cadre qui peut dire, avec un appui statistique, quelles explications reflètent les mécanismes internes et lesquelles sont de simples rationalisations.

Points clés:

Plausibilité ≠ fidélité; attention et saillance sont des hypothèses jusqu’à confirmation par des tests interventionnels [1,24,25,30].
Le patching d’activation/de chemin et l’ablation/édition ciblée fournissent des tests complémentaires de suffisance et de nécessité au niveau de la représentation [4,27,42].
La médiation/abstraction causale quantifie les effets directs/indirects et la variance expliquée par les cheminements.
Les autoencodeurs rares permettent des interventions alignées sur les concepts au niveau des fonctionnalités qui réduisent les confusions.
Un rapport robuste exige une transparence de type HELM, une modélisation de la variance multi-graines, et une inférence fondée sur des principes [32,36].

Prochaines étapes pour les praticiens:

Préenregistrer les hypothèses de médiateur et protocoles; mettre en œuvre les expériences de patch/ablate avec un rapport d’incertitude.
Construire des ensembles de données contrefactuels minimaux validés humainement adaptés aux facteurs cités par vos explications [5,12].
Investir dans des dictionnaires de fonctionnalités (SAEs) pour aligner les interventions sur les unités sémantiques.
Là où les internes sont inaccessibles, utiliser des tests de contrefactuel et de changement d’environnement et qualifier clairement les affirmations causales.

En regardant vers l’avenir, une adoption plus large des interventions au niveau de la représentation—associée à un rapport standardisé—devrait affiner la compréhension du domaine de la façon dont les modèles de langage modernes calculent réellement, et quelles explications nous pouvons croire.

Sources

url: https://arxiv.org/abs/2004.03685; title: Towards Faithfully Interpretable NLP Systems; relevance: Établit la distinction plausibilité contre fidélité qui motive les tests interventionnels.
url: https://arxiv.org/abs/1806.10758; title: A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR); relevance: Supporte la suppression-et-réentrainement comme un test de nécessité contre l’adaptivité du modèle dans l’ablation.
url: https://arxiv.org/abs/1704.03296; title: Interpretable Explanations of Black Boxes by Meaningful Perturbations; relevance: Justifie l’insertion en parallèle de la suppression et des perturbations sur-manifold pour éviter les artefacts.
url: https://arxiv.org/abs/1806.07421; title: RISE: Randomized Input Sampling for Explanation of Black-box Models; relevance: Fournit des bases de perturbation qui complètent les sondes au niveau de la représentation.
url: https://arxiv.org/abs/1612.08220; title: Understanding Neural Networks Through Representation Erasure; relevance: Enracine l’ablation ciblée au niveau de la représentation.
url: https://arxiv.org/abs/1810.03292; title: Sanity Checks for Saliency Maps; relevance: Alerte sur les attributions dégénérées et motive les vérifications de cohérence.
url: https://arxiv.org/abs/1909.12434; title: Learning the Difference That Makes a Difference with Counterfactual Examples in NLI; relevance: Fournit des éditions contrefactuelles minimales pour des tests causaux de dépendance.
url: https://arxiv.org/abs/2012.07421; title: WILDS: A Benchmark of in-the-Wild Distribution Shifts; relevance: Fournit des tests de résistance aux changements d’environnement pour détecter des cheminements fallacieux.
url: https://arxiv.org/abs/1902.10186; title: Attention is not Explanation; relevance: Met en garde contre le traitement de l’attention comme preuve causale sans interventions.
url: https://arxiv.org/abs/1906.03731; title: Attention is not not Explanation; relevance: Positionne l’attention comme un générateur d’hypothèses nécessitant une confirmation causale.
url: https://arxiv.org/abs/2202.05262; title: Locating and Editing Factual Associations in GPT; relevance: Démontre l’édition et la localisation de la représentation pour des tests causaux.
url: https://arxiv.org/abs/1711.11279; title: Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV; relevance: Montre des liens de niveau concept pouvant nécessiter une confirmation interventionnelle pour des affirmations causales.
url: https://arxiv.org/abs/1711.05611; title: Network Dissection: Quantifying Interpretability of Deep Visual Representations; relevance: Fournit des analyses de niveau concept que LIBERTy traite comme des hypothèses.
url: https://arxiv.org/abs/2211.09110; title: Holistic Evaluation of Language Models (HELM); relevance: Soutient les standards de transparence, de reproductibilité, et de comparabilité.
url: https://arxiv.org/abs/1909.03004; title: Show Your Work: Improved Reporting of Experimental Results; relevance: Guide la variance multi-graines, les CIs par bootstrap, et le contrôle des comparaisons multiples.
url: https://arxiv.org/abs/2106.12482; title: Causal Abstractions of Neural Networks; relevance: Formalise les hypothèses structurelles et la médiation pour l’analyse au niveau du cheminement.
url: https://arxiv.org/abs/2301.05062; title: Tracr: Compiled Transformers as a Laboratory for Interpretability; relevance: Offre des circuits de vérité terrain pour valider la médiation et le patching de chemin.
url: https://transformer-circuits.pub/2023/monosemantic-features/index.html; title: Towards Monosemanticity: Decomposing Language Models With Superposition; relevance: Introduit des autoencodeurs rares permettant des interventions au niveau des fonctionnalités, alignées aux concepts.
url: https://github.com/neelnanda-io/TransformerLens; title: TransformerLens (activation/patching and interpretability tooling); relevance: Fournit des outils de patching d’activation et de chemin référencés par LIBERTy.
url: https://arxiv.org/abs/2303.08774; title: GPT-4 Technical Report; relevance: Cité pour contextualiser l’évaluation de modèle fermé dans les comparaisons entre familles.
url: https://www.anthropic.com/claude; title: Modèles Claude d’Anthropic; relevance: Famille de modèles incluse dans la matrice comparative de LIBERTy.
url: https://ai.google.dev/gemini-api/docs/models/gemini; title: Modèles Gemini de Google; relevance: Famille de modèles incluse dans les comparaisons inter-systèmes.
url: https://ai.meta.com/blog/meta-llama-3/; title: Annonce de Meta Llama 3; relevance: Famille de modèle ouvert pour comparabilité.
url: https://mistral.ai/news/mixtral-of-experts/; title: Modèles Mistral/Mixtral; relevance: Famille de modèle ouvert pour comparabilité.
url: https://ai.google.dev/gemma; title: Modèles Gemma de Google; relevance: Famille de modèle ouvert pour comparabilité.
url: https://github.com/QwenLM/Qwen2; title: Modèles Qwen2; relevance: Famille de modèle ouvert pour comparabilité.
url: https://github.com/deepseek-ai/DeepSeek-LLM; title: DeepSeek LLM (modèles ouverts); relevance: Famille de modèle ouvert pour comparabilité.
url: https://x.ai/blog/grok-1; title: Grok-1 de xAI; relevance: Famille de modèle ouvert pour comparabilité.

Sources & Références

Towards Faithfully Interpretable NLP Systems Establishes the plausibility vs. faithfulness distinction that motivates interventional testing.

A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Supports remove-and-retrain as a necessity check against model adaptivity in ablation.

Interpretable Explanations of Black Boxes by Meaningful Perturbations Justifies insertion alongside deletion and on-manifold perturbations to avoid artifacts.

RISE: Randomized Input Sampling for Explanation of Black-box Models Provides perturbation baselines that complement representation-level probes.

Understanding Neural Networks Through Representation Erasure Grounds targeted ablation at the representation level.

Sanity Checks for Saliency Maps Warns about degenerate attributions and motivates sanity checks.

Learning the Difference That Makes a Difference with Counterfactual Examples in NLI Provides minimal counterfactual edits for causal tests of dependence.

WILDS: A Benchmark of in-the-Wild Distribution Shifts Supplies environment-shift stress tests to detect spurious pathways.

Attention is not Explanation Cautions against treating attention as causal evidence without interventions.

Attention is not not Explanation Positions attention as a hypothesis generator needing causal confirmation.

Locating and Editing Factual Associations in GPT Demonstrates representation editing and localization for causal tests.

Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV Shows concept-level links that require interventional confirmation for causal claims.

Network Dissection: Quantifying Interpretability of Deep Visual Representations Provides concept-level analyses that LIBERTy treats as hypotheses.

Holistic Evaluation of Language Models (HELM) Underpins the transparency, reproducibility, and comparability standards.

Show Your Work: Improved Reporting of Experimental Results Guides multi-seed variance, bootstrap CIs, and multiple comparisons control.

Causal Abstractions of Neural Networks Formalizes structural hypotheses and mediation for pathway-level analysis.

Tracr: Compiled Transformers as a Laboratory for Interpretability Offers ground-truth circuits for validating mediation and path patching.

Towards Monosemanticity: Decomposing Language Models With Superposition Introduces sparse autoencoders enabling feature-level, concept-aligned interventions.

TransformerLens (activation/patching and interpretability tooling) Provides activation and path patching tooling referenced by LIBERTy.

GPT-4 Technical Report Cited to contextualize closed-model evaluation in cross-family comparisons.

Anthropic Claude models Model family included in LIBERTy’s comparative matrix.

Google Gemini models Model family included in cross-system comparisons.

Meta Llama 3 announcement Open-model family for comparability.

Mistral/Mixtral models Open-model family for comparability.

Google Gemma models Open-model family for comparability.

Qwen2 models Open-model family for comparability.

DeepSeek LLM (open models) Open-model family for comparability.

xAI Grok-1 Open-model family for comparability.