Activation Patching and Causal Mediation Put LLM Explanations on Trial
Explore how LIBERTy's innovative probes challenge the reliability of explanations provided by language models through activation patching and causal mediation.
1 article
Explore how LIBERTy's innovative probes challenge the reliability of explanations provided by language models through activation patching and causal mediation.
Advertisement
Vous pouvez choisir quels cookies vous souhaitez autoriser. Certains cookies sont nécessaires au fonctionnement du site.
Ces cookies sont essentiels au fonctionnement du site (navigation, préférences de langue, etc.).
Nous aident à comprendre comment les visiteurs utilisent notre site pour l'améliorer.
Permettent d'afficher des publicités pertinentes. Requis pour afficher Google AdSense.