Realizar una evaluación de LIBERTy en 30 días

La brecha entre las explicaciones persuasivas de modelos y las verdaderamente fieles es ahora demasiado significativa para ignorarla. La literatura sobre interpretabilidad advierte que la plausibilidad no es fidelidad y que los mapas de calor de atención por sí solos no son diagnósticos causales sin intervenciones. LIBERTy, un marco de extremo a extremo para 2026, llega a este momento prescribiendo pruebas rigurosas e intervencionistas, informes transparentes y poder estadístico para la evaluación a gran escala de la fidelidad causal a través de tareas, modelos y tipos de explicación. Este artículo es un manual práctico: cómo dotar de personal y definir el alcance, qué realizar cada semana, qué conjuntos de datos y métricas comenzar, cómo adaptarse al acceso de caja negra frente a caja blanca, y qué entregar al final.

En 30 días, preregistrarás hipótesis e indicaciones; ejecutarás pilotos para dimensionar tu estudio; ejecutarás una serie de pruebas de entrada, contrafactuales y a nivel de representación; y entregarás un paquete listo para replicación con resultados desagregados y contabilidad de costo por punto. Aprenderás cómo elegir tipos de explicaciones (cadena de pensamiento, razonamientos textuales, mapas de saliencia, trazas de herramientas/programas), seleccionar conjuntos de datos que realmente permiten pruebas causales, y ensamblar una caja de herramientas de métricas, desde ERASER hasta eliminación-inserción, reentrenamiento tras la remoción y parcheo de activación, que triangula la fidelidad mientras mitiga amenazas conocidas a la validez.

Detalles de Arquitectura/Implementación

Equipo, alcance, y criterios de éxito

Definir la fidelidad de antemano: las explicaciones deben seguir los factores causales realmente utilizados por el modelo, no meras racionalizaciones plausibles para los humanos. Evitar suposiciones de que los pesos de atención son explicativos sin confirmación intervencionista.
Elegir tipos de explicaciones y puntos finales:
Cadena de pensamiento (CoT): exactitud a nivel de pasos y sensibilidad a intervenciones.
Razonamientos textuales: spans basados en evidencia, pruebas al estilo ERASER.
Mapas de saliencia/atribución: AUC de eliminación-inserción, ROAR, infidelidad/sensibilidad.
Uso de herramientas/trazas de programas: eliminar pasos o editar contrafactualmente salidas de herramientas; usar historias ReAct o programas compilados por Tracr como referencias fundamentadas.
Elegir puntos finales principales por propiedad causal: dependencia contrafactual, suficiencia/necesidad mínima, invariancia a características espurias, mediación/caminos.

El éxito se visualiza como métricas preregistradas con poder, resultados positivos convergentes a través de pruebas complementarias, y un informe de incertidumbre que respalda la comparación equitativa entre modelos.

Semana 1: preregistro, indicaciones fijas, definición de métricas, y planificación del tamaño de muestra

Preregistra hipótesis, conjuntos de datos, plantillas de indicaciones, cuadrículas de decodificación, métricas, y puntos finales primarios/secundarios (transparencia estilo HELM; informes “Show Your Work”).
Fija indicaciones y parámetros de decodificación (por ejemplo, temperaturas estandarizadas como 0.0, 0.3, 0.7; consistencia propia de muestra k cuando sea apropiado) para controlar la variancia.
Define métricas por propiedad:
Comprensión/suficiencia de ERASER para eliminación/aislamiento de razonamientos.
Curvas/AUC de eliminación-inserción; incluye inserción para mitigar problemas fuera del colector.
ROAR reentrenamiento tras eliminación para afirmaciones de necesidad más fuertes.
Tasas de volteo contrafactual sobre ediciones mínimas; alinea ediciones con cambios de atribución.
Estabilidad de atribución a nivel de entorno bajo desplazamientos tipo WILDS.
Mediación mediante parcheo de activaciones/camino; estima los efectos causales promedio (ACE) para mediadores hipotetizados.
Plan de poder: usa la varianza del piloto y los IC de bootstrap; adopta modelos de efectos mixtos jerárquicos entre tareas/modelos; controla la multiplicidad (BH-FDR). Métricas específicas no disponibles hasta que se observe la varianza del piloto.

Semana 2: ejecuciones piloto para estimación de varianza y chequeos de sensatez de conjuntos de datos

Ejecuta pequeñas tandas por modelo-tarea-métrica para estimar la varianza y refinar los tamaños de muestra y las cuadrículas de decodificación.
Realiza chequeos de sensatez para degeneraciones de métodos de atribución; verifica ediciones contrafactuales coherentes y fluidas para reducir artefactos de eliminación.
Valida las señales de supervisión de conjuntos de datos: spans de evidencia dorada (tareas ERASER, FEVER, HotpotQA) y supervisión a nivel de proceso por pasos (GSM8K, MATH) deben comportarse como se esperaba en un pequeño subconjunto.

Semana 3: perturbaciones, robustez contrafactual, y divisiones de entorno

Pruebas a nivel de entrada y características: calcula la comprensión/suficiencia de ERASER, AUC de eliminación-inserción; prepara conjuntos de datos ROAR para reentrenar.
Robustez contrafactual: usa pares editados mínimamente (NLI contrafactual; CheckList) para medir las tasas de volteo y si la atribución y las salidas se mueven en la dirección esperada.
Robustez del entorno: evalúa la estabilidad de la atribución y la precisión a través de desplazamientos tipo WILDS; relaciona la atenuación de señales espurias con la estabilidad del rendimiento.
Sondas a nivel de representación (solo caja blanca): parcheo de activaciones/camino y ablaciones específicas en mediadores hipotetizados; considera características desenredadas por SAE para intervenciones más alineadas semánticamente.

Semana 4: ejecución a gran escala, controles basados en reentrenamiento, e informes de incertidumbre

Ejecuta la matriz completa de modelos (familias cerradas y abiertas listadas en informes contemporáneos), tareas y tipos de explicación con pruebas de múltiples semillas y decodificación estandarizada.
Ejecuta ROAR (eliminar y reentrenar) para reforzar las afirmaciones de necesidad, mitigar la adaptabilidad del modelo y las interacciones de características.
Resume con medias, desviaciones estándar e intervalos de confianza bootstrap del 95% por configuración; ajusta modelos de efectos mixtos para inferencia con interceptos aleatorios para tareas/modelos; controla por comparaciones múltiples.
Calcula la contabilidad: informa recuentos de parámetros cuando se divulgan, longitudes de contexto, presupuestos de generación por ítem, tiempos de reloj en pared, y estadísticas de costo por punto por métrica; normaliza comparando conteos de muestras y parámetros de decodificación para comparaciones justas entre modelos. Métricas específicas no disponibles donde los proveedores no divulgan FLOPs.
Libera un paquete de replicación: conjuntos de datos/divisiones versionados, indicaciones, registros de generación, semillas, scripts de métricas, contenedores; incluye tarjetas de modelos, hojas de datos, y declaraciones de datos.

Pila de herramientas

Cargadores de conjuntos de datos con supervisión de evidencia/proceso y divisiones contrafactuales/entorno: suite ERASER, FEVER, HotpotQA, GSM8K, MATH, NLI contrafactual, CheckList, WILDS; extensiones multimodales cuando sea necesario.
Líneas base de atribución: Integrated Gradients (axiomático), LIME y SHAP (agnósticos al modelo), RISE y oclusión (basados en perturbación).
Tuberías de perturbación: eliminación-inserción, comprensión/suficiencia, validadores de edición dentro del colector.
Intervenciones a nivel de representación: TransformerLens para flujos de trabajo de activación/parcheo; edición de características basada en SAE cuando esté disponible.
Estadísticas: scripts de CI bootstrap, modelado de efectos mixtos, control BH-FDR, registros de varianza a través de semillas/generaciones.

Ejecución de caja negra versus caja blanca

Solo caja negra: enfatiza las perturbaciones a nivel de entrada (ERASER, eliminación-inserción), pruebas contrafactuales de volteo, robustez del entorno, y chequeos de sensatez del método.
Caja blanca: añade parcheo de activaciones/caminos, ablaciones específicas, y análisis de mediación; usa Tracr para circuitos de verdad fundamental y trazas ReAct para pruebas de causalidad de uso de herramientas donde sea aplicable.
En ambos modos: triangula a través de métodos complementarios para mitigar amenazas a la validez—perturbaciones fuera del colector, inestabilidad de atribuciones a través de métodos/semillas, y trampas de atención como explicación.

Tablas de Comparación

Conjuntos de datos con los que comenzar y las propiedades que prueban

Categoría de conjuntos de datos	Ejemplos	Señal de supervisión	Propiedades principales probadas
QA fundamentada en evidencia / verificación	HotpotQA; FEVER	Hechos de apoyo/evidencia dorada	Suficiencia/necesidad mínima; dependencia contrafactual mediante ediciones a hechos citados
Matemáticas/lógica supervisadas por proceso	GSM8K; MATH	Soluciones a nivel de pasos	Exactitud de pasos de CoT; ediciones contrafactuales a pasos; mediación mediante parcheo de posiciones de pasos
Pares contrafactuales / pruebas de comportamiento	NLI contrafactual; CheckList; Sets de Contraste	Ediciones semánticas mínimas	Tasas de volteo contrafactual; alineación de cambios de atribución
Suites de desplazamiento	WILDS; CIFAR-10.1	Divisiones de entorno/subgrupo	Invariancia a características espurias; estabilidad de atribución versus precisión bajo desplazamiento
Justificación multimodal	VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS	Justificaciones doradas o señales tipo proceso	Efectos de oclusión localizada; fundamentación de evidencia a través de modalidades

Caja de herramientas de métricas de un vistazo

Métrica / protocolo	Qué mide	Notas
Comprensión/suficiencia de ERASER	Necesidad/suficiencia de spans de razonamiento	Estándar para razonamientos textuales
Curvas de eliminación-inserción (AUC)	Sensibilidad de salida a características priorizadas	Acompañar con inserción para reducir artefactos fuera del colector
ROAR (eliminar y reentrenar)	Necesidad de características bajo reentrenamiento	Mitiga la confusión de reponderación
Infidelidad / sensibilidad	Consistencia entre perturbaciones, salida, y explicación	Diagnóstico para la estabilidad de la explicación
Tasa de volteo contrafactual	Dependencia de factores editados	Usa CNLI/CheckList/sets de contraste
Parcheo de activación/camino; mediación	Impacto causal de mediadores hipotetizados	Solo caja blanca; estimación ACE

Caja negra vs. caja blanca: qué pruebas encajan

Acceso	Pruebas factibles	Limitaciones
Caja negra	ERASER, eliminación-inserción, pruebas contrafactuales, desplazamientos WILDS, chequeos de sensatez	Sin mediación a nivel de activación; confiar en perturbaciones de entrada
Caja blanca	Todas las pruebas de caja negra más parcheo/activación, ablación, abstracción causal	Requiere instrumentación segura; se aplican consideraciones de seguridad

Mejores Prácticas

Preregistra todo: conjuntos de datos, indicaciones, métricas, puntos finales y objetivos de poder; publica código, datos, semillas y contenedores (estilo HELM; “Show Your Work”).
Triangula a través de métodos complementarios para contrarrestar amenazas a la validez: usa eliminación e inserción; ediciones contrafactuales validadas por fluidez; ROAR para abordar adaptabilidad; intervenciones a nivel de representación para confirmar hipótesis de atribución.
Trata los mapas de atención como hipótesis para falsificar o confirmar mediante intervenciones específicas—no como explicaciones por defecto.
Prioriza conjuntos de datos con evidencia dorada o supervisión de procesos; donde solo existen etiquetas de plausibilidad (e-SNLI), califica interpretaciones y enfatiza pruebas causales.
Evalúa invariancia: prueba la estabilidad de explicaciones y el rendimiento a través de entornos/subgrupos predefinidos; analiza la reducción de correlaciones espurias.
Controla la variancia: indicaciones fijas; cuadrículas de decodificación estandarizadas; ejecuciones de múltiples semillas; IC de bootstrap; modelos de efectos mixtos; BH-FDR para comparaciones múltiples.
Documenta responsablemente: tarjetas de modelos, hojas de datos, y declaraciones de datos para fuentes, demografías, riesgos, y limitaciones.

Ejemplos Prácticos

Aunque los resultados cuantitativos específicos dependen de tus modelos y presupuestos, así es cómo se desarrolla el plan de 30 días con los conjuntos de datos y métricas especificados en LIBERTy.

QA basada en evidencia (HotpotQA/FEVER): En la Semana 1, prerregistrarse puntos finales al estilo ERASER (comprensión/suficiencia) con AUC de eliminación-inserción como secundaria. En los pilotos de la Semana 2, verifica que eliminar hechos de apoyo etiquetados por humanos degrade las predicciones más que eliminar spans aleatorios (chequeo de sensatez). En la Semana 3, añade ediciones contrafactuales a hechos citados y mide las tasas de volteo, asegurando que las ediciones sean fluidas/dentro del colector. Si tienes acceso de caja blanca, parchea activaciones correspondientes a oraciones de apoyo de documentos contrafactuales para probar hipótesis de mediador. En la Semana 4, ejecuta ROAR reentrenando modelos con spans importantes eliminados para reforzar afirmaciones de necesidad.
Matemáticas supervisadas por proceso (GSM8K/MATH): Define puntos finales CoT: exactitud a nivel de pasos, sensibilidad a ediciones contrafactuales de pasos, y efectos de eliminar o sustituir pasos. En pilotos, estima la varianza de la exactitud de pasos bajo decodificación de autoconsistencia. En la Semana 3, abla o parchea activaciones en posiciones de tokens asociadas a pasos para probar si pasos específicos median causalmente en las respuestas finales (caja blanca). Reporta ACE de mediación e incertidumbre en la Semana 4.
Robustez contrafactual (CNLI/CheckList/Sets de Contraste): Predefine ediciones mínimas (negación, cuantificadores, cambios de entidad) y mide tasas de volteo contrafactual y alineación de cambio de atribución. Usa pruebas de inserción junto a eliminación para reducir confusiones fuera del colector.
Invariancia a nivel de entorno (WILDS; CIFAR-10.1): Particiona evaluaciones por entorno/subgrupo y mide si la estabilidad de atribución predice estabilidad de rendimiento bajo desplazamiento; evalúa si las atribuciones atenúan señales espurias conocidas.
Justificación multimodal (VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS): Empareja chequeos de señalamiento y justificación con oclusión cruzada; confirma que la fundamentación de evidencia correlaciona con efectos de oclusión localizada y tasas de volteo contrafactual.
Ejecuciones en caja negra versus caja blanca: Para modelos cerrados (por ejemplo, clase GPT-4, Claude, Gemini), confía en pruebas a nivel de entrada y entorno con informes de incertidumbre exhaustivos. Para modelos abiertos (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok), añade parcheo/ablación de activación e intervenciones características basadas en SAE cuando sea factible. En ambos casos, aplica el arnés estilo HELM y la contabilidad de costo por punto.

Estos ejemplos ilustran el principio de LIBERTy: medir la fidelidad causal a través de pruebas intervencionistas convergentes ajustadas a señales de supervisión, e informar con suficiente transparencia y poder para respaldar comparaciones creíbles.

Conclusión

En un mes, los equipos de ML pueden superar las explicaciones aparentemente plausibles hacia aquellas causalmente fieles siguiendo el plan reproducible de LIBERTy. Ancla las evaluaciones en datos fundamentados en evidencia o supervisados por procesos, combina perturbaciones a nivel de entrada con robustez contrafactual y mediación a nivel de representación, e informa con transparencia y rigor estadístico al estilo HELM. Ya sea que tengas APIs de caja negra o acceso completo de caja blanca, el marco proporciona rutas factibles y escalables para afirmaciones creíbles sobre lo que realmente significan las explicaciones de tu modelo.

Puntos clave:

La fidelidad requiere intervenciones; la plausibilidad y los mapas de atención son insuficientes sin pruebas causales.
Comienza con conjuntos de datos que permitan evaluación causal: evidencia estilo ERASER, supervisión de procesos, pares contrafactuales, y divisiones de entorno.
Triangula métricas: ERASER, eliminación-inserción, ROAR, tasas de volteo contrafactual, y mediación mediante parcheo de activación.
Controla la varianza y el poder: preregistra, estandariza indicaciones/decodificación, IC de bootstrap, y utiliza modelos de efectos mixtos.
Entrega un paquete de replicación completo con tarjetas de modelo/datos, resultados desagregados, y tablas de costo por punto 📦.

Próximos pasos: Redacta tu preregistro esta semana; ensambla conjuntos de datos con supervisión de evidencia/procesos; construye tus tuberías de perturbación y parcheo; realiza un piloto de 2 días para varianza; y programa las pruebas contrafactuales y de entorno de la Semana 3. Mirando hacia adelante, avances mecanicistas como autoensambladores dispersos y bibliotecas como TransformerLens harán que las pruebas de mediación a nivel de camino sean más precisas, reduciendo aún más la brecha entre explicación y causa.

Fuentes y Referencias

Towards Faithfully Interpretable NLP Systems Defines the distinction between plausibility and faithfulness that motivates LIBERTy's causal evaluation approach.

ERASER: A Benchmark to Evaluate Rationalized NLP Predictions Provides evidence-grounded datasets and rationale-based metrics (comprehensiveness/sufficiency) used in the playbook.

On the (In)fidelity and Sensitivity of Explanations Introduces infidelity/sensitivity metrics for checking consistency of explanations under perturbations.

A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Supplies the retrain-after-removal protocol to strengthen causal necessity claims for features.

Interpretable Explanations of Black Boxes by Meaningful Perturbations Supports on-manifold perturbation design and insertion tests to mitigate deletion artifacts.

Axiomatic Attribution for Deep Networks (Integrated Gradients) Serves as a principled attribution baseline in the tooling stack.

A Unified Approach to Interpreting Model Predictions (SHAP) Provides a model-agnostic attribution baseline for black-box settings.

“Why Should I Trust You?” Explaining the Predictions of Any Classifier (LIME) Adds a widely used model-agnostic attribution method for comparison and sanity checks.

RISE: Randomized Input Sampling for Explanation of Black-box Models Supports deletion–insertion curve methodology for saliency evaluation.

Sanity Checks for Saliency Maps Warns about attribution degeneracies; informs Week 2 sanity checks and triangulation guidance.

Learning the Difference That Makes a Difference with Counterfactual Examples in NLI Provides counterfactual pairs for measuring flip rates and attribution shifts.

Invariant Risk Minimization Conceptually grounds evaluation of invariance to spurious features across environments.

WILDS: A Benchmark of in-the-Wild Distribution Shifts Supplies environment/subgroup splits to test explanation stability under distribution shift.

e-SNLI: Natural Language Inference with Natural Language Explanations Shows plausibility-only rationales that require caution for faithfulness claims.

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence Provides multimodal datasets with justifications for cross-modal faithfulness tests.

HotpotQA: A Dataset for Diverse, Explainable Multi-hop QA Evidence-grounded QA dataset for sufficiency/necessity and counterfactual tests.

FEVER: a Large-scale Dataset for Fact Extraction and VERification Evidence-grounded fact verification dataset used for rationale tests.

Training Verifiers to Solve Math Word Problems (GSM8K) Process-supervised math benchmark for step-level CoT evaluation.

Measuring Mathematical Problem Solving With the MATH Dataset Another process-supervised math dataset to evaluate reasoning steps.

Chain-of-Thought Prompting Elicits Reasoning in LMs Motivates CoT explanations and step-level evaluation protocols.

Self-Consistency Improves Chain of Thought Reasoning Supports standardized decoding with k-sample self-consistency in variance controls.

Attention is not Explanation Cautions against interpreting attention as explanation without interventions.

Attention is not not Explanation Nuances attention as hypothesis rather than definitive explanation, motivating interventional tests.

Locating and Editing Factual Associations in GPT Backs representation-level interventions (activation/patching) to test mediators.

Interpretability Beyond Feature Attribution: Quantitative Testing with TCAV Supports concept-level analysis that requires interventional confirmation for causal claims.

Network Dissection: Quantifying Interpretability of Deep Visual Representations Provides concept-level interpretability tools to bridge features and human concepts.

Holistic Evaluation of Language Models (HELM) Informs transparent evaluation harnessing, fixed prompts, and reproducible reporting.

Model Cards for Model Reporting Guides documentation of model capabilities and risks in deliverables.

Datasheets for Datasets Guides dataset documentation and transparency in the replication package.

Data Statements for NLP: Towards Mitigating System Bias and Enabling Better Science Adds standardized data documentation practices for disaggregated reporting.

Show Your Work: Improved Reporting of Experimental Results Supports power analyses, variance reporting, and mixed-effects modeling practices.

Causal Abstractions of Neural Networks Provides formal grounding for mediation and pathway analyses in white-box settings.

Improving Mathematical Reasoning with Process Supervision Motivates step-level supervision and interventions for evaluating CoT.

ReAct: Synergizing Reasoning and Acting in Language Models Supports evaluation of tool-use traces via ablation and counterfactual editing.

Tracr: Compiled Transformers as a Laboratory for Interpretability Offers ground-truth circuits for representational faithfulness tests.

Towards Monosemanticity: Decomposing Language Models With Superposition Introduces SAEs to enable feature-level, semantically aligned interventions.

TransformerLens (activation/patching and interpretability tooling) Provides practical tooling for activation patching and mechanistic probes.

ScienceQA: A Large-scale Multi-modal Science Question Answering Dataset Supplies multimodal tasks with explanations for cross-modal faithfulness tests.

A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Adds multimodal justification tasks to evaluate cross-modal explanations.

Visual Commonsense Reasoning (VCR) Provides multimodal rationales for evaluating explanation grounding.

FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information Extends evidence-grounded verification to tables and text for multimodal evaluation.

Contrast Sets: A Test Suite for the NLP Community Offers minimally edited pairs to directly test counterfactual dependence.

CIFAR-10.1 Provides matched-distribution test sets for probing generalization and spurious reliance.

GPT-4 Technical Report Represents the class of closed models included in the comparative experimental matrix.

Anthropic Claude models Represents closed-model family considered in LIBERTy’s comparative evaluation.

Google Gemini models Represents closed-model family evaluated under the framework.

Meta Llama 3 announcement Represents open-model family included in comparative experiments.

Mistral/Mixtral models Represents open-model family considered in experiments.

Google Gemma models Represents open-model family in the comparative matrix.

Qwen2 models Represents open-model family included in the LIBERTy evaluation scope.

DeepSeek LLM (open models) Represents open-model family for white-box/black-box adaptations.

xAI Grok-1 Represents open-model family potentially evaluated under LIBERTy.