Realizar una evaluación de LIBERTy en 30 días
La brecha entre las explicaciones persuasivas de modelos y las verdaderamente fieles es ahora demasiado significativa para ignorarla. La literatura sobre interpretabilidad advierte que la plausibilidad no es fidelidad y que los mapas de calor de atención por sí solos no son diagnósticos causales sin intervenciones. LIBERTy, un marco de extremo a extremo para 2026, llega a este momento prescribiendo pruebas rigurosas e intervencionistas, informes transparentes y poder estadístico para la evaluación a gran escala de la fidelidad causal a través de tareas, modelos y tipos de explicación. Este artículo es un manual práctico: cómo dotar de personal y definir el alcance, qué realizar cada semana, qué conjuntos de datos y métricas comenzar, cómo adaptarse al acceso de caja negra frente a caja blanca, y qué entregar al final.
En 30 días, preregistrarás hipótesis e indicaciones; ejecutarás pilotos para dimensionar tu estudio; ejecutarás una serie de pruebas de entrada, contrafactuales y a nivel de representación; y entregarás un paquete listo para replicación con resultados desagregados y contabilidad de costo por punto. Aprenderás cómo elegir tipos de explicaciones (cadena de pensamiento, razonamientos textuales, mapas de saliencia, trazas de herramientas/programas), seleccionar conjuntos de datos que realmente permiten pruebas causales, y ensamblar una caja de herramientas de métricas, desde ERASER hasta eliminación-inserción, reentrenamiento tras la remoción y parcheo de activación, que triangula la fidelidad mientras mitiga amenazas conocidas a la validez.
Detalles de Arquitectura/Implementación
Equipo, alcance, y criterios de éxito
- Definir la fidelidad de antemano: las explicaciones deben seguir los factores causales realmente utilizados por el modelo, no meras racionalizaciones plausibles para los humanos. Evitar suposiciones de que los pesos de atención son explicativos sin confirmación intervencionista.
- Elegir tipos de explicaciones y puntos finales:
- Cadena de pensamiento (CoT): exactitud a nivel de pasos y sensibilidad a intervenciones.
- Razonamientos textuales: spans basados en evidencia, pruebas al estilo ERASER.
- Mapas de saliencia/atribución: AUC de eliminación-inserción, ROAR, infidelidad/sensibilidad.
- Uso de herramientas/trazas de programas: eliminar pasos o editar contrafactualmente salidas de herramientas; usar historias ReAct o programas compilados por Tracr como referencias fundamentadas.
- Elegir puntos finales principales por propiedad causal: dependencia contrafactual, suficiencia/necesidad mínima, invariancia a características espurias, mediación/caminos.
El éxito se visualiza como métricas preregistradas con poder, resultados positivos convergentes a través de pruebas complementarias, y un informe de incertidumbre que respalda la comparación equitativa entre modelos.
Semana 1: preregistro, indicaciones fijas, definición de métricas, y planificación del tamaño de muestra
- Preregistra hipótesis, conjuntos de datos, plantillas de indicaciones, cuadrículas de decodificación, métricas, y puntos finales primarios/secundarios (transparencia estilo HELM; informes “Show Your Work”).
- Fija indicaciones y parámetros de decodificación (por ejemplo, temperaturas estandarizadas como 0.0, 0.3, 0.7; consistencia propia de muestra k cuando sea apropiado) para controlar la variancia.
- Define métricas por propiedad:
- Comprensión/suficiencia de ERASER para eliminación/aislamiento de razonamientos.
- Curvas/AUC de eliminación-inserción; incluye inserción para mitigar problemas fuera del colector.
- ROAR reentrenamiento tras eliminación para afirmaciones de necesidad más fuertes.
- Tasas de volteo contrafactual sobre ediciones mínimas; alinea ediciones con cambios de atribución.
- Estabilidad de atribución a nivel de entorno bajo desplazamientos tipo WILDS.
- Mediación mediante parcheo de activaciones/camino; estima los efectos causales promedio (ACE) para mediadores hipotetizados.
- Plan de poder: usa la varianza del piloto y los IC de bootstrap; adopta modelos de efectos mixtos jerárquicos entre tareas/modelos; controla la multiplicidad (BH-FDR). Métricas específicas no disponibles hasta que se observe la varianza del piloto.
Semana 2: ejecuciones piloto para estimación de varianza y chequeos de sensatez de conjuntos de datos
- Ejecuta pequeñas tandas por modelo-tarea-métrica para estimar la varianza y refinar los tamaños de muestra y las cuadrículas de decodificación.
- Realiza chequeos de sensatez para degeneraciones de métodos de atribución; verifica ediciones contrafactuales coherentes y fluidas para reducir artefactos de eliminación.
- Valida las señales de supervisión de conjuntos de datos: spans de evidencia dorada (tareas ERASER, FEVER, HotpotQA) y supervisión a nivel de proceso por pasos (GSM8K, MATH) deben comportarse como se esperaba en un pequeño subconjunto.
Semana 3: perturbaciones, robustez contrafactual, y divisiones de entorno
- Pruebas a nivel de entrada y características: calcula la comprensión/suficiencia de ERASER, AUC de eliminación-inserción; prepara conjuntos de datos ROAR para reentrenar.
- Robustez contrafactual: usa pares editados mínimamente (NLI contrafactual; CheckList) para medir las tasas de volteo y si la atribución y las salidas se mueven en la dirección esperada.
- Robustez del entorno: evalúa la estabilidad de la atribución y la precisión a través de desplazamientos tipo WILDS; relaciona la atenuación de señales espurias con la estabilidad del rendimiento.
- Sondas a nivel de representación (solo caja blanca): parcheo de activaciones/camino y ablaciones específicas en mediadores hipotetizados; considera características desenredadas por SAE para intervenciones más alineadas semánticamente.
Semana 4: ejecución a gran escala, controles basados en reentrenamiento, e informes de incertidumbre
- Ejecuta la matriz completa de modelos (familias cerradas y abiertas listadas en informes contemporáneos), tareas y tipos de explicación con pruebas de múltiples semillas y decodificación estandarizada.
- Ejecuta ROAR (eliminar y reentrenar) para reforzar las afirmaciones de necesidad, mitigar la adaptabilidad del modelo y las interacciones de características.
- Resume con medias, desviaciones estándar e intervalos de confianza bootstrap del 95% por configuración; ajusta modelos de efectos mixtos para inferencia con interceptos aleatorios para tareas/modelos; controla por comparaciones múltiples.
- Calcula la contabilidad: informa recuentos de parámetros cuando se divulgan, longitudes de contexto, presupuestos de generación por ítem, tiempos de reloj en pared, y estadísticas de costo por punto por métrica; normaliza comparando conteos de muestras y parámetros de decodificación para comparaciones justas entre modelos. Métricas específicas no disponibles donde los proveedores no divulgan FLOPs.
- Libera un paquete de replicación: conjuntos de datos/divisiones versionados, indicaciones, registros de generación, semillas, scripts de métricas, contenedores; incluye tarjetas de modelos, hojas de datos, y declaraciones de datos.
Pila de herramientas
- Cargadores de conjuntos de datos con supervisión de evidencia/proceso y divisiones contrafactuales/entorno: suite ERASER, FEVER, HotpotQA, GSM8K, MATH, NLI contrafactual, CheckList, WILDS; extensiones multimodales cuando sea necesario.
- Líneas base de atribución: Integrated Gradients (axiomático), LIME y SHAP (agnósticos al modelo), RISE y oclusión (basados en perturbación).
- Tuberías de perturbación: eliminación-inserción, comprensión/suficiencia, validadores de edición dentro del colector.
- Intervenciones a nivel de representación: TransformerLens para flujos de trabajo de activación/parcheo; edición de características basada en SAE cuando esté disponible.
- Estadísticas: scripts de CI bootstrap, modelado de efectos mixtos, control BH-FDR, registros de varianza a través de semillas/generaciones.
Ejecución de caja negra versus caja blanca
- Solo caja negra: enfatiza las perturbaciones a nivel de entrada (ERASER, eliminación-inserción), pruebas contrafactuales de volteo, robustez del entorno, y chequeos de sensatez del método.
- Caja blanca: añade parcheo de activaciones/caminos, ablaciones específicas, y análisis de mediación; usa Tracr para circuitos de verdad fundamental y trazas ReAct para pruebas de causalidad de uso de herramientas donde sea aplicable.
- En ambos modos: triangula a través de métodos complementarios para mitigar amenazas a la validez—perturbaciones fuera del colector, inestabilidad de atribuciones a través de métodos/semillas, y trampas de atención como explicación.
Tablas de Comparación
Conjuntos de datos con los que comenzar y las propiedades que prueban
| Categoría de conjuntos de datos | Ejemplos | Señal de supervisión | Propiedades principales probadas |
|---|---|---|---|
| QA fundamentada en evidencia / verificación | HotpotQA; FEVER | Hechos de apoyo/evidencia dorada | Suficiencia/necesidad mínima; dependencia contrafactual mediante ediciones a hechos citados |
| Matemáticas/lógica supervisadas por proceso | GSM8K; MATH | Soluciones a nivel de pasos | Exactitud de pasos de CoT; ediciones contrafactuales a pasos; mediación mediante parcheo de posiciones de pasos |
| Pares contrafactuales / pruebas de comportamiento | NLI contrafactual; CheckList; Sets de Contraste | Ediciones semánticas mínimas | Tasas de volteo contrafactual; alineación de cambios de atribución |
| Suites de desplazamiento | WILDS; CIFAR-10.1 | Divisiones de entorno/subgrupo | Invariancia a características espurias; estabilidad de atribución versus precisión bajo desplazamiento |
| Justificación multimodal | VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS | Justificaciones doradas o señales tipo proceso | Efectos de oclusión localizada; fundamentación de evidencia a través de modalidades |
Caja de herramientas de métricas de un vistazo
| Métrica / protocolo | Qué mide | Notas |
|---|---|---|
| Comprensión/suficiencia de ERASER | Necesidad/suficiencia de spans de razonamiento | Estándar para razonamientos textuales |
| Curvas de eliminación-inserción (AUC) | Sensibilidad de salida a características priorizadas | Acompañar con inserción para reducir artefactos fuera del colector |
| ROAR (eliminar y reentrenar) | Necesidad de características bajo reentrenamiento | Mitiga la confusión de reponderación |
| Infidelidad / sensibilidad | Consistencia entre perturbaciones, salida, y explicación | Diagnóstico para la estabilidad de la explicación |
| Tasa de volteo contrafactual | Dependencia de factores editados | Usa CNLI/CheckList/sets de contraste |
| Parcheo de activación/camino; mediación | Impacto causal de mediadores hipotetizados | Solo caja blanca; estimación ACE |
Caja negra vs. caja blanca: qué pruebas encajan
| Acceso | Pruebas factibles | Limitaciones |
|---|---|---|
| Caja negra | ERASER, eliminación-inserción, pruebas contrafactuales, desplazamientos WILDS, chequeos de sensatez | Sin mediación a nivel de activación; confiar en perturbaciones de entrada |
| Caja blanca | Todas las pruebas de caja negra más parcheo/activación, ablación, abstracción causal | Requiere instrumentación segura; se aplican consideraciones de seguridad |
Mejores Prácticas
- Preregistra todo: conjuntos de datos, indicaciones, métricas, puntos finales y objetivos de poder; publica código, datos, semillas y contenedores (estilo HELM; “Show Your Work”).
- Triangula a través de métodos complementarios para contrarrestar amenazas a la validez: usa eliminación e inserción; ediciones contrafactuales validadas por fluidez; ROAR para abordar adaptabilidad; intervenciones a nivel de representación para confirmar hipótesis de atribución.
- Trata los mapas de atención como hipótesis para falsificar o confirmar mediante intervenciones específicas—no como explicaciones por defecto.
- Prioriza conjuntos de datos con evidencia dorada o supervisión de procesos; donde solo existen etiquetas de plausibilidad (e-SNLI), califica interpretaciones y enfatiza pruebas causales.
- Evalúa invariancia: prueba la estabilidad de explicaciones y el rendimiento a través de entornos/subgrupos predefinidos; analiza la reducción de correlaciones espurias.
- Controla la variancia: indicaciones fijas; cuadrículas de decodificación estandarizadas; ejecuciones de múltiples semillas; IC de bootstrap; modelos de efectos mixtos; BH-FDR para comparaciones múltiples.
- Documenta responsablemente: tarjetas de modelos, hojas de datos, y declaraciones de datos para fuentes, demografías, riesgos, y limitaciones.
Ejemplos Prácticos
Aunque los resultados cuantitativos específicos dependen de tus modelos y presupuestos, así es cómo se desarrolla el plan de 30 días con los conjuntos de datos y métricas especificados en LIBERTy.
-
QA basada en evidencia (HotpotQA/FEVER): En la Semana 1, prerregistrarse puntos finales al estilo ERASER (comprensión/suficiencia) con AUC de eliminación-inserción como secundaria. En los pilotos de la Semana 2, verifica que eliminar hechos de apoyo etiquetados por humanos degrade las predicciones más que eliminar spans aleatorios (chequeo de sensatez). En la Semana 3, añade ediciones contrafactuales a hechos citados y mide las tasas de volteo, asegurando que las ediciones sean fluidas/dentro del colector. Si tienes acceso de caja blanca, parchea activaciones correspondientes a oraciones de apoyo de documentos contrafactuales para probar hipótesis de mediador. En la Semana 4, ejecuta ROAR reentrenando modelos con spans importantes eliminados para reforzar afirmaciones de necesidad.
-
Matemáticas supervisadas por proceso (GSM8K/MATH): Define puntos finales CoT: exactitud a nivel de pasos, sensibilidad a ediciones contrafactuales de pasos, y efectos de eliminar o sustituir pasos. En pilotos, estima la varianza de la exactitud de pasos bajo decodificación de autoconsistencia. En la Semana 3, abla o parchea activaciones en posiciones de tokens asociadas a pasos para probar si pasos específicos median causalmente en las respuestas finales (caja blanca). Reporta ACE de mediación e incertidumbre en la Semana 4.
-
Robustez contrafactual (CNLI/CheckList/Sets de Contraste): Predefine ediciones mínimas (negación, cuantificadores, cambios de entidad) y mide tasas de volteo contrafactual y alineación de cambio de atribución. Usa pruebas de inserción junto a eliminación para reducir confusiones fuera del colector.
-
Invariancia a nivel de entorno (WILDS; CIFAR-10.1): Particiona evaluaciones por entorno/subgrupo y mide si la estabilidad de atribución predice estabilidad de rendimiento bajo desplazamiento; evalúa si las atribuciones atenúan señales espurias conocidas.
-
Justificación multimodal (VQA-X/ACT-X; ScienceQA; A-OKVQA; VCR; FEVEROUS): Empareja chequeos de señalamiento y justificación con oclusión cruzada; confirma que la fundamentación de evidencia correlaciona con efectos de oclusión localizada y tasas de volteo contrafactual.
-
Ejecuciones en caja negra versus caja blanca: Para modelos cerrados (por ejemplo, clase GPT-4, Claude, Gemini), confía en pruebas a nivel de entrada y entorno con informes de incertidumbre exhaustivos. Para modelos abiertos (Llama, Mixtral, Gemma, Qwen, DeepSeek, Grok), añade parcheo/ablación de activación e intervenciones características basadas en SAE cuando sea factible. En ambos casos, aplica el arnés estilo HELM y la contabilidad de costo por punto.
Estos ejemplos ilustran el principio de LIBERTy: medir la fidelidad causal a través de pruebas intervencionistas convergentes ajustadas a señales de supervisión, e informar con suficiente transparencia y poder para respaldar comparaciones creíbles.
Conclusión
En un mes, los equipos de ML pueden superar las explicaciones aparentemente plausibles hacia aquellas causalmente fieles siguiendo el plan reproducible de LIBERTy. Ancla las evaluaciones en datos fundamentados en evidencia o supervisados por procesos, combina perturbaciones a nivel de entrada con robustez contrafactual y mediación a nivel de representación, e informa con transparencia y rigor estadístico al estilo HELM. Ya sea que tengas APIs de caja negra o acceso completo de caja blanca, el marco proporciona rutas factibles y escalables para afirmaciones creíbles sobre lo que realmente significan las explicaciones de tu modelo.
Puntos clave:
- La fidelidad requiere intervenciones; la plausibilidad y los mapas de atención son insuficientes sin pruebas causales.
- Comienza con conjuntos de datos que permitan evaluación causal: evidencia estilo ERASER, supervisión de procesos, pares contrafactuales, y divisiones de entorno.
- Triangula métricas: ERASER, eliminación-inserción, ROAR, tasas de volteo contrafactual, y mediación mediante parcheo de activación.
- Controla la varianza y el poder: preregistra, estandariza indicaciones/decodificación, IC de bootstrap, y utiliza modelos de efectos mixtos.
- Entrega un paquete de replicación completo con tarjetas de modelo/datos, resultados desagregados, y tablas de costo por punto 📦.
Próximos pasos: Redacta tu preregistro esta semana; ensambla conjuntos de datos con supervisión de evidencia/procesos; construye tus tuberías de perturbación y parcheo; realiza un piloto de 2 días para varianza; y programa las pruebas contrafactuales y de entorno de la Semana 3. Mirando hacia adelante, avances mecanicistas como autoensambladores dispersos y bibliotecas como TransformerLens harán que las pruebas de mediación a nivel de camino sean más precisas, reduciendo aún más la brecha entre explicación y causa.