ai 5 min • intermediate

La interpretabilidad mecanicista se vuelve común: La hoja de ruta 2026–2028

Desde autoencoders dispersos y descubrimiento de circuitos hasta transparencia de routers y auditorías de recuperación/herramientas estandarizadas, la investigación pivota de la plausibilidad a la fidelidad causal

Por AI Research Team
La interpretabilidad mecanicista se vuelve común: La hoja de ruta 2026–2028

La Interpretabilidad Mecanicista Se Populariza: La Hoja de Ruta 2026-2028

Desde codificadores automáticos dispersos y el descubrimiento de circuitos hasta la transparencia de los enrutadores y auditorías de recuperación/uso de herramientas estandarizadas, la investigación pivota de la plausibilidad a la fidelidad causal

Los mapas de calor de atención alguna vez se vieron como la solución mágica para explicar cómo razonan los modelos de lenguaje grande. Pero el campo pasó años descubriendo una dura verdad: las visualizaciones más convincentes a menudo fallan las pruebas más básicas de causalidad, completitud y estabilidad. Los pesos de atención en bruto pueden cambiar drásticamente sin alterar las predicciones. El razonamiento de varios pasos está impulsado por características distribuidas en caminos residuales y bloques MLP en lugar de solo la atención. Y cuando los modelos recuperan documentos o llaman a herramientas, las elecciones decisivas están en los enrutadores, expertos y políticas que la autoatención simplemente no revela.

Ahora un paradigma diferente está tomando forma. En lugar de leer patrones de las matrices de atención, los investigadores están interviniendo, parcheando, editando y auditando las verdaderas vías causales de la computación, y respaldando cada afirmación con pruebas contrafactuales. Al mismo tiempo, los enfoques a nivel de característica, como los codificadores automáticos dispersos, están convirtiendo activaciones opacas en bloques de construcción interpretables y reutilizables que se transfieren mejor a través de tareas. En los próximos dos años, esperen que este cambio de la plausibilidad a la fidelidad causal reforme métodos, estándares y puntos de referencia, desde cómo localizamos circuitos hasta cómo verificamos decisiones de enrutamiento en sistemas MoE y ricos en recuperación.

Esta hoja de ruta describe hacia dónde se dirige la interpretabilidad mecanicista hasta 2028: automatizando el descubrimiento causal; escalando representaciones a nivel de característica; reformando los objetivos en tiempo de entrenamiento; haciendo auditable los enrutadores y expertos de MoE; estandarizando las explicaciones de uso de recuperación/herramientas; evolucionando los puntos de referencia para priorizar la estabilidad, la transferencia y la fidelidad del proceso; y enfrentando los riesgos que persisten, incluyendo la infidelidad de cadena de pensamiento, la superposición, la fuga de evaluación y el difícil problema de medir la completitud.

Avances en la Investigación

El cambio decisivo lejos de la atención como explicación está respaldado por evidencia convergente. Los mapas de atención en bruto no son únicos con respecto a las salidas y pueden manipularse sin cambiar las predicciones. A menudo fallan pruebas causales de necesidad y suficiencia, y sus patrones son frágiles ante paráfrasis, perturbaciones adversariales y cambios de decodificación. Esto los hace útiles para verificaciones rápidas de plausibilidad o proveniencia en la atención cruzada de recuperación—donde muestran qué documentos fueron consultados—pero no para explicaciones de razonamiento de extremo a extremo.

Las intervenciones causales han establecido el nuevo estándar. El parcheo de activaciones, el enmascaramiento de cabezales y caminos, la edición de atención y el análisis de mediación causal permiten a los investigadores hacer preguntas de “qué pasaría si” sobre componentes específicos, y observar si las salidas cambian en línea con esas hipótesis. Estos métodos repetidamente revelan que los cálculos decisivos para el razonamiento están distribuidos y frecuentemente mediados por componentes no relacionados con la atención, especialmente capas de avance que actúan como memorias de clave-valor. Los métodos de edición de conocimiento que apuntan a parámetros no relacionados con la atención pueden cambiar de manera fiable las salidas, fortaleciendo la afirmación de que la atención es principalmente un mecanismo de enrutamiento en lugar del locus de la computación.

Los análisis a nivel de representación están madurando en un segundo pilar. Las pruebas y los codificadores automáticos dispersos recuperan características dispersas e interpretables que recurren a través de capas y modelos. Aunque las pruebas pueden reflejar correlaciones y los SAEs plantean preguntas sobre cobertura y pureza, las representaciones a nivel de característica han demostrado ser más estables que los patrones de atención y sirven como un mejor sustrato para las intervenciones causales y el descubrimiento de circuitos.

La atribución basada en gradiente ofrece un complemento pragmático. Técnicas como Gradientes Integrados y la propagación de relevancia capa por capa satisfacen axiomas útiles (notablemente, completitud para IG) y a menudo se alinean mejor con la influencia causal que la atención en bruto cuando se diseñan cuidadosamente. Todavía requieren validación a través de intervención, pero añaden una perspectiva fundamentada sobre cuánto contribuye cada token o camino.

Los hallazgos específicos de la arquitectura apoyan esta dirección. En los Transformers densos solo de decodificador, las cabezas de inducción/copia son una excepción repetible donde los análisis de atención, validados por intervenciones, funcionan bien. Sin embargo, para los modelos Mixture-of-Experts, la imagen cambia: los enrutadores seleccionan expertos por token y los logit de enrutamiento y los cálculos de expertos a menudo dominan la vía causal. Los mapas de atención pasan por alto estas decisiones. Y en configuraciones de recuperación y uso de herramientas, la atención cruzada ayuda a la proveniencia, pero solo las pruebas de salida con un documento menos, las ablaciones de contexto y las auditorías de enrutamiento de herramientas establecen una dependencia real y un razonamiento correcto.

Tomados en conjunto, estos resultados apuntan hacia un ecosistema construido en métodos intervencionistas, variables a nivel de característica y validación rigurosa. La atención sigue siendo una capa de visibilidad útil para casos específicos—especialmente la proveniencia en recuperación—pero ya no es el centro de gravedad para explicar el razonamiento en sistemas modernos.

Hoja de Ruta y Direcciones Futuras

Los próximos dos años se tratarán de convertir estos conocimientos en prácticas escalables y estandarizadas. Varias prioridades se destacan.

  • Automatización del descubrimiento causal

  • Escalar los parches de activación y el análisis de mediación. El parcheo manual, capa por capa, no escala a modelos más grandes o comportamientos complejos. La dirección clara es el desarrollo de herramientas que propongan circuitos candidatos, realicen experimentos de ablación/parcheo pre-registrados y reporten métricas de fidelidad por defecto. No hay marcos y métricas de rendimiento específicos disponibles, pero los ingredientes—parcheo de activaciones, enmascaramiento/edición de atención e inputs contrafactuales—están establecidos.

  • Construir activos de circuitos reutilizables. Las explicaciones a nivel de circuito ya existen en sectores (por ejemplo, inducción). Crear artefactos de circuitos compartibles y probables alineados a hipótesis precisas aceleraría la transferencia y la replicación. No se especifican formatos concretos de bibliotecas; la necesidad se infiere por el éxito del trabajo a nivel de circuito y los protocolos robustos.

  • Representaciones a nivel de característica a escala

  • Impulsar los SAEs monosemánticos. Los codificadores automáticos dispersos han demostrado que pueden recuperar características interpretables que estabilizan a través de capas y modelos. Ampliar la cobertura, resolver la pureza de las características y mapear interacciones con canales MLP/residuales hará que los SAEs sean un sustrato rutinario para el trazado y edición causal.

  • Desentrelazamiento y transferencia a través de tareas e idiomas. Las variables a nivel de característica parecen más estables que los patrones de atención, y la transferencia mejora a nivel de característica. Las auditorías sistemáticas bajo cambios de dominio e idioma cuantificarán qué se transfiere y dónde se requiere revalidación. No se proporcionan métricas específicas más allá de las pruebas de estabilidad y transferencia existentes.

  • Avances en tiempo de entrenamiento

  • Supervisión intervencionista. Hoy en día, las intervenciones y auditorías son mayormente post hoc. El próximo paso natural es incorporar señales de pruebas causales (por ejemplo, si un componente es necesario/suficiente) en el ciclo de entrenamiento para fomentar caminos de computación fieles. No hay recetas específicas disponibles, pero el objetivo es claro: desalentar atajos espurios y atenciones adversariales, y reforzar la alineación del proceso.

  • Objetivos alineados al proceso. La supervisión de cadena de pensamiento mejora el rendimiento, pero frecuentemente es infiel a la computación interna. Los objetivos que recompensan la fidelidad del proceso—medida por métricas intervencionistas, no solo por la corrección de la salida—son una dirección lógica. No se especifican implementaciones concretas.

  • Robustez adversarial para explicaciones. Los modelos deben mantener la estabilidad explicativa bajo paráfrasis, cambios de decodificación y perturbaciones contrafactuales. Fortalecer la robustez en tiempo de entrenamiento contra estos estresores complementa las auditorías post hoc.

  • Transparencia de MoE y enrutadores

  • Exponer y auditar el enrutamiento. En los LLMs de MoE, los logit de enrutamiento y los cálculos por experto a menudo determinan los resultados. Cualquier explicación creíble debe mostrar distribuciones de enrutadores, selecciones de expertos por token y el efecto causal de cambiar o suprimir expertos. Donde sea posible, las intervenciones deben establecer la necesidad y suficiencia para decisiones a nivel de token.

  • Introspección del experto. Los análisis por experto—qué características codifican, cómo median cálculos residuales—pertenecen junto a las auditorías de enrutadores. Estandarizar estas auditorías cerrará un gran punto ciego en las explicaciones actuales.

  • Estándares de explicabilidad para RAG y agentes

  • Recuperación y ablaciones de contexto uno a uno. La atención cruzada a los pasajes recuperados ayuda con la proveniencia, pero la proveniencia no es dependencia. Quitar o alterar contenido recuperado y observar los cambios en las salidas debe ser práctica estándar para demostrar el uso real de la evidencia.

  • Auditorías de uso de herramientas. Para agentes aumentados con herramientas, la atención superficial a los tokens de herramientas dice poco sobre las políticas de decisión. Auditar la selección de funciones, decisiones de enrutamiento y dependencia en los resultados de ejecución a través de ablaciones y contrafactuales debe convertirse en rutina.

  • Esquemas de proveniencia. La proveniencia—qué se consultó y cuándo—debe capturarse junto a la evidencia causal de dependencia. No se proporcionan detalles específicos del esquema, pero el requisito de separar “consultado” de “usado causalmente” es explícito en la práctica actual recomendada.

Evolución del Benchmark

Las explicaciones que parecen plausibles ya no son suficientes. Los puntos de referencia y protocolos están evolucionando para probar si las explicaciones son fieles, estables, robustas y transferibles, y para hacerlo bajo las condiciones donde el razonamiento es más difícil.

  • Fidelidad y completitud

  • Fidelidad causal: Medir si las perturbaciones dirigidas a componentes resaltados cambian las predicciones en la dirección prevista; probar la necesidad y suficiencia a través de ablaciones y parcheos.

  • Completitud: Usar métodos de atribución con propiedades formales de completitud (por ejemplo, Gradientes Integrados) para probar si las atribuciones explican las diferencias de salida. La completitud más allá de estos axiomas sigue siendo un problema abierto.

  • Calibración y estabilidad

  • Calibración: Alinear la confianza en una explicación con el efecto causal medido.

  • Estabilidad: Presionar las asignaciones explicativas bajo paráfrasis, perturbaciones adversariales/contrafactuales y diferentes hiperparámetros de decodificación. Los ajustes de contexto largo y la difusión de la atención añaden presión adicional.

  • Robustez y transferencia

  • Robustez: Probar la resiliencia a correlaciones espurias y atenciones adversariales.

  • Transferencia: Evaluar si los patrones explicativos (no solo las salidas) se transfieren a través de modelos, tareas, dominios y configuraciones de entrenamiento. Los cambios de dominio/idioma y el tamaño del modelo a menudo rompen la transferencia ingenua, resaltando la necesidad de variables a nivel de característica y revalidación.

  • Auditorías de recuperación y uso de herramientas

  • Recuperación: Estandarizar experimentos de salida con un documento menos y la eliminación controlada de contextos para confirmar la dependencia en la evidencia recuperada en lugar de una mera co-atención.

  • Herramientas: Registrar y auditar las decisiones de política para la selección de herramientas y la dependencia del modelo en los resultados devueltos a través de intervenciones causales.

  • Cobertura de tareas

  • Puntos de referencia de razonamiento: Tareas de múltiples pasos y compositivas tales como GSM8K, MATH, BIG-bench y BBH, MMLU, ARC y DROP presionan las capacidades donde las explicaciones sólo de atención fallan y los métodos intervencionistas y a nivel de característica añaden más valor.

  • Puntos de referencia de métodos de interpretabilidad: Marcos como ROAR siguen siendo útiles para verificar si las estimaciones de importancia de características se alinean con caídas reales de rendimiento bajo eliminación.

Los protocolos de evaluación que comienzan con hipótesis mecanicistas—luego triangulan el flujo de atención, gradientes, características candidatas y circuitos antes de ejecutar pruebas de intervención—ya están demostrando ser más robustos. Espérenlos convertirse en la norma: pre-registrados, contrafactuales y conscientes de la arquitectura.

Riesgos y Preguntas Abiertas

Incluso con métodos más fuertes, varios riesgos y brechas persisten.

  • Infidelidad de CoT

  • La cadena de pensamiento a menudo mejora la comprensibilidad humana y el rendimiento en tareas, pero puede divergir de la computación interna del modelo. Sin triangulación a través de pruebas de intervención, las racionalizaciones corren el riesgo de convertirse en justificaciones post hoc.

  • Superposición a escala

  • A medida que los modelos crecen, las características se superponen más profundamente y los roles de las cabezas se vuelven menos claros. Esto complica la interpretación y aumenta las probabilidades de que los patrones de atención sean inestables. Escalar características monosemánticas y el desentrelazamiento sigue siendo un desafío central.

  • Fuga de evaluación y líneas base

  • Los métodos de atribución son sensibles a las líneas base y pueden pasar pruebas superficiales mientras fallan auditorías causales. Las comprobaciones de cordura y los controles contrafactuales deben ser parte de cualquier evaluación seria.

  • Medir la completitud más allá de IG

  • Los axiomas de completitud de atribución son útiles pero incompletos como medida de si una explicación “captura” una computación. Definir y medir la cobertura para explicaciones a nivel de características y circuitos es una pregunta pendiente.

  • Cobertura y pureza de SAEs y sondas

  • Los codificadores automáticos dispersos proporcionan características prometedoras pero plantean preguntas sobre qué tan completamente y de manera limpia capturan las variables reales utilizadas en la computación. Las intervenciones siguen siendo el árbitro de la fidelidad.

  • Comportamiento de enrutamiento MoE bajo cambio

  • Los enrutadores y expertos pueden comportarse de manera impredecible bajo cambios de dominio o idioma. Las auditorías sistemáticas a través de cambios—y las pruebas de intervención que verifican decisiones a nivel de token—son esenciales para un despliegue seguro en entornos dinámicos.

Impacto y Aplicaciones

El impacto práctico es directo: las explicaciones que sobreviven auditorías causales reemplazarán a los mapas de calor de atención como el estándar para evaluaciones serias de razonamiento. En modelos densos, esto significa tuberías de intervención ancladas a variables a nivel de característica. En sistemas MoE, significa exponer las distribuciones de enrutadores, registrar selecciones de expertos por token y evaluar la dependencia causal en expertos. En configuraciones ricas en recuperación y aumentadas con herramientas, significa proveniencia más pruebas de salida/ablaciones de contexto y auditorías de enrutamiento de herramientas, no solo mapas de atención cruzada.

Metodológicamente, la investigación convergerá en un enfoque por capas:

  • Comenzar con hipótesis mecanicistas explícitas.
  • Generar múltiples explicaciones candidatas: flujo de atención, gradientes/atribuciones, características candidatas a través de SAEs.
  • Confirmar o rechazar hipótesis con intervenciones: enmascaramiento de cabezales/caminos, parcheo de activaciones, edición de atención, entradas contrafactuales y, donde sea aplicable, edición de conocimiento.
  • Informar métricas de fidelidad, completitud, calibración, estabilidad, robustez y transferencia junto con la precisión de la tarea principal.

A medida que estas prácticas se normalicen, esperen menos argumentos sobre qué “significa” una cabeza de atención y más énfasis en circuitos y características probadas que resisten el escrutinio contrafactual. Los sistemas de recuperación y uso de herramientas pasarán de mostrar lo que se miró a probar lo que realmente se utilizó. Y a medida que continúen evolucionando los tamaños y arquitecturas de los modelos, el enfoque se mantendrá en vías causales verificables que generalizan a través de tareas y dominios.

Conclusión

La interpretabilidad mecanicista está entrando en una nueva fase. El campo ha aprendido que la atención es una lente de enrutamiento invaluable y una señal de proveniencia útil, pero no un relato fiel y completo del razonamiento en los modelos de lenguaje modernos. Las intervenciones causales, las representaciones a nivel de característica y la validación rigurosa están llenando ese vacío, con las auditorías de enrutador y herramientas ampliando el alcance de lo que debe explicarse en las tuberías de MoE y recuperación/herramienta.

Ideas clave:

  • Reemplazar las narrativas solo de atención con pruebas de intervención de necesidad y suficiencia.
  • Utilizar representaciones a nivel de característica (por ejemplo, SAEs) como sustratos estables para el trazado y edición causal.
  • Exponer y auditar enrutadores y expertos de MoE; incluir distribuciones de enrutamiento en las explicaciones.
  • Estandarizar pruebas de recuperación uno a uno y auditorías de uso de herramientas para distinguir entre la proveniencia y la dependencia.
  • Evolucionar puntos de referencia para medir fidelidad, completitud, estabilidad, robustez y transferencia, no solo la plausibilidad.

Próximos pasos accionables:

  • Adoptar protocolos pre-registrados y contrafactuales para cualquier afirmación explicativa sobre el razonamiento.
  • Construir tuberías que automáticamente propongan y prueben hipótesis de circuitos con parcheo de activaciones.
  • Integrar métodos de atribución con propiedades formales (por ejemplo, completitud) y validarlos con intervenciones.
  • Registrar y auditar enrutadores, expertos y decisiones de enrutamiento/uso de herramientas como objetos explicativos de primera clase.

Los próximos dos años estarán definidos por este cambio de lo que parece explicativo a lo que es causalmente cierto. La interpretabilidad mecanicista será juzgada no por la claridad de un mapa de calor, sino por si las explicaciones sobreviven ediciones quirúrgicas a la computación en sí misma y si se transfieren cuando el modelo, la tarea, el dominio o el idioma cambian. 🔬

Fuentes y Referencias

arxiv.org
Attention is not Explanation Establishes that raw attention weights often fail to provide faithful explanations, motivating the pivot toward causal methods.
arxiv.org
Is Attention Interpretable? Shows instability and non-uniqueness of attention-based explanations, supporting claims about brittleness and plausibility gaps.
arxiv.org
Quantifying Attention Flow in Transformers Illustrates path-based attention analyses and their limits without causal validation, informing the shift to interventions.
arxiv.org
Transformer Interpretability Beyond Attention Demonstrates gradient-/path-based techniques that often align better with causal influence than raw attention.
arxiv.org
Causal Mediation Analysis for Interpreting Neural NLP Provides a framework for causal tests of necessity/sufficiency used in the roadmap’s interventional protocols.
arxiv.org
Transformer Feed-Forward Layers Are Key-Value Memories Shows decisive computations and knowledge storage in MLP/residual pathways, explaining why attention-only views are incomplete.
arxiv.org
Locating and Editing Factual Associations in GPT (ROME) Evidence that non-attention parameter edits change outputs reliably, underscoring the causal role of MLP/residual layers.
transformer-circuits.pub
In-Context Learning and Induction Heads A concrete, validated example where attention-mediated circuits can be causally explained.
transformer-circuits.pub
Scaling Monosemanticity: Sparse Autoencoders Learn Interpretable Features in LLMs Supports the roadmap’s emphasis on feature-level representations and SAEs for stable, transferable explanations.
www.alignmentforum.org
Causal Scrubbing Presents interventional testing of hypothesized circuits, central to automating causal discovery and faithfulness.
arxiv.org
Sanity Checks for Saliency Maps Warns that attribution methods can fail superficial tests, motivating rigorous baselines and validations.
arxiv.org
Axiomatic Attribution for Deep Networks (Integrated Gradients) Provides a completeness-based attribution method referenced for benchmark completeness criteria.
arxiv.org
Retrieval-Augmented Generation (RAG) Frames retrieval provenance vs reliance and motivates leave-one-out retrieval audits.
arxiv.org
RETRO Shows retrieval cross-attention’s utility for provenance and the need for causal tests of reliance.
arxiv.org
Switch Transformers: Scaling to Trillion Parameter Models Introduces MoE routing and expert selection, motivating router/expert audits for explanations.
arxiv.org
GLaM: Efficient Scaling with Mixture-of-Experts Reinforces the importance of routing logits and expert specialization in MoE interpretability.
mistral.ai
Mixtral of Experts Represents an open MoE release context where router and expert transparency is crucial for explanations.
arxiv.org
Self-RAG Highlights retrieval/tool-use evaluation practices relevant to provenance vs reliance and auditing standards.
arxiv.org
Toolformer Anchors tool-use scenarios where attention to tool tokens is insufficient without policy and reliance audits.
arxiv.org
GSM8K Representative reasoning benchmark referenced for stress-testing explanation faithfulness.
arxiv.org
MATH Reasoning benchmark emphasizing multi-step algebraic reasoning, where attention-only methods falter.
arxiv.org
BIG-bench Broad evaluation suite for compositional reasoning, informing benchmark evolution.
arxiv.org
Challenging BIG-bench Tasks and Whether Chain-of-Thought Helps (BBH) Targets hard reasoning settings where process faithfulness matters beyond CoT plausibility.
arxiv.org
MMLU Knowledge-intensive benchmark cited for evaluating explanation stability and transfer.
arxiv.org
ARC Benchmark stressing reasoning and generalization; relevant for stability/robustness tests.
arxiv.org
DROP Reading comprehension with numerical reasoning; used to assess process faithfulness.
arxiv.org
Layer-wise Relevance Propagation Attribution technique discussed as a complement to interventional methods.
arxiv.org
A Benchmark for Interpretability Methods in Deep Neural Networks (ROAR) Methodology for testing whether importance estimates reflect causal impact under removal.
arxiv.org
ERASER: A Benchmark to Evaluate Rationalized NLP Models Early evidence that attention-aligned rationales can fail faithfulness under intervention-based audits.
arxiv.org
Language Models Don’t Always Say What They Think Evidence that model-generated rationales can be unfaithful to internal computation.
arxiv.org
Measuring Faithfulness in Chain-of-Thought Analyzes CoT faithfulness issues and motivates process-aligned objectives and audits.
arxiv.org
A Primer in BERTology: What we know about how BERT works Synthesizes findings on attention redundancy and specialization, contextualizing the limits of head-level explanations.

Advertisement