Evaluación Comparativa del Control Generativo: Una Guía Práctica para Equipos de Robótica y Conducción

El control generativo ha pasado de ser una demostración ingeniosa a ser una infraestructura central para robots, agentes encarnados y conducción autónoma. Los equipos ahora enfrentan una pregunta práctica: cómo evaluar estos sistemas de manera justa y reproducible en manipulación, locomoción, navegación y conducción, mientras se considera la observabilidad parcial, horizontes largos y estrictas restricciones de seguridad. La respuesta no es un único métrico o conjunto de datos, sino un pipeline disciplinado que alinee la taxonomía de tareas, datos, simuladores, métricas, pruebas de seguridad, líneas de base y MLOps desde el principio.

Este manual establece un camino paso a paso para montar un conjunto de evaluaciones comparativas robusto y reproducible. Define el alcance y los horizontes por dominio, selecciona conjuntos de datos y bancadas de prueba de bucle cerrado que coincidan con esos alcances, enumera las métricas que importan (desde éxito/retorno y SPL hasta minADE/minFDE y calibración), y prescribe un protocolo de evaluación de seguridad basado en restricciones, escudos, curvas de violación y generación de eventos raros. Concluye con orientaciones concretas sobre líneas de base, disciplina de entrenamiento/evaluación, perfilado de latencia y buenas prácticas en el lanzamiento, para que los resultados se mantengan sólidos en todos los laboratorios y tablas de clasificación.

Detalles de Arquitectura/Implementación

Alcance y taxonomía de tareas: igualar horizonte y observabilidad al dominio

Manipulación (horizontes cortos a medios, observabilidad parcial): La replanificación de bucle cerrado frecuente y la robustez a la multimodalidad son críticas. Las políticas de difusión destacan en escenarios de imitación/fuera de línea con dinámicas de contacto ricas y codificadores visuales fuertes; los modelos de mundo son preferidos para la adaptación en línea bajo observabilidad parcial e incertidumbre.
Locomoción y control continuo (horizontes medios, observaciones de píxeles): Los modelos de mundo latente con MPC de horizonte corto o actor-crítico en espacio latente proporcionan entrenamiento eficiente en muestras e inferencia rápida después del entrenamiento.
Navegación/encarnación (horizontes medios a largos, POMDPs): Los modelos de mundo con memoria emparejados con codificadores visuales SSL fuertes y métricas de navegación estándar (SPL/SR) siguen siendo una opción sólida por defecto.
Conducción (horizontes largos, multi-agente, crítico de seguridad): La modelización y previsión de comportamiento fuera de línea en grandes registros alimenta en planificadores de bucle cerrado probados en simuladores de conducción con métricas de ruta/infracción y seguridad; los conjuntos conscientes de la incertidumbre y los escudos son necesarios para la gestión del riesgo.

Un mapeo práctico se ve así:

Dominio	Horizonte & Observabilidad	Datos Principales	Banco de Bucle Cerrado	Familias de Modelos Recomendadas
Manipulación	Corto a medio; parcial	RLBench; D4RL Franka Kitchen; corporativas multi-robot para preentrenamiento	Tareas RLBench	Políticas de difusión para imitación/fuera de línea; Dreamer/MBPO/PETS para RL en línea
Locomoción/Control	Medio; píxeles	Locomoción D4RL; DM Control	DM Control Suite	Dreamer/MBPO/PETS + DrQ/RAD/CURL
Navegación/Encarnación	Medio a largo; POMDP	Conjuntos de datos Habitat	Habitat (SPL/SR)	Modelos de mundo + codificadores SSL
Conducción	Largo; multi-agente	nuScenes, Waymo Open Motion	CARLA/Leaderboard, nuPlan	Previsión + modelos de mundo/comportamiento; planificadores híbridos

Selección de conjuntos de datos y divisiones

Robots/manipulación: Usa tareas D4RL para comparabilidad de RL fuera de línea y RLBench para tasas de éxito de imitación/manipulación. Para preentrenamiento a gran escala, corporativas multi-robot como Open X-Embodiment/RT-X y DROID ofrecen amplitud para políticas visomotoras generalistas.
Conducción: Entrena modelos de comportamiento y previsión en registros nuScenes y Waymo Open Motion. Estos apoyan minADE/minFDE, NLL, colisión/fuera de carretera y tasas de fallo—luego transiciona a planificadores de bucle cerrado probados en CARLA y nuPlan.

Práctica de implementación:

Establece divisiones fijas de entrenamiento/validación/prueba por conjunto de datos con mezclas inicializadas y manifiestos inmutables. Asigna un presupuesto de datos por familia de experimentos para evitar elecciones silenciosas.
Para transiciones de fuera de línea a en línea, anota qué subconjunto se usa para preentrenamiento y qué porción se reserva estrictamente para evaluación.
Mantén versiones de conjuntos de datos y hashes inmutables para garantizar la auditabilidad a través de ablaciones.

Simuladores de bucle cerrado y bancos: cuándo y cómo usar cada uno

DM Control: Control continuo basado en píxeles con tareas estandarizadas; ideal para probar eficiencia en muestras y control de baja latencia bajo observabilidad parcial.
CARLA + Leaderboard: Puntuación basada en completitud de ruta e infracción para conducción autónoma; prueba de estrés de planificadores de bucle cerrado y pilas de extremo a extremo. Usa la infraestructura oficial de Leaderboard para comparaciones consistentes.
nuPlan: Evaluación de conducción basada en objetivos de bucle cerrado con puntuaciones longitudinales, complementario a CARLA en mapas y métricas.
Habitat: Navegación encarnada con SPL (Éxito ponderado por Longitud de Ruta) y tasa de éxito; diseñado para POMDPs con requisitos de memoria.
MineRL: Tareas largas y escasas que exponen desafíos de exploración y necesidades de control jerárquico.

Utiliza simuladores para validar la robustez de bucle cerrado bajo cambios de distribución y para repetir escenarios raros o adversarios. Para conducción, combina métricas de registro de bucle abierto (minADE/minFDE, colisión/fuera de carretera) con métricas de ruta/infracción de bucle cerrado antes de cualquier afirmación de despliegue.

Métricas que importan: elige por dominio y modo de falla

Robótica/control: Éxito/retorno para DM Control y manipulación; latencia y restricciones de seguridad cuando sea relevante.
Modelación de comportamiento/previsión: minADE/minFDE, NLL, tasa de fallo, tasa de colisión y tasa fuera de carretera en nuScenes/Waymo Motion.
Bucle cerrado de conducción: Puntuación de completitud de ruta e infracción de CARLA; métricas longitudinales basadas en objetivos de nuPlan.
Navegación encarnada: SPL y SR en Habitat.
Fidelidad generativa: FVD/FID/KID para generación de video/escena; usa cuando se evalúen simuladores generativos o calidad de despliegue visual.
Calibración y riesgo: Error de Calibración Esperado (ECE) y curvas de violación para cuantificar alineación de confianza e infracciones de restricciones de seguridad en umbrales variables.

Convierte el código de cálculo de métricas en un artefacto compartido y versionado. Trata cualquier cambio en las definiciones de métricas como un cambio importante que requiere nuevas ejecuciones completas.

Protocolo de evaluación de seguridad

Restricciones y costos: Define restricciones explícitas a nivel de tarea (por ejemplo, límites conjuntos en manipulación; límites de velocidad o proximidad en conducción) y reporta costos acumulados de restricciones junto a recompensas/retornos.
Escudos y optimización con restricciones: Implementa filtros de seguridad como escudos u optimización con restricciones para bloquear acciones que violarían restricciones. Reporta activaciones de escudos y acciones bloqueadas como parte del presupuesto de seguridad.
Curvas de violación: Explora umbrales de confianza/penalización para producir curvas de violación que cuantifiquen el equilibrio entre rendimiento de tarea e infracciones de restricciones.
Generación de escenarios de eventos raros: Usa modelos de comportamiento/simulación entrenados en registros para sintetizar contrafactuales y eventos raros para pruebas de esfuerzo. La repetición de bucle cerrado en CARLA/nuPlan o en simuladores encarnados ayuda a revelar modos de falla frágiles que las métricas de bucle abierto pasan por alto.

Tablas Comparativas

Bancas de bucle cerrado y sus fortalezas

Banca	Mejor para	Métricas clave	Notas
DM Control	Control eficiente en píxeles; observabilidad parcial	Retorno/éxito del episodio	Estándar para RL con modelos de mundo y RL de píxeles con aumentaciones
CARLA + Leaderboard	Fidelidad de rutas y adherencia a reglas al conducir	Completitud de ruta, infracciones	La tabla de clasificación comunitaria asegura evaluación consistente
nuPlan	Evaluación de conducción basada en objetivos	Puntuaciones longitudinales	Complementa CARLA con escenarios/mapas distintos
Habitat	Navegación encarnada bajo POMDPs	SPL, SR	Requiere memoria y mapeo
MineRL	Control escaso y de largo horizonte	Tasa de éxito	Destaca necesidades jerárquicas/de representación

Familias de métodos y dónde empezar

Familia	Donde destaca	Empieza aquí
Modelos de mundo predictivos (Dreamer, PETS, MBPO)	Control en tiempo real, observabilidad parcial, adaptación en línea	DM Control; bucles de robot real; agrega conjuntos y aumentaciones
Política de difusión / difusión de trayectoria	Imitación visomotora y RL fuera de línea, acciones multimodales	RLBench; planificación D4RL; acelerar con destilación/consistencia
Modelos de secuencia autorregresiva (Decision/Trajectory Transformer)	Grandes corporaciones offline, condicionamiento de retorno/trajectoria	RL offline de D4RL; registros de conducción; hibridar con dinámicas para bucles cerrados
Codificadores SSL (MAE, VideoMAE, R3M; DrQ/RAD/CURL)	Robustez visual y eficiencia en muestras	Preentrenar codificadores; aplicar aumentaciones durante RL

Mejores Prácticas

Líneas de base reproducibles para anclar resultados

RL con modelos de mundo: DreamerV3 como una línea base sólida basada en píxeles con estado de creencia recurrente; PETS/MBPO cuando se desea incertidumbre calibrada y despliegues a corto plazo.
Difusión: Política de difusión para manipulación visomotora a partir de demostraciones o datos offline; considera difusión de trayectoria al planificar en espacio estado-acción con guía de recompensa/valor.
Modelos de secuencia: Decision Transformer y Trajectory Transformer para configuraciones orientadas a offline; hibridar con dinámicas aprendidas o MPC para confiabilidad de bucle cerrado.

Usa bases de código oficiales o ampliamente reproducidas y libera puntos de control. Las afirmaciones cara a cara deben incluir presupuestos de datos/cómputo exactos ya que las comparaciones cruzadas a menudo difieren en estos factores críticos.

Protocolos de entrenamiento/evaluación: presupuestos fijos, semillas, registro, ablaciones

Fija presupuestos de datos y cómputo por familia de experimentos. Si un método usa más datos, llámalo y agrega una comparación de presupuesto coincidente.
Usa múltiples semillas aleatorias y publica estadísticas agregadas. Aquí los conteos específicos no están estandarizados; la consistencia entre métodos importa más que cualquier número único.
Registra distribuciones de latencia de bucle de control, no solo promedios. La latencia determina si las políticas son viables en el bucle.
Define plantillas de ablación por adelantado (por ejemplo, con/sin preentrenamiento SSL; con/sin conjuntos; con/sin escudos) para aislar la contribución de cada componente bajo un presupuesto compartido.

Perfilado de latencia en la práctica 🔧

Medición de bucle de control: Instrumenta el tiempo de bucle end-to-end, incluyendo codificación de observación, inferencia/ muestreo de política, filtrado de seguridad y activación. Reporta latencias de percentil 50/95.
Inferencia por lotes y almacenamiento en caché: Para modelos AR, almacena en caché estados clave/valor a lo largo de pasos de tiempo; para planificadores de bucle cerrado, reutiliza planes parciales cuando sea posible. Para políticas de difusión, subsamplea horizontes de acción para reducir la frecuencia de invocación.
Aceleración: Aplica destilación progresiva o modelos de consistencia para reducir pasos de difusión a unos pocos desruidos; combina con segmentación jerárquica o despliegues guiados por valor para mantener la coherencia de largo horizonte a tasas de llamada más bajas.

MLOps y artefactos: gobierna todo lo que se mueve

Gobernanza de datasets/versiones: Almacena manifiestos con hashes, configuraciones de sensores y scripts de preprocesamiento. Cualquier modificación gira a una nueva versión.
Puntos de control y reproducibilidad: Libera pesos entrenados y archivos de configuración exactos. Sin ellos, la verificación en laboratorio cruzado es frágil.
Telemetría y seguimiento de experimentos: Persiste métricas escalares (incluyendo seguridad y calibración), trazas de latencia y semillas de evaluación. Etiqueta ejecuciones por clase de presupuesto y versión de entorno.
Licencias y madurez del ecosistema: Prefiere comparativas y líneas de base con soporte comunitario sostenido y licencias compatibles para uso crítico de seguridad.

Lista de comprobación para reporte y lanzamiento

Métricas: Reporta métricas apropiadas al dominio más medidas de calibración/riesgo como ECE y curvas de violación.
Seguridad: Incluye costos de restricción, intervenciones de escudo y pruebas de esfuerzo de eventos raros. Documenta cualquier prueba OOD o randomización de dominio usada.
Evidencia de bucle cerrado: Para conducción, combina métricas de previsión de bucle abierto con resultados de bucle cerrado de CARLA/nuPlan. Para navegación y manipulación, incluye medidas de éxito estándar de RLBench/Habitat.
Reproducibilidad: Publica código, configuraciones y puntos de control. Nota presupuestos fijos y semillas usados en todas las ablaciones.
Tablas de clasificación: Al participar en evaluaciones públicas como la de CARLA Leaderboard, sigue los protocolos oficiales de evaluación para asegurar comparabilidad.

Manual Práctico por Dominio

Manipulación y control

Datos: Comienza con RLBench para éxito en tareas y D4RL para comparabilidad de RL fuera de línea; preentrena codificadores visuales con MAE/VideoMAE o R3M para mejorar robustez y eficiencia en muestras. La aumentación en política mediante DrQ/DrQ-v2 o RAD es estándar cuando se entrena desde píxeles.
Modelos: Para imitación/fuera de línea, usa Política de Difusión con replanificación de horizonte descendente frecuente; agrega guía o segmentos jerárquicos de recompensa/valor para tareas más largas. Para RL en línea bajo observabilidad parcial, utiliza modelos de mundo latente estilo Dreamer o MBPO/PETS con conjuntos para capturar incertidumbre epistémica.
Métricas: Reporta éxito en tareas y latencia; cuando la seguridad importa, añade costos de restricción y calibración.

Locomoción y control continuo

Datos/banco: Usa DM Control para control basado en píxeles. Empareja modelos de mundo con MPC de horizonte corto o actor-crítico en espacio latente. Aplica preentrenamiento SSL para visuales y DrQ/RAD/CURL para estabilidad en política.
Métricas: Retorno del episodio/éxito, pasos de entorno para alcanzar rendimiento umbral, y latencia de bucle de control después del entrenamiento.

Navegación y agentes encarnados

Datos/banco: Habitat para navegación de bucle cerrado con SPL/SR; MineRL para tareas largas y escasas que estresan la planificación jerárquica.
Modelos: Modelos de mundo con memoria para observabilidad parcial; políticas de difusión/AR pueden servir como generadores de habilidad bajo un planificador de alto nivel.
Métricas: SPL/SR, éxito y calibración donde la seguridad sea relevante.

Conducción y comportamiento multi-agente

Datos: Entrenar en registros nuScenes y Waymo Open Motion. Comienza con métricas de previsión/comportamiento (minADE/minFDE, NLL, fallo, colisión, fuera de carretera) antes de pruebas de bucle cerrado.
Bucle cerrado: Valida con métrica de ruta/infracción de CARLA y métrica longitudinal de nuPlan. Usa conjuntos, planificación consciente de la incertidumbre y escudos para la seguridad.
Eventos raros: Usa modelos de comportamiento/simulación aprendidos para generar contrafactuales para pruebas de esfuerzo; valida en CARLA/nuPlan.

Conclusión

Un benchmark de control generativo creíble no es una captura de tabla de clasificación, es un pipeline disciplinado que asigna tareas a datos y bancos, mide lo que importa para el dominio, y trata la seguridad y reproducibilidad como ciudadanos de primera clase. Con la pareja adecuada de conjuntos de datos (D4RL, RLBench, nuScenes/Waymo Motion), simuladores de bucle cerrado (DM Control, CARLA/nuPlan, Habitat) y familias de métodos (modelos de mundo, difusión, modelos de secuencia), los equipos pueden evaluar el progreso honestamente y avanzar más rápido con menos sorpresas. La calibración, incertidumbre y latencia deben estar al lado de las tasas de éxito, y las liberaciones de código/puntos de control convierten los resultados prometedores en activos comunitarios.

Puntos clave:

Alinea tareas con horizonte/observabilidad y elige bancos en consecuencia; combina métricas de bucle abierto y cerrado donde sea apropiado.
Para configuraciones de manipulación/fuera de línea, las políticas de difusión ofrecen control multimodal robusto; para en línea, observabilidad parcial y horizontes largos, los modelos de mundo siguen siendo el estándar confiable.
Las métricas de previsión (minADE/minFDE) son necesarias pero no suficientes para la conducción; cierra el bucle en CARLA/nuPlan con métricas de ruta/infracción y monitores de seguridad.
La seguridad pertenece en el benchmark principal: restricciones, escudos, curvas de violación y pruebas de esfuerzo de eventos raros.
La reproducibilidad es innegociable: presupuestos fijos, semillas, telemetría y liberaciones de puntos de control.

Próximos pasos para los equipos:

Configura primero la gobernanza de conjuntos de datos y herramientas de métricas; luego integra líneas de base (DreamerV3, PETS/MBPO, Política de Difusión, Decision/Trajectory Transformer) bajo presupuestos fijos.
Añade calibración e instrumentación de seguridad en todas las tareas; publica curvas de violación junto a métricas de éxito.
Perfila la latencia y aplica destilación/consistencia para mantener pilas basadas en difusión dentro de presupuestos de bucle de control.
Cuando estén listos, valida en bancos públicos como el de CARLA Leaderboard y comparte código y puntos de control para habilitar reproducibilidad.

Fuentes y Referencias

Mastering Diverse Domains through World Models (DreamerV3) Supports world‑model RL as a strong, sample‑efficient baseline for pixel control with recurrent belief states and fast inference after training.

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models (PETS) Provides uncertainty‑aware model‑based RL with ensembles for cautious control, relevant to safety and robustness benchmarking.

Model-Based Policy Optimization (MBPO) Introduces short‑horizon model rollouts inside off‑policy RL to mitigate model bias, a key baseline for control benchmarks.

Diffusion Policy (project) Establishes diffusion policies for visuomotor manipulation from demonstrations/offline data, central to manipulation benchmarks.

Diffuser: Diffusion Models for Planning Covers trajectory diffusion and reward/value guidance for planning and offline RL benchmarking.

Decision Transformer: Reinforcement Learning via Sequence Modeling Represents autoregressive sequence modeling for offline RL with return conditioning, used as a baseline in offline benchmarks.

Trajectory Transformer Provides token‑based trajectory modeling and reward‑guided sampling, relevant to offline RL comparisons.

D4RL: Datasets for Deep Data-Driven Reinforcement Learning Defines standard offline RL datasets and tasks used across manipulation and locomotion benchmarking.

RLBench: The Robot Learning Benchmark & Dataset Supplies imitation/manipulation tasks and success metrics for evaluating visuomotor policies.

DeepMind Control Suite Provides standardized continuous control tasks for evaluating sample efficiency and pixel-based RL.

CARLA Simulator Core closed‑loop driving simulator with route/infraction metrics and a public leaderboard for standardized evaluation.

nuScenes Driving log dataset supporting forecasting metrics such as minADE/minFDE, miss rate, collision, and off‑road.

Waymo Open Motion Dataset Large‑scale driving motion dataset enabling forecasting and behavior model evaluation.

AI Habitat Embodied navigation platform with SPL/SR metrics for closed‑loop evaluation under partial observability.

MineRL Benchmark for long‑horizon, sparse tasks highlighting hierarchical control needs.

Masked Autoencoders Are Scalable Vision Learners (MAE) Provides strong self‑supervised visual features that improve robustness and sample efficiency in control stacks.

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Extends MAE to video, supporting better visual encodings for visuomotor control.

R3M: A Universal Visual Representation for Robot Manipulation Demonstrates transferable egocentric visual representations that improve manipulation policy learning from pixels.

DrQ-v2: Improved Data-Efficiency for Reinforcement Learning from Pixels Stabilizes and improves pixel-based RL via augmentations, relevant for sample efficiency benchmarking.

CURL: Contrastive Unsupervised Representations for Reinforcement Learning Shows self-supervised representation learning benefits for pixel RL, supporting robustness claims.

RAD: Reinforcement Learning with Augmented Data Presents augmentations to improve pixel-based RL training stability, informing best practices.

Consistency Models Enables few-step sampling to reduce diffusion inference latency for control loops.

Progressive Distillation for Fast Sampling of Diffusion Models Reduces diffusion sampling steps, directly relevant to latency profiling and acceleration.

On Calibration of Modern Neural Networks Introduces ECE, a calibration metric recommended for safety‑aware benchmarking.

FVD: Fréchet Video Distance Defines a standard metric for video generation quality when evaluating generative simulators.

FID: Fréchet Inception Distance Standard metric for generative image/video fidelity used when benchmarking visual synthesis.

KID: Kernel Inception Distance Alternative generative fidelity metric applicable to scene/video generation comparisons.

Constrained Policy Optimization Provides a safety‑aware RL baseline with explicit constraints, aligning with the safety evaluation protocol.

Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World Supports sim-to-real robustness tactics referenced in safety and OOD evaluation guidance.

CARLA Autonomous Driving Leaderboard Defines the public evaluation protocol and metrics for standardized closed‑loop driving comparisons.

Open X‑Embodiment (RT‑X) Offers large multi-robot datasets for pretraining generalist policies, relevant to dataset selection.

DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset Adds breadth for robot pretraining and benchmarking across diverse manipulation tasks.

nuPlan: A closed-loop autonomous driving benchmark Provides closed-loop driving evaluation with goal-based metrics complementing CARLA.

DayDreamer: World Models for Physical Robot Learning Shows real-world applicability of Dreamer-style world models, supporting guidance on online adaptation.