Evaluación Comparativa del Control Generativo: Una Guía Práctica para Equipos de Robótica y Conducción
El control generativo ha pasado de ser una demostración ingeniosa a ser una infraestructura central para robots, agentes encarnados y conducción autónoma. Los equipos ahora enfrentan una pregunta práctica: cómo evaluar estos sistemas de manera justa y reproducible en manipulación, locomoción, navegación y conducción, mientras se considera la observabilidad parcial, horizontes largos y estrictas restricciones de seguridad. La respuesta no es un único métrico o conjunto de datos, sino un pipeline disciplinado que alinee la taxonomía de tareas, datos, simuladores, métricas, pruebas de seguridad, líneas de base y MLOps desde el principio.
Este manual establece un camino paso a paso para montar un conjunto de evaluaciones comparativas robusto y reproducible. Define el alcance y los horizontes por dominio, selecciona conjuntos de datos y bancadas de prueba de bucle cerrado que coincidan con esos alcances, enumera las métricas que importan (desde éxito/retorno y SPL hasta minADE/minFDE y calibración), y prescribe un protocolo de evaluación de seguridad basado en restricciones, escudos, curvas de violación y generación de eventos raros. Concluye con orientaciones concretas sobre líneas de base, disciplina de entrenamiento/evaluación, perfilado de latencia y buenas prácticas en el lanzamiento, para que los resultados se mantengan sólidos en todos los laboratorios y tablas de clasificación.
Detalles de Arquitectura/Implementación
Alcance y taxonomía de tareas: igualar horizonte y observabilidad al dominio
- Manipulación (horizontes cortos a medios, observabilidad parcial): La replanificación de bucle cerrado frecuente y la robustez a la multimodalidad son críticas. Las políticas de difusión destacan en escenarios de imitación/fuera de línea con dinámicas de contacto ricas y codificadores visuales fuertes; los modelos de mundo son preferidos para la adaptación en línea bajo observabilidad parcial e incertidumbre.
- Locomoción y control continuo (horizontes medios, observaciones de píxeles): Los modelos de mundo latente con MPC de horizonte corto o actor-crítico en espacio latente proporcionan entrenamiento eficiente en muestras e inferencia rápida después del entrenamiento.
- Navegación/encarnación (horizontes medios a largos, POMDPs): Los modelos de mundo con memoria emparejados con codificadores visuales SSL fuertes y métricas de navegación estándar (SPL/SR) siguen siendo una opción sólida por defecto.
- Conducción (horizontes largos, multi-agente, crítico de seguridad): La modelización y previsión de comportamiento fuera de línea en grandes registros alimenta en planificadores de bucle cerrado probados en simuladores de conducción con métricas de ruta/infracción y seguridad; los conjuntos conscientes de la incertidumbre y los escudos son necesarios para la gestión del riesgo.
Un mapeo práctico se ve así:
| Dominio | Horizonte & Observabilidad | Datos Principales | Banco de Bucle Cerrado | Familias de Modelos Recomendadas |
|---|---|---|---|---|
| Manipulación | Corto a medio; parcial | RLBench; D4RL Franka Kitchen; corporativas multi-robot para preentrenamiento | Tareas RLBench | Políticas de difusión para imitación/fuera de línea; Dreamer/MBPO/PETS para RL en línea |
| Locomoción/Control | Medio; píxeles | Locomoción D4RL; DM Control | DM Control Suite | Dreamer/MBPO/PETS + DrQ/RAD/CURL |
| Navegación/Encarnación | Medio a largo; POMDP | Conjuntos de datos Habitat | Habitat (SPL/SR) | Modelos de mundo + codificadores SSL |
| Conducción | Largo; multi-agente | nuScenes, Waymo Open Motion | CARLA/Leaderboard, nuPlan | Previsión + modelos de mundo/comportamiento; planificadores híbridos |
Selección de conjuntos de datos y divisiones
- Robots/manipulación: Usa tareas D4RL para comparabilidad de RL fuera de línea y RLBench para tasas de éxito de imitación/manipulación. Para preentrenamiento a gran escala, corporativas multi-robot como Open X-Embodiment/RT-X y DROID ofrecen amplitud para políticas visomotoras generalistas.
- Conducción: Entrena modelos de comportamiento y previsión en registros nuScenes y Waymo Open Motion. Estos apoyan minADE/minFDE, NLL, colisión/fuera de carretera y tasas de fallo—luego transiciona a planificadores de bucle cerrado probados en CARLA y nuPlan.
Práctica de implementación:
- Establece divisiones fijas de entrenamiento/validación/prueba por conjunto de datos con mezclas inicializadas y manifiestos inmutables. Asigna un presupuesto de datos por familia de experimentos para evitar elecciones silenciosas.
- Para transiciones de fuera de línea a en línea, anota qué subconjunto se usa para preentrenamiento y qué porción se reserva estrictamente para evaluación.
- Mantén versiones de conjuntos de datos y hashes inmutables para garantizar la auditabilidad a través de ablaciones.
Simuladores de bucle cerrado y bancos: cuándo y cómo usar cada uno
- DM Control: Control continuo basado en píxeles con tareas estandarizadas; ideal para probar eficiencia en muestras y control de baja latencia bajo observabilidad parcial.
- CARLA + Leaderboard: Puntuación basada en completitud de ruta e infracción para conducción autónoma; prueba de estrés de planificadores de bucle cerrado y pilas de extremo a extremo. Usa la infraestructura oficial de Leaderboard para comparaciones consistentes.
- nuPlan: Evaluación de conducción basada en objetivos de bucle cerrado con puntuaciones longitudinales, complementario a CARLA en mapas y métricas.
- Habitat: Navegación encarnada con SPL (Éxito ponderado por Longitud de Ruta) y tasa de éxito; diseñado para POMDPs con requisitos de memoria.
- MineRL: Tareas largas y escasas que exponen desafíos de exploración y necesidades de control jerárquico.
Utiliza simuladores para validar la robustez de bucle cerrado bajo cambios de distribución y para repetir escenarios raros o adversarios. Para conducción, combina métricas de registro de bucle abierto (minADE/minFDE, colisión/fuera de carretera) con métricas de ruta/infracción de bucle cerrado antes de cualquier afirmación de despliegue.
Métricas que importan: elige por dominio y modo de falla
- Robótica/control: Éxito/retorno para DM Control y manipulación; latencia y restricciones de seguridad cuando sea relevante.
- Modelación de comportamiento/previsión: minADE/minFDE, NLL, tasa de fallo, tasa de colisión y tasa fuera de carretera en nuScenes/Waymo Motion.
- Bucle cerrado de conducción: Puntuación de completitud de ruta e infracción de CARLA; métricas longitudinales basadas en objetivos de nuPlan.
- Navegación encarnada: SPL y SR en Habitat.
- Fidelidad generativa: FVD/FID/KID para generación de video/escena; usa cuando se evalúen simuladores generativos o calidad de despliegue visual.
- Calibración y riesgo: Error de Calibración Esperado (ECE) y curvas de violación para cuantificar alineación de confianza e infracciones de restricciones de seguridad en umbrales variables.
Convierte el código de cálculo de métricas en un artefacto compartido y versionado. Trata cualquier cambio en las definiciones de métricas como un cambio importante que requiere nuevas ejecuciones completas.
Protocolo de evaluación de seguridad
- Restricciones y costos: Define restricciones explícitas a nivel de tarea (por ejemplo, límites conjuntos en manipulación; límites de velocidad o proximidad en conducción) y reporta costos acumulados de restricciones junto a recompensas/retornos.
- Escudos y optimización con restricciones: Implementa filtros de seguridad como escudos u optimización con restricciones para bloquear acciones que violarían restricciones. Reporta activaciones de escudos y acciones bloqueadas como parte del presupuesto de seguridad.
- Curvas de violación: Explora umbrales de confianza/penalización para producir curvas de violación que cuantifiquen el equilibrio entre rendimiento de tarea e infracciones de restricciones.
- Generación de escenarios de eventos raros: Usa modelos de comportamiento/simulación entrenados en registros para sintetizar contrafactuales y eventos raros para pruebas de esfuerzo. La repetición de bucle cerrado en CARLA/nuPlan o en simuladores encarnados ayuda a revelar modos de falla frágiles que las métricas de bucle abierto pasan por alto.
Tablas Comparativas
Bancas de bucle cerrado y sus fortalezas
| Banca | Mejor para | Métricas clave | Notas |
|---|---|---|---|
| DM Control | Control eficiente en píxeles; observabilidad parcial | Retorno/éxito del episodio | Estándar para RL con modelos de mundo y RL de píxeles con aumentaciones |
| CARLA + Leaderboard | Fidelidad de rutas y adherencia a reglas al conducir | Completitud de ruta, infracciones | La tabla de clasificación comunitaria asegura evaluación consistente |
| nuPlan | Evaluación de conducción basada en objetivos | Puntuaciones longitudinales | Complementa CARLA con escenarios/mapas distintos |
| Habitat | Navegación encarnada bajo POMDPs | SPL, SR | Requiere memoria y mapeo |
| MineRL | Control escaso y de largo horizonte | Tasa de éxito | Destaca necesidades jerárquicas/de representación |
Familias de métodos y dónde empezar
| Familia | Donde destaca | Empieza aquí |
|---|---|---|
| Modelos de mundo predictivos (Dreamer, PETS, MBPO) | Control en tiempo real, observabilidad parcial, adaptación en línea | DM Control; bucles de robot real; agrega conjuntos y aumentaciones |
| Política de difusión / difusión de trayectoria | Imitación visomotora y RL fuera de línea, acciones multimodales | RLBench; planificación D4RL; acelerar con destilación/consistencia |
| Modelos de secuencia autorregresiva (Decision/Trajectory Transformer) | Grandes corporaciones offline, condicionamiento de retorno/trajectoria | RL offline de D4RL; registros de conducción; hibridar con dinámicas para bucles cerrados |
| Codificadores SSL (MAE, VideoMAE, R3M; DrQ/RAD/CURL) | Robustez visual y eficiencia en muestras | Preentrenar codificadores; aplicar aumentaciones durante RL |
Mejores Prácticas
Líneas de base reproducibles para anclar resultados
- RL con modelos de mundo: DreamerV3 como una línea base sólida basada en píxeles con estado de creencia recurrente; PETS/MBPO cuando se desea incertidumbre calibrada y despliegues a corto plazo.
- Difusión: Política de difusión para manipulación visomotora a partir de demostraciones o datos offline; considera difusión de trayectoria al planificar en espacio estado-acción con guía de recompensa/valor.
- Modelos de secuencia: Decision Transformer y Trajectory Transformer para configuraciones orientadas a offline; hibridar con dinámicas aprendidas o MPC para confiabilidad de bucle cerrado.
Usa bases de código oficiales o ampliamente reproducidas y libera puntos de control. Las afirmaciones cara a cara deben incluir presupuestos de datos/cómputo exactos ya que las comparaciones cruzadas a menudo difieren en estos factores críticos.
Protocolos de entrenamiento/evaluación: presupuestos fijos, semillas, registro, ablaciones
- Fija presupuestos de datos y cómputo por familia de experimentos. Si un método usa más datos, llámalo y agrega una comparación de presupuesto coincidente.
- Usa múltiples semillas aleatorias y publica estadísticas agregadas. Aquí los conteos específicos no están estandarizados; la consistencia entre métodos importa más que cualquier número único.
- Registra distribuciones de latencia de bucle de control, no solo promedios. La latencia determina si las políticas son viables en el bucle.
- Define plantillas de ablación por adelantado (por ejemplo, con/sin preentrenamiento SSL; con/sin conjuntos; con/sin escudos) para aislar la contribución de cada componente bajo un presupuesto compartido.
Perfilado de latencia en la práctica 🔧
- Medición de bucle de control: Instrumenta el tiempo de bucle end-to-end, incluyendo codificación de observación, inferencia/ muestreo de política, filtrado de seguridad y activación. Reporta latencias de percentil 50/95.
- Inferencia por lotes y almacenamiento en caché: Para modelos AR, almacena en caché estados clave/valor a lo largo de pasos de tiempo; para planificadores de bucle cerrado, reutiliza planes parciales cuando sea posible. Para políticas de difusión, subsamplea horizontes de acción para reducir la frecuencia de invocación.
- Aceleración: Aplica destilación progresiva o modelos de consistencia para reducir pasos de difusión a unos pocos desruidos; combina con segmentación jerárquica o despliegues guiados por valor para mantener la coherencia de largo horizonte a tasas de llamada más bajas.
MLOps y artefactos: gobierna todo lo que se mueve
- Gobernanza de datasets/versiones: Almacena manifiestos con hashes, configuraciones de sensores y scripts de preprocesamiento. Cualquier modificación gira a una nueva versión.
- Puntos de control y reproducibilidad: Libera pesos entrenados y archivos de configuración exactos. Sin ellos, la verificación en laboratorio cruzado es frágil.
- Telemetría y seguimiento de experimentos: Persiste métricas escalares (incluyendo seguridad y calibración), trazas de latencia y semillas de evaluación. Etiqueta ejecuciones por clase de presupuesto y versión de entorno.
- Licencias y madurez del ecosistema: Prefiere comparativas y líneas de base con soporte comunitario sostenido y licencias compatibles para uso crítico de seguridad.
Lista de comprobación para reporte y lanzamiento
- Métricas: Reporta métricas apropiadas al dominio más medidas de calibración/riesgo como ECE y curvas de violación.
- Seguridad: Incluye costos de restricción, intervenciones de escudo y pruebas de esfuerzo de eventos raros. Documenta cualquier prueba OOD o randomización de dominio usada.
- Evidencia de bucle cerrado: Para conducción, combina métricas de previsión de bucle abierto con resultados de bucle cerrado de CARLA/nuPlan. Para navegación y manipulación, incluye medidas de éxito estándar de RLBench/Habitat.
- Reproducibilidad: Publica código, configuraciones y puntos de control. Nota presupuestos fijos y semillas usados en todas las ablaciones.
- Tablas de clasificación: Al participar en evaluaciones públicas como la de CARLA Leaderboard, sigue los protocolos oficiales de evaluación para asegurar comparabilidad.
Manual Práctico por Dominio
Manipulación y control
- Datos: Comienza con RLBench para éxito en tareas y D4RL para comparabilidad de RL fuera de línea; preentrena codificadores visuales con MAE/VideoMAE o R3M para mejorar robustez y eficiencia en muestras. La aumentación en política mediante DrQ/DrQ-v2 o RAD es estándar cuando se entrena desde píxeles.
- Modelos: Para imitación/fuera de línea, usa Política de Difusión con replanificación de horizonte descendente frecuente; agrega guía o segmentos jerárquicos de recompensa/valor para tareas más largas. Para RL en línea bajo observabilidad parcial, utiliza modelos de mundo latente estilo Dreamer o MBPO/PETS con conjuntos para capturar incertidumbre epistémica.
- Métricas: Reporta éxito en tareas y latencia; cuando la seguridad importa, añade costos de restricción y calibración.
Locomoción y control continuo
- Datos/banco: Usa DM Control para control basado en píxeles. Empareja modelos de mundo con MPC de horizonte corto o actor-crítico en espacio latente. Aplica preentrenamiento SSL para visuales y DrQ/RAD/CURL para estabilidad en política.
- Métricas: Retorno del episodio/éxito, pasos de entorno para alcanzar rendimiento umbral, y latencia de bucle de control después del entrenamiento.
Navegación y agentes encarnados
- Datos/banco: Habitat para navegación de bucle cerrado con SPL/SR; MineRL para tareas largas y escasas que estresan la planificación jerárquica.
- Modelos: Modelos de mundo con memoria para observabilidad parcial; políticas de difusión/AR pueden servir como generadores de habilidad bajo un planificador de alto nivel.
- Métricas: SPL/SR, éxito y calibración donde la seguridad sea relevante.
Conducción y comportamiento multi-agente
- Datos: Entrenar en registros nuScenes y Waymo Open Motion. Comienza con métricas de previsión/comportamiento (minADE/minFDE, NLL, fallo, colisión, fuera de carretera) antes de pruebas de bucle cerrado.
- Bucle cerrado: Valida con métrica de ruta/infracción de CARLA y métrica longitudinal de nuPlan. Usa conjuntos, planificación consciente de la incertidumbre y escudos para la seguridad.
- Eventos raros: Usa modelos de comportamiento/simulación aprendidos para generar contrafactuales para pruebas de esfuerzo; valida en CARLA/nuPlan.
Conclusión
Un benchmark de control generativo creíble no es una captura de tabla de clasificación, es un pipeline disciplinado que asigna tareas a datos y bancos, mide lo que importa para el dominio, y trata la seguridad y reproducibilidad como ciudadanos de primera clase. Con la pareja adecuada de conjuntos de datos (D4RL, RLBench, nuScenes/Waymo Motion), simuladores de bucle cerrado (DM Control, CARLA/nuPlan, Habitat) y familias de métodos (modelos de mundo, difusión, modelos de secuencia), los equipos pueden evaluar el progreso honestamente y avanzar más rápido con menos sorpresas. La calibración, incertidumbre y latencia deben estar al lado de las tasas de éxito, y las liberaciones de código/puntos de control convierten los resultados prometedores en activos comunitarios.
Puntos clave:
- Alinea tareas con horizonte/observabilidad y elige bancos en consecuencia; combina métricas de bucle abierto y cerrado donde sea apropiado.
- Para configuraciones de manipulación/fuera de línea, las políticas de difusión ofrecen control multimodal robusto; para en línea, observabilidad parcial y horizontes largos, los modelos de mundo siguen siendo el estándar confiable.
- Las métricas de previsión (minADE/minFDE) son necesarias pero no suficientes para la conducción; cierra el bucle en CARLA/nuPlan con métricas de ruta/infracción y monitores de seguridad.
- La seguridad pertenece en el benchmark principal: restricciones, escudos, curvas de violación y pruebas de esfuerzo de eventos raros.
- La reproducibilidad es innegociable: presupuestos fijos, semillas, telemetría y liberaciones de puntos de control.
Próximos pasos para los equipos:
- Configura primero la gobernanza de conjuntos de datos y herramientas de métricas; luego integra líneas de base (DreamerV3, PETS/MBPO, Política de Difusión, Decision/Trajectory Transformer) bajo presupuestos fijos.
- Añade calibración e instrumentación de seguridad en todas las tareas; publica curvas de violación junto a métricas de éxito.
- Perfila la latencia y aplica destilación/consistencia para mantener pilas basadas en difusión dentro de presupuestos de bucle de control.
- Cuando estén listos, valida en bancos públicos como el de CARLA Leaderboard y comparte código y puntos de control para habilitar reproducibilidad.