Évaluation Contrôle Génératif: Un Guide Pratique pour les Équipes de Robotique et de Conduite

Le contrôle génératif est passé de démonstrations astucieuses à une infrastructure centrale pour les robots, les agents incarnés et la conduite autonome. Les équipes se posent maintenant une question pratique: comment évaluer ces systèmes équitablement et de manière reproductible dans les domaines de la manipulation, de la locomotion, de la navigation et de la conduite, tout en tenant compte de l’observabilité partielle, des horizons longs et des contraintes strictes de sécurité? La réponse n’est pas un simple métrique ou un ensemble de données, mais un pipeline disciplinaire qui aligne la taxonomie des tâches, les données, les simulateurs, les métriques, les tests de sécurité, les bases de référence et le MLOps dès le départ.

Ce guide définit un cheminement étape par étape pour mettre en place une pile d’évaluation robuste et reproductible. Il définit le périmètre et les horizons par domaine, sélectionne des ensembles de données et des bancs d’essai en boucle fermée correspondant à ces périmètres, énumère les métriques importantes (du succès/retour et SPL à minADE/minFDE et la calibration), et prescrit un protocole d’évaluation de la sécurité basé sur des contraintes, des filtres, des courbes de violation et la génération d’événements rares. Il se termine par des conseils concrets sur les bases de référence, la discipline d’entraînement/évaluation, le profilage de la latence et l’hygiène des versions, de sorte que les résultats tiennent le coup à travers les laboratoires et les tableaux de classement.

Détails d’Architecture/Implémentation

Portée et taxonomie des tâches: adapter l’horizon et l’observabilité au domaine

Manipulation (horizons courts à moyens, observabilité partielle): La replanification fréquente en boucle fermée et la robustesse à la multimodalité sont essentielles. Les politiques de diffusion excellent dans les réglages d’imitation/hors ligne avec des dynamiques riches en contact et des encodeurs visuels puissants; les modèles du monde sont préférés pour l’adaptation en ligne sous observabilité partielle et incertitude.
Locomotion et contrôle continu (horizons moyens, observations par pixel): Les modèles du monde latents avec MPC à horizon court ou acteur-critique dans l’espace latent offrent un entraînement efficace en échantillons et une inférence rapide après l’entraînement.
Navigation/incarnation (horizons moyens à longs, POMDPs): Les modèles du monde avec mémoire couplés à des encodeurs visuels SSL puissants et des métriques de navigation standard (SPL/SR) restent un défaut solide.
Conduite (horizons longs, multi-agents, sécurité critique): La modélisation du comportement hors ligne et la prévision sur de grands journaux alimentent les planificateurs en boucle fermée testés dans des simulateurs de conduite avec des métriques de route/infraction et de sécurité; les ensembles et les boucliers conscients de l’incertitude sont nécessaires pour la gestion des risques.

Une cartographie pratique ressemble à ceci:

Domaine	Horizon & Observabilité	Données Principales	Test en Boucle Fermée	Familles de Modèles Recommandées
Manipulation	Court à moyen; partielle	RLBench; D4RL Franka Kitchen; corpus multi-robots pour l’entraînement préalable	Tâches RLBench	Politiques de diffusion pour imitation/hors ligne; Dreamer/MBPO/PETS pour RL en ligne
Locomotion/Contrôle	Moyen; pixels	Locomotion D4RL; DM Control	Suite DM Control	Dreamer/MBPO/PETS + DrQ/RAD/CURL
Navigation/Incarnation	Moyen à long; POMDP	Ensembles de données Habitat	Habitat (SPL/SR)	Modèles du monde + encodeurs SSL
Conduite	Long; multi-agent	nuScenes, Waymo Open Motion	CARLA/Tableau, nuPlan	Prévision + modèles du monde/comportement; planificateurs hybrides

Sélection et divisions d’ensembles de données

Robots/manipulation: Utilisez les tâches D4RL pour la comparabilité RL hors ligne et RLBench pour les taux de succès d’imitation/manipulation. Pour l’entraînement préalable à grande échelle, des corpus multi-robots tels que Open X-Embodiment/RT-X et DROID offrent une large couverture pour des politiques visuomotrices généralistes.
Conduite: Entraînez les modèles de comportement et de prévision sur les journaux nuScenes et Waymo Open Motion. Ceux-ci soutiennent minADE/minFDE, NLL, collision/hors route, et les taux de manque - puis transitionnez vers des planificateurs en boucle fermée testés dans CARLA et nuPlan.

Pratique d’implémentation:

Établissez des divisions fixes app/examen/test par ensemble de données avec des mélanges plantés et des manifestes immuables. Verrouillez un budget de données par famille d’expérience pour éviter la sélection silencieuse.
Pour les transitions hors ligne-en ligne, notez quel sous-ensemble est utilisé pour l’entraînement préalable et quelle partie est réservée strictement pour l’évaluation.
Maintenez les versions des ensembles de données et les hachages immuables pour garantir la possibilité de vérification à travers les ablations.

Simulateurs et bancs en boucle fermée: quand et comment utiliser chacun

DM Control: Contrôle continu basé sur pixel avec des tâches standardisées; idéal pour tester l’efficacité d’échantillonnage et le contrôle à faible latence sous observabilité partielle.
CARLA + Tableau: Score basé sur la complétion de route et l’infraction pour la conduite autonome; testez la robustesse des planifications en boucle fermée et des piles de bout en bout. Utilisez l’infrastructure officielle du Tableau pour des comparaisons équitables.
nuPlan: Évaluation de la conduite fermée orientée objectifs avec scores longitudinaux, complémentaire à CARLA dans les cartes et métriques.
Habitat: Navigation incarnée avec SPL (Succès pondéré par Longueur de Chemin) et taux de succès; conçu pour les POMDPs avec exigences de mémoire.
MineRL: Tâches longues et éparses qui exposent les défis d’exploration et les besoins de contrôle hiérarchique.

Utilisez les simulateurs pour valider la robustesse en boucle fermée sous changement de distribution et pour rejouer des scénarios rares ou adversariaux. Pour la conduite, combinez les métriques de journaux en boucle ouverte (minADE/minFDE, collision/hors route) avec les métriques de route/infraction en boucle fermée avant toute affirmation de déployabilité.

Les métriques qui comptent: choisir selon le domaine et le mode d’échec

Robotique/contrôle: Succès/retour pour DM Control et manipulation; latence et contraintes de sécurité lorsque pertinente.
Prévision/modélisation du comportement: minADE/minFDE, NLL, taux de manque, taux de collision, et taux hors route sur nuScenes/Waymo Motion.
Conduite en boucle fermée: Complétion de route et score d’infraction CARLA; métriques longitudinales basées sur des objectifs de nuPlan.
Navigation incarnée: SPL et SR dans Habitat.
Fidélité générative: FVD/FID/KID pour la génération de vidéos/scènes; à utiliser lors de l’évaluation des simulateurs génératifs ou de la qualité des résultats visuels.
Calibration et risque: Erreur de Calibration Attendue (ECE) et courbes de violation pour quantifier l’alignement de la confiance et les violations des contraintes de sécurité à différents seuils.

Faites du code de calcul des métriques un artefact partagé et versionné. Considérez toute modification des définitions de métriques comme une rupture nécessitant une exécution complète.

Protocole d’évaluation de la sécurité

Contraintes et coûts: Définissez des contraintes explicites au niveau des tâches (par exemple, limites articulaires en manipulation; limites de vitesse ou de proximité en conduite) et rapportez les coûts cumulatifs de contrainte en plus des récompenses/retours.
Boucliers et optimisation contrainte: Implémentez des filtres de sécurité comme des boucliers ou une optimisation de politique contrainte pour bloquer les actions qui violeraient les contraintes. Rapportez les déclencheurs de bouclier et les actions bloquées en tant que partie du budget de sécurité.
Courbes de violation: Balayez les seuils de confiance/pénalité pour produire des courbes de violation quantifiant les compromis entre la performance des tâches et les violations des contraintes.
Génération de scénarios d’événements rares: Utilisez des modèles de comportement/simulation formés sur des journaux pour synthétiser des contrefactuels et des événements rares pour les tests de stress. La lecture en boucle fermée dans CARLA/nuPlan ou dans des simulateurs incarnés aide à révéler les modes d’échec fragiles que les métriques en boucle ouverte manquent.

Tableaux de Comparaison

Bancs en boucle fermée et leurs forces

Banc	Idéal pour	Métriques clés	Remarques
DM Control	Contrôle efficace basé sur pixel; observabilité partielle	Retour d’épisode/succès	Standard pour RL de modèle mondial et RL de pixel avec augmentations
CARLA + Tableau	Fidélité de route de conduite et respect des règles	Complétion de route, infractions	Le tableau communautaire assure une évaluation cohérente
nuPlan	Évaluation de la conduite basée sur des objectifs	Scores longitudinaux	Complète CARLA avec des scénarios/cartes distincts
Habitat	Navigation incarnée sous POMDPs	SPL, SR	Souligne la mémoire et la cartographie
MineRL	Contrôle de long horizon et épars	Taux de succès	Souligne les besoins hiérarchiques/représentationnels

Familles de méthodes et où commencer

Famille	Là où elle excelle	Commencez ici
Modèles mondiaux prédictifs (Dreamer, PETS, MBPO)	Contrôle en temps réel, observabilité partielle, adaptation en ligne	DM Control; boucles réelles de robots; ajouter des ensembles et des augmentations
Politique de diffusion / diffusion de trajectoire	Imitation visuomotrice et RL hors ligne, actions multimodales	RLBench; planification D4RL; accélérer avec distillation/cohérence
Modèles séquentiels autorégressifs (Transformateur de Décision/Trajectoire)	Grands corpus hors ligne, conditionnement de retour/trajectoire	RL hors ligne D4RL; journaux de conduite; hybridation avec les dynamiques pour la boucle fermée
Encodeurs SSL (MAE, VideoMAE, R3M; DrQ/RAD/CURL)	Robustesse visuelle et efficacité d’échantillonnage	Préentraîner les encodeurs; appliquer des augmentations pendant le RL

Meilleures Pratiques

Bases de référence reproductibles pour ancrer les résultats

RL de modèle mondial: DreamerV3 comme une référence solide basée sur pixel avec un état de croyance récurrente; PETS/MBPO lorsque l’incertitude calibrée et les simulations à horizon court sont souhaitées.
Diffusion: Politique de Diffusion pour la manipulation visuomotrice à partir de démonstrations ou de données hors ligne; considérer la diffusion de trajectoire lors de la planification dans l’espace état-action avec des conseils de récompense/valeur.
Modèles séquentiels: Transformateur de Décision et Transformateur de Trajectoire pour les contextes lourdement hors ligne; hybridation avec des dynamiques apprises ou MPC pour la fiabilité en boucle fermée.

Utilisez des bases de code officielles ou largement reproduites et publiez des points de contrôle. Les affirmations en tête-à-tête devraient inclure un budget exact données/calcul car les comparaisons entre articles diffèrent souvent dans ces facteurs critiques.

Protocoles d’entraînement/évaluation: budgets fixes, graines, journalisation, ablations

Fixez les budgets de données et de calcul par famille d’expérience. Si une méthode utilise plus de données, mentionnez-le et ajoutez une comparaison avec un budget égalisé.
Utilisez plusieurs graines aléatoires et publiez des statistiques agrégées. Les nombres spécifiques ne sont pas standardisés ici; la cohérence entre les méthodes compte plus qu’un chiffre unique.
Enregistrez les distributions de latence de boucle de contrôle, pas seulement les moyennes. La latence détermine si les politiques sont viables dans la boucle.
Définissez des modèles d’ablation à l’avance (par exemple, avec/sans préentraînement SSL; avec/sans ensembles; avec/sans boucliers) pour isoler la contribution de chaque composant sous un budget partagé.

Profilage de latence en pratique 🔧

Mesure de boucle de contrôle: Mesurez le temps de boucle de bout en bout, y compris l’encodage d’observation, l’inférence/sélection de politique, le filtrage de sécurité et l’actionnement. Rapporte les latences au 50e/95e percentile.
Inférence par lots et mise en cache: Pour les modèles AR, mettez en cache les états clé/valeur entre les étapes de temps; pour les planificateurs en boucle fermée, réutilisez les plans partiels là où cela est possible. Pour les politiques de diffusion, sous-échantillonnez les horizons d’actions pour réduire la fréquence d’invocation.
Accélération: Appliquez une distillation progressive ou des modèles de cohérence pour réduire les étapes de diffusion à quelques débruits; combinez avec un découpage hiérarchique ou des simulations guidées par la valeur pour maintenir la cohérence à long terme à des taux d’appel plus bas.

MLOps et artefacts: gouverner tout ce qui bouge

Gouvernance des ensembles de données/versions: Stockez les manifestes avec hachages, configurations des capteurs et scripts de prétraitement. Toute modification génère une nouvelle version.
Points de contrôle et reproductibilité: Publiez les poids entraînés et les fichiers de configuration exacts. Sans eux, la vérification entre laboratoires est fragile.
Télémétrie et suivi des expériences: Conservez les métriques scalaires (y compris la sécurité et la calibration), les traces de latence et les graines d’évaluation. Étiquetez les exécutions par classe de budget et version d’environnement.
Licences et maturité de l’écosystème: Préférez les repères et bases de référence avec un soutien communautaire continu et des licences compatibles pour la sécurité critique.

Liste de vérification des rapports et des publications

Métriques: Rapporter les métriques appropriées au domaine plus les mesures de calibration/risque telles que ECE et les courbes de violation.
Sécurité: Inclure les coûts de contraintes, les interventions du bouclier, et les tests de stress d’événements rares. Documenter tous les tests OOD ou la randomisation de domaine utilisés.
Preuve en boucle fermée: Pour la conduite, associez les métriques de prévision en boucle ouverte aux résultats en boucle fermée CARLA/nuPlan. Pour la navigation et la manipulation, incluez les mesures de succès standard de RLBench/Habitat.
Reproductibilité: Publiez le code, les configurations, et les points de contrôle. Notez les budgets fixés et les graines utilisées pour toutes les ablations.
Tableaux de classement: Lors de la participation à des évaluations publiques telles que le Tableau CARLA, suivez les protocoles d’évaluation officiels pour garantir la comparabilité.

Guide Pratique par Domaine

Manipulation et contrôle

Données: Commencez avec RLBench pour le succès des tâches et D4RL pour la comparabilité RL hors ligne; préentraîner les encodeurs visuels avec MAE/VideoMAE ou R3M pour augmenter la robustesse et l’efficacité d’échantillonnage. Augmentation en ligne via DrQ/DrQ-v2 ou RAD est standard lors de l’entraînement à partir de pixels.
Modèles: Pour l’imitation/hors ligne, utilisez la Politique de Diffusion avec replanification fréquente à horizon rétrécissant; ajoutez une orientation de récompense/valeur ou des segments hiérarchiques pour les tâches plus longues. Pour le RL en ligne sous observabilité partielle, utilisez des modèles du monde latents à l’instar de Dreamer ou MBPO/PETS avec des ensembles pour capturer l’incertitude épistémique.
Métriques: Rapporter le succès des tâches et la latence; lorsque la sécurité est concernée, ajoutez les coûts de contrainte et la calibration.

Locomotion et contrôle continu

Données/bancs: Utilisez DM Control pour le contrôle basé sur pixel. Associez les modèles du monde à un MPC à horizon court ou un acteur-critique dans l’espace latent. Appliquez le préentraînement SSL pour les visuels et DrQ/RAD/CURL pour la stabilité en politique.

Données/bancs: Habitat pour la navigation en boucle fermée avec SPL/SR; MineRL pour les tâches longues et éparses qui soulignent la planification hiérarchique.
Modèles: Modèles du monde avec mémoire pour une observabilité partielle; les politiques de diffusion/AR peuvent servir de générateurs de compétences sous un planificateur de haut niveau.
Métriques: SPL/SR, succès et calibration lorsque la sécurité est pertinente.

Conduite et comportement multi-agent

Données: Entraînez sur les journaux nuScenes et Waymo Open Motion. Commencez par les métriques de prévision/comportement (minADE/minFDE, NLL, manque, collision, hors route) avant les tests en boucle fermée.
Boucle fermée: Validez avec les métriques de route/infraction de CARLA et les métriques longitudinaues de nuPlan. Utilisez des ensembles, une planification consciente de l’incertitude, et des boucliers pour la sécurité.
Événements rares: Utilisez des modèles de comportement/simulation appris pour générer des contrefactuels pour les tests de stress; validez dans CARLA/nuPlan.

Conclusion

Un benchmark crédible pour le contrôle génératif n’est pas une capture d’écran de tableau de classement — c’est un pipeline discipliné qui mappe les tâches aux données et bancs, mesure ce qui est important pour le domaine, et traite la sécurité et la reproductibilité comme des citoyens de première classe. Avec la bonne association de jeux de données (D4RL, RLBench, nuScenes/Waymo Motion), de simulateurs en boucle fermée (DM Control, CARLA/nuPlan, Habitat), et de familles de méthodes (modèles du monde, diffusion, modèles séquentiels), les équipes peuvent évaluer les progrès honnêtement et avancer plus rapidement avec moins de surprises. La calibration, l’incertitude, et la latence appartiennent à côté des taux de succès, et les publications de code/points de contrôle transforment les résultats prometteurs en actifs communautaires.

Enseignements clés:

Aligner les tâches avec l’horizon/observabilité et choisir les bancs en conséquence; combiner les métriques en boucle ouverte et fermée là où c’est approprié.
Pour les contextes de manipulation/hors ligne, les politiques de diffusion offrent un contrôle multimodale robuste; pour les contextes avec observabilité partielle et horizons longs en ligne, les modèles du monde restent le choix par défaut fiable.
Les métriques de prévision (minADE/minFDE) sont nécessaires mais pas suffisantes pour la conduite; bouclez la boucle dans CARLA/nuPlan avec les métriques de route/infraction et les moniteurs de sécurité.
La sécurité appartient au cœur du benchmark: contraintes, boucliers, courbes de violation, et tests de stress d’événements rares.
La reproductibilité est non-négociable: budgets fixes, graines, télémétrie, et points de contrôle publiés.

Prochaines étapes pour les équipes:

Mettez en place d’abord la gouvernance des ensembles de données et l’outillage métrique; intégrez ensuite les bases de référence (DreamerV3, PETS/MBPO, Politique de Diffusion, Transformer de Décision/Trajectoire) sous budgets fixes.
Ajoutez des instruments de calibration et de sécurité à travers toutes les tâches; publiez les courbes de violation aux côtés des métriques de succès.
Profilez la latence et appliquez la distillation/cohérence pour garder les piles basées sur la diffusion dans les budgets de boucle de contrôle.
Lorsque prêt, validez dans des bancs publics tels que le Tableau CARLA et partagez le code et les points de contrôle pour permettre la reproductibilité.

Sources & Références

Mastering Diverse Domains through World Models (DreamerV3) Supports world‑model RL as a strong, sample‑efficient baseline for pixel control with recurrent belief states and fast inference after training.

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models (PETS) Provides uncertainty‑aware model‑based RL with ensembles for cautious control, relevant to safety and robustness benchmarking.

Model-Based Policy Optimization (MBPO) Introduces short‑horizon model rollouts inside off‑policy RL to mitigate model bias, a key baseline for control benchmarks.

Diffusion Policy (project) Establishes diffusion policies for visuomotor manipulation from demonstrations/offline data, central to manipulation benchmarks.

Diffuser: Diffusion Models for Planning Covers trajectory diffusion and reward/value guidance for planning and offline RL benchmarking.

Decision Transformer: Reinforcement Learning via Sequence Modeling Represents autoregressive sequence modeling for offline RL with return conditioning, used as a baseline in offline benchmarks.

Trajectory Transformer Provides token‑based trajectory modeling and reward‑guided sampling, relevant to offline RL comparisons.

D4RL: Datasets for Deep Data-Driven Reinforcement Learning Defines standard offline RL datasets and tasks used across manipulation and locomotion benchmarking.

RLBench: The Robot Learning Benchmark & Dataset Supplies imitation/manipulation tasks and success metrics for evaluating visuomotor policies.

DeepMind Control Suite Provides standardized continuous control tasks for evaluating sample efficiency and pixel-based RL.

CARLA Simulator Core closed‑loop driving simulator with route/infraction metrics and a public leaderboard for standardized evaluation.

nuScenes Driving log dataset supporting forecasting metrics such as minADE/minFDE, miss rate, collision, and off‑road.

Waymo Open Motion Dataset Large‑scale driving motion dataset enabling forecasting and behavior model evaluation.

AI Habitat Embodied navigation platform with SPL/SR metrics for closed‑loop evaluation under partial observability.

MineRL Benchmark for long‑horizon, sparse tasks highlighting hierarchical control needs.

Masked Autoencoders Are Scalable Vision Learners (MAE) Provides strong self‑supervised visual features that improve robustness and sample efficiency in control stacks.

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Extends MAE to video, supporting better visual encodings for visuomotor control.

R3M: A Universal Visual Representation for Robot Manipulation Demonstrates transferable egocentric visual representations that improve manipulation policy learning from pixels.

DrQ-v2: Improved Data-Efficiency for Reinforcement Learning from Pixels Stabilizes and improves pixel-based RL via augmentations, relevant for sample efficiency benchmarking.

CURL: Contrastive Unsupervised Representations for Reinforcement Learning Shows self-supervised representation learning benefits for pixel RL, supporting robustness claims.

RAD: Reinforcement Learning with Augmented Data Presents augmentations to improve pixel-based RL training stability, informing best practices.

Consistency Models Enables few-step sampling to reduce diffusion inference latency for control loops.

Progressive Distillation for Fast Sampling of Diffusion Models Reduces diffusion sampling steps, directly relevant to latency profiling and acceleration.

On Calibration of Modern Neural Networks Introduces ECE, a calibration metric recommended for safety‑aware benchmarking.

FVD: Fréchet Video Distance Defines a standard metric for video generation quality when evaluating generative simulators.

FID: Fréchet Inception Distance Standard metric for generative image/video fidelity used when benchmarking visual synthesis.

KID: Kernel Inception Distance Alternative generative fidelity metric applicable to scene/video generation comparisons.

Constrained Policy Optimization Provides a safety‑aware RL baseline with explicit constraints, aligning with the safety evaluation protocol.

Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World Supports sim-to-real robustness tactics referenced in safety and OOD evaluation guidance.

CARLA Autonomous Driving Leaderboard Defines the public evaluation protocol and metrics for standardized closed‑loop driving comparisons.

Open X‑Embodiment (RT‑X) Offers large multi-robot datasets for pretraining generalist policies, relevant to dataset selection.

DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset Adds breadth for robot pretraining and benchmarking across diverse manipulation tasks.

nuPlan: A closed-loop autonomous driving benchmark Provides closed-loop driving evaluation with goal-based metrics complementing CARLA.

DayDreamer: World Models for Physical Robot Learning Shows real-world applicability of Dreamer-style world models, supporting guidance on online adaptation.

Évaluation comparative du contrôle génératif : Un guide pratique pour les équipes de robotique et de conduite

Évaluation Contrôle Génératif: Un Guide Pratique pour les Équipes de Robotique et de Conduite

Détails d’Architecture/Implémentation

Portée et taxonomie des tâches: adapter l’horizon et l’observabilité au domaine

Sélection et divisions d’ensembles de données

Simulateurs et bancs en boucle fermée: quand et comment utiliser chacun