Évaluation Contrôle Génératif: Un Guide Pratique pour les Équipes de Robotique et de Conduite
Le contrôle génératif est passé de démonstrations astucieuses à une infrastructure centrale pour les robots, les agents incarnés et la conduite autonome. Les équipes se posent maintenant une question pratique: comment évaluer ces systèmes équitablement et de manière reproductible dans les domaines de la manipulation, de la locomotion, de la navigation et de la conduite, tout en tenant compte de l’observabilité partielle, des horizons longs et des contraintes strictes de sécurité? La réponse n’est pas un simple métrique ou un ensemble de données, mais un pipeline disciplinaire qui aligne la taxonomie des tâches, les données, les simulateurs, les métriques, les tests de sécurité, les bases de référence et le MLOps dès le départ.
Ce guide définit un cheminement étape par étape pour mettre en place une pile d’évaluation robuste et reproductible. Il définit le périmètre et les horizons par domaine, sélectionne des ensembles de données et des bancs d’essai en boucle fermée correspondant à ces périmètres, énumère les métriques importantes (du succès/retour et SPL à minADE/minFDE et la calibration), et prescrit un protocole d’évaluation de la sécurité basé sur des contraintes, des filtres, des courbes de violation et la génération d’événements rares. Il se termine par des conseils concrets sur les bases de référence, la discipline d’entraînement/évaluation, le profilage de la latence et l’hygiène des versions, de sorte que les résultats tiennent le coup à travers les laboratoires et les tableaux de classement.
Détails d’Architecture/Implémentation
Portée et taxonomie des tâches: adapter l’horizon et l’observabilité au domaine
- Manipulation (horizons courts à moyens, observabilité partielle): La replanification fréquente en boucle fermée et la robustesse à la multimodalité sont essentielles. Les politiques de diffusion excellent dans les réglages d’imitation/hors ligne avec des dynamiques riches en contact et des encodeurs visuels puissants; les modèles du monde sont préférés pour l’adaptation en ligne sous observabilité partielle et incertitude.
- Locomotion et contrôle continu (horizons moyens, observations par pixel): Les modèles du monde latents avec MPC à horizon court ou acteur-critique dans l’espace latent offrent un entraînement efficace en échantillons et une inférence rapide après l’entraînement.
- Navigation/incarnation (horizons moyens à longs, POMDPs): Les modèles du monde avec mémoire couplés à des encodeurs visuels SSL puissants et des métriques de navigation standard (SPL/SR) restent un défaut solide.
- Conduite (horizons longs, multi-agents, sécurité critique): La modélisation du comportement hors ligne et la prévision sur de grands journaux alimentent les planificateurs en boucle fermée testés dans des simulateurs de conduite avec des métriques de route/infraction et de sécurité; les ensembles et les boucliers conscients de l’incertitude sont nécessaires pour la gestion des risques.
Une cartographie pratique ressemble à ceci:
| Domaine | Horizon & Observabilité | Données Principales | Test en Boucle Fermée | Familles de Modèles Recommandées |
|---|---|---|---|---|
| Manipulation | Court à moyen; partielle | RLBench; D4RL Franka Kitchen; corpus multi-robots pour l’entraînement préalable | Tâches RLBench | Politiques de diffusion pour imitation/hors ligne; Dreamer/MBPO/PETS pour RL en ligne |
| Locomotion/Contrôle | Moyen; pixels | Locomotion D4RL; DM Control | Suite DM Control | Dreamer/MBPO/PETS + DrQ/RAD/CURL |
| Navigation/Incarnation | Moyen à long; POMDP | Ensembles de données Habitat | Habitat (SPL/SR) | Modèles du monde + encodeurs SSL |
| Conduite | Long; multi-agent | nuScenes, Waymo Open Motion | CARLA/Tableau, nuPlan | Prévision + modèles du monde/comportement; planificateurs hybrides |
Sélection et divisions d’ensembles de données
- Robots/manipulation: Utilisez les tâches D4RL pour la comparabilité RL hors ligne et RLBench pour les taux de succès d’imitation/manipulation. Pour l’entraînement préalable à grande échelle, des corpus multi-robots tels que Open X-Embodiment/RT-X et DROID offrent une large couverture pour des politiques visuomotrices généralistes.
- Conduite: Entraînez les modèles de comportement et de prévision sur les journaux nuScenes et Waymo Open Motion. Ceux-ci soutiennent minADE/minFDE, NLL, collision/hors route, et les taux de manque - puis transitionnez vers des planificateurs en boucle fermée testés dans CARLA et nuPlan.
Pratique d’implémentation:
- Établissez des divisions fixes app/examen/test par ensemble de données avec des mélanges plantés et des manifestes immuables. Verrouillez un budget de données par famille d’expérience pour éviter la sélection silencieuse.
- Pour les transitions hors ligne-en ligne, notez quel sous-ensemble est utilisé pour l’entraînement préalable et quelle partie est réservée strictement pour l’évaluation.
- Maintenez les versions des ensembles de données et les hachages immuables pour garantir la possibilité de vérification à travers les ablations.
Simulateurs et bancs en boucle fermée: quand et comment utiliser chacun
- DM Control: Contrôle continu basé sur pixel avec des tâches standardisées; idéal pour tester l’efficacité d’échantillonnage et le contrôle à faible latence sous observabilité partielle.
- CARLA + Tableau: Score basé sur la complétion de route et l’infraction pour la conduite autonome; testez la robustesse des planifications en boucle fermée et des piles de bout en bout. Utilisez l’infrastructure officielle du Tableau pour des comparaisons équitables.
- nuPlan: Évaluation de la conduite fermée orientée objectifs avec scores longitudinaux, complémentaire à CARLA dans les cartes et métriques.
- Habitat: Navigation incarnée avec SPL (Succès pondéré par Longueur de Chemin) et taux de succès; conçu pour les POMDPs avec exigences de mémoire.
- MineRL: Tâches longues et éparses qui exposent les défis d’exploration et les besoins de contrôle hiérarchique.
Utilisez les simulateurs pour valider la robustesse en boucle fermée sous changement de distribution et pour rejouer des scénarios rares ou adversariaux. Pour la conduite, combinez les métriques de journaux en boucle ouverte (minADE/minFDE, collision/hors route) avec les métriques de route/infraction en boucle fermée avant toute affirmation de déployabilité.
Les métriques qui comptent: choisir selon le domaine et le mode d’échec
- Robotique/contrôle: Succès/retour pour DM Control et manipulation; latence et contraintes de sécurité lorsque pertinente.
- Prévision/modélisation du comportement: minADE/minFDE, NLL, taux de manque, taux de collision, et taux hors route sur nuScenes/Waymo Motion.
- Conduite en boucle fermée: Complétion de route et score d’infraction CARLA; métriques longitudinales basées sur des objectifs de nuPlan.
- Navigation incarnée: SPL et SR dans Habitat.
- Fidélité générative: FVD/FID/KID pour la génération de vidéos/scènes; à utiliser lors de l’évaluation des simulateurs génératifs ou de la qualité des résultats visuels.
- Calibration et risque: Erreur de Calibration Attendue (ECE) et courbes de violation pour quantifier l’alignement de la confiance et les violations des contraintes de sécurité à différents seuils.
Faites du code de calcul des métriques un artefact partagé et versionné. Considérez toute modification des définitions de métriques comme une rupture nécessitant une exécution complète.
Protocole d’évaluation de la sécurité
- Contraintes et coûts: Définissez des contraintes explicites au niveau des tâches (par exemple, limites articulaires en manipulation; limites de vitesse ou de proximité en conduite) et rapportez les coûts cumulatifs de contrainte en plus des récompenses/retours.
- Boucliers et optimisation contrainte: Implémentez des filtres de sécurité comme des boucliers ou une optimisation de politique contrainte pour bloquer les actions qui violeraient les contraintes. Rapportez les déclencheurs de bouclier et les actions bloquées en tant que partie du budget de sécurité.
- Courbes de violation: Balayez les seuils de confiance/pénalité pour produire des courbes de violation quantifiant les compromis entre la performance des tâches et les violations des contraintes.
- Génération de scénarios d’événements rares: Utilisez des modèles de comportement/simulation formés sur des journaux pour synthétiser des contrefactuels et des événements rares pour les tests de stress. La lecture en boucle fermée dans CARLA/nuPlan ou dans des simulateurs incarnés aide à révéler les modes d’échec fragiles que les métriques en boucle ouverte manquent.
Tableaux de Comparaison
Bancs en boucle fermée et leurs forces
| Banc | Idéal pour | Métriques clés | Remarques |
|---|---|---|---|
| DM Control | Contrôle efficace basé sur pixel; observabilité partielle | Retour d’épisode/succès | Standard pour RL de modèle mondial et RL de pixel avec augmentations |
| CARLA + Tableau | Fidélité de route de conduite et respect des règles | Complétion de route, infractions | Le tableau communautaire assure une évaluation cohérente |
| nuPlan | Évaluation de la conduite basée sur des objectifs | Scores longitudinaux | Complète CARLA avec des scénarios/cartes distincts |
| Habitat | Navigation incarnée sous POMDPs | SPL, SR | Souligne la mémoire et la cartographie |
| MineRL | Contrôle de long horizon et épars | Taux de succès | Souligne les besoins hiérarchiques/représentationnels |
Familles de méthodes et où commencer
| Famille | Là où elle excelle | Commencez ici |
|---|---|---|
| Modèles mondiaux prédictifs (Dreamer, PETS, MBPO) | Contrôle en temps réel, observabilité partielle, adaptation en ligne | DM Control; boucles réelles de robots; ajouter des ensembles et des augmentations |
| Politique de diffusion / diffusion de trajectoire | Imitation visuomotrice et RL hors ligne, actions multimodales | RLBench; planification D4RL; accélérer avec distillation/cohérence |
| Modèles séquentiels autorégressifs (Transformateur de Décision/Trajectoire) | Grands corpus hors ligne, conditionnement de retour/trajectoire | RL hors ligne D4RL; journaux de conduite; hybridation avec les dynamiques pour la boucle fermée |
| Encodeurs SSL (MAE, VideoMAE, R3M; DrQ/RAD/CURL) | Robustesse visuelle et efficacité d’échantillonnage | Préentraîner les encodeurs; appliquer des augmentations pendant le RL |
Meilleures Pratiques
Bases de référence reproductibles pour ancrer les résultats
- RL de modèle mondial: DreamerV3 comme une référence solide basée sur pixel avec un état de croyance récurrente; PETS/MBPO lorsque l’incertitude calibrée et les simulations à horizon court sont souhaitées.
- Diffusion: Politique de Diffusion pour la manipulation visuomotrice à partir de démonstrations ou de données hors ligne; considérer la diffusion de trajectoire lors de la planification dans l’espace état-action avec des conseils de récompense/valeur.
- Modèles séquentiels: Transformateur de Décision et Transformateur de Trajectoire pour les contextes lourdement hors ligne; hybridation avec des dynamiques apprises ou MPC pour la fiabilité en boucle fermée.
Utilisez des bases de code officielles ou largement reproduites et publiez des points de contrôle. Les affirmations en tête-à-tête devraient inclure un budget exact données/calcul car les comparaisons entre articles diffèrent souvent dans ces facteurs critiques.
Protocoles d’entraînement/évaluation: budgets fixes, graines, journalisation, ablations
- Fixez les budgets de données et de calcul par famille d’expérience. Si une méthode utilise plus de données, mentionnez-le et ajoutez une comparaison avec un budget égalisé.
- Utilisez plusieurs graines aléatoires et publiez des statistiques agrégées. Les nombres spécifiques ne sont pas standardisés ici; la cohérence entre les méthodes compte plus qu’un chiffre unique.
- Enregistrez les distributions de latence de boucle de contrôle, pas seulement les moyennes. La latence détermine si les politiques sont viables dans la boucle.
- Définissez des modèles d’ablation à l’avance (par exemple, avec/sans préentraînement SSL; avec/sans ensembles; avec/sans boucliers) pour isoler la contribution de chaque composant sous un budget partagé.
Profilage de latence en pratique 🔧
- Mesure de boucle de contrôle: Mesurez le temps de boucle de bout en bout, y compris l’encodage d’observation, l’inférence/sélection de politique, le filtrage de sécurité et l’actionnement. Rapporte les latences au 50e/95e percentile.
- Inférence par lots et mise en cache: Pour les modèles AR, mettez en cache les états clé/valeur entre les étapes de temps; pour les planificateurs en boucle fermée, réutilisez les plans partiels là où cela est possible. Pour les politiques de diffusion, sous-échantillonnez les horizons d’actions pour réduire la fréquence d’invocation.
- Accélération: Appliquez une distillation progressive ou des modèles de cohérence pour réduire les étapes de diffusion à quelques débruits; combinez avec un découpage hiérarchique ou des simulations guidées par la valeur pour maintenir la cohérence à long terme à des taux d’appel plus bas.
MLOps et artefacts: gouverner tout ce qui bouge
- Gouvernance des ensembles de données/versions: Stockez les manifestes avec hachages, configurations des capteurs et scripts de prétraitement. Toute modification génère une nouvelle version.
- Points de contrôle et reproductibilité: Publiez les poids entraînés et les fichiers de configuration exacts. Sans eux, la vérification entre laboratoires est fragile.
- Télémétrie et suivi des expériences: Conservez les métriques scalaires (y compris la sécurité et la calibration), les traces de latence et les graines d’évaluation. Étiquetez les exécutions par classe de budget et version d’environnement.
- Licences et maturité de l’écosystème: Préférez les repères et bases de référence avec un soutien communautaire continu et des licences compatibles pour la sécurité critique.
Liste de vérification des rapports et des publications
- Métriques: Rapporter les métriques appropriées au domaine plus les mesures de calibration/risque telles que ECE et les courbes de violation.
- Sécurité: Inclure les coûts de contraintes, les interventions du bouclier, et les tests de stress d’événements rares. Documenter tous les tests OOD ou la randomisation de domaine utilisés.
- Preuve en boucle fermée: Pour la conduite, associez les métriques de prévision en boucle ouverte aux résultats en boucle fermée CARLA/nuPlan. Pour la navigation et la manipulation, incluez les mesures de succès standard de RLBench/Habitat.
- Reproductibilité: Publiez le code, les configurations, et les points de contrôle. Notez les budgets fixés et les graines utilisées pour toutes les ablations.
- Tableaux de classement: Lors de la participation à des évaluations publiques telles que le Tableau CARLA, suivez les protocoles d’évaluation officiels pour garantir la comparabilité.
Guide Pratique par Domaine
Manipulation et contrôle
- Données: Commencez avec RLBench pour le succès des tâches et D4RL pour la comparabilité RL hors ligne; préentraîner les encodeurs visuels avec MAE/VideoMAE ou R3M pour augmenter la robustesse et l’efficacité d’échantillonnage. Augmentation en ligne via DrQ/DrQ-v2 ou RAD est standard lors de l’entraînement à partir de pixels.
- Modèles: Pour l’imitation/hors ligne, utilisez la Politique de Diffusion avec replanification fréquente à horizon rétrécissant; ajoutez une orientation de récompense/valeur ou des segments hiérarchiques pour les tâches plus longues. Pour le RL en ligne sous observabilité partielle, utilisez des modèles du monde latents à l’instar de Dreamer ou MBPO/PETS avec des ensembles pour capturer l’incertitude épistémique.
- Métriques: Rapporter le succès des tâches et la latence; lorsque la sécurité est concernée, ajoutez les coûts de contrainte et la calibration.
Locomotion et contrôle continu
- Données/bancs: Utilisez DM Control pour le contrôle basé sur pixel. Associez les modèles du monde à un MPC à horizon court ou un acteur-critique dans l’espace latent. Appliquez le préentraînement SSL pour les visuels et DrQ/RAD/CURL pour la stabilité en politique.
Navigation et agents incarnés
- Données/bancs: Habitat pour la navigation en boucle fermée avec SPL/SR; MineRL pour les tâches longues et éparses qui soulignent la planification hiérarchique.
- Modèles: Modèles du monde avec mémoire pour une observabilité partielle; les politiques de diffusion/AR peuvent servir de générateurs de compétences sous un planificateur de haut niveau.
- Métriques: SPL/SR, succès et calibration lorsque la sécurité est pertinente.
Conduite et comportement multi-agent
- Données: Entraînez sur les journaux nuScenes et Waymo Open Motion. Commencez par les métriques de prévision/comportement (minADE/minFDE, NLL, manque, collision, hors route) avant les tests en boucle fermée.
- Boucle fermée: Validez avec les métriques de route/infraction de CARLA et les métriques longitudinaues de nuPlan. Utilisez des ensembles, une planification consciente de l’incertitude, et des boucliers pour la sécurité.
- Événements rares: Utilisez des modèles de comportement/simulation appris pour générer des contrefactuels pour les tests de stress; validez dans CARLA/nuPlan.
Conclusion
Un benchmark crédible pour le contrôle génératif n’est pas une capture d’écran de tableau de classement — c’est un pipeline discipliné qui mappe les tâches aux données et bancs, mesure ce qui est important pour le domaine, et traite la sécurité et la reproductibilité comme des citoyens de première classe. Avec la bonne association de jeux de données (D4RL, RLBench, nuScenes/Waymo Motion), de simulateurs en boucle fermée (DM Control, CARLA/nuPlan, Habitat), et de familles de méthodes (modèles du monde, diffusion, modèles séquentiels), les équipes peuvent évaluer les progrès honnêtement et avancer plus rapidement avec moins de surprises. La calibration, l’incertitude, et la latence appartiennent à côté des taux de succès, et les publications de code/points de contrôle transforment les résultats prometteurs en actifs communautaires.
Enseignements clés:
- Aligner les tâches avec l’horizon/observabilité et choisir les bancs en conséquence; combiner les métriques en boucle ouverte et fermée là où c’est approprié.
- Pour les contextes de manipulation/hors ligne, les politiques de diffusion offrent un contrôle multimodale robuste; pour les contextes avec observabilité partielle et horizons longs en ligne, les modèles du monde restent le choix par défaut fiable.
- Les métriques de prévision (minADE/minFDE) sont nécessaires mais pas suffisantes pour la conduite; bouclez la boucle dans CARLA/nuPlan avec les métriques de route/infraction et les moniteurs de sécurité.
- La sécurité appartient au cœur du benchmark: contraintes, boucliers, courbes de violation, et tests de stress d’événements rares.
- La reproductibilité est non-négociable: budgets fixes, graines, télémétrie, et points de contrôle publiés.
Prochaines étapes pour les équipes:
- Mettez en place d’abord la gouvernance des ensembles de données et l’outillage métrique; intégrez ensuite les bases de référence (DreamerV3, PETS/MBPO, Politique de Diffusion, Transformer de Décision/Trajectoire) sous budgets fixes.
- Ajoutez des instruments de calibration et de sécurité à travers toutes les tâches; publiez les courbes de violation aux côtés des métriques de succès.
- Profilez la latence et appliquez la distillation/cohérence pour garder les piles basées sur la diffusion dans les budgets de boucle de contrôle.
- Lorsque prêt, validez dans des bancs publics tels que le Tableau CARLA et partagez le code et les points de contrôle pour permettre la reproductibilité.