ai 5 min • advanced

Perception à vocabulaire ouvert de qualité sécurité et transformateurs vidéo FP8 fixent l'agenda 2026–2028

Recherche émergente sur la diffusion à long terme, les ensembles de robustesse, le renforcement de la sécurité et les modèles BEV adaptés aux V2X

Par AI Research Team
Perception à vocabulaire ouvert de qualité sécurité et transformateurs vidéo FP8 fixent l'agenda 2026–2028

La Perception à Vocabulaire Ouvert de Qualité Sécuritaire et les Transformers Vidéo FP8 Fixent l’Agenda 2026–2028

Les transformers BEV multi-capteurs émergents dominent désormais les classements de référence tout en fonctionnant en temps réel sur les SoC automobiles de classe 2026. Les architectures de fusion qui intègrent les caméras, LiDAR et radar offrent la meilleure qualité composite de détection et de suivi, notamment dans les longues traînes et dans des conditions défavorables. Le compromis est une charge de calcul élevée: de grandes fenêtres temporelles, une attention inter-modale et des têtes d’occupation poussent la mémoire et la puissance à leurs limites. Deux axes définissent la prochaine phase. Premièrement, la détection à vocabulaire ouvert de qualité sécuritaire doit passer d’une promesse de recherche à une pratique certifiable avec une incertitude calibrée et une gestion explicite de l’OOD. Deuxièmement, les moteurs de transformers compatibles FP8 et les modèles vidéo efficaces pour le streaming doivent étendre les horizons temporels sans violer les budgets de transition de 30 à 100 ms à 10–20 Hz.

Cet article trace l’agenda de recherche et de développement pour 2026–2028 à travers six axes: la perception à vocabulaire ouvert de qualité sécuritaire; le streaming à long terme avec une puissance automobile; la standardisation de la robustesse; le renforcement de la sécurité au niveau de la perception; la perception coopérative avec des cartes dynamiques; et la trajectoire matérielle vers les transformers vidéo FP8. Les lecteurs y trouveront les modèles révolutionnaires à suivre, une feuille de route concrète avec des indicateurs de mesure de la performance (KPIs), et les risques ouverts qui pourraient ralentir le progrès ou révéler de nouvelles limites de performance.

Avancées de la Recherche

La détection à vocabulaire ouvert de qualité sécuritaire s’intègre aux architectures BEV

La perception à vocabulaire ouvert passe des démos de prototypes à la détection intégrée dans les modèles de fusion BEV. La feuille de route est claire:

  • Commencez par des caractéristiques visuelles solides, notamment DINOv2, adaptées aux scènes de conduite pour améliorer la reconnaissance des classes rares et le rappel des longues traînes.
  • Utilisez des précédents de segmentation, y compris des modèles généralistes comme Segment Anything, pour affiner les limites et alimenter les têtes d’occupation BEV avec des indices d’espace libre plus propres.
  • Faites de la sécurité un objectif de premier ordre: calibrez la confiance avec l’échelle de température ou des sorties évidentielles et validez avec l’erreur de calibration attendue (ECE) sur des segments tenus à l’écart et dans des conditions défavorables.
  • Filtrez les détections à l’aide de moniteurs OOD évalués avec des protocoles ouverts (par exemple, AUROC/AUPR sur des jeux de données d’anomalies dédiés) pour que le planificateur ne voie que des sorties fiables.

Le modèle d’intégration: faites passer les caractéristiques des caméras à travers les transformers vidéo BEV (par exemple, les familles BEVFormer/BEVDepth) et fusionnez-les avec le LiDAR/radar dans BEV (comme dans BEVFusion/TransFusion). Attachez des têtes d’occupation ou volumétriques pour améliorer la gestion des occlusions, et conditionnez les têtes de détection/suivi à la fois sur les sémantiques et l’occupation. L’effet net est un rappel plus élevé sur les catégories rares à faux positifs fixes, avec une stabilité temporelle améliorée par la mémoire de l’espace BEV. Pourtant, la maturité de vocabulaire ouvert de qualité sécuritaire reste une question ouverte; les systèmes de production doivent démontrer une incertitude calibrée et une gestion d’OOD qui tiennent sous la nuit, la pluie, et les changements de domaine avant de se fier aux sémantiques à ensemble ouvert en boucle fermée.

Perception vidéo à long terme sans exploser le budget énergétique

Les modèles temporels réduisent les changements d’identité et la fragmentation du suivi, et permettent systématiquement une détection stable plus précoce après le démarrage. L’obstacle est la mémoire: les transformers vidéo multi-caméras avec un long contexte peuvent consommer plusieurs Go lors de l’inférence. La réponse émergente combine:

  • L’attention streaming avec la mise en cache des images clés et la programmation des sauts pour maintenir le contexte tout en réduisant la longueur des séquences.
  • Le traitement parcimonieux ou centré sur la région d’intérêt pour les architectures de caméra BEV (comme exploré dans les conceptions de caméra BEV parcimonieuses/streaming) pour concentrer le calcul là où cela compte.
  • Une fusion BEV compacte et partagée qui amortit le calcul entre la détection, le suivi, l’occupation, les voies, et les éléments de trafic.

Dans le véhicule, l’objectif reste un transfert déterministe de perception à planification dans environ 30 à 100 ms à 10–30 Hz, avec un jitter borné. Les piles de fusion de capacité moyenne—distillées, élaguées, et quantifiées—atteignent environ 10–20 Hz sur les plateformes de classe Orin-/Ride pour 6–8 caméras plus un LiDAR lorsque le pipeline entier est compilé et programmé avec soin. Les plateformes de classe Thor introduisent des moteurs de transformers FP8, permettant des fenêtres temporelles plus larges ou un plus grand nombre de caméras avec une latence comparable lorsque les modèles sont conçus pour la précision mixte. Le débit réel dépend de la résolution du capteur, de la taille de la grille BEV, et du post-traitement, donc le temps d’exécution doit être mesuré de bout en bout sur les chaînes d’outils cibles.

La robustesse se normalise: intempéries/nuit, protocoles de panne de capteur, occupation à grande échelle

La fusion élève la barre dans des conditions difficiles en exploitant les complémentarités de modalité: le radar stabilise la vitesse initiale, le LiDAR ancre la géométrie, et les caméras ajoutent des sémantiques. Pour rendre la robustesse mesurable et comparable, le domaine converge sur des ensembles standardisés:

  • Segments de référence pour la nuit/pluie/brouillard pour quantifier la dégradation et la récupération.
  • Protocoles de panne de capteur—par exemple, panne de caméra, perte partielle de LiDAR, dérive de calibration—pour vérifier la dégradation progressive et le filtrage des capteurs.
  • Référentiels d’occupation/espace libre (Occ3D et successeurs) qui corrèlent avec la récupération des occlusions et la stabilité du suivi dans les pipelines BEV.

Ces ensembles doivent être accompagnés d’audits de calibration et d’OOD et exercés en boucle fermée, où les mesures de résultat incluent les taux de collision/infraction, les marges de temps de collision, et les oscillations du planificateur.

Le renforcement de la sécurité se déplace vers la couche de perception

Les patchs adversaires sur les caméras, le spoofing/injection de LiDAR, et l’interférence radar ne sont plus théoriques. La défense en profondeur commence dans l’espace BEV:

  • Les vérifications croisées entre capteurs et les filtres de cohérence temporelle détectent les pics d’un seul capteur qui sont improbables.
  • Les contraintes de plausibilité dans BEV (par exemple, un mouvement/taille impossible) suppriment les objets falsifiés.
  • La synchronisation temporelle résistante à la falsification et les détecteurs d’anomalies à l’exécution relèvent le seuil pour le spoofing sensoriel/temporel.

La sécurité doit être intégrée dans le dossier de sécurité aux côtés de la sécurité fonctionnelle (ISO 26262) et SOTIF. Les règlementations UNECE R155 et R156 ajoutent des obligations organisationnelles et techniques, y compris les mises à jour sécurisées pour les flottes en service. Les artefacts prêts pour la certification devraient couvrir les tests de robustesse, la performance en calibration/OOD, et la vérification des moniteurs—pas seulement les scores de référence statiques.

La perception coopérative et les cartes dynamiques trouvent une base pratique

La fusion consciente du V2X et les précédents de cartes dynamiques promettent une meilleure récupération des occlusions et une stabilité dans des scènes urbaines complexes. Les modèles de perception coopérative natifs BEV démontrent des modèles viables pour la fusion croisée des véhicules, tandis que les précédents de cartes apprises (par exemple, la topologie des voies vectorisée) stabilisent la détection et le suivi sous observation partielle. Le bémol pratique: tout chemin V2X doit respecter les contraintes de temps réel. Cela implique une programmation adaptative et des contraintes strictes de QoS sur la communication—les détails varient selon le déploiement, et les méthodes exactes de programmation dépendent de la charge de travail. L’opportunité immédiate est de concevoir des architectures BEV qui peuvent ingérer le contexte V2X et cartographique lorsqu’elles sont disponibles, tout en se dégradant de manière fluide lorsque les communications sont retardées ou absentes.

Matériel: les moteurs de transformers FP8 changent la conception des modèles et la compression

Deux ères SoC coexistent maintenant sur la feuille de route. Les plateformes de classe Orin-/Ride privilégient les architectures de caméra INT8 avec une fusion INT8/FP16, plus distillation agressive, élagage, parcimonie structurée, et calibration de quantification par canal. Les plateformes de classe Thor ajoutent des moteurs de transformers FP8 et un débit plus élevé des transformers, rendant des fenêtres temporelles plus grandes ou des ensembles multitâches possibles dans des enveloppes de latence similaires. Les compilateurs des vendeurs et les SDKs—TensorRT, ONNX Runtime, et TVM—sont essentiels pour atteindre la cible Hz à travers la fusion de kernels, la mise en cache, et la programmation hétérogène sur les blocs GPU/DLA/NPU. Les auteurs de modèles doivent traiter la précision mixte comme une contrainte de conception, en utilisant la formation consciente de la quantification pour éviter les déclins de précision INT8/FP8 et en allouant explicitement de la mémoire pour l’état en streaming.

Feuille de Route & Orientations Futures (2026–2028)

Ce que signifie “vocabulaire ouvert de qualité sécuritaire” en pratique

  • Intégrer les indices de vocabulaire ouvert dans la fusion BEV, et non pas comme un ajout. Les caractéristiques des caméras traversent les architectures BEV qui soutiennent déjà les têtes multitâches.
  • Démontrer la calibration de l’incertitude avec l’ECE et la vraisemblance négative sur les segments réservés et dans des conditions défavorables/nuit. Les seuils sont spécifiques au déploiement; l’essentiel est une calibration documentée sous l’ODD cible.
  • Filtrer les détections rares/en ensemble ouvert avec des moniteurs OOD, rapportant l’AUROC/AUPR sur les protocoles ouverts. Utilisez ces filtres pour déclencher des retraits sécuritaires en boucle fermée.

Un streaming à long terme qui se concrétise

  • Adopter l’attention en streaming et des plannings d’images clés/sauts qui bornent la taille de l’état, évitant les pics de mémoire dus à de longues séquences déroulées.
  • Co-concevoir la grille BEV et l’horizon temporel avec les capacités SoC. Pour la classe Orin-/Ride, cibler des modèles de capacité moyenne à 10–20 Hz; pour la classe Thor, augmenter le contexte temporel ou le nombre de caméras en FP8.
  • Distiller des enseignants temporels en étudiants compacts; compenser toute perte de quantification avec QAT et calibration.

La robustesse, la sécurité, et la perception coopérative comme KPIs de première classe

  • Standardiser les rapports de robustesse sur les segments de nuit/pluie/brouillard, les protocoles de panne de capteur, et la précision de l’occupation.
  • Intégrer le renforcement de la sécurité et les moniteurs d’exécution dans la couche de perception, et inclure leur vérification dans le paquet de certification.
  • Ajouter la perception coopérative et les cartes dynamiques de manière opportuniste, avec des contraintes claires de QoS et des voies de dégradation fluides.

Guide d’évaluation et KPIs

  • Qualité: mAP/NDS et erreurs de composant (mATE/mASE/mAOE; mAP/mAPH pour Waymo), plus des mesures temporelles (HOTA/IDF1, changements d’identité).
  • Temps d’exécution: latence de bout en bout de la perception à la planification, débit (Hz), empreinte mémoire, consommation d’énergie, et limites de jitter sur SoC.
  • Sécurité: ECE et vraisemblance négative pour la calibration; AUROC/AUPR pour l’OOD; résultats en boucle fermée (taux de collisions/infractions, marges TTC, confort) en simulation/relecture de logs.
  • Robustesse: performance sur les segments en conditions difficiles, sous perte de capteur et dérive de calibration, et précision de l’occupation/espace libre.

Expériences prioritaires pour débloquer le progrès

  • Comparer les transformers BEV streaming vs non-streaming à latence/mémoire égales, en maintenant les suites de capteurs constantes.
  • Quantifier comment les têtes d’occupation améliorent la récupération des occlusions et la stabilité du suivi lorsqu’elles sont fusionnées avec le LiDAR/radar.
  • Balayer la quantification INT8 vs FP8 sous QAT sur Orin vs Thor, en rapportant les éventuels déclins de précision et les économies de mémoire.
  • Exercer les précédents V2X/cartes en boucle fermée avec des retards de communication et des pertes de paquets, en mesurant la stabilité du planificateur et le TTC.

Comparaison compacte des techniques de prochaine vague

DomaineCe qui change 2026–2028Techniques à surveillerKPIs à suivre
Vocabulaire ouvert, qualité sécuritaireDes démos au déploiement filtré et calibréCaractéristiques DINOv2, précédents SAM, seuils validés ECE, filtres OODECE, NLL, OOD AUROC/AUPR, sécurité en boucle fermée
Vidéo à long termeContexte plus long à latence/puissance fixéeAttention streaming/parcimonieuse, compression d’état, programmation de sautsLatence de bout en bout, Hz, mémoire/puissance, HOTA/IDF1
Standardisation de la robustesseScores de robustesse comparables entre pilesSegments de nuit/pluie/brouillard, protocoles de panne de capteur, occupation de type Occ3DDeltas NDS par segment, IoU/métriques d’occupation, courbes de dégradation
Renforcement de la sécuritéLes moniteurs de perception deviennent des artefacts certifiésVérifications entre capteurs, plausibilité BEV, IDS d’exécutionTaux de réussite des attaques, taux d’alarme fausse, couverture des moniteurs
Perception coopérativePrécédents V2X/cartes utilisés lorsque disponiblesFusion de type V2X-ViT, précédents de cartes vectorisésTTC/infractions en boucle fermée avec QoS de communication
Changement matériel FP8Fenêtres temporelles plus larges sous budgetMoteurs de transformers FP8, QAT, fusion de compilateursPrécision vs. INT8/FP16, latence/Hz sur Orin/Thor

Impact & Applications

Les fusionneurs FM natifs BEV ont déjà démontré les scores composites les plus forts sur des ensembles de données largement utilisés, rétrécissant l’écart dans les configurations uniquement caméra et augmentant la robustesse sous des conditions défavorables. L’agenda 2026–2028 traduit ces gains prouvés en laboratoire dans des contraintes de production:

  • Pour les contraintes de coût/énergie de l’L2+, les modèles vidéo BEV uniquement caméra optimisés avec un pré-entraînement robuste et des précédents de profondeur délivrent une mAP sémantique compétitive à la lumière du jour. La gestion OOD et la calibration sont obligatoires pour réduire les faux positifs pertinents pour la sécurité.
  • Les piles centrées sur le LiDAR restent très efficientes et excellent dans la géométrie (translation/orientation), avec des têtes d’occupation améliorant la gestion des occlusions. Le radar ajoute une stabilité de vitesse précoce et des gains par mauvais temps.
  • Les FM à fusion complète (caméra+LiDAR±radar) offrent la meilleure précision globale et stabilité de suivi, et se dégradent avec grâce sous des pannes partielles de capteurs. La viabilité en temps réel dépend de la distillation, de l’élagage/parcimonie, et du déploiement INT8/FP8 via les chaînes d’outils des vendeurs.

L’évaluation en boucle fermée et matérielle dans la boucle est essentielle pour relier les métriques de perception aux résultats de sécurité du planificateur. La simulation photoréaliste et la relecture de logs avec mesure du bruit de perception permettent le balayage des seuils, l’injection de pannes de capteurs, la dérive de calibration, et les changements de météo/luminosité tout en suivant les collisions, les marges TTC, et le confort. La fusion temporelle réduit généralement les interventions du planificateur causées par la fragmentation des pistes ou les détections manquées; toute perte induite par la quantification doit être atténuée avec la distillation et la calibration pour préserver ces marges de sécurité en boucle fermée. 🛡️

Les évolutions matérielles remodeleront la conception des modèles. Les déploiements de classe Orin devraient privilégier des fusions BEV de capacité moyenne distillées en étudiants INT8 avec parcimonie structurée et compilation fusionnée de kernels. Les plateformes de classe Thor invitent des conceptions de transformers en FP8 qui étendent le contexte temporel ou l’ampleur des tâches dans des budgets de latence similaires. À travers les deux, la précision mixte et la planification de l’état en streaming deviennent des contraintes de conception, non des distractions.

Conclusion

La perception à vocabulaire ouvert de qualité sécuritaire et les transformers vidéo prêts pour FP8 définiront la prochaine phase de la perception autonome. Le fil conducteur est un génie rigoureux: incertitude calibrée et filtres OOD, fusion BEV efficace pour le streaming qui respecte les budgets en temps réel, validation standardisée de la robustesse et de la sécurité, et preuves en boucle fermée qui lient la qualité de perception à des plans plus sûrs. Les FM de fusion ont déjà augmenté la précision et la stabilité; la tâche 2026–2028 est de les renforcer et de les mettre à l’échelle sans tomber des falaises de quantification ou de mémoire—et de le faire sur les vrais SoC qui seront expédiés.

Points clés à retenir:

  • Intégrer les indices de vocabulaire ouvert dans les architectures BEV avec une calibration explicite et des filtres OOD avant de se fier à eux en boucle fermée.
  • Utiliser l’attention streaming/parcimonieuse, la compression d’état, et des architectures BEV partagées pour étendre les horizons temporels sous une latence/puissance fixée.
  • Standardiser les tests de robustesse et de sécurité, y compris les protocoles de panne de capteur et la vérification des moniteurs d’exécution.
  • Prévoir la précision mixte: INT8 sur classe Orin, FP8 sur classe Thor, avec QAT et fusion de kernels pilotée par le compilateur.
  • Évaluer de bout en bout avec simulation/relecture de logs pour connecter les métriques de perception aux résultats de sécurité.

Prochaines étapes pour les équipes: mettre en place une base de fusion BEV augmentée en occupation; ajouter la calibration et l’évaluation OOD à la pipeline CI; compiler et programmer l’ensemble du pipeline avec les chaînes d’outils des vendeurs; quantifier la sécurité en boucle fermée avec balayage des seuils; et prototyper des modèles temporels compatibles FP8 pour le matériel de classe Thor. Attendez-vous à une itération rapide: les gagnants expédieront une perception calibrée, efficace en streaming qui tient la route sous la pluie, la nuit, et sous les défauts de capteur—sans manquer un battement sur l’horloge en temps réel.

Sources & Références

www.nuscenes.org
nuScenes Establishes multi-sensor benchmarks and metrics (mAP, NDS, mATE/mASE/mAOE) and adverse-condition slices referenced throughout the article.
waymo.com
Waymo Open Dataset Provides large-scale LiDAR/camera data, Waymo metrics (mAP/mAPH), tracking protocols, and supports closed-loop evaluation context.
github.com
Occ3D Benchmark Supports the article’s emphasis on occupancy/free-space estimation as a robustness and occlusion-handling KPI in BEV pipelines.
arxiv.org
BEVFormer (ECCV 2022) Represents camera-centric BEV video transformers used as backbones in the discussed fusion pipelines.
arxiv.org
BEVDepth Illustrates depth-enhanced camera BEV approaches that feed BEV backbones referenced in the article.
arxiv.org
TransFusion (CVPR 2022) A representative BEV fusion FM for camera+LiDAR used to support claims about fusion benefits.
arxiv.org
BEVFusion Key example of BEV-level multi-sensor fusion with occupancy and multi-task heads discussed as a top-performing approach.
arxiv.org
VoxelNeXt Represents modern LiDAR detectors and informs comparisons on localization (mATE/mASE) and temporal aggregation.
arxiv.org
CenterPoint Baseline LiDAR detection architecture used for quality and efficiency comparisons against fusion FMs.
arxiv.org
HOTA Metric Provides the temporal tracking metric referenced for stability (HOTA/IDF1) in streaming BEV transformers.
github.com
Waymax Enables log-replay closed-loop evaluation for connecting perception metrics to planner safety outcomes.
carla.org
CARLA Simulator Supports photorealistic closed-loop testing with controllable weather/lighting and full sensor suites.
www.nvidia.com
NVIDIA DRIVE Orin Details SoC capabilities aligned with INT8/FP16 deployment and real-time budgets discussed for 2026-class platforms.
www.nvidia.com
NVIDIA DRIVE Thor Confirms FP8 Transformer Engine support and higher transformer throughput shaping model design in 2026–2028.
www.qualcomm.com
Qualcomm Snapdragon Ride Represents alternative SoC platform class and real-time deployment context for compact BEV video transformers and fusion.
www.qualcomm.com
Qualcomm Snapdragon Ride Flex Supports claims about mixed-criticality consolidation and real-time OS alignment for deployment scheduling.
www.mobileye.com
Mobileye EyeQ Ultra Highlights high-integration AD/ADAS compute relevant to camera-dominant BEV stacks with map priors.
developer.nvidia.com
NVIDIA TensorRT Validates the role of vendor compilers for mixed precision, kernel fusion, and achieving on-SoC real-time rates.
onnxruntime.ai
ONNX Runtime Supports the compilation/deployment toolchain claims for achieving target latency/Hz on automotive SoCs.
tvm.apache.org
Apache TVM Reinforces the need for compiler-based acceleration for streaming transformers on heterogenous accelerators.
www.iso.org
ISO 26262 Overview Defines functional safety processes that guide evidence and certification artifacts mentioned in the article.
www.iso.org
ISO/PAS 21448 (SOTIF) Frames the requirement to demonstrate safe behavior under performance limitations (relevant to ML perception).
unece.org
UNECE R155 (Cybersecurity) Supports the security-hardening and organizational requirements for in-service fleets noted in the article.
unece.org
UNECE R156 (Software Updates) Confirms secure update processes as part of the safety/cybersecurity case.
arxiv.org
DINOv2 Backs the use of strong visual foundation backbones to improve long-tail and open-vocabulary recognition.
arxiv.org
Segment Anything Supports the claim that segmentation priors help delineate object boundaries and free space feeding BEV occupancy.
fishyscapes.com
Fishyscapes (OOD) Provides open-set/OOD evaluation context for gating detections in safety-grade perception.
arxiv.org
V2X-ViT (Cooperative Perception) Illustrates BEV-native cooperative perception and informs the article’s V2X fusion discussion.
arxiv.org
VectorMapNet Supports integration of vectorized map priors into BEV models for stability in complex scenes.
arxiv.org
SparseBEV Represents sparse camera BEV approaches relevant to streaming/sparse attention for compute efficiency.
arxiv.org
StreamPETR Provides a concrete example of streaming camera BEV design aimed at temporal efficiency.

Advertisement