hardware 6 min • intermediate

La bande passante Blackwell GDDR7 propulse l'entraînement du RTX 5090 à 44 % de plus que le RTX 4090

Une exploration approfondie des systèmes de mémoire, des voies de précision tensorielle et de l'ère du PCIe qui déterminent la performance de l'entraînement AI sur les stations de travail

Par AI Research Team
La bande passante Blackwell GDDR7 propulse l'entraînement du RTX 5090 à 44 % de plus que le RTX 4090

La bande passante Blackwell GDDR7 augmente l’entraînement du RTX 5090 de 44 % par rapport au RTX 4090

Un signal clair est apparu lors de formations complètes et transparentes en vision par ordinateur: la GeForce RTX 5090 offre environ 44 % de débit en plus que le RTX 4090 en moyenne sur divers modèles, avec les plus grands gains dans les architectures axées sur les transformateurs. Cette augmentation n’est pas un mystère: la bande passante de 1.792 To/s du GDDR7 de Blackwell et les Tensor Cores de cinquième génération changent l’équilibre des pouvoirs dans les phases limitées par la mémoire des boucles de formation modernes. Avec le BF16 toujours comme valeur par défaut pour une formation robuste et les chemins FP8 devenant matures dans les frameworks, l’écart de formation sur station de travail entre Ada et Blackwell est désormais aussi défini par les systèmes de mémoire que par le calcul brut.

Cet article montre comment la bande passante mémoire, les chemins de précision tensorielle et l’échelle de l’époque PCIe déterminent l’entraînement réel de l’IA sur les stations de travail. Vous apprendrez quels éléments architecturaux comptent le plus, pourquoi Blackwell accélère les transformateurs au-delà de ce que les FLOPS suggèrent, comment le Gen 5 de PCIe change le calcul (et où il ne le fait pas), et comment mesurer de manière crédible les performances soutenues/W. Nous conclurons par une réflexion pratique: où le RTX 5090 et le RTX PRO 5000 mènent aujourd’hui — et où le Hopper SXM avec NVLink/NVSwitch continue de dominer.

Les bases de l’architecture et du flux de données qui comptent pour la formation

La performance des formations de transformateur et de vision est de plus en plus régie par le mouvement, la disposition et la précision des tenseurs—à l’intérieur et à l’extérieur du GPU. Les ingrédients critiques:

flowchart TD;
 A[GeForce RTX 5090] -->|Bus 512 bits| B[32 Go GDDR7];
 B -->|1.792 To/s| C[Noyaux limités par la mémoire];
 D[RTX PRO 5000] -->|48 Go / 72 Go| E[GDDR7 ECC];
 E -->|1.344 To/s| C;
 F[RTX 6000 Ada] -->|48 Go GDDR6 ECC| C;
 C -->|Longueurs de séquence plus élevées| G[Lots globaux];

Diagramme illustrant l’architecture et le flux de données de divers modèles de GPU et leur impact sur la performance tensorielle dans les tâches de formation. Il met en avant les capacités et les bandes passantes mémoires du RTX 5090, du RTX PRO 5000, et du RTX 6000 Ada, en se concentrant sur leurs rôles dans les noyaux limités par la mémoire et le traitement des lots globaux.

  • Hiérarchie et bande passante mémoire

  • La GeForce RTX 5090 associe 32 Go de GDDR7 sur un bus de 512 bits avec 1.792 To/s de bande passante, un changement majeur par rapport aux précédentes cartes grand public. Cette bande passante est le point fort pour les noyaux limités par la mémoire, notamment les chemins attention et normalisation/activation des couches où les lectures dominent.

  • Le RTX PRO 5000 (Blackwell) propose des configurations de 48 Go et 72 Go avec GDDR7 ECC. Le modèle de 48 Go affiche ~1.344 To/s—substantiellement plus élevé que la classe 960 Go/s du RTX 6000 Ada et un facteur décisif pour des lots globaux par GPU plus grands à des longueurs de séquence plus élevées.

  • Les pièces de station de travail Ada comme le RTX 6000 Ada conservent 48 Go de GDDR6 ECC à 960 Go/s. Elles restent des plateformes de formation robustes, mais moins capables d’alimenter les cœurs tensoriels lors des phases sensibles à la bande passante par rapport à Blackwell.

  • Chemins de précision tensorielle

  • Les Tensor Cores de quatrième génération (Ada) accélèrent BF16/FP16/TF32. Le messagerie FP8 existe sur certains SKU de centre de données Ada (par ex., L40S), mais le Ada grand public n’a pas largement exposé un chemin de formation FP8.

  • Blackwell ajoute des Tensor Cores de cinquième génération et un moteur de transformateur de deuxième génération (TE) avec un support matériel pour les modes FP8 et nouveaux FP4/FP6. Le BF16 reste la valeur par défaut pour une convergence robuste sur les modèles, tandis que le TE FP8 peut réduire la mémoire et augmenter le débit sur les transformateurs à mesure que les noyaux et frameworks l’intègrent. Le FP4 est prometteur pour l’inférence et certains ajustements fins, mais il est encore au début dans les piles de formation grand public.

  • Fiabilité et ECC

  • Le GDDR7 met en œuvre un ECC toujours activé sur die de DRAM (correction d’un bit). Les cartes professionnelles Blackwell ajoutent un ECC de bout en bout adapté à la fiabilité des stations de travail. Cette distinction est importante lorsque la formation de longue durée doit être vérifiable et tolérante aux erreurs.

  • Capacité et états de l’optimisateur

  • La mémoire de formation est répartie entre les paramètres, les états de l’optimisateur et les activations (plus les caches KV pour les transformateurs). Sans partitionnement, les modèles de paramètres complets 7B en BF16 peuvent approcher 40–50 Go à des contextes modérés—au-delà de la zone de confort stable des cartes de 24–32 Go. Le point de contrôle des gradients, le partitionnement ZeRO/FSDP et les noyaux d’attention économes en mémoire (par ex., FlashAttention‑2) sont des techniques cruciales—en particulier pour les contextes 2k/4k/8k.

En résumé: les chemins de bande passante et précision définissent le plafond; la capacité et les noyaux économes en mémoire définissent ce que vous pouvez y loger.

Bande passante, cores tensoriels, et pourquoi Blackwell accélère la formation axée sur les transformateurs

La formation des transformateurs n’est pas une charge de travail unique; c’est un pipeline de phases avec différents goulots d’étranglement. Blackwell déplace plusieurs phases vers un régime plus favorable:

flowchart TD;
 A[Formation des Transformateurs] --> B[Mémoire d'activation de l'attention];
 B --> C[Bande passante du GDDR7];
 B --> D[Cores tensoriels améliorés];
 B --> E[FlashAttention-2];
 A --> F[Précision mixte et TE];
 F --> G[Précision mixte BF16];
 C --> H[Temps d'attente réduits];
 D --> I[Pipelines mathématiques alimentés];
 E --> J[Utilisation mémoire réduite];

Un organigramme illustrant les composantes de la formation des transformateurs et comment Blackwell en améliore l’efficacité grâce à une bande passante améliorée, des cores tensoriels et une gestion de la mémoire.

  • Mémoire d’activation de l’attention

  • À des contextes plus longs, l’attention est souvent limitée par la mémoire. La bande passante du GDDR7 réduit matériellement le temps passé à attendre les lectures/écritures, tandis que les cores tensoriels améliorés maintiennent les pipelines mathématiques alimentés. FlashAttention‑2 réduit la mémoire d’attention, ce qui accentue le bénéfice.

  • Les tests d’inférence indépendants sur Blackwell montrent une forte augmentation de la génération de tokens par rapport à Ada avec la même quantification. La formation ne peut être déduite directement des taux d’inférence, mais les deux exposent la même sensibilité à la bande passante mémoire et à l’efficacité des noyaux d’attention.

  • Précision mixte et TE

  • La précision mixte BF16 reste la valeur par défaut la plus robuste pour la formation sur Ada, Blackwell et Hopper. Lorsque les frameworks activent largement le TE FP8 sur Blackwell, attendez-vous à des gains supplémentaires de mémoire et de débit pour les transformateurs—similaire en esprit au chemin FP8 de Hopper.

  • Le FP4 divise la taille encore par deux par rapport au FP8 et s’avère prometteur pour l’inférence et certains ajustements adaptés de style adaptateur, mais le support de formation général est encore peu développé dans les outils grand public.

  • Signal concret de formation sur un seul GPU

  • La formation en vision par ordinateur de bout en bout (modèles timm sous PyTorch 2.6 en version préliminaire + CUDA 12.8) a enregistré une augmentation de débit moyen d’environ 44 % pour le RTX 5090 par rapport au RTX 4090, avec de plus grands gains sur les architectures axées sur les transformateurs en FP16. Le Swin-B a vu une augmentation relative marquée par rapport aux CNN classiques tels que le ResNet-50, qui ont tout de même connu une amélioration mais étaient moins limités par la bande passante.

  • Ce 44 % n’est pas une valeur synthétique; il reflète un PyTorch compilé, une formation en précision mixte, et des tailles de lots contrôlées. Le schéma est sans ambiguïté: plus la boucle de formation d’un modèle stresse la circulation mémoire et les cores tensoriels ensemble, plus l’avantage de Blackwell est grand.

  • La capacité compte pour la longueur de la séquence et le batch

  • Les 32 Go du RTX 5090 augmentent les tailles de batchs possibles et les fenêtres de contexte pour les ajustements fins par rapport aux cartes de 24 Go. Pour les 7B de paramètres complets à 2k–4k, le point de contrôle des gradients plus le partitionnement de l’optimisateur est généralement requis sur les GPU de 24–32 Go; les 13B nécessitent un partitionnement et une accumulation plus sévères dans cette classe.

  • Le RTX PRO 5000 avec 48/72 Go est l’optimum pour les ajustements fins complets de paramètres 13B à des contextes plus élevés, réduisant la dépendance au partitionnement profond et permettant des lots globaux plus importants par GPU.

En résumé: la bande passante de Blackwell et les cœurs Tensor de cinquième génération compressent les phases limitées par la mémoire et occupent davantage les unités mathématiques, surtout dans la formation axée sur les transformateurs. Lorsque les noyaux et les modes de précision s’alignent, ces gains apparaissent sous forme de tokens/s ou d’images/s plus élevées sans réglages exotiques.

Formation multi-GPU sur PCIe: efficacité, topologie, et considérations d’hôte

Les cartes workstation et GeForce dans cette classe ne fournissent pas de NVLink; toute l’échelle est sur PCIe. Cela ne signifie plus une faible efficacité—si la plateforme est bien configurée.Une carte graphique NVIDIA RTX Pro 6000 élégante et noire avec un ventilateur de refroidissement visible et des accents dorés est posée sur un fond sombre.

Une carte graphique NVIDIA RTX Pro 6000 élégante et noire avec un ventilateur de refroidissement visible et des accents dorés est posée sur un fond sombre.

  • Efficacité parallèle de données

  • Les stations de travail modernes PCIe Gen 5 peuvent atteindre une grande efficacité de mise à l’échelle avec le mode de compilation PyTorch et AMP. Les systèmes RTX 6000 Ada ont démontré ~0.94–0.95 d’efficacité de GPU supplémentaire sur la formation en vision par ordinateur en FP16 et FP32.

  • Les plateformes RTX 5090 sur PCIe 5.0 rapportent ~0.91–0.97 d’efficacité, avec des mises en garde: validez l’accès peer-to-peer (P2P) et la topologie réelle, car le comportement P2P varie selon les générations de consommateurs. Utilisez nvidia-smi topo et les journaux NCCL; évitez les générations de GPU mixtes par nœud.

  • Le RTX 4090 a montré une efficacité notablement inférieure (~0.62–0.75) dans des tests comparables, soulignant que les plateformes Ada/Blackwell de Blackwell et workstation sont mieux adaptées à la formation multi-GPU.

  • Vitesse de lien PCIe: où Gen 5 aide vraiment

  • Sur plus de 100 tâches PyTorch sur le RTX 5090, la performance monopuce est généralement à quelques pour cent près entre PCIe Gen 5 et Gen 4 en moyenne. Gen 3 est également proche pour de nombreux cas LLM/CV courants; Gen 2/1 entraîne des ralentissements progressivement plus importants.

  • Les plus gros pénalités monopuce dues à des liens PCIe plus lents apparaissent lors de formations lourdes en transfert de données (par ex., RL intensif en augmentation), pas dans les noyaux limités par le calcul communs dans la formation LLM et CV mainstream.

  • Les pipelines multi-GPU et lourds en bande passante bénéficient plus de Gen 5, surtout lorsqu’ils chevauchent efficacement calcul et communication.

  • La plateforme hôte compte

  • Cœurs CPU et mémoire: les CPU à haut nombre de cœurs avec DDR5 rapide réduisent les blocages de dataloader; le chargement de données NUMA-avisé et la mémoire épinglée deviennent importants sur les systèmes multi-racines ou à double socket.

  • Lignes PCIe et câblage de slot: assurez-vous que chaque slot full-width Gen 5 est utilisé par un GPU; évitez les placements de switchs surchargés. Validez la largeur/vitesse des liens avec nvidia-smi et confirmez l’accès P2P.

  • Stockage: un NVMe scratch rapide améliore l’ingestion des datasets et la cadence de point de contrôle.

  • Refroidissement et alimentation: mesurez la performance soutenue après 10–20 minutes à des températures stables. Le TGP de 575 W du RTX 5090 et les enveloppes de 250–350 W des pièces professionnelles nécessitent des PSU et un flux d’air appropriés; les conceptions de stations de travail à soufflerie se comportent différemment des refroidisseurs à air libre sous une formation 24/7.

Aucun de ces éléments ne change la réalité fondamentale: les nœuds Hopper SXM avec NVLink/NVSwitch restent inégalés pour une formation LLM à forte échelle sur de longs contextes en raison d’une bande passante intra-nœud infiniment plus élevée et des collectifs à faible latence. Mais pour les charges de travail à faible à modérée échelle sur une station de travail, PCIe 5.0 plus une pile ajustée est étonnamment capable.

Tableaux de comparaison

Les configurations suivantes illustrent les différences pertinentes pour la formation qui déterminent les résultats en pratique.

Mémoire, précision, et interconnect

GPUArchitectureVRAM / Bande passantePrécisions des tenseurs (matériel)ECCNVLinkSignal de formation notable
GeForce RTX 5090Blackwell32 Go GDDR7 / 1.792 To/sBF16/FP16/TF32; FP8/FP4 capable; 2e gén. TEECC sur die DRAMNon~44 % de débit de formation CV plus élevé vs RTX 4090 en moyenne; plus grands gains sur les transformateurs
RTX PRO 5000 (48/72 Go)Blackwell48/72 Go GDDR7 / jusqu’à ~1.344 To/s (48 Go)BF16/FP16/TF32; FP8/FP4; 2e gén. TE; jusqu’à 2 MIGECC de bout en boutNonPrévu pour surpasser le RTX 6000 Ada dans la formation limitée par la mémoire; lots par GPU plus grands pour 13B
RTX 6000 AdaAda48 Go GDDR6 ECC / 960 Go/sBF16/FP16/TF32; FP8 TOPS listés sur matériel publicitaireECC de bout en boutNonBaseline de formation workstation de 48 Go éprouvée
H100/H200 (SXM)Hopper80–141 Go HBM3/HBM3eTE FP8 + BF16/FP16/TF32ECC de bout en boutOui (NVLink/NVSwitch)État de l’art pour le temps de formation et l’échelle à 4k–8k contextes

Avantages et inconvénients pour la formation en station de travail

  • RTX 5090

  • Avantages: Bandwidth de classe leader; 32 Go permettent des batches plus grands que les cartes de 24 Go; fort levé sur une seule puce pour la formation CV; haut perf/$ pour la formation locale.

  • Inconvénients: Pas de NVLink; pas d’ECC de bout en bout; l’activation du FP8 dépend des frameworks.

  • RTX PRO 5000 (48/72 Go)

  • Avantages: ECC; bande passante plus élevée que les pièces workstation Ada; point central pour 13B ajustements fines complets de paramètres à contextes plus hauts; stabilité PCIe Gen 5; MIG pour la partition.

  • Inconvénients: Seulement PCIe; l’écosystème de formation FP4 est encore à ses débuts.

  • RTX 6000 Ada

  • Avantages: Plateforme ECC de 48 Go fiable; drivers constants et stack validé par ISV.

  • Inconvénients: Bande passante plus faible que Blackwell; chemin de formation FP8 pas exposé universellement.

  • Hopper SXM

  • Avantages: Maturité TE FP8; NVLink/NVSwitch pour les collectifs; le temps de formation le plus rapide pour les longs contextes.

  • Inconvénients: Uniquement centre de données; au-delà des budgets de station de travail et des enveloppes d’alimentation.

Mesurer la performance soutenue et le perf/W correctement

La performance de formation est facile à mal mesurer. Pour le faire correctement, concentrez-vous sur l’état stable, les configurations comparables, et les journaux transparents:

  • Stack logiciel

  • Utilisez PyTorch 2.6+ avec des builds CUDA 12.8 pour la compatibilité Blackwell, cuDNN de la série 9, et NCCL 2.19–2.20+. Assurez-vous que la version du driver correspond aux roues du framework.

  • Activez l’autocast bf16 avec mise à l’échelle des gradients au besoin. Pour les transformateurs à ≥2k contextes, activez FlashAttention‑2 ou des noyaux équivalents; ils sont importants à la fois pour l’utilisation mémoire et le débit.

  • Le mode compilation et les noyaux fusionnés importent. Documentez si la compilation PyTorch est activée et gardez des choix de noyaux constants sur les GPU.

  • Précision et convergence

  • Considérez le BF16 comme la norme pour une formation robuste. Si vous adoptez le TE FP8 sur le matériel prenant en charge, validez la convergence sur votre jeu de données et modèle cible. Gardez un programme LR et un optimiseur constants lors de la comparaison de GPU.

  • Taille de batch et gestion mémoire

  • Indiquez clairement la taille du lot global, y compris les étapes d’accumulation des gradients. Notez si le point de contrôle des gradients est activé, et si le sharding de l’optimisateur (ZeRO/FSDP) est utilisé.

  • Enregistrez le pic de VRAM et la marge; ils informent si la capacité d’un GPU débloque des configurations batch/séquence utiles au lieu de simplement fonctionner plus chaud.

  • Formation distribuée et chevauchement

  • Utilisez torchrun + NCCL, ajustez les tailles de seaux de gradient, et chevauchez calcul/communication. Gardez les nœuds homogènes; mélanger les générations sur un seul nœud dégrade l’efficacité.

  • Validez PCIe P2P et la topologie avec nvidia-smi topo; affinitisez les processus sur les systèmes multi-racines ou double CPU et utilisez des chargeurs de données épinglés et NUMA-avisés.

  • Puissance et thermiques

  • Mesurez la puissance uniquement du GPU pendant une formation à l’état stable (après 10–20 minutes), pas lors des rampes de boost initiales. Indiquez images/s ou tokens/s par watt en parallèle du débit absolu.

  • Notez la configuration de refroidissement (souffleur vs air libre) et les limites de puissance du système. La performance soutenue/W est autant une question d’ingénierie thermique que de silicium.

  • Ce qu’il faut publier

  • Tokens/s, images/s, étapes/s.

  • Temps pour atteindre la perte/ précision cible avec des hyperparamètres identiques.

  • Mode de précision, choix de noyaux, versions du driver/CUDA/cuDNN/NCCL, hôte CPU/mémoire/stockage, vitesse/largeur du lien PCIe, et statut P2P.

Ces pratiques transforment les « benchmarks » en preuves reproductibles, révélant là où la bande passante, la précision, et la capacité font vraiment la différence.

Conclusion technique: où le RTX 5090 et le RTX PRO 5000 mènent — et où le SXM Hopper continue de dominer

Sur un nœud unique sans NVLink, Blackwell a redéfini les attentes. Le RTX 5090 est la carte grand public la plus puissante pour la formation avec une large marge, et pas seulement sur le papier. Sa bande passante de 1.792 To/s du GDDR7, ses cores Tensor de cinquième génération, et sa capacité de 32 Go se traduisent par environ 44 % de hausse du débit de formation moyen par rapport au RTX 4090 sur divers modèles CV, avec les plus grands gains sur les architectures transformatrices. Cette même histoire de bande passante se propage dans les ajustements LLM, où la mémoire d’attention et d’activation domine.

Le RTX PRO 5000 étend ces gains à la fiabilité et l’échelle des stations de travail. Avec 48/72 Go de GDDR7 ECC et jusqu’à ~1.344 To/s sur la variante de 48 Go, il permet des lots globaux plus importants et des fenêtres de contexte plus élevées pour les ajustements fins de paramètres complets de 13B tout en restant dans une enveloppe de 300 W. À mesure que les chemins FP8 Transformer Engine atterrissent largement dans les builds publiques de PyTorch, attendez-vous à ce que l’avantage de Blackwell s’élargisse davantage sur les transformateurs.

Il y a cependant une limite claire. La formation LLM à forte échelle sur de longs contextes reste le domaine de Hopper SXM avec TE FP8 et NVLink/NVSwitch. Les stations de travail PCIe Gen 5 peuvent atteindre une grande efficacité en parallèle de données, mais elles ne peuvent égaler la bande passante intra-nœud et la latence collective des tissus NVLink.

Points clés à retenir:

  • La bande passante de Blackwell est la clé. Les phases limitées par la mémoire se réduisent, entraînant une hausse de ~44 % de débit moyen en formation CV sur le RTX 5090 vs le RTX 4090, avec de plus grands gains sur les transformateurs.
  • BF16 aujourd’hui, FP8 demain. Utilisez le BF16 par défaut; suivez l’activation du TE FP8 sur Blackwell pour des accélérations supplémentaires sur les transformateurs et des économies de mémoire.
  • La capacité façonne la faisabilité. 32 Go (RTX 5090) élargissent les lots et contextes; 48/72 Go (RTX PRO 5000) est le plafond pratique de station de travail pour les ajustements fins complets de 13B à contextes plus élevés.
  • PCIe 5.0 est « agréable à avoir », pas obligatoire pour l’entraînement monopuce. Cela importe plus pour les pipelines multi-GPU et ceux à transfert de données intensif; validez P2P et la topologie.
  • Mesurez correctement. Indiquez les performances/W, tokens/s ou images/s, et les détails de configuration pour rendre les résultats exploitables.

Que faire ensuite:

  • Si vous formez localement et que 32 Go couvrent votre modèle, choisissez le RTX 5090 et standardisez sur bf16 + FlashAttention‑2; suivez la maturité du TE FP8 pour vos modèles.
  • Si vous avez besoin d’ECC et de plus grande capacité par GPU pour les ajustements fins de 13B, choisissez le RTX PRO 5000 (48/72 Go) et tirez parti du PCIe Gen 5 plus une pile NCCL ajustée.
  • Si votre feuille de route inclut une pré-formation à forte échelle à 4k–8k contextes, prévoyez le Hopper SXM avec NVLink/NVSwitch—aucune station de travail PCIe n’égalera ce tissu aujourd’hui. 🚀

Sources & Références

www.nvidia.com
GeForce RTX 5090 Graphics Cards (Official Product Page) Confirms RTX 5090 Blackwell specs including 32 GB GDDR7, PCIe Gen 5, and highlights relevant training features.
images.nvidia.com
NVIDIA RTX Blackwell GPU Architecture (Official brief) Details Blackwell architecture, GDDR7 bandwidth figures, Transformer Engine generation, and supported precisions (BF16/FP16/TF32/FP8/FP4).
www.nvidia.com
NVIDIA RTX PRO 5000 (Blackwell) – Product Page Provides RTX PRO 5000 memory options (48/72 GB), ECC availability, and workstation positioning for training.
www.nvidia.com
NVIDIA RTX PRO 5000 (Blackwell) – Datasheet Lists bandwidth (~1.344 TB/s for 48 GB), TGP, and professional feature set relevant to training capacity and reliability.
www.nvidia.com
NVIDIA RTX 6000 Ada Generation (Product Page) Confirms RTX 6000 Ada 48 GB ECC and serves as a bandwidth/capacity reference point against Blackwell.
www.nvidia.com
NVIDIA RTX 6000 Ada Generation (Datasheet) Provides the 960 GB/s bandwidth figure used for comparison and training capacity context.
nikolasent.github.io
Benchmarking NVIDIA RTX 5090 (Computer Vision Lab) Methodologically transparent CV training benchmarks reporting ~44% average uplift of RTX 5090 over RTX 4090 and larger gains on transformer-heavy models.
www.aime.info
Deep Learning GPU Benchmarks (AIME) Shows multi-GPU scaling efficiencies over PCIe for RTX 6000 Ada, RTX 5090, and RTX 4090, informing the PCIe scaling discussion.
www.youtube.com
NVIDIA RTX 5090 PCIe Scaling for Local LLM and AI (Moby Motion) Provides systematic PCIe Gen 5 vs Gen 4/3 impact across 124 tasks, supporting claims about where link speed matters.
www.nvidia.com
NVIDIA Hopper GPU Architecture Documents FP8 Transformer Engine and NVLink/NVSwitch advantages that set the strong-scaling baseline on Hopper SXM nodes.

Advertisement