NVIDIA Mellanox MQM8790-HS2F in Aktion: Optimierung der Interkonnektion mit geringer Latenzzeit für RDMA/HPC/AI-Cluster

April 10, 2026

Hintergrund & Herausforderung: Wenn das Netzwerk zum Flaschenhals wird

Eine schnell wachsende KI-Forschungsorganisation stand vor einem bekannten Problem: Ihr 200+ GPU-Cluster, der für das Training großer Sprachmodelle und molekulardynamische Simulationen verwendet wurde, wies unvorhersehbare Job-Abschlusszeiten auf. Trotz leistungsstarker Rechenknoten litt das bestehende 100-Gbit/s-Ethernet-Fabric unter Spitzenlatenzen, Paketverlusten bei Incast-Mustern und hohem CPU-Overhead aufgrund der herkömmlichen TCP/IP-Stack-Verarbeitung. Das Team benötigte eine Lösung, die konsistente Latenzen im Sub-Mikrosekundenbereich liefert, RDMA für GPU Direct vollständig unterstützt und ohne kostspielige Austauschaktionen skaliert. Nach der Bewertung verfügbarer Optionen wählten sie den 迈络思(NVIDIA Mellanox) MQM8790-HS2F als Kernstück ihres Cluster-Fabric der nächsten Generation.

Lösung & Bereitstellung: Integration des MQM8790-HS2F InfiniBand-Switches

Die Organisation setzte den MQM8790-HS2F InfiniBand-Switch in einer zweistufigen Fat-Tree-Topologie ein und verband 128 Rechenknoten (jeweils mit NVIDIA ConnectX-6 HDR-Adaptern ausgestattet) und 4 Speicherknoten. Mit seinen 40 QSFP56-Ports, die mit 200 Gbit/s HDR laufen, lieferte ein einzelner NVIDIA Mellanox MQM8790-HS2F eine nicht blockierende Switching-Kapazität von 16 Tbit/s – genug, um zwei ältere Ethernet-Switches zu ersetzen und gleichzeitig die Verkabelungskomplexität zu reduzieren. Die Bereitstellung nutzte die native Unterstützung des MQM8790-HS2F 200 Gbit/s HDR 40-Port QSFP56 für RDMA und GPUDirect, was einen direkten Speicherzugriff zwischen GPUs auf verschiedenen Servern ohne CPU-Intervention ermöglichte.

Wichtige Implementierungsdetails umfassten:

Adaptive Routing zur automatischen Lastverteilung über mehrere Pfade, wodurch Hotspots eliminiert wurden.
SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) für die In-Network-Reduktion, wodurch All-Reduce-Operationen um bis zu 2,5x beschleunigt wurden.
Stauvermeidung auf Switch-Ebene, wodurch Head-of-Line-Blocking, das in verlustbehafteten Ethernet-Umgebungen üblich ist, verhindert wurde.

Vor dem Kauf überprüfte das Ingenieurteam das MQM8790-HS2F Datenblatt und die MQM8790-HS2F Spezifikationen, um die Kompatibilität mit ihren vorhandenen Mellanox-Kabeln und Transceivern zu bestätigen. Das MQM8790-HS2F kompatible Ökosystem – einschließlich HDR-Optik- und Kupferkabeln – ermöglichte es ihnen, 40 % ihrer bisherigen Interconnect-Investitionen wiederzuverwenden, was die Hürde für ein Upgrade erheblich senkte.

Ergebnisse & Vorteile: Messbare Leistungs- und Effizienzsteigerungen

Nach der Migration zum MQM8790-HS2F-basierten Fabric dokumentierte die Organisation drei Kategorien von Verbesserungen:

Latenzreduzierung: Die durchschnittliche MPI-Ping-Pong-Latenz sank von 2,1 µs (Ethernet RoCE) auf 0,82 µs, wobei die Tail-Latenz praktisch eliminiert wurde.
Job-Durchsatz: Verteilte Trainingsjobs (NCCL-basiert) wurden um 37 % schneller abgeschlossen, dank reduzierter Kommunikations-Overheads und SHARPv3-Beschleunigung.
CPU-Entlastung: RDMA über InfiniBand reduzierte die CPU-Auslastung für das Netzwerk von ca. 15 % auf unter 2 %, wodurch Kerne für die Berechnung frei wurden.

In einem 128-GPU-All-to-All-Kommunikations-Benchmark hielt die MQM8790-HS2F InfiniBand-Switch-Lösung 198 Gbit/s pro Port mit null Paketverlust auf, verglichen mit 112 Gbit/s mit 1,2 % Verlust im vorherigen Ethernet-Fabric. Bei Finanzsimulationen, die vom selben Team durchgeführt wurden, wurde die Job-Variabilität um 78 % reduziert, was engere SLAs und vorhersehbare Laufzeiten ermöglichte.

Zusammenfassung & Ausblick: Eine zukunftssichere Investition

Diese reale Bereitstellung zeigt, dass der MQM8790-HS2F mehr als nur ein Datenblatt-Held ist – er liefert greifbare Vorteile für produktive HPC- und KI-Workloads. Die Kombination aus 200 Gbit/s HDR-Durchsatz, 40 hochdichten Ports und fortschrittlicher In-Network-Computing transformiert die Cluster-Wirtschaftlichkeit, indem sowohl die Job-Abschlusszeit als auch die Betriebskosten gesenkt werden. Für IT-Leiter, die den MQM8790-HS2F Preis im Verhältnis zu den Leistungsgewinnen bewerten, legt diese Fallstudie einen ROI von unter 12 Monaten nahe, der allein auf Verbesserungen der Recheneffizienz basiert.

Da die Organisation plant, ihre GPU-Anzahl auf über 400 Knoten zu verdoppeln, hat sie bereits zusätzliche MQM8790-HS2F zum Verkauf eingeplant, um eine nicht blockierende Fat-Tree-Architektur beizubehalten. Die Fähigkeit des Switches, HDR- und EDR-Geschwindigkeiten zu mischen, gewährleistet einen reibungslosen Migrationspfad, während ältere Adapter schrittweise ersetzt werden. Für Architekten, die RDMA-zentrierte Cluster der nächsten Generation entwerfen, bietet der NVIDIA Mellanox MQM8790-HS2F ein bewährtes, produktionsbereites Rückgrat, das von der KI-Forschung auf Abteilungsebene bis zum Exascale-Supercomputing skaliert.