NVIDIA Mellanox MQM9790-NS2F InfiniBand-Switch in Aktion: Optimierung der Verbindung mit geringer Latenz

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand-Switch in Aktion: Optimierung der Interkonnektion mit geringer Latenz für RDMA/HPC/AI-Cluster

In der KI-Ausbildung, bei High-Performance Computing (HPC) -Simulationen und groß angelegten verteilten Speichern bestimmen Netzwerklatenz und Bandbreite oft die obere Grenze der Cluster-Effizienz.Um Organisationen zu helfen, diesen Engpass zu durchbrechen, dieMQM9790-NS2FDer InfiniBand-Switch von NVIDIA Mellanox wird zu einer Kernkomponente für die Vernetzung in vielen KI- und HPC-Bereitstellungen.Veranschaulicht, wie dieser Schalter RDMA-Netzwerke mit geringer Latenzzeit und messbare Leistungssteigerungen ermöglicht.

Hintergrund und Herausforderung: Von Tausend-GPU- bis Zehntausend-GPU-Netzwerkdruck

Eine führende Forschungseinrichtung betreibt zuvor ein Cluster mit tausend GPUs für das Training großer Sprachmodelle und Wettersimulationen.Als die Modellparameter von Zehntausenden Milliarden auf Hunderte von Milliarden wuchsen, das bestehende HDR-InfiniBand-Netzwerk von 200 Gb/s begann überlastet zu sein und die Kommunikationsüberlast zu steigen.und GPUs häufig im Leerlauf warten auf NetzwerkübertragungenDie Architekten benötigten dringend eine Lösung, die eine höhere Hafendichte, eine feinere Lastbilanz und eine vollständige Kompatibilität mit der bestehenden RDMA-Infrastruktur bietet.

Nach einer gründlichen Auswertung wählte das Team ein NDR-Grad-InfiniBand-Gewebe auf der Grundlage derNVIDIA Mellanox MQM9790-NS2F. Mit 64 OSFP-Ports, die jeweils mit 400Gb/s-Liniengeschwindigkeit arbeiten, entspricht der Switch perfekt den Durchsatzanforderungen von GPU-Servern der nächsten Generation.

Lösung und Bereitstellung: NDR Fabric + Verlustfreies RDMA-Netzwerk

In der neuen Konstruktion ist jeder GPU-Server mit zwei-Port-ConnectX‐7-Adaptern ausgestattet, die an zwei Leaf-Switches angeschlossen sind.MQM9790-NS2F 400Gb/s NDR 64-Port OSFPSchalter bilden eine zweischichtige Fat-Tree-Topologie mit einer nicht blockierenden Clos-Architektur. Adaptive Routing und Überlastungskontrolle sind aktiviert,Nutzung von nativem InfiniBand RDMA zur Übertragung von Daten direkt vom GPU-Speicher in den Remote-GPU-Speicher, die CPU und den Software-Stack umgehen.

Portnutzung und Kompatibilität:Die vorhandenen HDR-Adapter können mit reduzierter Geschwindigkeit betrieben werden und schützen so die vorherigen Investitionen.MQM9790-NS2F kompatibelDie Liste umfasst gängige GPU-Server und Speichersysteme, die während der Bereitstellung keine Treibermodifikationen erfordern.
Intelligenter Betrieb:Eingebettete Telemetrie-Monitore verknüpfen Fehler und Staus in Echtzeit und helfen den Teams, Probleme mit optischen Modulen oder Kabeln schnell zu isolieren und die durchschnittliche Reparaturzeit drastisch zu verkürzen.

Ergebnisse und Vorteile: Trainingserweiterungszeit um 38% verkürzt, Netzwerk-Overhead auf 8% gesenkt

Nach der Modernisierung führte die Institution vergleichende Tests an Produktionsbelastungen durch.MQM9790-NS2F InfiniBand SchalterVerringerte Iterationszeit von 2,8 Sekunden auf 1,73 Sekunden, eine Verbesserung von 38%.Das bedeutet, GPUs verbrachten deutlich mehr Zeit mit nützlichen BerechnungenDank SHARPv3-Netzwerkrechner im NDR-Switch hat sich die Bandbreitenverwendung von All-Reduce fast verdoppelt.

Auf der Speicherseite erhöhte NVMe mit geringer Latenz über InfiniBand die gesamte Lese-/Schreibbandbreite des parallelen Dateisystems um 2,3x.Die Speicher- und Wiederherstellungszeiten von Checkpoints sind von 12 auf weniger als 5 Minuten zurückgegangen.Diese Zahlen werden in internen Prüfberichten erfasst und entsprechen denSpezifikationen MQM9790-NS2FAusgangswerte.

Zusammenfassung und Aussichten: NDR Interconnect als Standardoption für die KI-Infrastruktur der nächsten Generation

Dieser Fall zeigt eindeutig, dass für groß angelegte RDMA/HPC/AI-Cluster die Einführung derMQM9790-NS2F InfiniBand-SchalterlösungFür Architekten, die Zehntausend-GPU-Cluster planen, ist dieDatenblatt MQM9790-NS2FDas Modell wird nun in Serienproduktion gebracht; fürMQM9790-NS2F PreisoderMQM9790-NS2F zum VerkaufBitte kontaktieren Sie autorisierte NVIDIA-Partner.Die NDR-Switching-Plattform wird weiterhin eine zentrale Rolle bei der Freisetzung des Rechenpotenzials spielen..