Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch in Produktion
April 15, 2026
Ein führendes ostasiatisches KI-Forschungsinstitut stand vor einem häufigen, aber kritischen Engpass. Ihr 512-GPU-Cluster, der für das Training großer Sprachmodelle und molekulardynamische Simulationen verwendet wurde, litt unter erheblicher Leistungsverschlechterung, als die Jobs skalierten. Die Ursache war das herkömmliche 100-Gbit/s-Ethernet-Fabric, bei dem TCP/IP-Overhead und Paketverluste während Incast-Ereignissen zu GPU-Leerlaufzeiten von bis zu 35 % führten. Das Team benötigte ein verlustfreies Fabric mit extrem geringer Latenz, das RDMA unterstützen und ohne Kompromisse bei der deterministischen Leistung auf Tausende von Knoten skalieren konnte. Nach der Bewertung mehrerer Lösungen wählten sie denMellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0InfiniBand-Switch als Kern ihrer neuen Spine-Leaf-Architektur.
Die Bereitstellung konzentrierte sich auf den920-9B210-00FN-0D0als Spine-Layer, wobei 32 Leaf-Switches 512 NVIDIA A100 GPUs über ConnectX-7-Adapter verbanden. Jeder920-9B210-00FN-0D0 MQM9790-NS2F 400 Gbit/s NDRSwitch bietet 400 Gbit/s pro Port, was die Bandbreite früherer HDR-Lösungen verdoppelt und gleichzeitig eine Switching-Latenz von unter einer Mikrosekunde beibehält. Die offizielle920-9B210-00FN-0D0 InfiniBand-Switch OPNvereinfachte die Beschaffung und stellte die Firmware-Konsistenz über alle Einheiten hinweg sicher. Netzwerktechniker nutzten das detaillierte920-9B210-00FN-0D0 Datenblattund920-9B210-00FN-0D0 Spezifikationenzur Validierung der Stromversorgungs- und thermischen Anforderungen, was eine nahtlose Integration in bestehende 19-Zoll-Racks ermöglichte. Entscheidend ist, dass der Switch vollständig920-9B210-00FN-0D0 kompatibelmit der bestehenden HDR-Infrastruktur und neueren NDR-Endpunkten ist, was eine schrittweise Migration ermöglicht.
- RDMA-Effizienzsteigerungen:Mit demNVIDIA Mellanox 920-9B210-00FN-0D0ermöglichte die hardwarebasierte Staukontrolle, die RDMA-Schreiblatenz sank von 12 µs auf 1,2 µs. GPU Direct RDMA (GDR) wurde voll wirksam und eliminierte CPU-Speicherengpässe.
- HPC-Anwendungsbeschleunigung:Ein wichtiger Wettermodellierungscode (MPI-basiert) zeigte eine Leistungssteigerung um das 2,7-fache aufgrund des adaptiven Routings und der SHARP v2 Collective Offloads des Switches.
- KI-Schulungsdurchsatz:Für einen KI-Schulungsjob mit einem 175-Milliarden-Parameter-LLM reduzierte das neue Fabric die All-Reduce-Zeit um 68 %, wodurch die Gesamtauslastung der GPUs von 62 % auf 91 % verbessert wurde.
- Betriebliche Einfachheit:Die920-9B210-00FN-0D0 InfiniBand-Switch OPN-Lösungintegrierte sich in die UFM-Plattform von NVIDIA und lieferte Echtzeit-Telemetrie und vorausschauende Fehlerwarnungen. IT-Manager berichteten über eine Reduzierung der netzwerkbezogenen Fehlerbehebungszeit um 50 %.
Bei der Bewertung des Projekts verglich das Forschungsinstitut den920-9B210-00FN-0D0 Preismit konkurrierenden Ethernet-Lösungen. Trotz höherer Anschaffungskosten sprach die Gesamtbetriebskosten (TCO) für InfiniBand aufgrund der höheren GPU-Auslastung und des geringeren Stromverbrauchs pro Gbit/s. Einheiten sind als920-9B210-00FN-0D0 zum Verkaufüber die Vertriebskanäle von NVIDIA leicht verfügbar, mit deutlich kürzeren Lieferzeiten als bei anderen NDR-Switches. Die detaillierten920-9B210-00FN-0D0 Spezifikationenbestätigten auch die Unterstützung für redundante Netzteile und Hot-Swap-Lüfter, was den Zuverlässigkeitsanforderungen des Instituts für den 24/7-KI-Forschungsbetrieb entsprach.
| Parameter | Detail |
|---|---|
| Modell | NVIDIA Mellanox 920-9B210-00FN-0D0 |
| Portgeschwindigkeit | 400 Gbit/s NDR (pro Port) |
| Basis-OPN | 920-9B210-00FN-0D0 InfiniBand-Switch OPN |
| Volle Konfiguration | 920-9B210-00FN-0D0 MQM9790-NS2F 400 Gbit/s NDR |
Das KI-Forschungsinstitut hat nun den920-9B210-00FN-0D0für alle zukünftigen Cluster-Erweiterungen standardisiert, einschließlich eines geplanten 2.048-GPU-NDR200-Fabrics. Dieser reale Fall zeigt, dass derNVIDIA Mellanox 920-9B210-00FN-0D0nicht nur ein Switch ist – er ist eine grundlegende Komponente für die Erzielung einer linearen Leistungsskalierung in KI- und HPC-Umgebungen. Für Architekten und IT-Manager, die Netzwerkhindernisse beseitigen wollen, bietet die920-9B210-00FN-0D0 InfiniBand-Switch OPN-Lösungeinen bewährten, produktionsreifen Weg nach vorn.

