InfiniBand in HPC: Die Vorteile von Mellanox QM9700
October 9, 2025
Mellanox QM9700 InfiniBand Switch setzt neuen Maßstab für HPC-Netzwerke der nächsten Generation
SOFORTIGE VERÖFFENTLICHUNG
Sunnyvale, CA – Der unstillbare Bedarf an Rechenleistung in modernen High-Performance Computing (HPC)- und KI-Clustern bringt Netzwerkinfrastrukturen an ihre Grenzen. Um dies zu bewältigen, hat sich die Einführung der schnellen, latenzarmen InfiniBand-Technologie zum De-facto-Standard für die Verbindung der leistungsstärksten Supercomputer der Welt entwickelt. Die NVIDIA-Sparte Mellanox, ein Pionier auf diesem Gebiet, hat mit der Einführung des Mellanox QM9700 Quantum-Switches, einem Eckpfeiler für die nächste Ära des HPC-Netzwerk, erneut die Messlatte höher gelegt.
Beispiellose Leistung und Skalierbarkeit für anspruchsvolle Workloads
Der Mellanox QM9700 wurde entwickelt, um als grundlegendes Fabric für Exascale-Computing-Infrastrukturen zu dienen. Er unterstützt NDR (Next Data Rate) InfiniBand und liefert atemberaubende Rohdatenraten von 400 Gb/s pro Port und einen aggregierten bidirektionalen Durchsatz von 162,6 Tb/s in einem einzigen 40-Port-Switch. Dies entspricht einem 4-fachen Leistungssprung im Vergleich zur vorherigen HDR-Generation. Für HPC- und KI-Anwendungen bedeutet dies drastisch reduzierte Trainingszeiten für komplexe Modelle und eine schnellere Time-to-Solution für wissenschaftliche Simulationen, wodurch Forscher in die Lage versetzt werden, Probleme anzugehen, die zuvor als unlösbar galten.
Der Mellanox QM9700: Ein tiefer Einblick in die architektonischen Vorteile
Über die reine Geschwindigkeit hinaus integriert der Mellanox QM9700 mehrere wichtige architektonische Innovationen, die seine Führungsposition im HPC-Netzwerk festigen:
- Adaptives Routing und SHARP-Technologie: Der Switch verfügt über ein verbessertes adaptives Routing, um überlastete Pfade dynamisch zu vermeiden und einen optimalen Datenfluss zu gewährleisten. Seine Unterstützung für das Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) reduziert den MPI-Operations-Overhead, indem er Collective Operations von der CPU auf den Netzwerk-Switch auslagert, wodurch die Leistung für nachrichtenintensive Anwendungen um bis zu 50 % beschleunigt wird.
- Erweiterte Telemetrie und RoCE-Unterstützung: Die integrierte NVIDIA NetQ-Software bietet einen tiefen Einblick in die Netzwerkleistung und ermöglicht ein proaktives Management und eine schnelle Diagnose. Obwohl er ein InfiniBand-Kraftpaket ist, bietet der QM9700 auch eine robuste Unterstützung für RoCE (RDMA over Converged Ethernet) und bietet Flexibilität für heterogene Rechenzentrumsumgebungen.
- Leistungs- und Kühlungseffizienz: Trotz seiner immensen Leistung ist der Switch auf Effizienz ausgelegt und verfügt über eine Port-Level-Leistungsoptimierung, die den Energieverbrauch im Vergleich zu Altsystemen um bis zu 30 % reduziert und die Gesamtbetriebskosten (TCO) erheblich senkt.
Quantifizierbare Auswirkungen auf reale HPC- und KI-Anwendungen
Die Leistungskennzahlen des Mellanox QM9700 lassen sich direkt in greifbare Vorteile in verschiedenen Bereichen umsetzen:
| Anwendungsbereich | Leistungskennzahl | Verbesserung mit QM9700 NDR InfiniBand |
|---|---|---|
| Klimamodellierung | Zeit pro Simulation | Reduziert um 40 % |
| Genomsequenzierung | Datenverarbeitungsdurchsatz | Erhöht um das 3,8-fache |
| Training großer Sprachmodelle (LLM) | Job-Abschlusszeit | Reduziert um 60 % |
Fazit und strategischer Wert für Unternehmen und Forschungseinrichtungen
Der NVIDIA Mellanox QM9700 Quantum-Switch ist mehr als nur ein inkrementelles Update; er ist ein strategischer Enabler für das nächste Jahrzehnt der rechnerischen Entdeckung. Durch die Bereitstellung von unübertroffener Bandbreite, extrem niedriger Latenz und intelligenten Netzwerkfunktionen beseitigt er den Netzwerk-Engpass, der die Cluster-Leistung historisch eingeschränkt hat. Für Organisationen, die in KI-Forschung, Quantencomputer-Simulationen oder groß angelegte Datenanalysen investieren, ist der Einsatz eines NDR-InfiniBand-Fabric, das auf dem QM9700 basiert, ein entscheidender Schritt zur Erzielung von Exascale-Effizienz und zur Aufrechterhaltung eines Wettbewerbsvorteils.

