Technische Lösung: Erreichung von RDMA/RoCE Low-Latency und Durchsatzoptimierung mit dem Mellanox
March 13, 2026
Moderne Rechenzentren stehen unter ständigem Druck, höhere Leistung für latenzempfindliche Anwendungen wie verteilte Datenbanken, Hochleistungsrechner (HPC),und KI-AusbildungsclusterTraditionelle TCP/IP-Netzwerke verursachen erhebliche CPU-Überlastungen, was Engpässe verursacht, die die Skalierbarkeit von Anwendungen einschränken und die Reaktionszeiten erhöhen.Für Organisationen, die ihre Infrastruktur modernisieren möchten, ist die Grundvoraussetzung klar: Verringerung der Latenzzeit und Erhöhung des Serverdurchsatzes ohne kostspielige Architekturüberholungen.
Die Lösung liegt in der Einführung von RDMA (Remote Direct Memory Access) über konvergiertes Ethernet (RoCE).Umgehung des Betriebssystemkernels zur Freigabe von CPU-Ressourcen und Minimierung der LatenzzeitIm Mittelpunkt dieser Transformation steht die Netzwerk-Schnittstellenkarte (NIC).MCX631432AN-ADABvon Mellanox (NVIDIA) ist speziell auf diese Anforderungen ausgelegt und bietet eine solide Grundlage für RoCE-fähige Stoffe.
Die vorgeschlagene Architektur ist ein für eine verlustfreie Ethernet-Umgebung konzipiertes Leaf-Spin-Fabrik, die eine Voraussetzung für eine optimale RoCEv2-Leistung ist.Das Design integriert Rechen- und Speicherverkehr über eine einheitliche, Hochgeschwindigkeitsgewebe, um Komplexität und Kosten zu reduzieren.
- Rückenwirbelschicht:Hochkapazitäts-Switches mit 100 GbE bieten eine nicht blockierende Konnektivität zwischen allen Leaf-Switches und gewährleisten einen beliebigen bis beliebigen Pfad mit geringer Latenz.
- Blattschicht:Top-of-Rack-Switches mit 25 GbE-Downlinks verbinden sich mit Servern und Speicherknoten.Diese Schalter sind mit Priority Flow Control (PFC) und Explicit Congestion Notification (ECN) konfiguriert, um ein verlustfreies Gewebe zu erhalten.
- Server-Schicht:Jeder Server ist mit demNVIDIA Mellanox MCX631432AN-ADABDies ermöglicht die Netzwerkbindung oder getrennte Pfade für Speicher- und Rechenverkehr.
Diese Konstruktion sorgt dafür, daß dieMCX631432AN-ADAB Ethernet-AdapterkarteFunktioniert in einer Umgebung, in der der RoCE-Verkehr ohne Paketverlust fließen kann, was für die Aufrechterhaltung eines hohen Durchsatzes und einer geringen Latenzzeit von entscheidender Bedeutung ist.
DieMCX631432AN-ADABAls Mitglied der ConnectX-6 Lx-Familie bietet es den 25GbE-Formfaktor unternehmensfähige Funktionen.MCX631432AN-ADAB Ethernet-Adapterkartenlösungfür den Rechen- und Speicherverkehr, Netzwerk-Aufgaben von der Server-CPU abzuladen.
Zu den wichtigsten technischen Beiträgen des Adapters gehören:
- Hardware-Auslastung:Die Karte übernimmt alle Aspekte des RoCE-Protokolls in der Hardware, einschließlich Transport, Verkapselung und Überlastungskontrolle. Dies stellt sicher, dass RDMA-Operationen nahezu null CPU-Zyklen verbrauchen.
- Zwei-Port-Flexibilität:Die doppelten 25GbE-Anschlüsse können für den aktiven/Standby-Failover konfiguriert oder für getrennte Verkehrstypen verwendet werden.Ein Port kann Frontend-Ethernet-Datenverkehr verarbeiten, während der andere für Backend-Speicherverkehr mit RoCE verwendet wird, wodurch Durchsatz und Sicherheit maximiert werden.
- PCIe 3.0 x16 Host-Schnittstelle:Mit ausreichender Bandbreite, um beide 25GbE-Ports gleichzeitig zu betreiben, wird dieMCX631432AN-ADAB ConnectX-6 Lx mit zwei Anschlüssen 25GbE SFP28stellt sicher, dass keine internen Engpässe die Leistungsfähigkeit der Anwendung einschränken.
Einführung derMCX631432AN-ADABDie folgenden Schritte beschreiben eine typische Bereitstellung für einen Hochleistungscluster:
- Zubereitung von Stoffen:Vor der Bereitstellung müssen die Netzwerk-Switches so konfiguriert werden, dass sie RoCE unterstützen.Dies schafft die verlustfreie Umgebung, die für den Adapter erforderlich ist, um optimal zu funktionieren.
- Installation von Treiber und Firmware:Installieren Sie die neuesten NVIDIA WinOF-2-Treiber (für Windows) oder MLNX_OFED (für Linux), um eine vollständige Funktionsunterstützung zu gewährleisten.MCX631432AN-ADABfür eine optimale RoCE-Leistung und Kompatibilität auf dem neuesten Stand ist.
- Skalierung des Clusters:Die Architektur skaliert horizontal, indem mehr Serverknoten hinzugefügt werden, jeder mit seinem eigenen MCX631432AN-ADAB.Das nicht blockierende Blatt-Rückgrat-Gewebe sorgt dafür, dass die hinzugefügten Knoten die Leistung der vorhandenen nicht beeinträchtigenFür größere Bereitstellungen können Link Aggregation Groups (LAGs) zwischen Leaf- und Spine-Switches verwendet werden.
Eine typische Topologie für einen Datenbankcluster beinhaltet die Verbindung der Primär- und Replikserver mit demselben Leaf-Switch, um die Inter-Rack-Latenz zu minimieren.Jeder Server verwendet seinen Dual-Port-Adapter, um sich mit zwei separaten Leaf-Switches für Redundanz zu verbinden.
Einmal eingesetzt, erfordert die Aufrechterhaltung der Leistung eine proaktive Überwachung und Anpassung.MCX631432AN-ADABfür diesen Zweck eine umfassende Telemetrie bereitstellt.
- Überwachung der wichtigsten Kennzahlen:Verwenden Sie Tools wie `mlxstat` und `ethtool` zur Überwachung von Portzählern, Linkfehlern und RDMA-Verkehrsstatistiken.eine hohe Anzahl zeigt einen Verluststoff an, der die RoCE-Leistung beeinträchtigt.
- Firmware- und Treiberupdates:Regelmäßig auf Updates achten. Neue Firmware beinhaltet oft Leistungsoptimierungen und Fehlerbehebungen, die die Latenzzeit weiter reduzieren und die Kompatibilität mit Upstream-Switches verbessern können.
- Leistungsstimmung:Für Umgebungen mit den anspruchsvollsten Latenzanforderungen kann eine Feinabstimmung der Unterbrechungsmoderation und der Puffergrößen inkrementelle Gewinne erzielen.Die Flexibilität des Adapters ermöglicht es Architekten, die Einstellungen anhand ihrer spezifischen Arbeitsbelastung zu wählen (z. B..z.B. HPC gegen Virtualisierung).
Für die Fehlerbehebung von Verbindungsproblemen ist zu überprüfen, ob die SFP28-ModuleMCX631432AN-ADAB kompatibelDie Verwendung von NVIDIA-qualifizierten Optiken gewährleistet eine zuverlässige Anbindung und Leistung.
DieMCX631432AN-ADABvon Mellanox (NVIDIA) bietet einen klaren und effektiven Weg zur Implementierung eines leistungsstarken, langfristigen Netzwerks.Unternehmen können die doppelten Vorteile der drastisch reduzierten CPU-Overhead und der deutlich erhöhten Serverdurchsatz erzielen. Die detailliertenSpezifikationen für MCX631432AN-ADABundDatenblatt MCX631432AN-ADABdie Fähigkeit zu überprüfen, die anspruchsvollsten Arbeitslasten zu bewältigen.
Für IT-Manager und Netzwerkarchitekten, die eine Hardware-Aktualisierung bewerten, werden die Leistungssteigerungen, die diese Lösung bietet, direkt in Geschäftswerte umgesetzt: schnellere Transaktionsverarbeitung,effizienterer Zugang zu Speichern, und verbesserte die Gesamtbetriebskosten.MCX631432AN-ADABSie stellt sicher, dass die Netzinfrastruktur kein Engpass, sondern ein Beschleuniger ist.MCX631432AN-ADAB Preisund Verfügbarkeit, wenden Sie sich bitte an Ihren NVIDIA Vertreter.

