NVIDIA Mellanox MCX653106A-HDAT Server Adapter in Aktion: RDMA/RoCE Low-Latency Transport & Server

April 30, 2026

Neueste Unternehmensnachrichten über NVIDIA Mellanox MCX653106A-HDAT Server Adapter in Aktion: RDMA/RoCE Low-Latency Transport & Server

In modernen Rechenzentrumsumgebungen – von verteilten Speichern und Hochfrequenzhandel bis hin zu großen KI-Trainingsclustern – sind traditionelle TCP/IP-Protokollstapel zu einem großen Engpass geworden. Der Overhead der Kernel-Netzwerkkonfiguration, Datenkopien und Kontextwechsel verbrauchen erhebliche CPU-Ressourcen und führen zu unvorhersehbarer Latenz. Diese Fallstudie untersucht, wie ein führender Anbieter von Cloud-Infrastrukturen diese Herausforderungen durch den Einsatz der NVIDIA Mellanox MCX653106A-HDAT Server-NICs gemeistert und dramatische Verbesserungen sowohl bei Latenz als auch beim Durchsatz erzielt hat.

Hintergrund & Herausforderungen: Der TCP/IP-Engpass

Die bestehende 25GbE-Infrastruktur des Anbieters, die Standard-TCP verwendet, hatte Schwierigkeiten, mit NVMe-oF-Speichertraffic und Echtzeitanalysen Schritt zu halten. Die CPU-Auslastung auf den Speicherknoten überschritt häufig 70 % allein für die Netzwerkverarbeitung, was nur wenig Spielraum für die Anwendungslogik ließ. Die End-to-End-Latenz zwischen Rechen- und Speicherknoten schwankte zwischen 50 und 150 Mikrosekunden, was zu Spitzen bei der Tail-Latenz führte, die die Service-Level-Agreements beeinträchtigten. Das Ingenieurteam erkannte, dass ein grundlegender Wandel in der Netzwerkinfrastruktur erforderlich war – einer, der den Kernel umgeht und direkten Speicherzugriff zwischen Endpunkten ermöglicht.

Lösung: Einsatz von MCX653106A-HDAT mit RoCE

Nach der Bewertung mehrerer Optionen wählte das Team die MCX653106A-HDAT Ethernet-Adapterkarte als Eckpfeiler seiner Netzwerkerneuerung. Basierend auf der ConnectX-6-Architektur bietet diese MCX653106A-HDAT ConnectX-Adapter-PCIe-Netzwerkkarte eine Dual-Port-100GbE-Konnektivität mit nativer Hardwareunterstützung für RoCE (RDMA over Converged Ethernet). Die Bereitstellung erfolgte schrittweise:

  • Phase 1: Ersetzen Sie ältere NICs in Speicherknoten (10 Knoten mit Ceph) durch den neuen Adapter.
  • Phase 2: Konfigurieren Sie verlustfreies Ethernet mit DCB (Priority Flow Control und ETS) auf beiden NICs und Top-of-Rack-Switches.
  • Phase 3: Migrieren Sie den Anwendungs-Traffic von TCP-Sockets zu RDMA-basierten Verben und NVMe-oF über RoCE.
  • Phase 4: Erweitern Sie die Bereitstellung auf Rechenknoten, die Echtzeitanalysen verarbeiten.

Ingenieure, die das MCX653106A-HDAT-Datenblatt und die MCX653106A-HDAT-Spezifikationen konsultierten, bestätigten die volle Kompatibilität mit dem bestehenden Mellanox-Switch-Fabric und der eingesetzten Linux-Distribution (Ubuntu 22.04 mit MLNX_OFED-Treibern). Das MCX653106A-HDAT-kompatiblen Ökosystem erwies sich als umfassend und erforderte keine Hardwareänderungen über den reinen NIC-Austausch hinaus.

Ergebnisse & Vorteile: Messbare Transformation

Tests nach der Bereitstellung zeigten erhebliche Verbesserungen bei allen wichtigen Kennzahlen. Die folgende Tabelle fasst den Vergleich vor und nach der Umstellung zusammen:

Metrik Vorher (25GbE TCP) Nachher (MCX653106A-HDAT RoCE) Verbesserung
Durchschnittliche Latenz (P99) 120 µs 8 µs 93% Reduzierung
Speicherknoten-CPU (Netzwerkpfad) ~65% ~12% 5,4-fache Reduzierung
NVMe-oF-Lesedurchsatz (pro Knoten) 18 Gb/s 96 Gb/s 5,3-fache Erhöhung
Nachrichtenrate (64-Byte-Pakete) 15 Mpps 215 Mpps 14,3-fache Erhöhung

Über diese quantitativen Gewinne hinaus beobachtete das Team mehrere qualitative Vorteile. Die MCX653106A-HDAT Ethernet-Adapterkartenlösung ermöglichte eine echte Zero-Copy-Datenübertragung zwischen dem Anwendungsspeicher und dem entfernten Speicher, wodurch Pufferüberlaufprobleme beseitigt wurden, die zuvor zu intermittierenden Ausfällen bei Traffic-Spitzen geführt hatten. Für die Analyse-Workloads reduzierte die Migration zu RDMA die Job-Abschlusszeiten um 62 %, was sich direkt auf die Geschäftsergebnisse auswirkte. Bei der Bewertung des MCX653106A-HDAT-Preises im Verhältnis zu den Gesamtbetriebskosten führte die Reduzierung der Anzahl der Speicherknoten um 30 % (aufgrund höherer Effizienz pro Knoten) zu einer Amortisation innerhalb von neun Monaten. Der MCX653106A-HDAT zum Verkauf über NVIDIA-Partner beinhaltete auch den Zugriff auf das DOCA-Framework, was zukünftige Programmierbarkeit für benutzerdefinierte Netzwerkfunktionen ermöglichte.

Fazit & Ausblick: Eine Grundlage für die Infrastruktur der nächsten Generation

Die Bereitstellung von NVIDIA Mellanox MCX653106A-HDAT verwandelte die Infrastruktur des Anbieters von einer TCP-limitierten Umgebung in ein Hochleistungs-Low-Latency-Fabric, das moderne Workloads unterstützen kann. Die Kombination aus Hardware-offloaded RoCE, PCIe 4.0-Schnittstelle und einem umfassenden Software-Ökosystem erfüllt die drei kritischen Anforderungen heutiger Rechenzentren: reduzierte Latenz, erhöhter Durchsatz und verbesserte CPU-Effizienz.

Für Architekten, die ähnliche Upgrades evaluieren, beginnt die Reise mit der Überprüfung von MCX653106A-HDAT-kompatiblen Komponenten – einschließlich Switches, Kabeln und Betriebssystemen. Das detaillierte MCX653106A-HDAT-Datenblatt liefert Strom-, Wärme- und mechanische Spezifikationen für die Integrationsplanung. Da 200GbE-Fabrics zum Standard werden und KI-Trainingscluster eine immer geringere Latenz erfordern, ist die MCX653106A-HDAT Ethernet-Adapterkarte als bewährte, produktionserprobte Lösung bereit. Der Anbieter erweitert die Bereitstellung nun um GPU Direct RDMA für KI-Inferenz-Workloads, was diesen Adapter weiter als Eckpfeiler der modernen Rechenzentrumsinfrastruktur bestätigt.