Supermicro bringt drei NVIDIA-basierte, sofort einsatzbereite generative KI-Supercluster auf den Markt, die von Enterprise- bis zu großen LLM-Infrastrukturen skalieren - Seite 3
Supermicros NVIDIA MGX Systemdesigns mit den NVIDIA GH200 Grace Hopper Superchips werden eine Blaupause für zukünftige KI-Cluster schaffen, die einen entscheidenden Engpass in der generativen KI beheben: die GPU-Speicherbandbreite und -kapazität zur Ausführung großer Sprachmodelle (LLM) mit hohen Inferenzstapelgrößen, um die Betriebskosten zu senken. Der Cluster mit 256 Knoten ermöglicht eine Cloud-Skala mit hohem Datenaufkommen, die sich leicht implementieren und skalieren lässt.
SuperCluster mit 4U flüssigkeitsgekühltem System in 5 Racks oder 8U luftgekühltem System in 9 Racks
- 256 NVIDIA H100/H200 Tensor Core GPUs in einer skalierbaren Einheit
- Die Flüssigkeitskühlung ermöglicht 512 GPUs, 64 Knoten, auf der gleichen Grundfläche wie die luftgekühlte Lösung mit 256 GPUs und 32 Knoten
- 20TB HBM3 mit NVIDIA H100 oder 36TB HBM3e mit NVIDIA H200 in einer skalierbaren Einheit
- 1:1-Netzwerke liefern bis zu 400 Gbit/s an jede GPU, um GPUDirect RDMA und Storage für das Training großer Sprachmodelle mit bis zu Billionen von Parametern zu ermöglichen
- 400G InfiniBand oder 400GbE Ethernet Switch Fabrics mit hoch skalierbarer Spine-Leaf-Netzwerktopologie, einschließlich NVIDIA Quantum-2 InfiniBand und NVIDIA Spectrum-X Ethernet Platform.
- Anpassbare AI Data Pipeline Storage Fabric mit branchenführenden Optionen für parallele Dateisysteme
- NVIDIA AI Enterprise 5.0 Software mit Unterstützung für die neuen NVIDIA NIM Inferenz-Microservices, die die Bereitstellung von KI-Modellen im großen Maßstab beschleunigen
SuperCluster mit 1U luftgekühltem NVIDIA MGX System in 9 Racks
- 256 GH200 Grace Hopper Superchips in einer skalierbaren Einheit
- Bis zu 144 GB HBM3e + 480 GB LPDDR5X-Unified-Memory, geeignet für Cloud-Scale, hohe Volumina, niedrige Latenzzeiten und hohe Stapelgrößen, die ein Modell mit mehr als 70 B Parametern in einen Knoten integrieren können.
- 400G InfiniBand- oder 400GbE-Ethernet-Switch-Fabrics mit hoch skalierbarer Spine-Leaf-Netzwerktopologie
- Bis zu 8 integrierte E1.S NVMe-Speichergeräte pro Knoten
- Anpassbare KI-Datenpipeline-Speicherstruktur mit NVIDIA BlueField-3 DPUs und branchenführenden parallelen Dateisystemoptionen für hohen Durchsatz und latenzarmen Speicherzugriff auf jede GPU
- NVIDIA AI Enterprise 5.0 Software
Lesen Sie auch
Mit der höchsten erreichbaren Netzwerkleistung für GPU-GPU-Konnektivität sind die SuperCluster-Lösungen von Supermicro für LLM-Training, Deep Learning und Inferenzen mit hohem Volumen und hoher Stapelgröße optimiert. Supermicros L11- und L12-Validierungstests in Kombination mit seinem Vor-Ort-Bereitstellungsservice bieten den Kunden eine nahtlose Erfahrung. Kunden erhalten skalierbare Plug-and-Play-Einheiten für eine einfache Bereitstellung in einem Rechenzentrum und schnellere Ergebnisse.