- Colossus: Der größte und leistungsstärkste KI-Trainings-Supercomputer, entwickelt von Elon Musks xAI.
- Standort: Memphis, Tennessee, in einem Industriepark am Mississippi. Das Gebäude war früher die Heimat des schwedischen Geräteherstellers ElectrX.
Hauptmerkmale
- Hardware:
- Über 100.000 Nvidia HGX H100 GPUs verbunden mit Exabyte an Datenspeicher.
- Flüssigkeitskühlsystem mit riesigen Wassermengen zur Aufrechterhaltung optimaler Temperaturen.
- Geschwindigkeit: Angeblich der schnellste Supercomputer der Welt, gebaut, um das KI-Modell Gro.
- anzutreiben.
- Bau: Erbaut in nur 122 Tagen, deutlich schneller als herkömmliche Supercomputer-Cluster, die Jahre brauchen.
Konfiguration der Datenhalle
- Struktur:
- Die Anlage verfügt über ein Datenhallendesign mit Doppelboden, das Strom-, Kühlungs- und GPU-Cluster auf drei Ebenen verteilt.
- Vier Datenhallen, jede mit 25.000 GPUs.
Kühlsystem
- Flüssigkeitskühlung:
- Nutzt ein Netzwerk von Rohren zur Wasserzirkulation und entfernt so effizient Wärme von den GPUs.
- Heißes Wasser wird an einen Kühler geleitet, bevor es wieder hineingepumpt wird, wodurch eine optimale Temperaturen.
GPU- und CPU-Konfiguration
- GPU-Racks:
- Jedes Rack enthält acht Nvidia H100 GPUs und verfügt über ein unabhängiges Wasserkühlsystem.
- Racks können gewartet werden, ohne das gesamte Gehäuse herunterzufahren, wodurch Ausfallzeiten minimiert werden.
- CPU-Auslastung:
- Zwei CPUs für jeweils acht GPUs, die Datenaufbereitung und Betriebssystemaufgaben übernehmen.
Datenverwaltung
- Speicher:
- Das System fasst Exabyte an Daten (1 Exabyte = 1 Milliarden Gigabyte) für Trainingszwecke.
- Die Datenübertragung erfolgt über ein Hochgeschwindigkeitsnetzwerk mit Nvidia Bluefield 3 DPUs, die 400 Gbit/s verarbeiten können.
Energieversorgung
- Stromquelle:
- Wird hauptsächlich von Tesla Megapack-Batterien angetrieben, wodurch eine konstante Energieversorgung des Supercomputers gewährleistet wird.
- Diese Konfiguration mildert Schwankungen im herkömmlichen Stromnetz, was für effiziente Trainingseinheiten entscheidend ist.
Finanzielle Aspekte
- Finanzierung:
- xAI hat 6 Milliarden Risikokapital aufgebracht, wodurch das Unternehmen mit 6 Milliarden Risikokapital bewertet wird,
- während die Bewertung des Unternehmens bei insgesamt 24 Milliarden USD
- Elon Musk sucht Berichten zufolge nach zusätzlichen Mitteln, um die Bewertung des Unternehmens auf 40 Milliarden USD zu steigern.
Zukünftige Entwicklungen
- Erweiterungspläne:
- Pläne zur Verdoppelung der Größe von Colossus auf über 200.000 H100 GPUs innerhalb der nächsten zwei Monate.
- KI-Evolution:
- Gro wurde kürzlich um Bildverarbeitungsfunktionen erweitert, mit denen es neben Text auch Bilder analysieren kann.
Fazit
Colossus stellt einen bedeutenden Sprung in den KI-Trainingsfähigkeiten dar und kombiniert modernste Hardware, innovative Kühllösungen und effizientes Energiemanagement, um den Weg für die Entwicklung fortschrittlicher künstlicher Intelligenz zu ebnen. Das schnelle Wachstum und die ehrgeizigen Pläne von xAI positionieren das Unternehmen als beeindruckenden Akteur in der KI-Landschaft.