- Colossus: il più grande e potente supercomputer di addestramento AI sviluppato da xAI di Elon Musk.
- Luogo: Memphis, Tennessee, in un parco industriale sul fiume Mississippi. In precedenza, l'edificio ospitava un produttore di elettrodomestici svedese, ElectrX.
Caratteristiche principali
- Hardware:
- Oltre 100.000 GPU Nvidia HGX H100 connesse con exabyte di archiviazione dati.
- Sistema di raffreddamento a liquido che utilizza grandi quantità di acqua per mantenere temperature ottimali.
- Velocità: dichiarato il supercomputer più veloce del pianeta, costruito per alimentare il modello di intelligenza artificiale Gro.
- Costruzione: costruito in soli 122 giorni, significativamente più veloce dei tradizionali cluster di supercomputer che impiegano anni.
Configurazione della sala dati
- Struttura:
- La struttura è caratterizzata da un design di sala dati con pavimento rialzato, che separa i cluster di alimentazione, raffreddamento e GPU in tre livelli.
- Quattro sale dati, ciascuna contenente 25.000 GPU.
Sistema di raffreddamento
- Raffreddamento a liquido:
- Utilizza una rete di tubi per far circolare l'acqua, rimuovendo efficacemente il calore dalle GPU.
- L'acqua calda viene inviata a un refrigeratore prima di essere pompata nuovamente, mantenendo una temperatura ottimale temperature.
Configurazione GPU e CPU
- Rack GPU:
- Ogni rack contiene otto GPU Nvidia H100 e ha un sistema di raffreddamento ad acqua indipendente.
- I rack possono essere riparati senza dover spegnere l'intero cabinet, riducendo al minimo i tempi di inattività.
- Utilizzo CPU:
- Due CPU per ogni otto GPU, che gestiscono la preparazione dei dati e le attività del sistema operativo.
Gestione dei dati
- Archiviazione:
- Il sistema contiene exabyte di dati (1 exabyte = 1 miliardo gigabyte) per scopi di formazione.
- I dati vengono trasferiti tramite una rete ad alta velocità alimentata da DPU Nvidia Bluefield 3, in grado di gestire 400 Gbps.
Fornitura energetica
- Fonte di alimentazione:
- Alimentata principalmente da batterie Tesla Megapack, che garantiscono una fornitura di energia costante al supercomputer.
- Questa configurazione attenua le fluttuazioni della rete elettrica tradizionale, cruciali per sessioni di formazione efficienti.
Aspetti finanziari
- Finanziamenti:
- xAI ha raccolto 6 miliardi di capitale di rischio, valutando l'azienda a 6 miliardi di capitale di rischio,
- mentre valutava l'azienda a 24 miliardi di USD in totale
- Elon Musk starebbe cercando finanziamenti aggiuntivi per aumentare la valutazione dell'azienda a 40 miliardi di $.
Sviluppi futuri
- Piani di espansione:
- Piani per raddoppiare le dimensioni di Colossus a oltre 200.000 GPU H100 entro i prossimi due mesi.
- Evoluzione dell'IA:
- Gro è stato recentemente aggiornato per includere funzionalità di visione, consentendogli di analizzare le immagini insieme al testo.
Conclusione
Colossus rappresenta un significativo balzo in avanti nelle capacità di formazione dell'IA, combinando hardware all'avanguardia, soluzioni di raffreddamento innovative e gestione efficiente dell'energia per aprire la strada allo sviluppo di un'intelligenza artificiale avanzata. La rapida crescita e gli ambiziosi piani di xAI lo posizionano come un attore formidabile nel panorama dell'IA.