- Colossus: la supercomputadora de entrenamiento de IA más grande y poderosa desarrollada por xAI de Elon Musk.
- Ubicación: Memphis, Tennessee, en un parque industrial a orillas del río Misisipi. El edificio fue anteriormente el hogar de un fabricante de electrodomésticos sueco, ElectrX.
Características principales
- Hardware:
- Más de 100 000 GPU Nvidia HGX H100 conectadas con exabytes de almacenamiento de datos.
- Sistema de refrigeración líquida que utiliza grandes cantidades de agua para mantener temperaturas óptimas.
- Velocidad: se dice que es la supercomputadora más rápida del planeta, diseñada para impulsar el modelo de inteligencia artificial Gro.
- Construcción: se construyó en solo 122 días, significativamente más rápido que los clústeres de supercomputadoras tradicionales que tardan años.
Configuración de la sala de datos
- Estructura:
- La instalación cuenta con un diseño de sala de datos de piso elevado, que separa los clústeres de energía, refrigeración y GPU en tres niveles.
- Cuatro salas de datos, cada una con 25 000 GPU.
Sistema de refrigeración
- Refrigeración líquida:
- Utiliza una red de tuberías para hacer circular el agua, eliminando el calor de las GPU de manera eficiente.
- El agua caliente se envía a un enfriador antes de bombearse nuevamente, manteniendo una temperatura óptima temperaturas.
Configuración de GPU y CPU
- Racks de GPU:
- Cada rack contiene ocho GPU Nvidia H100 y tiene un sistema de refrigeración por agua independiente.
- Se puede realizar el mantenimiento de los racks sin apagar todo el gabinete, lo que minimiza el tiempo de inactividad.
- Uso de CPU:
- Dos CPU por cada ocho GPU, que se encargan de la preparación de datos y las tareas del sistema operativo.
Administración de datos
- Almacenamiento:
- El sistema contiene exabytes de datos (1 exabyte = 1 mil millones de gigabytes) para fines de entrenamiento.
- Los datos se transfieren a través de una red de alta velocidad impulsada por DPU Nvidia Bluefield 3, capaces de manejar 400 Gbps.
Suministro de energía
- Fuente de energía:
- Alimentada principalmente por baterías Tesla Megapack, lo que garantiza un suministro de energía constante a la supercomputadora.
- Esta configuración mitiga las fluctuaciones de la red eléctrica tradicional, crucial para sesiones de entrenamiento eficientes.
Aspectos financieros
- Financiación:
- xAI recaudó 6 mil millones de capital de riesgo, lo que valoró la empresa en 6 mil millones en capital de riesgo,
- mientras que valoraba la empresa en 24 mil millones de dólares en total.
- Elon Musk estaría buscando financiación adicional para aumentar la valoración de la empresa a 40 mil millones de dólares.
Desarrollos futuros
- Planes de expansión:
- Planes para duplicar el tamaño de Colossus a más de 200 000 H100 GPU en los próximos dos meses.
- Evolución de la IA:
- Recientemente, Gro se ha actualizado para incluir capacidades de visión, lo que le permite analizar imágenes junto con texto.
Conclusión
Colossus representa un salto significativo en las capacidades de entrenamiento de IA, ya que combina hardware de vanguardia, soluciones de refrigeración innovadoras y una gestión energética eficiente para allanar el camino para el desarrollo avanzado de la inteligencia artificial. El rápido crecimiento y los ambiciosos planes de xAI lo posicionan como un actor formidable en el panorama de la IA.