Seleccione su idioma

Resumen del artículo :: TL;DR

El artículo "La supercomputadora Colossus de Elon Musk con chips NVIDIA que alimentan GROK" se puede resumir de la siguiente manera: Colossus con chips NVIDIA que alimentan GROK: la supercomputadora de entrenamiento de IA más grande y poderosa desarrollada por xAI de Elon Musk. La supercomputadora GROK Colossus funciona con 100.000 chips NVIDIA (¡por ahora, pronto serán 200.000!). O en palabras aún más breves, el foco principal está en Colossus, el más grande, el más poderoso, entrenamiento de IA, GROK, supercomputadora desarrollada, Elon Musk, xAI, NVIDIA, chips, potenciando, GROK, GROK, supercomputadora, Colossus, 100.000, NVIDIA así como 200k.

La supercomputadora GROK Colossus funciona con 100.000 chips NVIDIA (por ahora, ¡pronto serán 200.000!).
La supercomputadora GROK Colossus funciona con 100.000 chips NVIDIA (por ahora, ¡pronto serán 200.000!).
  • Colossus: la supercomputadora de entrenamiento de IA más grande y poderosa desarrollada por xAI de Elon Musk.
  • Ubicación: Memphis, Tennessee, en un parque industrial a orillas del río Misisipi. El edificio fue anteriormente el hogar de un fabricante de electrodomésticos sueco, ElectrX.

Características principales

  • Hardware:
    • Más de 100 000 GPU Nvidia HGX H100 conectadas con exabytes de almacenamiento de datos.
    • Sistema de refrigeración líquida que utiliza grandes cantidades de agua para mantener temperaturas óptimas.
  • Velocidad: se dice que es la supercomputadora más rápida del planeta, diseñada para impulsar el modelo de inteligencia artificial Gro.
  • Construcción: se construyó en solo 122 días, significativamente más rápido que los clústeres de supercomputadoras tradicionales que tardan años.

Configuración de la sala de datos

  • Estructura:
    • La instalación cuenta con un diseño de sala de datos de piso elevado, que separa los clústeres de energía, refrigeración y GPU en tres niveles.
    • Cuatro salas de datos, cada una con 25 000 GPU.

Sistema de refrigeración 

El sistema de refrigeración por agua de la supercomputadora GROK
El sistema de refrigeración por agua de la supercomputadora GROK
  • Refrigeración líquida:
    • Utiliza una red de tuberías para hacer circular el agua, eliminando el calor de las GPU de manera eficiente.
    • El agua caliente se envía a un enfriador antes de bombearse nuevamente, manteniendo una temperatura óptima temperaturas.

Configuración de GPU y CPU

  • Racks de GPU:
    • Cada rack contiene ocho GPU Nvidia H100 y tiene un sistema de refrigeración por agua independiente.
    • Se puede realizar el mantenimiento de los racks sin apagar todo el gabinete, lo que minimiza el tiempo de inactividad.
  • Uso de CPU:
    • Dos CPU por cada ocho GPU, que se encargan de la preparación de datos y las tareas del sistema operativo.

Administración de datos

  • Almacenamiento:
    • El sistema contiene exabytes de datos (1 exabyte = 1 mil millones de gigabytes) para fines de entrenamiento.
    • Los datos se transfieren a través de una red de alta velocidad impulsada por DPU Nvidia Bluefield 3, capaces de manejar 400 Gbps.

Suministro de energía

  • Fuente de energía:
    • Alimentada principalmente por baterías Tesla Megapack, lo que garantiza un suministro de energía constante a la supercomputadora.
    • Esta configuración mitiga las fluctuaciones de la red eléctrica tradicional, crucial para sesiones de entrenamiento eficientes.

Aspectos financieros

  • Financiación:
    • xAI recaudó 6 mil millones de capital de riesgo, lo que valoró la empresa en 6 mil millones en capital de riesgo,
    • mientras que valoraba la empresa en 24 mil millones de dólares en total.
    • Elon Musk estaría buscando financiación adicional para aumentar la valoración de la empresa a 40 mil millones de dólares.

Desarrollos futuros

La enorme supercomputadora GROK con chips NVIDIA es actualmente el sistema líder en el mundo
La supercomputadora GROK con chips NVIDIA es el sistema líder en el mundo
  • Planes de expansión:
    • Planes para duplicar el tamaño de Colossus a más de 200 000 H100 GPU en los próximos dos meses.
  • Evolución de la IA:
    • Recientemente, Gro se ha actualizado para incluir capacidades de visión, lo que le permite analizar imágenes junto con texto.

Conclusión

Colossus representa un salto significativo en las capacidades de entrenamiento de IA, ya que combina hardware de vanguardia, soluciones de refrigeración innovadoras y una gestión energética eficiente para allanar el camino para el desarrollo avanzado de la inteligencia artificial. El rápido crecimiento y los ambiciosos planes de xAI lo posicionan como un actor formidable en el panorama de la IA.