06-11-2023 · Einblick

Energetische Herausforderungen beim Betrieb von KI-Chips

Durch Künstliche Intelligenz (KI) wird nicht nur die Informationsverarbeitung intensiviert, sondern auch der Energieverbrauch und die Wärmeentwicklung. Um mit der Entwicklung Schritt zu halten und für Kühlung zu sorgen, müssen die Rechenzentren massiv aufgerüstet werden. Das sorgt für starke strukturelle Impulse und potenziell rezessionssichere Umsatzwachstum für Unternehmen, die energieeffiziente Geräte und Systeme zum Energiemanagement anbieten.

    Autoren/Autorinnen

  • Michael Studer PhD - Co-Portfolio Manager Smart Energy

    Michael Studer PhD

    Co-Portfolio Manager Smart Energy

Die Geschwindigkeit, mit der Künstliche Intelligenz (KI) eingeführt wird, ist eine der schnellsten, die am Markt je zu beobachten waren. Die großen Sprachmodelle (LLM), die von ChatGPT und ähnlichen KI-Bots verwendet werden, um menschenähnliche Unterhaltungen zu erzeugen, sind nur eine von vielen neuen KI-Anwendungen, die sich auf Paralleles Rechnen stützen. Dieser Begriff wird zur Beschreibung der enormen Rechenarbeit verwendet, die von Netzwerken von Chips geleistet wird, welche viele Berechnungen oder Prozesse gleichzeitig ausführen.

Das Herzstück der KI-Infrastruktur sind Grafikprozessoren (GPUs). Sie zeichnen sich durch die Art und Weise spezialisierter, hochleistungsfähiger parallel stattfindender Berechnungen aus, welche für die KI erforderlich sind. Diese Rechenleistung führt auch zu einem höheren Energieaufwand, der im Vergleich zu den in PCs verwendeten CPUs (Central Processing Units) mit mehr Wärmeerzeugung einhergeht. Siehe Abbildung 1.

Abbildung 1 - Kernvergleich – CPUs vs. GPUs

Abbildung 1 - Kernvergleich – CPUs vs. GPUs

Quelle: GPU vs CPU – Difference Between Processing Units – AWS (amazon.com)

Kleine Chips mit großen Folgen für Rechenzentren

High-End-GPUs weisen eine etwa viermal höhere Leistungsdichte als CPUs auf. Dies schafft bei der Planung von Rechenzentren erhebliche neue Probleme, da die ursprünglich berechnete Stromversorgung nur 25 % des Bedarfs für den Betrieb moderner KI-Rechenzentren deckt. Selbst die hochmodernen Hyperscaler-Rechenzentren, die von Amazon, Microsoft und Alphabet für cloud-basiertes Computing genutzt werden, sind immer noch CPU-gesteuert. Zur Veranschaulichung: NVIDIAs aktueller KI-Chip A100 hat einen konstanten Stromverbrauch von etwa 400 Watt pro Chip. Dagegen ist die Leistungsaufnahme seines neuesten Mikrochips, des H100, fast doppelt so hoch: er verbraucht 700 Watt, ähnlich dem Bedarf einer Mikrowelle. Würde man in einem kompletten Hyperscaler-Rechenzentrum mit durchschnittlich einer Million Servern die derzeitigen CPU-Server durch diese Art von GPUs ersetzen, würde sich der Energiebedarf um das Vier- bis Fünffache (1.500 MW) erhöhen – das entspricht der Leistung eines Kernkraftwerks!

Highend-GPUs weisen eine etwa viermal höhere Leistungsaufnahme als CPUs auf

Dieser Anstieg der Leistungsaufnahme bedeutet, dass diese Chips auch deutlich mehr Wärme erzeugen. Folglich müssen die Kühlsysteme ebenfalls leistungsfähiger werden. Ein Anstieg des Energie- und Kühlungsbedarfs in dieser Größenordnung erfordert völlig neue Konzepte für künftige KI-gestützte Rechenzentren. Dies führt zu einem enormen Missverhältnis zwischen Angebot und Nachfrage bei der zugrundeliegenden Chip- und Rechenzentrumsinfrastruktur. Angesichts der Zeit, die für den Bau von Rechenzentren benötigt wird, gehen Branchenexperten davon aus, dass wir uns in der Anfangsphase einer jahrzehntelangen Modernisierung von Rechenzentren befinden, um sie leistungsfähiger zu machen.

Abbildung 2 - Wachstum des Stromverbrauchs von US-Rechenzentren (in Gigawatt)

Abbildung 2 - Wachstum des Stromverbrauchs von US-Rechenzentren (in Gigawatt)

Umfasst den Stromverbrauch für Speicher, Server und Netzwerke. Grau gehalten ist der Energieverbrauch von Rechenzentren, die im Unternehmen integriert sind, hellblau sind Firmen, die IT-Rechenzentren im Auftrag von Unternehmen mieten und verwalten, dunkelblau sind Hyperscaler-Rechenzentren.

Quelle: McKinsey & Company, Investing in the rising data center economy, 2023.

Modernisierung von Rechenzentren für KI-spezifische Anforderungen

Strukturelle Veränderungen dieses Ausmaßes werden zu weitreichenden Upgrades nicht nur bei Chips und Servern führen, sondern auch bei der Strominfrastruktur, die sie mit der nötigen Energie versorgt.

Die Gesetze der Physik besagen, dass eine Erhöhung der Stromversorgung eine Erhöhung der elektrischen Spannung und/oder der Stromstärke bedeutet (Leistung = Spannung x Stromstärke). Die Erhöhung der Spannung ist der praktikablere Weg.1 Dementsprechend arbeitet die Industrie daran, die Spannung zu erhöhen. Das erfordert die Umgestaltung vieler Standardkomponenten, die in der frühen Ära von Computern und Servern festgelegt wurden, als die Leistungsdichte relativ niedrig war (2-3 Kilowatt pro Rack). Dies bedeutet neue Konfigurationen für Stromkabel, Stromverteilerschränke und Konverter, da sie über die aktuellen Formate hinausgehen (siehe Abbildung 3). Auf Ebene der Mikrochips gibt es sogar noch größere Herausforderungen. Denn eine höhere Spannung und damit ein höherer Stromverbrauch für die GPU setzt eine völlige Neugestaltung der Stromversorgung von Chips voraus.

Abbildung 3 – Mehr als nur Kabel und Stecker – Die Komplexität der elektrischen Systeme in Rechenzentren

Abbildung 3 – Mehr als nur Kabel und Stecker – Die Komplexität der elektrischen Systeme in Rechenzentren

Die Stromversorgung eines Rechenzentrums umfasst mehrere miteinander verbundene Systeme, die für eine optimale Verarbeitungsleistung reibungslos funktionieren müssen. LV = Niederspannungsgeräte, MV = Mittelspannungsgeräte

Quelle: Green Data Center Design and Management

Die Kühlung von Rechenzentren ist der Schlüssel, um eine hohe Systemleistung zu gewährleisten und gleichzeitig Fehlfunktionen zu vermeiden. Herkömmliche HVAC-2 Lösungen, die Klimaanlagen und Ventilatoren zur Kühlung der Luft in Serverräumen von Rechenzentren verwenden, sind für CPUs ausreichend, deren Server-Racks eine Leistungsaufnahme zwischen 3-30 Kilowatt bewältigen. Sie genügen aber nicht für GPUs, deren Leistungsaufnahme deutlich über 40 Kilowatt hinausgeht.3 Da die neuesten GPU-Racks diese Leistungswerte überschreiten, rückt wieder die zusätzliche Flüssigkeitskühlung im Vordergrund. Sie ermöglichen eine noch bessere Wärmeableitung auf Ebene der Server-Racks oder Chips, da Flüssigkeiten mehr Wärme pro Volumeneinheit aufnehmen können als Luft. Einige der größten Herausforderungen bei der Flüssigkeitskühlung sind jedoch 1. das Fehlen standardisierter Designs und Komponenten für solche Systeme, 2. unterschiedliche Technologieoptionen wie Chip- oder Rack-Kühlung und 3. hohe Kosten für Leitungen und Vorkehrungen zur Vermeidung von Leckagen.

Unser Ausblick auf die KI-Revolution und ihre Folgen für den Energiebedarf von Rechenzentren

Die KI-Revolution erfordert eine komplette Rundumerneuerung der Infrastruktur von Rechenzentren, um den weit höheren Energiebedarf der neuen KI-Technologie zu decken. Dies wird zu einem starken Anstieg der Nachfrage und der Investitionen in Rechenzentren für stromsparende Computeranwendungen, energieeffiziente HLK- und Energieverwaltungslösungen führen. Alle diese Lösungen in Bezug auf die Energieeffizienz von Big-Data-Systemen sind wichtige Investitionsbereiche für die Smart Energy-Strategie.

Die KI-Revolution erfordert eine komplette Rundumerneuerung der Infrastruktur von Rechenzentren, um den weit höheren Energiebedarf der neuen KI-Technologie zu decken

Erwartungen zufolge werden die Umsätze von Unternehmen, die Energieeffizienzlösungen für Rechenzentren anbieten, ein starkes Wachstum erzielen. Dies hat auch zu einer Neubewertung am Markt geführt. Denn diese Unternehmen werden aufgrund ihrer wesentlich besseren Wachstumsaussichten nun eher am oberen Ende ihrer historischen Bewertungsspanne gehandelt. Angesichts der starken Dynamik und der zugrundeliegenden strukturellen Faktoren finden wir diesen Teil des Smart Energy-Investmentuniversums grundsätzlich sehr attraktiv. Wir glauben auch, dass sich dieser Bereich von einer möglichen Rezession abkoppeln kann, weil die Ausgaben für die dringend benötigten Rechenzentren und die damit verbundenen Energieeffizienzlösungen nicht vom allgemeinen Konjunkturzyklus abhängen werden.

Fußnoten

1 Eine Erhöhung der Stromstärke erfordert größere Kabeldurchschnitte und kostet wertvollen Platz. Sie ist kein praktikabler Weg für das Layout heutiger Rechenzentren mit eng gepackten Server-Racks.
2 Heizung, Lüftung und Klimatisierung
3 Nach Angaben von Schneider Electric beträgt die Leistungsaufnahme von GPU-Server-Racks durchschnittlich 44 Kilowatt.