KI-Rechenzentren: Spannungsqualität wird kritischer Faktor
Höherer Verbrauch, schnellere Lastwechsel, neue Risiken: Rechenzentren für Künstliche Intelligenz stellen Netzbetreiber und Betreiber vor neue Herausforderungen. Ein Überblick von Roshan Rajeev, Janitza-Experte für KI-Rechenzentren.

„Live-Energiedaten sind das A und O für KI-Rechenzentren.“ Diese Aussage traf Roshan Rajeev, Janitza Experte für KI-Rechenzentren, in seinem Kurzvortrag auf der Data Center World (DCW) in Washington D.C. In seiner Session “Implementing Effective Power Quality Monitoring and Mitigation Strategies for AI Data Centers“ zeigte er, welche konkreten Auswirkungen die immensen Rechenoperationen eines KI-Rechenzentrums für den Energiebedarf, die Infrastruktur und Spannungsqualität eines Rechenzentrums mit sich bringen.
KI-Rechenzentren erzeugten eine höchst dynamische Lastumgebung, die sich ständig weiterentwickle, so Rajeev. Kurzzeitige, plötzliche Spitzen bei der Nutzung der Ressourcen (Serverstarts, Start eines KI-Trainingsprozesses, gleichzeitiger Zugriff zahlreicher Nutzer) sorgten für einen raschen Lastanstieg. Hierdurch könne es zu Netzspannungseinbrüchen kommen, was direkt und indirekt eine Reihe von Spannungsqualitätsproblemen wie Transienten und Flicker verursachen kann.
KI-Rechenoperationen erzeugen spezifische Belastungen
Die verschiedenen Rechenoperationen von KI-Rechenzentren erzeugten dabei typische Lastprofile, so Rajeev: Trainings von KI-Modellen verursachten eine hohe anhaltende Rechenlast. Der Energieverbrauch kann im Megawatt-Bereich liegen und erzeugt eine stark erhöhte Grundlast für den Energieversorger. KI-Modellanwendungen (model inference) verursachten oft wiederkehrende, kurzfristige Spitzenlasten im Energieverbrauch. Diese Spitzen dauern oft nur Sekunden oder Minuten. Die enorme Geschwindigkeit, mit der die elektrische Leistung steigt oder fällt (z.B. +100 kW in 10 Sekunden), sei auf Dauer eine enorme Belastung für die Infrastruktur der Stromversorgung, einzelne Komponenten können unter Umständen nicht schnell genug nachregeln. Die entsprechende Technologie entwickle sich jedoch ständig auch weiter, diese Phänomene seien ein bekanntes Problem und könnten gelöst werden.
GPUs (Graphics Processing Units) und TPUs (Tensor Processing Units) hingegen, die oft das Rückgrat rechenintensiver Anwendungen im KI-Rechenzentrum sind, verursachten höhere, nichtlineare Lasten und erzeugten hohe Oberschwingungen. Zudem führten verschiedene Arten des Leerlaufs zu immensen Kosten ohne Mehrwert, was die Effizienz der Anlage verringert.
5 Rechenzentren - 5 Lastprofile
„All diese verschiedenen Lasttypen entwickeln sich kontinuierlich weiter. Wir müssen also sicherstellen, dass wir die richtigen Daten live erfassen, um auch in Zukunft Rechenzentren effektiv steuern zu können“, so Rajeev. Zudem seien die Lasten in jedem Rechenzentrum einzigartig: „Wir können Analysen zu typischen Lastgängen durchführen. Aber jedes Rechenzentrum reagiert anders. Insbesondere dann, wenn man die Kühlung und die gesamte Infrastruktur eines Rechenzentrums mit einbezieht“, sagte Rajeev.
Als wichtigste Erkenntnisse fasste Rajeev zusammen:
- Der Energieverbrauch von KI-Rechenzentren ist immens, ihre Lastprofile sind sehr dynamisch.
- Die damit verbundenen Phänomene machen die Überwachung der Spannungsqualität notwendiger denn je.
- Die Erhebung von Live-Energiedaten ist unerlässlich. Sie sollten auch aus der Ferne ausgewertet werden können.
- Dafür braucht es eine flexible technische Plattform (modulare Hardware und Software), die mit den sich ständig verändernden Anforderungen mithält.
Zur Person
Roshan Rajeev ist Vice President of Engineering bei Janitza USA und verfügt über 10 Jahre Erfahrung in der Energiemesstechnik. Er arbeitete zuvor im Data Center Infrastructure Management (DCIM) bei Meta, wo er die Energiedatengewinnung, und die Zuverlässigkeit und Effizienz des Betriebs von Hyperscale-Rechenzentren sicherstellte. Davor arbeitete er bei Eaton Power Systems an der Implementierung von Energie- und Leistungsmanagementsystemen (EPMS) für Rechenzentren und im Bereich Gebäude und Infrastruktur.

TRAINING VON NEUEN KI-MODELLEN
AUSWIRKUNGEN AUF LEISTUNGSVERHALTEN
- Hohe, anhaltende Rechenlast
- Verbrauch im MW-Bereich
HERAUSFORDERUNGEN FÜR DAS NETZ
- Erhöhte Grundlast für den Energieversorger

KI-Modellanwendungen
AUSWIRKUNGEN AUF LEISTUNGSVERHALTEN
- Plötzlicher Anstieg von CPU-Last, Netzwerkverkehr und Speicher-nutzung („bursts“)
- Schnelle Lastsprünge, steile Lastverläufe nach oben und unten
HERAUSFORDERUNGEN FÜR DAS NETZ
- Spannungsspitzen
- Dynamische Lastbeanspruchung elektrischer Komponenten
- Hochfrequente Spannungsverzerrung

GPU-Rechenoperationen
AUSWIRKUNGEN AUF LEISTUNGSVERHALTEN
- Hohe, nichtlineare Lasten
- Hohe Oberschwingungen
HERAUSFORDERUNGEN FÜR DAS NETZ
- Hochfrequente Spannungsverzerrung
- Entstehung v. Zwischenharmonischen
- Oberschwingungsverzerrungen

Leerlauf-Betrieb
AUSWIRKUNGEN AUF LEISTUNGSVERHALTEN
- Einer der Hauptgründe für Stromverbrauch
- Effizienz der Anlage wird verringert
HERAUSFORDERUNGEN FÜR DAS NETZ
- Entstehung von Unsymmetrien und Oberschwingungsverzerrungen
- Einer der Hauptgründe für erhöhte Grundlast

Colocation-Rechenzentrum
AUSWIRKUNGEN AUF LEISTUNGSVERHALTEN
- diverse Lastprofile
HERAUSFORDERUNGEN FÜR DAS NETZ
- Entstehung von Oberschwingungen am Einspeisepunkt