Multi-Cloud leicht gemacht: Ein praktischer Leitfaden zur Risikominderung ohne zusätzliche Komplexität

Multi-AppcloudCloud-AnwendungsplattformKosteneinsparungen

28 Oktober 2025

Diese Seite wurde von unseren Experten auf Englisch verfasst und mithilfe einer KI übersetzt, um einen schnellen Zugriff zu ermöglichen! Die Originalversion findest du hier.

Am Montag, dem 20. Oktober 2025, kam es bei einem globalen Hyperscaler zu einem schwerwiegenden Zwischenfall, der viele Internetdienste für mehrere Stunden lahmlegte. Die Wiederherstellung dauerte den ganzen Tag.¹² Dies war eine Erinnerung daran, dass selbst Weltklasse-Plattformen schlechte Tage haben können und dass Kontinuitätspläne reale Abhängigkeiten zwischen Identität, DNS, Netzwerken und APIs von Drittanbietern berücksichtigen müssen.³ Dieser Artikel ist die praktische Fortsetzung unseres Artikels „Wenn die cloud ausfällt: Was jeder IT-Verantwortliche vor dem nächsten Ausfall vorbereitet haben sollte”. Er richtet sich an CIOs und CTOs, die jetzt einen konkreten Plan benötigen, um Risiken zu reduzieren, ohne die Betriebskosten oder die Komplexität zu erhöhen.

Erwartungsmanagement: Die Multicloud-Geschichte von Upsun handelt von der intelligenten Wahl der Startregion, Portabilität und getesteter Geschäftskontinuität und Notfallwiederherstellung. Unser Wert liegt darin, die Wiederherstellung vorhersehbar und wiederholbar zu machen.

Für wen dieser Leitfaden gedacht ist und was Sie damit erreichen können

Wenn Sie für den Betrieb von Plattformen, Infrastrukturen oder Anwendungen verantwortlich sind und Ihrem Vorstand eine glaubwürdige Multicloud-Strategie vorstellen müssen, bietet Ihnen dieser Leitfaden Folgendes:

Einen schrittweisen Plan zur Erreichung von Portabilität ohne Tool-Wildwuchs.
Ein klares Governance-Modell, das mit Ihrer Anwendung mitwandert.
Einen Implementierungspfad auf einer cloud-basierten Anwendungsplattform wie Upsun.
Kennzahlen und Artefakte, die Sie in 30, 60 und 90 Tagen liefern werden.

Analysten betonen weiterhin die Bedeutung von verteilten Clouds, Portabilität und digitaler Souveränität für I/O-Führungskräfte.⁴ Untersuchungen des Uptime Institute zeigen, dass sich die Ausfalltrends insgesamt verbessern, doch komplexe IT- und Netzwerkprobleme machen nach wie vor einen erheblichen Anteil der Vorfälle aus.⁵⁶ Sie können Ausfälle nicht vollständig vermeiden, aber Sie können die damit verbundenen Risiken reduzieren und die Wiederherstellungszeit durch disziplinierte Vorbereitung verkürzen.⁵⁶

Die Multicloud-Strategie

Multicloud ist eine Strategie für Auswahl und Portabilität, kein Versprechen für nahtloses Failover. Betrachten Sie sie als Wegbereiter für Disaster Recovery, Souveränität und Verhandlungsposition.⁴ Das Funktionsprinzip ist einfach: Akzeptieren Sie eine RTO ungleich Null für schwerwiegende regionale Ereignisse und sorgen Sie dann für schnelle Erkennung, saubere Wiederherstellung und konsistente Governance.

Schritt-für-Schritt-Plan: 30, 60, 90 Tage

Tag 0 bis 30: Wiederherstellung durchführbar machen

Ergebnis bis Tag 30: ein getesteter Wiederherstellungspfad für einen Tier-1-Dienst mit Artefakten, die jeder Bereitschaftsleiter ausführen kann.

Wählen Sie eine kritische Benutzerreise aus und bilden Sie Abhängigkeiten ab. Berücksichtigen Sie dabei Identität, DNS, CDN und betriebskritische APIs von Drittanbietern.
Legen Sie RTO- und RPO-Ziele für die Journey fest. Dokumentieren Sie die Downgrade-Modi, die Sie während der Wiederherstellung verwenden werden.
Legen Sie ein sauberes Wiederherstellungsziel fest. Wählen Sie eine sekundäre Region oder ein sekundäres Rechenzentrum, das den Souveränitätsanforderungen entspricht.⁴
Exportieren und rehydrieren Sie Daten. Weisen Sie nach, dass die aktuelle Datenbank wiederhergestellt und im Ziel gestartet werden kann. Erfassen Sie die Zeit für das Abrufen, Rehydrieren und Validieren.
Erfassen Sie alles in Git. Deklarieren Sie Dienste, Routing, Richtlinien und Skalierung in einer einzigen Konfiguration.
Führen Sie einen Testlauf durch. Simulieren Sie einen Vorfall in der Provider-Region, aktualisieren Sie das DNS, verwenden Sie die Break-Glass-Identität und führen Sie die Wiederherstellung im schreibgeschützten Modus durch. Messen Sie die Zeit für die Erkennung, Entscheidung und Wiederherstellung. Verwenden Sie NIST SP 800-34 als Struktur für Rollen und Entscheidungsschwellen.⁷⁸

Tag 31 bis 60: Standardisieren und erweitern

Ergebnis bis Tag 60: Wiederholbare Playbooks für zwei weitere Dienste, Policy-as-Code-Leitplanken und ein gemeinsames Vokabular für die Beobachtbarkeit.

Fügen Sie zwei Tier-2-Dienste hinzu. Erzielen Sie regionenübergreifende Ausfallsicherheit innerhalb Ihres primären Anbieters und halten Sie gleichzeitig die Portabilitätsartefakte auf dem neuesten Stand.
Policy-as-Code. Drücken Sie Netzwerkrichtlinien, Datenaufbewahrung, Backup-Rhythmus und Bereinigung als wiederverwendbare Module aus.
Gemeinsame Beobachtbarkeit. Definieren Sie ein gemeinsames Dashboard mit goldenen Signalen für Wiederherstellungsübungen. Dies beschleunigt die Erkennung und Entscheidungsfindung bei Vorfällen.
Finanzielle Hygiene. Prognostizieren Sie die Kosten für Wiederherstellungstests und backups im Normalbetrieb. Binden Sie Ausgaben, um Vorfallstunden zu vermeiden, nicht nur reine Einzelposten.

Tag 61 bis 90: Industrialisierung

Ergebnis bis Tag 90: Wiederherstellungspipeline mit einem Klick aus einem sauberen Git-Checkout, vierteljährliche Übungsrhythmus und ein vorstandsfertiger Bericht.

Automatisieren Sie den Aufbau der Umgebung aus Git: Eine Pipeline, die Netzwerke, Richtlinien und Dienste im Ziel neu aufbaut.
Vierteljährliche Übungen: Planen Sie von Betreibern durchgeführte Wiederherstellungstests für Tier-1- und Tier-2-Dienste.

Berichterstattung an die Geschäftsleitung: Verfolgen Sie RTO, RPO, Anzahl der Abhängigkeiten, Änderungsfehlerquote und Drill-Ergebnisse jedes Quartal. Laut Daten von IBM für 2025 belaufen sich die durchschnittlichen globalen Kosten für Sicherheitsverletzungen auf 4,44 Millionen Dollar, was erneut verdeutlicht, warum disziplinierte Resilienzarbeit wichtig ist, wenn sich Vorfälle überschneiden.⁹

So implementieren Sie dies auf Upsun

Upsun ist eine Multi-Cloud-Anwendungsplattform, mit der Sie die Bereitstellung standardisieren und die Wiederherstellung vorhersehbar machen können. Es handelt sich nicht um ein automatisiertes regionenübergreifendes Failover-System. Stattdessen bietet es Teams die Bausteine, um BCP und DR mit Zuversicht auszuführen.

1) Verbinden Sie Git und deklarieren Sie Ihre App

Verwenden Sie eine einzige YAML-Datei, um Dienste, Routen, Richtlinien und Skalierung zu definieren. Committen Sie diese zusammen mit Ihrem Programmieren, damit Umgebungen aus einem sauberen Checkout neu aufgebaut werden können. Lesen Sie die Upsun-Übersicht und die Dokumentation.

2) Erstellen Sie automatische Vorschau-Umgebungen pro Zweig

Erstellen Sie für jeden Zweig produktionsähnliche Umgebungen, um Wiederherstellungsschritte zu proben, Feature-Flags zu validieren und Abhängigkeitsänderungen sicher durchzuführen. Entdecken Sie die Ressourcen für Entwickler.

3) Klonen Sie Daten mit Bereinigung

Verwenden Sie das sofortige Klonen von Daten, um repräsentative Testdatensätze zu erstellen und gleichzeitig sensible Informationen zu schützen. So werden Übungen von der Theorie in die Praxis umgesetzt.

4) Orchestrieren Sie Multi-Service-Anwendungen als Einheit

Definieren Sie Abhängigkeiten einmalig und lassen Sie die Plattform die Startreihenfolge, Zustandsprüfungen, Weiterleitung und Skalierung konsistent über alle unterstützten Anbieter hinweg verwalten. Dies reduziert die Anzahl der Runbooks in stressigen Momenten.

5) Einmal beobachten, schneller handeln

Zentralisieren Sie Metriken, Traces und Protokolle, damit dieselben Dashboards für Primär- und Wiederherstellungsziele gelten. Dies verkürzt die Erkennungs- und Entscheidungszeit bei Vorfällen.

6) Kosten über Anbieter hinweg anzeigen

Verwenden Sie eine einzige Steuerungsebene, um die Auslastung anzuzeigen und die Ausgaben über alle Clouds hinweg zu prognostizieren. Dies verbessert die Governance, ohne dass Sie Berichte zusammenfügen müssen.

Was bedeutet das für einen Ausfall in einer IaaS-Region? Wenn in der Hosting-Region einer Upsun-cloud-Region ein schwerwiegender Vorfall auftritt, würden Sie eine dokumentierte Wiederherstellung in einem anderen Rechenzentrum einleiten, vorbehaltlich der Bedingungen des Anbieters. Während dieses Prozesses kommt es zu Ausfallzeiten. Ihre Upsun-Konfiguration, Vorschau-Umgebungen, Datenklonung und Orchestrierung machen diese Wiederherstellung vorhersehbar.

Multicloud-Strategie ohne Überlastung

Wenden Sie ein mehrstufiges Modell an

Tier 1: Kritische Cash-Path-Dienste. Entwickeln Sie eine schnelle Erkennung und eine vom Betreiber geleitete Wiederherstellung. Halten Sie getestete Playbooks für DNS- und Identitätsänderungen bereit. Stellen Sie sicher, dass Daten, Bilder und Konfigurationen bereit sind, um im sekundären Ziel wiederhergestellt zu werden.
Tier 2: wichtig, aber nicht Cash-Path. Erzielen Sie regionenübergreifende Ausfallsicherheit innerhalb eines Anbieters. Halten Sie Portabilitätsartefakte auf dem neuesten Stand, damit Sie bei Bedarf an anderer Stelle neu aufbauen können.
Ebene 3: Intern und Analyse. Optimieren Sie die Kosten durch disziplinierte backups und eine längere RTO.

Automatisiertes Failover über Regionen oder Anbieter hinweg ist komplex und teuer. Viele Unternehmen setzen auf eine RTO ungleich Null mit getesteten Wiederherstellungen, die ihrer Risikotoleranz und ihrem Budget entsprechen. Dies steht im Einklang mit der aktuellen Fokussierung der Analysten auf verteilte clouds und Portabilität.⁴

Governance, die mit Ihrer App mitwandert

Policy as Code: Legen Sie Netzwerkregeln, Aufbewahrungsfristen, Klonen und den Umgang mit Geheimnissen einmal fest und verwenden Sie diese an allen Standorten wieder.
Einheitlicher Änderungsprozess: Eine Pipeline und Qualitätskontrollen, damit Bereitstellungen überall gleich aussehen.
Krisenkommunikation aus dem Effeff: Verwenden Sie NIST SP 800-34 für Rollen, Übungen und Entscheidungsschwellen.⁷⁸
Gemeinsames Vokabular zur Beobachtbarkeit: Anbieterunabhängige Metriken und Traces ermöglichen eine vergleichbare Wiederherstellungsberichterstattung über einen längeren Zeitraum.

Finanzielle Disziplin: Verknüpfen Sie Wiederherstellungsarbeiten mit vermiedenen Vorfällen und regulatorischen Ergebnissen, nicht mit Eitelkeitsmetriken.

Messungen, die belegen, dass sich die Resilienz verbessert

Verfolgen und präsentieren Sie diese fünf Kernmetriken vierteljährlich:

Erreichte RTO im Vergleich zum Ziel für Tier-1-Übungen.
Erreichte RPO im Vergleich zum Ziel für wiederhergestellte Datensätze.
Änderung der Ausfallrate und der mittleren Wiederherstellungszeit, da Lieferqualität und Resilienz Hand in Hand gehen.
Anzahl der Hot-Path-Abhängigkeiten, die mit der Beseitigung oder Entkopplung von Risiken durch Dritte abnimmt.
Drill-Scorecard, einschließlich der von Git ausgeführten Schritte, der Zeit für die Datenwiederherstellung und der Arbeitsbelastung des Bedieners.

Die Untersuchungen des Uptime Institute zeigen, dass sich zwar Häufigkeit und Schweregrad in den letzten Jahren verbessert haben, aber dennoch immer noch schwerwiegende Vorfälle auftreten, die sich auf alle Anbieter auswirken können.⁵⁶ Ihre Kennzahlen zeigen, wie Sie die Wiederherstellung verkürzen und die Auswirkungen begrenzen können. Die Leitlinien des NIST bleiben ein praktisches Gerüst für Übungen und Playbooks.⁷⁸

Gespräche mit Stakeholdern bei Ausfall Ihrer cloud-Plattform

Wir richten uns nach den Branchenrichtlinien. NIST SP 800-34 bildet den Rahmen für unsere Pläne und Übungen.⁷⁸
Wir legen Wert auf die Wahl der Region und Portabilität. Dies unterstützt die Notfallwiederherstellung und Souveränität.⁴
Wir können auch in einem beeinträchtigten Zustand arbeiten. Wir wissen, was schreibgeschützt ist und auf welche Features wir während der Wiederherstellung verzichten können.
Wir messen, was wichtig ist. Wir berichten über RTO, RPO, die Anzahl der Abhängigkeiten und die Änderungsfehlerquote. Die Studie von IBM für 2025 beziffert die durchschnittlichen Kosten einer Sicherheitsverletzung auf 4,44 Millionen Dollar und unterstreicht damit, warum disziplinierte Resilienzarbeit auch bei sich überschneidenden Vorfällen unerlässlich bleibt.⁹

Fazit: Fangen Sie klein an, automatisieren Sie konsequent und machen Sie die Wiederherstellung zu einer Routineaufgabe. Upsun bietet Ihnen eine klare, Git-gesteuerte Möglichkeit, Umgebungen zu definieren, Änderungen zu proben und bei Problemen mit der cloud sicher wiederherzustellen. Weitere Informationen:

Entdecken Sie die Upsun-Plattform
Lesen Sie die Upsun-Dokumentation
Besuchen Sie die Entwicklerressourcen.

Quellen

The Verge. „Großer AWS-Ausfall legte Fortnite, Alexa, Snapchat und mehr lahm.“
Financial Times. „Amazon gibt bekannt, dass sich die cloud-basierten Dienste von einem großflächigen Ausfall erholen.“
Le Monde. „AWS, der cloud-basierte Dienst von Amazon, gibt bekannt, dass die Störung behoben wurde ...“
Gartner Newsroom. „Top-Trends, die die Zukunft der cloud prägen.“
Uptime Institute. „Jährliche Ausfallanalyse 2025.“
McMorrow Reports. „Ausfallanalyse von Uptime für Rechenzentren: Verbesserungen, aber auch neue Risiken.“
NIST SP 800-34 Rev. 1 Seite. „Leitfaden zur Notfallplanung für Informationssysteme der US-Bundesbehörden.“
NIST SP 800-34 Rev. 1.
Help Net Security fasst die Studie von IBM für 2025 zusammen. „Die durchschnittlichen Kosten für Datenverstöße liegen weltweit derzeit bei 4,44 Millionen US-Dollar.“

Multi-Cloud leicht gemacht: Ein praktischer Leitfaden zur Risikominderung ohne zusätzliche Komplexität

Für wen dieser Leitfaden gedacht ist und was Sie damit erreichen können

Die Multicloud-Strategie

Schritt-für-Schritt-Plan: 30, 60, 90 Tage

Tag 0 bis 30: Wiederherstellung durchführbar machen