Wenn die cloud ausfällt: Was jeder IT-Verantwortliche vor dem nächsten Ausfall vorbereitet haben sollte

cloudCloud-Anwendungsplattform

28 Oktober 2025

Diese Seite wurde von unseren Experten auf Englisch verfasst und mithilfe einer KI übersetzt, um einen schnellen Zugriff zu ermöglichen! Die Originalversion findest du hier.

Ein großer Cloud-Ausfall ist niemals nur ein technisches Problem. Es ist ein Umsatzproblem, ein Reputationsproblem und eine zusätzliche Arbeitsbelastung für bereits überlastete Teams. Am Montag, dem 20. Oktober 2025, kam es bei einem globalen Hyperscaler zu einem schwerwiegenden Vorfall, der viele Internetdienste für Stunden lahmlegte und dessen Behebung den ganzen Tag über andauerte.¹² Dieser Vorfall hat allen vor Augen geführt, dass selbst Weltklasse-Plattformen schlechte Tage haben können. Daher müssen Kontinuitätspläne reale Abhängigkeiten zwischen Identität, DNS, Netzwerk und APIs von Drittanbietern berücksichtigen.³

Unser Ziel ist es, zu klären, was Geschäftskontinuität in einer cloud-first-Welt bedeutet, warum Portabilität wichtig ist und wie man realistische Wiederherstellungspfade vorbereitet, wenn eine Region von einem größeren Zwischenfall betroffen ist.

Warum es auch heute noch zu Ausfällen kommt

Komplexität erhöht das Risiko. Die neueste Analyse des Uptime Institute zeigt, dass zwar die Häufigkeit und Schwere von Ausfällen insgesamt zurückgegangen sind, moderne Architekturen jedoch neue Fehlermodi mit sich bringen, die von den Betreibern aktiv gemanagt werden müssen.⁴⁵ Bei diesen Vorfällen machen IT- und Netzwerkprobleme einen bedeutenden Anteil aus und können zu Anbieter übergreifenden Auswirkungen führen, die Schlagzeilen machen.⁶ In einer verteilten, API-gesteuerten Welt lassen sich Ausfälle nicht vollständig vermeiden. Sie können jedoch den Auswirkungsradius verringern, die Wiederherstellung verkürzen und den Geschäftsbetrieb aufrechterhalten, indem Sie davon ausgehen, dass Komponenten ausfallen werden, und Ihre Anwendungsplattform entsprechend anpassen.

Der Dominoeffekt von Ausfallzeiten

Umsatzverluste: Ausfälle sind teuer. Uptime Intelligence berichtet, dass 54 Prozent der Befragten angaben, ihr letzter bedeutender Ausfall habe mehr als 100.000 US-Dollar gekostet, und etwa jeder Fünfte gab Kosten von über 1 Million US-Dollar an.⁷⁸
Reputationsschaden: Kunden mögen einen Ausfall verzeihen, aber wiederholte Vorfälle prägen die Wahrnehmung der Marke noch lange nach der Wiederherstellung der Dienste.
Belastung des Teams: Vorfälle beanspruchen die Aufmerksamkeit der leitenden Ingenieure, verlangsamen die Lieferung und verursachen Folge Risiken durch überstürzte Abhilfemaßnahmen.
Sicherheitsrisiko: Krisensituationen erhöhen die Wahrscheinlichkeit von Konfigurationsfehlern. Daten von IBM aus dem Jahr 2025 zeigen, dass die durchschnittlichen globalen Kosten einer Datenverletzung bei 4,44 Millionen US-Dollar liegen, was die erheblichen Auswirkungen bei sich überschneidenden Vorfällen unterstreicht.⁹

Was Ihr CEO und Ihr Vorstand hören wollen, wenn Ihre cloud-Plattform ausfällt

Wir haben einen aktuellen, getesteten Kontinuitätsplan. Darin sind Verantwortliche, Vorgehensweisen und Entscheidungsschwellen festgelegt. Er deckt Ausfälle von Identitäts-, DNS-, CDN-, Datenspeicher- und CI-Systemen ab, nicht nur von cloud-Anbietern. NIST SP 800-34 bietet einen zuverlässigen Rahmen für die Planstruktur, Rollen und Übungen.¹⁰¹¹
Wir können das Geschäft auch in einem eingeschränkten Zustand weiterführen. Wir wissen, welche Dienste im schreibgeschützten Modus betrieben werden können, auf welche Features wir verzichten können und welche SLAs wir einhalten können.
Unsere Plattform legt Wert auf die Wahl der Region und Portabilität. Dies ist kein Versprechen für einen nahtlosen Failover. Es handelt sich um eine operative Entscheidung, die Disaster Recovery, Souveränität und Verhandlungsposition unterstützt. Gartner identifiziert Multi-Cloud und digitale Souveränität als wichtige Trends, die cloud-Strategien leiten.¹²
Wir messen Resilienzmaßnahmen wie jede andere Investition. Wir verfolgen die Wiederherstellungsperformance anhand interner Ziele, der Anzahl der Abhängigkeiten und der Änderungsfehlerquote. Wir berichten über die Ursachen von Vorfällen und Verbesserungen der Wiederherstellungszeit im Laufe der Zeit.

Eine Resilienz-Checkliste für Cloud-First-Teams

1) Kritische Abhängigkeiten abbilden und minimieren

Identifizieren Sie einzelne Fehlerquellen in den Bereichen Identität, DNS, Zertifikatsausstellung, Artefakt-Registrierungen, Objektspeicherung und Nachrichtenqueues.
Dual-Home ist sinnvoll. Sekundäres DNS, alternative Artefakt-Mirrors, regionenübergreifende Objektreplikation und ein Backup-Identitätsbestätigungspfad für den Notfallzugriff.
Dokumentieren Sie APIs von Drittanbietern, die für den Betrieb kritisch sind, und definieren Sie Fallbacks oder Feature-Flags für eine reibungslose Degradierung.

2) Klassifizieren Sie Dienste nach Kritikalität und Ausfallmodus

Dokumentieren Sie für jeden Dienst interne Wiederherstellungsziele, einschließlich der angestrebten Wiederherstellungszeit und akzeptabler Datenverluste, der akzeptablen Downgrade-Modi und der Standorte, an denen er ausgeführt werden kann.
Priorisieren Sie kundenorientierte Pfade, die den Cashflow fördern. Trennen Sie Analyse- und Backoffice-Workloads nach Möglichkeit vom Hot Path.

3) Üben Sie nicht nur DR-Tests, sondern auch Game Days

Gehen Sie über skriptgesteuerte Wiederherstellungstests hinaus. Fügen Sie echte Fehlertypen wie DNS-Ausfälle, abgelaufene Zertifikate, blockierte CI-Runner und teilweise Nichtverfügbarkeit von Speicher hinzu.
Beziehen Sie Führungskräfte mit ein. Üben Sie Status-Updates, Kundenkommunikation und Eskalationen an Lieferanten in einer einzigen Übung.

4) Behandeln Sie Daten wie einen Vertrag

Standardisieren Sie Backup- und Klonrichtlinien mit Bereinigung. Garantieren Sie einen sauberen, zeitlich begrenzten Datensatz für Tests und Wiederherstellungen.
Behalten Sie die Datenportabilität im Auge. Wenn Ihr Datenspeicher verwaltet wird, stellen Sie sicher, dass Sie ihn bei Bedarf exportieren, rehydrieren und an anderer Stelle ausführen können.

5) Integrieren Sie Ausfallsicherheit in die Bereitstellung

Jede Änderung sollte mit Zustandsprüfungen, Traffic-Shifting und sofortiger Rückgängigmachung implementierbar sein.

„Everything to program” ist kein Slogan. Definieren Sie Netzwerke, Richtlinien und Dienste deklarativ, damit Sie Umgebungen bei Bedarf rekonstruieren können.

Wie Multi-Cloud ohne Überlastung passt

Multi-Cloud ist eine Strategie für Auswahl und Portabilität, kein Versprechen für nahtloses Failover. Das Ziel besteht darin, korrelierte Risiken zu reduzieren und die Option zu behalten, den Dienst bei Bedarf an einem anderen Standort wiederherzustellen. Betrachten Sie es als Enabler für Disaster-Recovery-Pläne und die Platzierung in Regionen und nicht als Garantie für automatisch geringere Ausfallzeiten.¹²

Verwenden Sie einen mehrstufigen Ansatz:

Tier 1 (kritische Pfade): Entwickeln Sie Lösungen für eine schnelle Erkennung und eine vom Betreiber gesteuerte Wiederherstellung. Halten Sie getestete Playbooks für DNS- und Identitätsänderungen bereit und stellen Sie sicher, dass Daten und Images an anderer Stelle wiederhergestellt werden können.
Stufe 2 (wichtig, aber nicht cash-path): Erzielen Sie regionenübergreifende Ausfallsicherheit innerhalb eines einzigen Anbieters und halten Sie Portabilitätsartefakte auf dem neuesten Stand, damit Sie bei Bedarf an einem anderen Standort neu aufbauen können.
Stufe 3 (intern und Analyse): Optimieren Sie Kosten und Einfachheit mit geplanten backups und einem längeren Wiederherstellungsfenster auf der Grundlage interner Ziele.

Halten Sie die Komplexität proportional zum Wert. Konzentrieren Sie sich auf Portabilität und dokumentierte Verfahren, die Ihr Team auch unter Druck ausführen kann.

Wie „Designing for Failure” bei Upsun aussieht

Upsun hilft Unternehmen dabei, die Wiederherstellung vorhersehbar und wiederholbar zu machen. Es handelt sich nicht um ein automatisiertes regionen- oder cloudübergreifendes Failover-System. Stattdessen bietet es Ihnen die Konsistenz und Kontrolle, die Sie zur Umsetzung Ihrer Business-Continuity- und Disaster-Recovery-Pläne benötigen.

Git-gesteuerte, YAML-basierte Konfiguration: Definieren Sie Dienste und Routing deklarativ, damit Sie Umgebungen aus einem sauberen Git-Checkout neu aufbauen können. Sehen Sie sich die Übersicht über die Upsun-Plattform und die Dokumentation an.
Automatische Vorschauumgebungen pro Zweig: Richten Sie produktionsähnliche Testumgebungen ein, um Wiederherstellungsschritte zu proben, Feature-Flags zu validieren und Abhängigkeitsänderungen ohne Risiko durchzuführen. Entdecken Sie die Ressourcen für Entwickler.
Sofortiges Klonen von Daten mit Bereinigung: Erstellen Sie sichere, repräsentative Datensätze für Spieltage und Wiederherstellungstests.
Multi-Service-Orchestrierung: Führen Sie heterogene Stacks mit konsistenten Regeln aus, damit Dienste während der Wiederherstellung als Einheit zurückkehren.
Beobachtbarkeit und APM: Zentralisieren Sie Metriken, Traces und Protokolle, um die Erkennung zu beschleunigen und die Wiederherstellung anhand interner Ziele zu bestätigen.
Portabilität und Auswahl der Region: Behalten Sie die Portabilität über alle unterstützten clouds und Standorte hinweg bei, einschließlich der Anforderungen an die Datenhoheit. Die Wiederherstellung wird von Ihrem Team gemäß Ihren Playbooks initiiert und gesteuert.

Wichtig: Upsun führt keine automatisierte Ausfallsicherung über Regionen oder clouds hinweg durch; die Kontinuität wird durch geplante Wiederherstellungsverfahren erreicht, die von Ihren Betreibern initiiert werden.

Ein praktischer 30-Tage-Kontinuitätsplan

Selbst wenn Ihr Ziel eine umfassendere Multi-Cloud-Architektur ist, können Sie die Ausfallsicherheit im nächsten Monat erheblich verbessern.

Woche 1: Basislinie und Priorisierung

Erstellen Sie eine aktuelle Abhängigkeitskarte. Notieren Sie sich Identitätsanbieter, DNS, CDN und wichtige APIs von Drittanbietern.
Definieren Sie interne Wiederherstellungsziele für die fünf wichtigsten kundenorientierten Dienste, einschließlich der angestrebten Wiederherstellungszeit und des akzeptablen Datenverlusts.
Wählen Sie eine kritische User Journey aus und definieren Sie einen Degraded Mode.

Woche 2: Portabilität nachweisen

Erstellen und dokumentieren Sie einen sauberen Wiederherstellungspfad zu einer sekundären Region oder einem sekundären Rechenzentrum.
Exportieren Sie die primäre Datenbank und rehydrieren Sie sie in das sekundäre Ziel.
Erfassen Sie jeden Schritt beim Programmieren oder bei Skripten und übertragen Sie ihn in Git.

Woche 3: Wiederherstellung üben

Führen Sie eine Disaster-Recovery-Übung durch, die einen Ausfall der Anbieterregion simuliert. Üben Sie DNS-Updates, Notfall-Identitätszugriff und den schreibgeschützten Modus, während Sie die Wiederherstellung durchführen.
Messen Sie die Zeit für die Erkennung, Entscheidung und Wiederherstellung. Identifizieren Sie, wo Automatisierung manuelle Schritte reduziert.

Woche 4: Automatisieren und kommunizieren

Automatisieren Sie den Aufbau der Umgebung aus Git über eine einzige YAML-Konfiguration, einschließlich Netzwerk und Richtlinien.
Entwerfen Sie Vorlagen für die Kunden- und interne Kommunikation bei Vorfällen.
Informieren Sie den Vorstand: Präsentieren Sie die aktuelle Ausgangsbasis, die gemessenen Ergebnisse des Spieltags und den 90-Tage-Fahrplan für Portabilität und Testkadenz.

Wenn Sie Upsun verwenden, lassen sich die meisten dieser Schritte direkt auf Plattform-Features abbilden: deklarative Konfiguration, verzweigungsbasierte Vorschauen, sofortiges Klonen von Datenbanken mit Bereinigung und Multi-Service-Orchestrierung. Wenn Sie intern entwickeln, konzentrieren Sie sich darauf, Parität in den engen Bereichen zu erreichen, die die größte Risikominderung bringen.

Sprechen Sie mit den Beteiligten, ohne Schuld zuzuweisen

Wenn ein Vorfall bei einem cloud-Anbieter seinen Ursprung hat, widerstehen Sie dem Drang, öffentlich Schuld zuzuweisen. Betonen Sie:

Unsere Plattform unterstützt die Auswahl der Region und Portabilität. Wir haben Wiederherstellungsverfahren getestet und Playbooks dokumentiert.
Unsere Plattform ist für Vorfälle bei Anbietern ausgelegt. Wir investieren in Resilienz, die davon ausgeht, dass Software und Netzwerke manchmal ausfallen.
Wir befolgen die Branchenrichtlinien. Wir strukturieren Pläne, Übungen und Metriken in Übereinstimmung mit den Empfehlungen des NIST und den Trends der Analysten.¹⁰¹²
Wir präsentieren Multi-Cloud nicht als automatisiertes Failover. Wir nutzen es, um uns Optionen offen zu halten und die Wiederherstellung vorhersehbar zu machen.

Was im nächsten Quartal gemessen werden soll

Wiederherstellungsperformance für Tier-1-Dienste. Liegen die tatsächlichen Wiederherstellungszeiten und Datenverluste innerhalb unserer internen Ziele?
Änderungsfehlerrate und durchschnittliche Wiederherstellungszeit. Ausfallsicherheit und Lieferqualität gehen Hand in Hand.
Anzahl der Abhängigkeiten auf dem Hot Path. Je weniger, desto besser.
Portabilitäts-Checkpoints. Können wir die App in einer anderen Region oder bei einem anderen Anbieter aus einem sauberen Git-Checkout und einer einzigen Konfigurationsdatei neu erstellen?
Scorecard für Wiederherstellungsübungen. Verfolgen Sie die von Git abgeschlossenen Schritte, die Zeit für die Datenwiederherstellung und die Arbeitsbelastung des Bereitschaftsteams während der Übungen.
Kosten der Ausfallsicherheit. Verfolgen Sie die Ausgaben für Redundanz und Spieltage im Vergleich zu vermiedenen Ausfallzeiten und reduzierten Auswirkungen auf das Geschäft.

Cloud-Ausfall, Geschäftskontinuität und Multi-Cloud-Strategie

Wenn Ihr Vorstand nach einem öffentlichkeitswirksamen Ausfall eine aktualisierte Stellungnahme zur Kontinuität verlangt, konzentrieren Sie sich in der Diskussion auf drei Punkte:

Entwerfen Sie für Ausfälle, nicht für Perfektion. Legen Sie interne Wiederherstellungsziele für jeden Dienst fest, einschließlich der Zielzeit für die Wiederherstellung und des akzeptablen Datenverlusts. Üben Sie diese mit Disaster-Recovery-Übungen.
Portabilität ist Vorbereitung. Dokumentieren, skripten und proben Sie die Möglichkeit, an einem anderen Standort neu aufzubauen.
Plattformen können dabei helfen. Wählen Sie Tools, die Umgebungen standardisieren und manuelle Schritte während der Wiederherstellung reduzieren. Die Git-gesteuerte Konfiguration, Vorschauen, Datenklonung mit Bereinigung, Orchestrierung und Beobachtbarkeit von Upsun sorgen dafür, dass Ihr Plan in der Praxis umsetzbar ist.

Die Lehre aus diesem Montag, dem 20. Oktober 2025, ist nicht, dass ein bestimmter Anbieter versagt hat. Vielmehr ist das Internet ein System von Systemen, und keine Komponente ist immun gegen Störungen. Die richtige Reaktion ist ein nüchterner, gut kommunizierter Plan, der auf Ausfälle ausgelegt ist, die Wiederherstellung übt und die richtigen Plattformabstraktionen nutzt, um Resilienz zur Routine zu machen. So schützen Sie Ihren Umsatz, Ihren Ruf und die Konzentration Ihres Teams, wenn die cloud ausfällt.

Quellen

The Verge. „Großer AWS-Ausfall legte Fortnite, Alexa, Snapchat und mehr lahm.“
Financial Times. „Amazon sagt, dass sich die cloud-basierten Dienste von einem großflächigen Ausfall erholen.“
CNEWS. „Snapchat, Amazon, Alexa… von einem riesigen Ausfall betroffen.“
Pressemitteilung des Uptime Institute. „Uptime gibt den jährlichen Ausfallanalysebericht 2025 bekannt.“
DataCenterDynamics. „Uptime Institute: Ausfälle im Jahr 2024 seltener und weniger schwerwiegend, aber teurer.“
Resilience Forward. „Uptime Institute veröffentlicht Jahresbericht zur Ausfallanalyse 2025.“
Uptime Intelligence. „Jährliche Ausfallanalyse 2024.”
Globale Umfrage des Uptime Institute zu Rechenzentren 2024.
Help Net Security. „Durchschnittliche Kosten für Datenverstöße weltweit liegen jetzt bei 4,44 Millionen Dollar.“
NIST SP 800-34 Rev. 1 „Leitfaden zur Notfallplanung für Informationssysteme der US-Bundesbehörden.“
NIST SP 800-34 Rev. 1
Gartner Newsroom. „Gartner identifiziert die wichtigsten Trends, die die Zukunft der cloud prägen.“

Wenn die cloud ausfällt: Was jeder IT-Verantwortliche vor dem nächsten Ausfall vorbereitet haben sollte

Warum es auch heute noch zu Ausfällen kommt

Der Dominoeffekt von Ausfallzeiten

Was Ihr CEO und Ihr Vorstand hören wollen, wenn Ihre cloud-Plattform ausfällt

Eine Resilienz-Checkliste für Cloud-First-Teams

1) Kritische Abhängigkeiten abbilden und minimieren

2) Klassifizieren Sie Dienste nach Kritikalität und Ausfallmodus

3) Üben Sie nicht nur DR-Tests, sondern auch Game Days

4) Behandeln Sie Daten wie einen Vertrag

5) Integrieren Sie Ausfallsicherheit in die Bereitstellung

Wie Multi-Cloud ohne Überlastung passt

Wie „Designing for Failure” bei Upsun aussieht

Ein praktischer 30-Tage-Kontinuitätsplan

Sprechen Sie mit den Beteiligten, ohne Schuld zuzuweisen

Was im nächsten Quartal gemessen werden soll

Cloud-Ausfall, Geschäftskontinuität und Multi-Cloud-Strategie

Bleiben Sie auf dem Laufenden

Ihr größtes Werk
steht vor der Tür

Wenn die cloud ausfällt: Was jeder IT-Verantwortliche vor dem nächsten Ausfall vorbereitet haben sollte

Warum es auch heute noch zu Ausfällen kommt

Der Dominoeffekt von Ausfallzeiten

Was Ihr CEO und Ihr Vorstand hören wollen, wenn Ihre cloud-Plattform ausfällt

Eine Resilienz-Checkliste für Cloud-First-Teams

1) Kritische Abhängigkeiten abbilden und minimieren

2) Klassifizieren Sie Dienste nach Kritikalität und Ausfallmodus

3) Üben Sie nicht nur DR-Tests, sondern auch Game Days

4) Behandeln Sie Daten wie einen Vertrag

5) Integrieren Sie Ausfallsicherheit in die Bereitstellung

Wie Multi-Cloud ohne Überlastung passt

Wie „Designing for Failure” bei Upsun aussieht

Ein praktischer 30-Tage-Kontinuitätsplan

Sprechen Sie mit den Beteiligten, ohne Schuld zuzuweisen

Was im nächsten Quartal gemessen werden soll

Cloud-Ausfall, Geschäftskontinuität und Multi-Cloud-Strategie

Bleiben Sie auf dem Laufenden

Ihr größtes Werk.css-2vew0q{display:inline-block;background:rgb(250, 65, 255);background:linear-gradient(90deg, #806bff 0%, #ed49f0 100%);-webkit-background-clip:text;-webkit-background-clip:text;background-clip:text;-webkit-text-fill-color:transparent;}steht vor der Tür

Ihr größtes Werk
steht vor der Tür