• Contact us
  • Documentation
  • Login
Watch a demoFree trial
Blog
Blog
BlogProduktFallstudienNachrichtenInsights
Blog

Wenn die cloud ausfällt: Was jeder IT-Leiter vor dem nächsten Ausfall bereit haben sollte

cloudCloud-Anwendungsplattform
Aktualisiert: 08 Mai 2026
Teilen
Diese Seite wurde von unseren Experten auf Englisch verfasst und mithilfe einer KI übersetzt, um einen schnellen Zugriff zu ermöglichen! Die Originalversion findest du hier.

Ein großer cloud-Ausfall ist nie nur ein technisches Problem. Es ist ein Umsatzproblem, ein Reputationsproblem und eine zusätzliche Arbeitsbelastung für ohnehin schon überlastete Teams. Der schwerwiegende Vorfall, der im Oktober 2025 einen globalen Hyperscaler lahmlegte und eine Vielzahl von Internetdiensten für Stunden außer Betrieb setzte, ist ein anschauliches Fallbeispiel dafür, wie schnell sich ein Ausfall über Identitätsmanagement, DNS, Netzwerke und APIs von Drittanbietern ausbreitet. Er hat allen vor Augen geführt, dass selbst Weltklasse-Plattformen schlechte Tage haben können und dass Kontinuitätspläne das gesamte Netz realer Abhängigkeiten berücksichtigen müssen, nicht nur den Hauptanbieter.

Unser Ziel ist es hier zu verdeutlichen, was Geschäftskontinuität in einer cloud-first-Welt bedeutet, warum Portabilität wichtig ist und wie man realistische Wiederherstellungswege vorbereitet, wenn eine Region von einem größeren Vorfall betroffen ist.

Warum es heute immer noch zu Ausfällen kommt

Komplexität birgt Risiken. Die Analyse des Uptime Institute stellt fest, dass zwar die Häufigkeit und Schwere von Ausfällen insgesamt abgenommen haben, moderne Architekturen jedoch neue Ausfallmodi mit sich bringen, die Betreiber aktiv bewältigen müssen. Bei diesen Vorfällen machen IT- und Netzwerkursachen einen bedeutenden Anteil aus und können anbieterübergreifende Kettenreaktionen auslösen, die Schlagzeilen machen. In einer verteilten, API-gesteuerten Welt lassen sich Ausfälle nicht vollständig vermeiden. Du kannst jedoch den Auswirkungsbereich verringern, die Wiederherstellung verkürzen und den Geschäftsbetrieb aufrechterhalten, indem du davon ausgehst, dass Komponenten ausfallen, und deine Anwendungsplattform entsprechend anpassungsfähig gestaltest.

Der Dominoeffekt von Ausfallzeiten

Die Kosten ungeplanter Ausfallzeiten summieren sich auf eine Weise, die selten auf einem einzigen Dashboard sichtbar wird. Finanziell ist das Risiko erheblich: Laut Uptime Intelligence gaben 54 Prozent der Befragten an, dass ihr letzter größerer Ausfall mehr als 100.000 US-Dollar gekostet habe, und etwa jeder Fünfte berichtete von Kosten über 1 Million US-Dollar. 

Reputationsschäden bauen sich langsamer auf, halten aber länger an. Kunden mögen einen vereinzelten Vorfall verzeihen, aber wiederholte Ausfälle prägen die Wahrnehmung der Marke noch lange nach der Wiederherstellung der Dienste. Unterdessen beansprucht der Vorfall selbst genau die Aufmerksamkeit der leitenden Ingenieure, die eigentlich auf die Bereitstellung gerichtet sein sollte, und überstürzte Abhilfemaßnahmen bergen Folge-Risiken. 

Wenn sich dies mit einem Sicherheitsvorfall überschneidet, wird das Bild noch schlimmer: Laut IBMs Daten für 2025 belaufen sich die durchschnittlichen weltweiten Kosten einer Datenpanne auf 4,44 Millionen US-Dollar – eine Zahl, die verdeutlicht, wie schnell eine Krisensituation zu einem erheblichen finanziellen Ereignis werden kann.

Was dein CEO und dein Vorstand hören wollen, wenn deine cloud-Plattform ausfällt

Wenn ein Ausfall eintritt, muss die Unternehmensleitung vier Dinge erfahren: 

Erstens, dass du über einen aktuellen, getesteten Kontinuitätsplan verfügst: einen Plan, der Verantwortliche, Vorgehensanleitungen und Entscheidungsschwellen benennt und der Ausfälle von Identitäts-, DNS-, CDN-, Datenspeicher- und CI-Systemen abdeckt, nicht nur eines cloud-Anbieters. NIST SP 800-34 bietet einen zuverlässigen Rahmen für Planstruktur, Rollen und Übungen. 

Zweitens, dass du das Geschäft auch in einem eingeschränkten Zustand weiterführen kannst, indem du weißt, welche Dienste schreibgeschützt laufen können, auf welche Features verzichtet werden kann und welche SLAs du einhalten kannst. 

Drittens, dass deine Plattform Wert auf die Wahl der Region und Portabilität legt – nicht als Versprechen eines nahtlosen Failovers, sondern als operative Entscheidung, die Disaster Recovery und Souveränität unterstützt. 

Und viertens, dass du Resilienzmaßnahmen wie jede andere Investition misst: Verfolge die Wiederherstellungsperformance im Vergleich zu internen Zielen, der Anzahl der Abhängigkeiten und der Ausfallrate bei Änderungen und berichte über die Ursachen von Vorfällen sowie über Verbesserungen der Wiederherstellungszeit im Laufe der Zeit.

Eine Resilienz-Checkliste für Cloud-First-Teams

1) Kritische Abhängigkeiten erfassen und minimieren

Identifiziere Single Points of Failure in den Bereichen Identitätsmanagement, DNS, Zertifikatsausstellung, Artefakt-Registries, Objektspeicher und Nachrichtenqueues. Sekundäre DNS-Server, alternative Artefakt-Mirrors, regionenübergreifende Objektreplikation und ein Backup-Pfad für die Identitätsprüfung im Notfall sind sinnvolle Ansatzpunkte. Dokumentiere APIs von Drittanbietern, die betrieblich kritisch sind, und definiere Fallbacks oder Features für eine sanfte Degradation.

2) Klassifiziere Dienste nach Kritikalität und Ausfallmodus

Dokumentiere für jeden Dienst interne Wiederherstellungsziele, einschließlich der angestrebten Wiederherstellungszeit und des akzeptablen Datenverlusts, sowie akzeptable Downgrade-Modi und die Standorte, an denen der Dienst ausgeführt werden kann. Priorisiere kundenorientierte Pfade, die den Cashflow ankurbeln, und entkoppele Analytics- und Backoffice-Workloads nach Möglichkeit vom Hot Path.

3) Übe Game Days, nicht nur DR-Tests

Geh über skriptgesteuerte Wiederherstellungstests hinaus. Simuliere echte Fehlerarten wie DNS-Ausfälle, abgelaufene Zertifikate, blockierte CI-Runner und teilweise Nichtverfügbarkeit von Speicher. Beziehe Führungskräfte mit ein und übe Status-Updates, Kundenkommunikation und Eskalationen an Anbieter in einer einzigen Übung.

4) Behandle Daten als Vertrag

Standardisiere Verfahren für Backups und Wiederherstellungen mit Bereinigung, um einen sauberen, zeitlich begrenzten Datensatz für Tests und Wiederherstellung zu gewährleisten. Behalte die Datenportabilität stets im Blick: Wenn dein Datenspeicher verwaltet wird, stelle sicher, dass du ihn bei Bedarf wiederherstellen und an anderer Stelle ausführen kannst.

5) Integriere Ausfallsicherheit in die Bereitstellung

Jede Änderung sollte mit Zustandsprüfungen, Traffic-Umleitung und sofortigem Rollback bereitstellbar sein. „Everything as Code“ ist kein Slogan: Definiere Netzwerke und Dienste deklarativ, damit du Umgebungen bei Bedarf rekonstruieren kannst.

Wie Cloud-Portabilität und Regionsauswahl zusammenpassen, ohne zu weit zu gehen

Cloud-Portabilität ist eine Strategie für Wahlfreiheit und operative Ausfallsicherheit, kein Versprechen für nahtloses Failover. Das Ziel ist es, korrelierte Risiken zu reduzieren und die Option zu behalten, den Dienst bei Bedarf an einem anderen Standort wiederherzustellen – man sollte sie als Wegbereiter für Disaster-Recovery-Pläne und die Standortwahl betrachten, nicht als automatische Garantie für geringere Ausfallzeiten. Gartner identifiziert digitale Souveränität und strategische Flexibilität als zentrale Trends, die Cloud-Entscheidungen leiten, und Portabilität ist für beide von zentraler Bedeutung.

Verwende einen mehrstufigen Ansatz:

  • Stufe 1 (kritische Pfade): Richte alles auf schnelle Erkennung und eine vom Betreiber geleitete Wiederherstellung aus. Halte getestete Playbooks für DNS- und Identitätsänderungen bereit und stelle sicher, dass Daten und Images an einem anderen Ort wiederhergestellt werden können.
  • Stufe 2 (wichtig, aber nicht geschäftskritisch): Erreiche regionenübergreifende Ausfallsicherheit innerhalb deines Anbieters und halte Portabilitätsartefakte auf dem neuesten Stand, damit du bei Bedarf an einem anderen Standort wiederherstellen kannst.
  • Stufe 3 (intern und Analytik): Optimiere Kosten und Einfachheit durch geplante backups und ein längeres Wiederherstellungsfenster, basierend auf internen Zielen.

Halte die Komplexität im Verhältnis zum Nutzen. Konzentriere dich auf Portabilität und dokumentierte Verfahren, die dein Team auch unter Druck ausführen kann.

So sieht „Design for Failure“ bei Upsun aus

Upsun hilft Unternehmen dabei, die Wiederherstellung vorhersehbar und wiederholbar zu machen. Es handelt sich nicht um ein automatisiertes regionenübergreifendes Failover-System. Stattdessen bietet es dir die Konsistenz und die Kontrollmöglichkeiten, um deine Business-Continuity- und Disaster-Recovery-Pläne umzusetzen.

  • Git-gesteuerte, YAML-basierte Konfiguration: Definiere Dienste und Routing deklarativ, damit du Umgebungen aus einem sauberen Git-Checkout neu aufbauen kannst. Sieh dir die Übersicht über die Upsun-Plattform und die Dokumentation an.
  • Automatische Vorschau-Umgebungen pro Branch: Starte produktionsähnliche Testumgebungen, um Wiederherstellungsschritte zu proben, Feature-Flags zu validieren und Änderungen an Abhängigkeiten ohne Risiko zu testen. Entdecke die Entwicklerressourcen.
  • Verwaltete Sicherung und Wiederherstellung mit Bereinigung: Erstelle sichere, repräsentative Datensätze für Spieltage und Wiederherstellungstests, indem du Umgebungen direkt über die Plattform klonst – ganz ohne manuelle Exportschritte.
  • Multi-Service-Orchestrierung: Betreibe heterogene Stacks mit einheitlichen Regeln, damit Dienste bei der Wiederherstellung als Einheit zurückkehren.
  • Observability und APM: Zentralisiere Metriken, Traces und Logs, um die Erkennung zu beschleunigen und die Wiederherstellung anhand interner Ziele zu überprüfen.
  • Regionsauswahl: Wähle aus unterstützten cloud-Regionen, um Anforderungen an Datenhoheit und Disaster Recovery zu erfüllen. Die Wiederherstellung wird von deinem Team gemäß deinen Playbooks initiiert und gesteuert.

Hinweis: Upsun führt keine automatisierten Failovers über Regionen oder clouds hinweg durch; die Kontinuität wird durch geplante Wiederherstellungsverfahren erreicht, die von deinen Operatoren initiiert werden.

Ein praktischer 30-Tage-Kontinuitätsplan

Selbst wenn dein Ziel eine umfassendere Cloud-Portabilitätsstrategie ist, kannst du die Ausfallsicherheit im nächsten Monat erheblich verbessern.

Woche 1: Bestandsaufnahme und Priorisierung

Erstelle eine aktuelle Abhängigkeitskarte und vermerke dabei Identitätsanbieter, DNS, CDN und kritische APIs von Drittanbietern. Definiere interne Wiederherstellungsziele für die fünf wichtigsten kundenorientierten Dienste, einschließlich der angestrebten Wiederherstellungszeit und des akzeptablen Datenverlusts. Wähle eine kritische User Journey aus und definiere einen Degradierungsmodus.

Woche 2: Portabilität nachweisen

Erstelle und dokumentiere einen sauberen Wiederherstellungspfad zu einer sekundären Region oder einem sekundären Rechenzentrum. Stelle die primäre Datenbank im sekundären Ziel wieder her und überprüfe sie. Halte jeden Schritt in Code oder Skripten fest und speichere ihn in Git.

Woche 3: Wiederherstellung üben

Führe eine Disaster-Recovery-Übung durch, die einen Ausfall der Provider-Region simuliert. Übe während der Wiederherstellung DNS-Updates, den Notfallzugriff auf Identitäten und den schreibgeschützten Modus. Miss die Zeit für Erkennung, Entscheidung und Wiederherstellung und identifiziere, wo Automatisierung manuelle Schritte reduziert.

Woche 4: Automatisieren und kommunizieren

Automatisiere den Aufbau der Umgebung aus Git über eine einzige YAML-Konfiguration, einschließlich Netzwerk- und Dienstdefinitionen. Entwirf Vorlagen für die Kunden- und interne Kommunikation bei Vorfällen. Informiere den Vorstand: Präsentiere die aktuelle Baseline, die gemessenen Ergebnisse des „Game Day“ und die 90-Tage-Roadmap für Portabilität und Testrhythmus.

Wenn du Upsun verwendest, lassen sich die meisten dieser Schritte direkt auf Plattformfeatures abbilden: deklarative Konfiguration, verzweigungsbasierte Vorschauen, verwaltete backups und Wiederherstellungen mit Bereinigung sowie Multi-Service-Orchestrierung. Wenn du eine eigene Lösung aufbaust, konzentriere dich darauf, in den engen Bereichen, die die größte Risikominderung bringen, Parität zu erreichen.

Mit Stakeholdern sprechen, ohne Schuld zuzuweisen

Wenn ein Vorfall bei einem cloud-Anbieter seinen Ursprung hat, widerstehe dem Drang, öffentlich Schuld zuzuweisen. Betone, dass deine Plattform die Wahl der Region und Portabilität unterstützt, dass du Wiederherstellungsverfahren getestet und Playbooks dokumentiert hast und dass deine Investitionen in Resilienz davon ausgehen, dass Software und Netzwerke manchmal ausfallen. 

Du befolgst Branchenrichtlinien und strukturierst Pläne, Übungen und Kennzahlen im Einklang mit den NIST-Empfehlungen. Du nutzt die Wahl der Region und Portabilität, um dir Optionen offen zu halten und die Wiederherstellung vorhersehbar zu machen – nicht als Ersatz für sorgfältige Planung.

Was im nächsten Quartal gemessen werden sollte

Die wichtigsten Kennzahlen sind diejenigen, die zeigen, ob deine Pläne unter realen Bedingungen standhalten. 

Verfolge die Wiederherstellungsperformance für Tier-1-Dienste im Vergleich zu deinen internen Zielen für Wiederherstellungszeit und akzeptablen Datenverlust. Überwache die Fehlerquote bei Änderungen und die durchschnittliche Wiederherstellungszeit. Lieferqualität und Ausfallsicherheit entwickeln sich in der Regel parallel. Zähle die Abhängigkeiten auf dem Hot Path, denn weniger ist besser und der Trend ist genauso wichtig wie die Anzahl. 

Führe regelmäßig Portabilitätsprüfungen durch, um sicherzustellen, dass du die Anwendung in einer anderen Region aus einem sauberen Git-Checkout und einer einzigen Konfigurationsdatei neu erstellen kannst. Bewerte jede Wiederherstellungsübung anhand der über Git abgeschlossenen Schritte, der Zeit bis zur Datenwiederherstellung und der Arbeitsbelastung des Bereitschaftsteams. Und schließlich: Verfolge die Kosten der Ausfallsicherheit: Vergleiche die Ausgaben für Redundanz und Testläufe mit den vermiedenen Ausfallstunden und den reduzierten geschäftlichen Auswirkungen.

Cloud-Ausfall, Geschäftskontinuität und Cloud-Portabilität

Wenn dein Vorstand nach einem vielbeachteten Ausfall um einen aktuellen Stand zur Geschäftskontinuität bittet, stütze das Gespräch auf drei Punkte:

  1. Entwirf für den Ausfall, nicht für die Perfektion. Lege interne Wiederherstellungsziele für jeden Dienst fest, einschließlich der angestrebten Wiederherstellungszeit und des akzeptablen Datenverlusts. Übe diese mit Disaster-Recovery-Übungen.
  2. Portabilität ist Vorbereitung. Halte die Fähigkeit, an einem anderen Standort neu aufzubauen, dokumentiert, als Skript festgehalten und einstudiert.
  3. Plattformen können dabei helfen. Wähle Tools, die Umgebungen standardisieren und manuelle Schritte während der Wiederherstellung reduzieren. Upsuns Git-gesteuerte Konfiguration, Vorschauen, verwaltete backups und Wiederherstellungen mit Bereinigung, Orchestrierung und Observability sorgen dafür, dass dein Plan in der Praxis umsetzbar ist

Der Ausfall im Oktober 2025 erinnert an etwas, das schon immer galt: Das Internet ist ein System von Systemen, und keine Komponente ist immun gegen Störungen. Die richtige Reaktion, damals wie heute, ist ein nüchterner, gut kommunizierter Plan, der Ausfälle einkalkuliert, die Wiederherstellung einübt und die richtigen Plattformabstraktionen nutzt, um Resilienz zur Routine zu machen. 

So schützt du Umsatz, Ruf und die Konzentration deines Teams, wenn die cloud ausfällt.

Bleiben Sie auf dem Laufenden

Abonnieren Sie unseren monatlichen Newsletter.

Ihr größtes Werk
steht vor der Tür

Kostenloser Test