Major-Upgrade ohne Wartungsfenster: Wie ACM AIR CHARTER seine Proxmox- und Ceph-Plattform aus Legacy-Versionen herausführte

Bei ACM AIR CHARTER liefen zentrale Proxmox- und Ceph-Cluster auf älteren Versionen, während Flugbetrieb und CAMO-Dokumentation durchgehend verfügbar bleiben mussten. Das Major-Upgrade wurde in zwei Wochen umgesetzt, ohne Wartungsfenster.

Kunde:

ACM AIR CHARTER

Branche:

Luftfahrt

Projektlaufzeit:

2 Wochen

ACM AIR CHARTER betreibt am Baden Airpark integrierte Business Aviation unter einem Dach: Charter mit langstreckenfähigen Bombardier Global Jets, Aircraft Management für Eigentümer, Part-145 zertifizierte Maintenance und CAMO. Dahinter steht ein regulatorisches Geflecht aus EASA-Vorgaben, IS-BAO und IS-BAH Standards und einer 24/7-AOG-Bereitschaft, in der Stillstand keine Option ist. Im Kern der eigenen IT liefen Proxmox VE und Ceph in Legacy-Versionen, die über mehrere Major-Releases hinter dem aktuellen Stand lagen. Die Plattformen waren stabil und voll funktional, aber außerhalb des aktiven Hersteller- und Community-Support und damit ohne den Patch-Pfad, den eine regulierte Branche verlangt. Mit jedem Quartal vergrößerte sich der Abstand zur aktuellen Version und damit auch der Aufwand, um wieder anzuschließen.

Herausforderung

Die Aufgabe war kein lineares Update. Major-Upgrades von Proxmox VE und Ceph berühren Kernel, Hypervisor, Cluster-Quorum, OSD-Topologie und Netzwerkpfade gleichzeitig. Jeder dieser Bereiche kann im Fehlerfall die Plattform anhalten.

  • Legacy-Versionen mit doppeltem Risiko: Plattformen außerhalb des aktiven Supports bedeuten keine Sicherheitspatches und keinen klaren Eskalationspfad bei Vorfällen. In einer regulierten Branche ist das nicht nur ein technisches, sondern ein Compliance-Thema.
  • 24/7-Geschäft ohne Wartungsfenster: Charter, AOG-Support und Maintenance laufen rund um die Uhr. Ein klassisches Wartungsfenster, in dem die Plattform offline geht, war nicht verhandelbar. Das Upgrade musste im laufenden Cluster-Betrieb erfolgen.
  • Komplexer Upgrade-Pfad: Der Sprung von Legacy- auf aktuelle Major-Versionen bedeutet bei Proxmox VE und Ceph gestaffelte Upgrade-Schritte, eine geprüfte Kompatibilitätsmatrix und einen Pfad, der Quorum, OSD-Health und Netzwerk-Topologie zu jedem Zeitpunkt belastbar hält.
  • Daten in regulierten Workloads: Auf der Plattform liegen unter anderem Daten aus Maintenance- und CAMO-Prozessen. Datenintegrität ist nicht nur Betriebsthema, sondern Voraussetzung für Lufttüchtigkeitsnachweise und Audits.
Kundenstimme

„Unser Proxmox- und Ceph-Stack lief stabil, aber wir mussten zurück auf einen aktuellen Versionsstand kommen, ohne den Flugbetrieb anzuhalten. Sysfacts hat das Upgrade in zwei Wochen sauber durchgezogen, mit dem Engineering-Wissen, das man für solche Major-Sprünge bei Proxmox und Ceph braucht. Für uns war entscheidend, dass Cluster-Health und Datenintegrität zu jedem Zeitpunkt belastbar waren. Genau so ist es gelaufen."

Alexander Schmidt

IT-Verantwortlicher

Lösung

Das Engineering-Team von Sysfacts hat das Upgrade über zwei Wochen geplant, getestet und durchgeführt, mit klarem Schwerpunkt auf Cluster-Health zu jedem Zeitpunkt.

  • Lagebild des Clusters vor jedem Eingriff: Vollständige Aufnahme von Versionen, Konfigurationen, Quorum-Aufbau, OSD-Status, Netzwerk-Topologie und laufenden Workloads. Die Reihenfolge der Schritte ergab sich aus dieser Analyse, nicht aus einer Standardvorlage.
  • Gestaffelter Upgrade-Pfad statt Versionssprung: Proxmox VE und Ceph wurden in geprüften Zwischenschritten auf den Zielstand gebracht. Jeder Schritt entlang einer Kompatibilitätsmatrix, die Quorum und OSD-Health auch in Übergangszuständen tragfähig hält.
  • Rolling Upgrade im laufenden Betrieb: Nodes wurden einzeln aus dem aktiven Pool genommen, aktualisiert, geprüft und kontrolliert zurückgeführt. Virtuelle Maschinen sind während der Eingriffe live migriert worden, ohne dass die Workloads auf der Anwendungsebene etwas davon gemerkt hätten.
  • Ceph mit Vorrang vor Tempo: Beim Storage-Cluster lag der Schwerpunkt auf belastbarer Datenintegrität. OSD-Migrationen, PG-Status und Rebalancing wurden so gesteuert, dass der Cluster zu keinem Zeitpunkt unter Quorum-Druck stand. Geschwindigkeit war nachrangig.
  • Verifikation mit dokumentierten Ergebnissen: Nach Abschluss des Upgrades wurde die Plattform systematisch geprüft: Cluster-Health, Hypervisor-Funktionen, Storage-Performance, Backup-Pfade. Die Ergebnisse sind dokumentiert und stehen ACM AIR CHARTER für interne und externe Nachweise zur Verfügung.

Nutzen

  • Plattform wieder im aktiven Support: Proxmox VE und Ceph laufen auf aktuellem Stand, mit Sicherheitsupdates, klarem Upgrade-Pfad und einer Wissensbasis, die zur restlichen Infrastruktur passt.
  • Keine wahrnehmbare Unterbrechung: Charter-Betrieb, AOG-Bereitschaft und Maintenance-Prozesse sind während des gesamten Upgrades nicht ins Stocken geraten. Die Anwender haben den Eingriff im Alltag nicht bemerkt.
  • Compliance- und Audit-Lage verbessert: Plattformen außerhalb des aktiven Supports sind in Audits ein offener Punkt. Mit dem Upgrade ist dieser Punkt geschlossen, dokumentiert und belastbar.
  • Engineering-Tiefe statt Standardwerkzeug: Das Projekt hat gezeigt, dass Proxmox VE und Ceph in regulierten Umgebungen tragfähig sind, wenn die Lifecycle-Pflege auf dem nötigen Niveau passiert. Der Open-Source-Stack ist heute keine Bürde, sondern wieder Asset.
  • Schneller Hebel mit klarem Mandat: Zwei Wochen vom Projektstart bis zur abgeschlossenen Verifikation. Der Effekt war in derselben Quartalsplanung sichtbar, ohne langlaufende Programme oder begleitende Großprojekte.
Lessons Learned

L - 001

In regulierten Branchen sind Legacy-Plattformen ein doppeltes Thema. Technisch laufen sie weiter, oft über lange Zeit stabil. Compliance-seitig öffnet sich der Punkt schon davor: kein aktiver Support, keine Patches, kein nachvollziehbarer Sicherheitsstand. Bei ACM AIR CHARTER war der frühe Eingriff der Punkt, an dem ein latentes Audit-Thema vor dem nächsten Audit erledigt wurde, nicht währenddessen.

L - 002

Major-Upgrades von Proxmox VE und Ceph sind keine Routinearbeit. Sie berühren Kernel, Cluster-Quorum, OSD-Topologie und Netzwerkpfade gleichzeitig. Wer den Stack ohne Vorerfahrung in mehreren Major-Sprüngen vor sich hat, hat keinen Update-Vorgang, sondern ein Risiko. Bei ACM hat die Kombination aus eigener Plattformkenntnis und gezielt eingebrachtem Engineering-Wissen den Unterschied gemacht.

L - 003

Ein Kurzprojekt ist kein kleines Projekt. Zwei Wochen klingen kompakt, beruhen aber auf einem Lagebild, das jeden Schritt vor dem Eingriff abgesichert hat. Cluster-Health vor Tempo, Rolling-Schritte vor Versionssprung, Verifikation vor Abschluss. Genau diese Reihenfolge ist der Grund, dass im 24/7-Flugbetrieb von ACM AIR CHARTER niemand bemerkt hat, dass im Kern der Plattform zwei Major-Versionen ausgetauscht wurden.

L - 004

Fordern Sie eine unabhängige Einschätzung Ihres Projektes an!

Vielen Dank! Ihre Anfrage ist eingegangen!
Hoppla! Beim Absenden des Formulars ist ein Fehler aufgetreten.
Porträt eines lächelnden Mannes mit Glatze, der ein schwarzes Shirt mit dem Sysfacts-Logo trägt.Portrait eines jungen Mannes mit kurzem braunem Haar und Bart, der einen schwarzen Kapuzenpullover trägt.

Ein unverbindliches 15-Minuten-Erstgespräch mit einem Experten vereinbaren.