
Die Kombination von Proxmox VE und Ceph in einer hyperkonvergenten Architektur verspricht maximale Effizienz und eine zentrale Verwaltung. Doch unter der einheitlichen Weboberfläche agieren zwei Systeme mit fundamental unterschiedlichen Paradigmen: Das Proxmox-Cluster-Management, das auf dem Mehrheitsentscheid von Corosync basiert, und das Ceph Storage-Cluster, dessen Verhalten durch ein eigenes Monitor-Quorum und komplexe CRUSH-Regeln definiert wird. Die wahre Kunst der Systemarchitektur besteht darin, diese beiden Welten so zu orchestrieren, dass sie auch im Extremfall – dem Ausfall eines kompletten Brandabschnitts oder Rechenzentrums – als eine Einheit stabil bleiben.
Ein solches „Stretched Cluster“-Szenario ist keine triviale Erweiterung eines Standard-Setups. Es erfordert ein tiefes Verständnis der zugrundeliegenden Mechanismen und eine Architektur, die von vornherein auf den Ernstfall ausgelegt ist. Zwei Aspekte sind dabei von entscheidender, nicht verhandelbarer Bedeutung: die Quorum-Architektur und das Sizing des Ceph-Clusters.
Ein Cluster, das auf zwei Standorte verteilt ist, steht vor einem unlösbaren Problem: Bei einem Verbindungsausfall können beide Seiten nicht feststellen, ob die Gegenseite oder nur die Verbindung ausgefallen ist. Es entsteht ein klassischer Split-Brain-Zustand. Die Lösung ist ein dritter, unabhängiger Standort, der als „Tie-Breaker“ oder Schiedsrichter fungiert.
Unsere Best Practice für dieses Szenario ist unmissverständlich: Dieser Tie-Breaker darf kein ressourcensparendes QDevice sein, sondern muss ein vollwertiger Proxmox VE Node sein. Der Grund dafür ist die duale Natur des Clusters:
Die entscheidende, oft übersehene Anforderung an diesen Quorum-Node ist seine Netzwerkintegration. Er muss in allen drei relevanten Netzwerken erreichbar sein: dem Proxmox Corosync-Netzwerk, dem Proxmox Management-Netzwerk und dem Ceph Public-Netzwerk. Nur so ist gewährleistet, dass sowohl die Hypervisor- als auch die Storage-Ebene im Fehlerfall eine stabile, clusterweite Entscheidung treffen können.
Die Resilienz des Storage-Systems hängt maßgeblich von zwei Parametern ab: size und min_size. Für ein Stretched-Cluster-Szenario über zwei Standorte ist die Konfiguration size=4 und min_size=2 zwingend erforderlich. Um ihre Bedeutung zu verstehen, muss man sie als Soll- und Mindest-Zustand betrachten:
In Kombination mit einer CRUSH-Regel, die eine Verteilung der Replicas auf die beiden Standorte erzwingt (zwei pro Standort), ergibt sich das gewünschte ausfallsichere Verhalten: Fällt ein kompletter Standort aus, gehen dessen zwei Kopien verloren. Das Cluster kann jedoch weiterarbeiten, da am verbleibenden Standort immer noch zwei Kopien vorhanden sind und somit die min_size=2 Bedingung erfüllt ist.
Aus den Anforderungen von Corosync und Ceph ergibt sich zwingend eine Mindest-Architektur von 4 operativen Hosts plus einem Quorum-Node. Hier ist die logische Herleitung:
Fazit: Erst das Zusammenspiel dieser beiden Anforderungen führt zur robusten Mindest-Architektur von zwei operativen Hosts in Brandabschnitt A, zwei operativen Hosts in Brandabschnitt B und einem Quorum-Node an einem dritten, unabhängigen Ort.
Achtung: Die Konsequenzen für das Sizing sind enorm. Eine size von 4 bedeutet eine vierfache Schreiblast und einen Netto-Speicherplatz von nur 25% der Brutto-Kapazität. Die Storage-Hardware (typischerweise NVMe-SSDs) und die Netzwerkverbindungen zwischen den Standorten müssen für diesen massiven Overhead dimensioniert sein. Ein zu knapp kalkuliertes Sizing führt hier unweigerlich zu Performance-Engpässen, die den gesamten Cluster lahmlegen können.
Ein über zwei Brandabschnitte gespanntes Proxmox- und Ceph-Cluster bietet ein Höchstmaß an Verfügbarkeit, ist aber weit von einer Standardinstallation entfernt. Es ist ein komplexes System, dessen Stabilität von scheinbar kleinen Details wie der Netzwerkanbindung eines einzelnen Quorum-Nodes oder der korrekten size-Einstellung abhängt. Diese Details sind das Ergebnis präziser Planung und eines tiefen Verständnisses der zugrundeliegenden Technologien.
Bevor Sie den Schritt zu einer standortübergreifenden Infrastruktur wagen, lassen Sie uns sprechen. Vereinbaren Sie ein unverbindliches Erstgespräch, in dem wir die technischen und betrieblichen Anforderungen für eine Lösung analysieren, die Ihr Geschäft wirklich absichert – ohne Kompromisse.
Fragen Sie eine kostenfreie IT-Systemanalyse an!


Unverbindliches 15-Minuten-Erstgespräch mit einem Experten vereinbaren.