Proxmox VE und NVIDIA vGPU: Eine GPU-Schicht für VDI und KI

Artikel

16.5.2026

Autor

Yannick Haymann

Mit den aktuellen Versionen der NVIDIA-vGPU-Software und Proxmox VE 8 ist eine Diskussion erledigt, die in den letzten Jahren in vielen Mittelstandsprojekten gleich aussah: „vGPU geht nur mit VMware." Geht es nicht. Und sobald Proxmox VE in der Hypervisor-Rolle steht, wird die Investition in eine NVIDIA L40S, A40 oder H100 plötzlich für mehr nutzbar als die eine Workload, für die sie ursprünglich beschafft wurde.

In der Praxis sehen wir zwei Szenarien, die sich auf derselben GPU-Schicht abbilden lassen. Tagsüber bedient die Karte Designer mit Quadro-Profilen, abends rechnet sie LLM-Inferenz für die hauseigene RAG-Pipeline. Das ist nicht akademisch, das ist gelebte Konsolidierung.

Wie vGPU auf Proxmox funktioniert

Technisch ist das Konstrukt überschaubar. NVIDIA stellt einen Host-Treiber bereit, der auf dem Proxmox-Knoten ein Kernelmodul installiert und über das mdev-Subsystem virtuelle GPU-Instanzen exponiert. Diese Instanzen werden als hostpci-Geräte in die VM-Konfiguration eingehängt. Im Gast läuft ein passender NVIDIA-Treiber, der die mdev-Instanz wie eine physische GPU anspricht. Lizenziert wird über einen NVIDIA License Server (DLS oder CLS), der die ausgegebenen Profile gegenprüft.

Konkret heißt das: eine L40S mit 48 GB Framebuffer lässt sich beispielsweise in Profile zu 4, 8 oder 16 GB aufteilen. Eine A100 oder H100 erlaubt zusätzlich MIG, also harte Hardware-Partitionierung auf Speichercontroller-Ebene, mit echter Isolation statt Time-Slicing.

Use Case 1: VDI mit GPU-Last

Der klassische Fall sind CAD-Arbeitsplätze, BIM-Modelle, Bildbearbeitung, Videoschnitt. Wer das in VDI verlagern will, kommt ohne GPU-Beschleunigung nicht weit. Mit vGPU lässt sich eine L40S an acht Designer mit 6 GB Q-Profil ausspielen, oder an sechzehn Knowledge Worker mit kleineren Profilen, wenn nur Office, Browser und gelegentliches Teams-Video gefordert sind.

In Verbindung mit Kasm Workspaces oder Omnissa Horizon auf Proxmox VE bekommt der Endnutzer einen browserbasierten oder klassisch protokollierten Arbeitsplatz, dessen GPU-Backend transparent partitioniert ist. Lizenzseitig braucht es ein NVIDIA-vWS- oder vPC-Abonnement pro Concurrent User, dazu die Microsoft-Lizenzen für Windows-VDI. Die Hardware-Auslastung steigt deutlich, weil die GPU nicht mehr exklusiv einer Workstation gehört, sondern dynamisch zugeteilt wird.

Was in solchen Projekten regelmäßig unterschätzt wird: Profile-Sizing. Wer zu klein dimensioniert, bekommt Anrufe, sobald jemand Revit oder SolidWorks öffnet. Wer zu großzügig plant, verbrennt Lizenzen. Eine ehrliche Bedarfsmessung am bestehenden Arbeitsplatz, am besten über zwei Wochen mit nvidia-smi-Logging, spart später viele Diskussionen.

Use Case 2: KI-Beschleunigung

Die zweite Welt sieht anders aus. Hier geht es nicht um 60 fps Latenz, sondern um Tensor-Core-Auslastung, VRAM-Bandbreite und Modellgrößen. Eine H100 mit 80 GB lässt sich per MIG in bis zu sieben Instanzen zerlegen, etwa eine 40-GB-Instanz für ein quantisiertes 70B-Modell und mehrere kleinere Slices für Embedding-Modelle, Reranker oder Whisper-Inferenz.

In der Praxis sehen wir drei Muster. Erstens: dedizierte Inferenz-VMs mit vLLM oder Ollama, die einen MIG-Slice oder ein C-Series-Profil erhalten und einen API-Endpunkt für interne Anwendungen bereitstellen. Zweitens: Sandboxes für Data Scientists, die per JupyterHub oder einzelne Linux-VMs Zugriff auf GPU-Anteile bekommen, ohne dass eine ganze Karte blockiert wird. Drittens: Fine-Tuning-Jobs, die eine oder mehrere Karten temporär aggregieren, häufig nachts oder am Wochenende.

Lizenzseitig ist hier NVIDIA AI Enterprise das Stichwort. Wer C-Series-Profile auf MIG oder Time-Slicing in produktiven Workloads nutzt, braucht die AIE-Subscription pro GPU-Sockel. Das ist nicht trivial in den Kosten, aber strukturell sauberer als versteckte Konstruktionen mit Consumer-Karten, die in Datacenter-Hardware ohnehin keine Garantieabdeckung haben.

Was die Kombination beider Welten ermöglicht

Der interessante Hebel liegt im Scheduling. Ein typischer Mittelstandskunde hat tagsüber Lastspitzen aus der VDI, nachts und am Wochenende kaum Aktivität. Eine GPU, die exklusiv für VDI beschafft wurde, dreht in dieser Zeit Däumchen. Mit einer durchdachten Ressourcenplanung lässt sich derselbe Hardware-Footprint für KI-Workloads zweitnutzen, ohne die Tagesarbeit zu stören.

Technisch braucht es dafür eine klare Knotenstrategie, eine Cluster-Policy in Proxmox, die VDI-VMs nicht auf KI-Knoten und umgekehrt verschiebt, und ein Lizenzmodell, das beide Profile abdeckt. Letzteres ist die Stelle, an der die Wirtschaftlichkeitsrechnung steht oder fällt.

Was man im Vorfeld klären muss

Hardware-Kompatibilität. Nicht jede NVIDIA-Karte ist vGPU-fähig. Datacenter-GPUs wie L4, L40S, A40, RTX 6000 Ada, A100, H100 oder H200 sind freigegeben. Consumer-Karten wie RTX 4090 sind es ausdrücklich nicht. Wer das ignoriert, bekommt entweder keinen Support oder eine Karte, die den Lizenzdienst nicht annimmt.

BIOS und IOMMU. SR-IOV muss aktiviert sein, Above-4G-Decoding ebenfalls. Auf manchen Boards braucht es zusätzlich eine Anpassung des MMIO-Space. Standardarbeit, sollte aber vor der Bestellung gegen das konkrete Server-Modell geprüft werden.

Treiber-Versionierung. Host- und Gast-Treiber müssen zur installierten vGPU-Manager-Version passen. Ein Upgrade zieht eine sorgfältige Reihenfolge nach sich. Wer hier improvisiert, hat schnell VMs ohne GPU-Zugriff.

Live-Migration. Mit vGPU eingeschränkt. Für VDI-Sessions, die bei Bedarf neu gestartet werden können, selten ein Problem. Für lang laufende KI-Trainings ein größeres.

Lizenzserver. Der DLS muss hochverfügbar geplant werden. Fällt er länger als die Grace-Period aus, fallen die GPU-Funktionen in den unlizenzierten Zustand. Beherrschbar, gehört aber von Anfang an in die HA-Konzeption.

Einordnung

NVIDIA vGPU auf Proxmox VE ist keine experimentelle Bastelei mehr. Die Treiberkette ist stabil, der Lizenzmechanismus klar dokumentiert, die Profile sind bekannt. Wer in den nächsten Monaten ohnehin über eine GPU-Investition nachdenkt, sollte zwei Fragen früh stellen: Wofür arbeitet die Karte tagsüber, und was passiert mit ihr in den 16 Stunden, in denen niemand sie braucht?

Wer beide Fragen ehrlich beantwortet, landet selten bei dem Architekturentwurf, der vom Hersteller-Vertrieb zuerst auf dem Tisch lag.

Sysfacts setzt Proxmox-Cluster mit NVIDIA vGPU im DACH-Raum um, von einzelnen GPU-Hosts für Designer-VDI bis zu MIG-basierten Inferenz-Plattformen für interne KI-Workloads.

Interesse an einer pragmatischen Zweitmeinung oder einem belastbaren Proof-of-Concept im eigenen Rechenzentrum? Kontaktieren Sie uns.

Interesse an einer pragmatischen Zweitmeinung? Kontaktieren Sie uns.

Vielen Dank! Ihre Anfrage ist eingegangen!

Hoppla! Beim Absenden des Formulars ist ein Fehler aufgetreten.

Portrait eines jungen Mannes mit kurzem braunem Haar und Bart, der einen schwarzen Kapuzenpullover trägt.

Ein unverbindliches 15-Minuten-Erstgespräch mit einem Experten vereinbaren.