Zurück zur Startseite

Wizard – Self-hosted KI-Wissensbasis

Lokale RAG-Wissensbasis für interne Firmendokumente – DSGVO-konform, ohne Cloud-Abhängigkeit, mit vollständiger Hand am Code.

Ollama ChromaDB FastAPI Open WebUI Nginx Docker Python Ubuntu RAG Self-hosted

Für die Wizard GmbH habe ich eine komplette Wissensbasis aufgebaut, mit der Mitarbeiter ihre internen Firmendokumente per Chat durchsuchen und befragen können. Die zentrale Anforderung: kein Daten-Abfluss an US-Dienste, keine geteilte Cloud-Infrastruktur, vollständige Kontrolle über die eigenen Daten. Das gesamte System läuft DSGVO-konform auf einem dedizierten Server bei Hetzner in Deutschland.

Die Basis bildet ein dedizierter Hetzner-Server vom Typ GEX44 mit einer NVIDIA RTX 4000 SFF Ada Grafikkarte (20 GB VRAM), auf dem Ollama als LLM-Backend läuft. Für die eigentliche Retrieval-Augmented Generation (RAG) kommt ChromaDB als Vektordatenbank zum Einsatz, ergänzt um das multilinguale Embedding-Modell BGE-M3, das auch auf deutschen Texten starke Ergebnisse liefert. Als Sprachmodell nutze ich Gemma 4 in der 26B-Variante – leistungsstark genug für komplexe Fragen, aber noch klein genug um vollständig auf der lokalen GPU zu laufen.

Das System bedient zwei ganz unterschiedliche Zielgruppen über ein gemeinsames LLM-Backend: Ein Open WebUI Chat-Frontend für die Mitarbeiter – so bequem wie ChatGPT, aber komplett unter eigener Kontrolle. Und eine dokumentierte REST-API auf FastAPI-Basis, über die sich externe Tools und Websites anbinden lassen. Beide Systeme pflegen ihre eigene Dokumentenbasis und teilen sich das darunter liegende Modell.

System-Architektur auf einen Blick

System-Architektur: Self-hosted RAG-Wissensbasis Nginx als einziger öffentlich erreichbarer Dienst. Dahinter Open WebUI für Mitarbeiter und FastAPI für externe Tools, beide über ein gemeinsames Ollama-LLM-Backend mit Gemma 4 in der 26B-Variante verbunden. Als RAG-Datenschicht dient ChromaDB mit dem multilingualen Embedding-Modell BGE-M3. Gehostet auf einem dedizierten Hetzner-Server mit NVIDIA RTX 4000 Ada GPU. Mitarbeiter Chat-Zugriff im Browser Externe Tools & Websites REST-API-Zugriff Nginx Reverse Proxy · einziger Public-Port Open WebUI Chat-Frontend für Mitarbeiter eigene Dokumenten-Basis FastAPI REST-API für externe Integration eigene Dokumenten-Basis Ollama LLM-Backend · gemeinsam genutzt Modell: Gemma 4 · 26B Retrieval ChromaDB + BGE-M3 Vektordatenbank · multilinguales Embedding Hardware: Hetzner GEX44 · NVIDIA RTX 4000 SFF Ada · 20 GB VRAM · Ubuntu · Docker
Vereinfachte Systemübersicht – zwei Frontends teilen sich ein gemeinsames LLM-Backend, mit Nginx als einzigem öffentlich erreichbaren Dienst.

Sicherheit war von Anfang an ein zentraler Aspekt. Ein Nginx Reverse-Proxy ist der einzige von außen erreichbare Dienst – alle anderen Komponenten hören ausschließlich auf localhost. Die API ist mit Keys und granularem Rate-Limiting pro Endpoint geschützt, sämtliche Docker-Container laufen mit gehärteten Einstellungen als Non-Root-User. Saubere Input-Validierung und ein reduziertes Angriffs-Profil inklusive.

Was dabei entstanden ist, ist keine Insellösung, sondern eine echte Blaupause: Eine private, DSGVO-konforme KI-Wissensbasis, die sich auf andere Mittelständler mit ähnlichen Anforderungen übertragen lässt. Für Wizard bedeutet das konkret: schneller Zugriff auf firmeninternes Wissen – ohne dass Dokumente in fremde Hände oder auf US-Server gelangen.

Interesse an einer eigenen privaten KI-Wissensbasis?

Ich berate und baue DSGVO-konforme KI-Lösungen für den Mittelstand – von der Server-Empfehlung über Setup und Integration bis zur Mitarbeiter-Schulung.

Lass uns reden