KI-Infrastruktur

Self-Hosted KI für Unternehmen

Künstliche Intelligenz auf deinem eigenen Server – ohne Cloud, ohne Datenweitergabe, ohne Kompromisse beim Datenschutz.

Warum generative KI ohne Cloud?

Die meisten generativen KI-Dienste und Large Language Models (LLMs) laufen über externe Cloud-Anbieter – deine Daten verlassen das Unternehmen und landen auf Servern von OpenAI, Google oder Microsoft. Für viele Unternehmen ist das keine Option: sensible Kundendaten, interne Strategien, Personalakten oder Vertragsinhalte haben auf fremden Servern nichts verloren. KI-Datenschutz beginnt bei der Infrastruktur.

Mit einer Self-Hosted-Lösung läuft die komplette KI auf deiner eigenen Infrastruktur. Deine Unternehmensdaten verlassen nie den Server – und du behältst die volle Kontrolle darüber, was die KI sieht, wer Zugriff hat und wie sie genutzt wird.

Technologie: Ollama & Open-Source-Modelle

Ich setze auf Ollama als Plattform für die lokale Ausführung von KI-Modellen. Ollama macht es einfach, leistungsfähige Open-Source-Modelle auf eigener Hardware zu betreiben – ohne Cloud-Anbindung, ohne laufende Lizenzgebühren.

Welches Modell zum Einsatz kommt, hängt von deiner Aufgabe ab. Die Open-Source-Landschaft entwickelt sich rasant, und ich wähle für jedes Projekt das Modell, das aktuell am besten zu den Anforderungen passt:

Llama (Meta) – Vielseitiges Flaggschiff-Modell. Stark bei deutschsprachigen Texten, breit einsetzbar für Chatbots und Textverarbeitung
Mistral (Frankreich) – Kompakt und schnell. Ideal wenn Geschwindigkeit zählt und die Hardware begrenzt ist. EU-Herkunft
Gemma 4 (Google) – Googles neueste Open-Source-Generation: versteht Text, Bilder und Audio, unterstützt über 140 Sprachen und kann eigenständig mehrstufige Aufgaben lösen. Aktuell eines der leistungsstärksten Open-Source-Modelle am Markt
Phi (Microsoft) – Überraschend leistungsfähig auf kleiner Hardware. Gute Option für ressourcenschonende Einstiege

Für RAG-Systeme setze ich zusätzlich spezialisierte Embedding-Modelle ein, die deine Dokumente durchsuchbar machen – auch hier Open Source und lokal auf deinem Server.

Alle paar Monate erscheinen Modelle, die für bestimmte Aufgaben besser funktionieren. Ich bleibe auf dem Laufenden und aktualisiere bestehende Installationen, wenn ein Update echten Mehrwert bringt – nicht bei jedem Hype.

RAG: KI mit deinem Unternehmenswissen

RAG steht für Retrieval-Augmented Generation und ist der Schlüssel dazu, dass eine KI nicht nur allgemein kluge Antworten gibt, sondern Antworten basierend auf deinen Dokumenten, Prozessen und Daten.

So funktioniert es: Deine Unternehmensdokumente (Handbücher, Verträge, Wikis, E-Mails, FAQ) werden in eine Vektordatenbank eingespeist. Wenn ein Mitarbeiter die KI etwas fragt, sucht das System zuerst die relevantesten Dokumente und gibt dem Sprachmodell diesen Kontext mit. Das Ergebnis: präzise Antworten, die auf eurem tatsächlichen Wissen basieren.

Die Qualität der Antworten steht und fällt mit der Qualität der Suche. Deshalb setze ich auf eine Hybrid-Suche, die zwei Ansätze kombiniert: semantische Ähnlichkeit (versteht die Bedeutung der Frage) und exakte Begriffssuche (findet Fachbegriffe und Produktnamen zuverlässig). Zusätzlich bewertet ein Reranking-Schritt die gefundenen Ergebnisse nach Relevanz, bevor sie an das Sprachmodell gehen. Das Ergebnis: deutlich bessere Antwortqualität und weniger Halluzinationen.

Intern – Mitarbeitende fragen nach Richtlinien, Prozessen, Produktwissen. Antworten in Sekunden statt stundenlanger Suche
Extern – Kundensupport-Bots, die tatsächlich eure Produkte kennen und korrekte Antworten geben
Automatisiert – Dokumente klassifizieren, zusammenfassen, Daten extrahieren – ohne manuellen Aufwand

Mehr über Chatbot-Entwicklung & Einsatzbereiche

Hardware & Kosten: Was brauche ich?

Eine der häufigsten Fragen. Die gute Nachricht: Für einen ersten produktiven Einsatz brauchst du kein Rechenzentrum.

Dedizierter GPU-Server – Für produktive KI-Modelle braucht es einen Server mit leistungsfähiger GPU und ausreichend RAM. Das ist kein Raspberry-Pi-Projekt – aber die Kosten sind planbar und fallen pro Server an, nicht pro Mitarbeiter
Skalierung nach Bedarf – Für einen Pilot mit kleinem Team reicht ein Server. Wächst die Nutzung, wächst die Infrastruktur mit – ohne dass sich das Kostenmodell grundlegend ändert
On-Premise möglich – Die Lösung kann auf einem Hetzner-Server, in eurem eigenen Rechenzentrum oder direkt im Büro laufen – je nachdem, was eure Anforderungen an Datensouveränität und Latenz verlangen

Die konkreten Kosten hängen vom Anwendungsfall, der Modellgröße und der gewünschten Performance ab. In einem Erstgespräch kann ich eine realistische Einschätzung geben, welche Infrastruktur für dein Vorhaben sinnvoll ist.

Wie so ein Setup in der Praxis aussieht, zeigt der Wizard KI-Server – eine self-hosted RAG-Wissensbasis auf dediziertem Hetzner-Server mit NVIDIA RTX 4000 Ada, Ollama, ChromaDB und Open WebUI.

DSGVO-Konformität: nicht optional, sondern Pflicht

Datenschutz ist bei KI-Projekten kein Nice-to-have – besonders für deutsche und europäische Unternehmen. Mit einer Self-Hosted-Lösung bist du auf der sicheren Seite:

Alle Daten bleiben im Unternehmen – keine Weitergabe an OpenAI, Google oder andere Drittanbieter
Volle Datensouveränität – du weißt genau, wo deine Daten sind und wer darauf zugreift
Besonders relevant für sensible Branchen – Medizin, Recht, HR, Finanzen und überall dort, wo Vertraulichkeit nicht verhandelbar ist
Audit-sicher – Du kannst jederzeit nachweisen, dass keine Daten an externe Dienste fließen

Cloud-KI vs. Self-Hosted KI

Wann lohnt sich welcher Ansatz?

	Cloud-KI (OpenAI, Azure etc.)	Self-Hosted KI (Ollama)
Datenschutz	Daten verlassen das Unternehmen	Alles bleibt lokal
DSGVO	Auftragsverarbeitung nötig, Restrisiko	Keine Drittanbieter, volle Kontrolle
Kosten	Pro Nutzer/Monat, steigt mit jedem Seat	Fixe Serverkosten, unabhängig von Nutzerzahl
Qualität	Top-Modelle der Anbieter sind sehr leistungsfähig	Open-Source auf Augenhöhe – aktuelle Modelle wie Gemma 4 erreichen Top-Niveau bei Reasoning und Sprachverständnis
Anpassung	Begrenzt (Prompts, System Messages)	Volle Kontrolle über Modell, Kontext, Verhalten
Verfügbarkeit	Abhängig vom Anbieter	Dein Server, deine Uptime

Meine ehrliche Einschätzung: Nicht jede Aufgabe braucht Self-Hosted. Für allgemeine Textgenerierung ohne sensible Daten kann Cloud-KI sinnvoll sein. Aber sobald Unternehmensdaten ins Spiel kommen – und das ist meistens der Fall – ist Self-Hosted der sicherere und langfristig günstigere Weg.

Häufige Fragen

Brauche ich eigene IT-Kompetenz im Team?

Nein. Ich richte alles ein und kann den laufenden Betrieb optional begleiten. Dein Team nutzt die KI über ein einfaches Web-Interface – ohne technisches Know-how.

Wie lange dauert die Einrichtung?

Ein erster Prototyp mit deinen Dokumenten ist oft in 1–2 Wochen einsatzbereit. Der Rollout für das ganze Team dauert je nach Umfang 2–6 Wochen.

Sind Open-Source-Modelle so gut wie ChatGPT?

Für viele Unternehmens-Aufgaben: ja – und der Abstand schrumpft schnell. Modelle wie Googles Gemma 4 erreichen in Benchmarks für Reasoning, Coding und Sprachverständnis Ergebnisse, die noch vor einem Jahr nur proprietären Top-Modellen vorbehalten waren. Für typische Unternehmensaufgaben wie Wissensabfragen, Dokumentenanalyse und Chatbots liefern Open-Source-Modelle heute gleichwertige Ergebnisse – bei voller Datensouveränität. Wo proprietäre Modelle für einen konkreten Anwendungsfall überlegen sind, empfehle ich ehrlich eine hybride Lösung.

Was passiert, wenn bessere Modelle erscheinen?

Ein Modellwechsel ist bei Ollama so einfach wie ein Update. Ich beobachte den Markt laufend und empfehle Upgrades, wenn ein neues Modell echten Mehrwert für deinen Anwendungsfall bringt – nicht bei jedem Release.

Kann ich später zur Cloud wechseln – oder umgekehrt?

Ja. Die RAG-Architektur ist modular: die Vektordatenbank mit deinen Dokumenten bleibt unabhängig vom Sprachmodell. Du kannst das Modell jederzeit austauschen oder einen hybriden Ansatz fahren.

Eigene KI aufbauen?

Lass uns gemeinsam herausfinden, ob Self-Hosted KI für dein Unternehmen der richtige Weg ist – und mit welchem Anwendungsfall du am besten startest.

Lass uns reden