Warum generative KI ohne Cloud?
Die meisten generativen KI-Dienste und Large Language Models (LLMs) laufen über externe Cloud-Anbieter – deine Daten verlassen das Unternehmen und landen auf Servern von OpenAI, Google oder Microsoft. Für viele Unternehmen ist das keine Option: sensible Kundendaten, interne Strategien, Personalakten oder Vertragsinhalte haben auf fremden Servern nichts verloren. KI-Datenschutz beginnt bei der Infrastruktur.
Mit einer Self-Hosted-Lösung läuft die komplette KI auf deiner eigenen Infrastruktur. Deine Unternehmensdaten verlassen nie den Server – und du behältst die volle Kontrolle darüber, was die KI sieht, wer Zugriff hat und wie sie genutzt wird.
Technologie: Ollama & Open-Source-Modelle
Ich setze auf Ollama als Plattform für die lokale Ausführung von KI-Modellen. Ollama macht es einfach, leistungsfähige Open-Source-Modelle auf eigener Hardware zu betreiben – ohne Cloud-Anbindung, ohne laufende Lizenzgebühren.
Welches Modell zum Einsatz kommt, hängt von deiner Aufgabe ab. Die Open-Source-Landschaft entwickelt sich rasant, und ich wähle für jedes Projekt das Modell, das aktuell am besten zu den Anforderungen passt:
- Llama (Meta) – Vielseitiges Flaggschiff-Modell. Stark bei deutschsprachigen Texten, breit einsetzbar für Chatbots und Textverarbeitung
- Mistral (Frankreich) – Kompakt und schnell. Ideal wenn Geschwindigkeit zählt und die Hardware begrenzt ist. EU-Herkunft
- Gemma (Google) – Besonders gut bei strukturierter Datenverarbeitung und Zusammenfassungen
- Phi (Microsoft) – Überraschend leistungsfähig auf kleiner Hardware. Gute Option für ressourcenschonende Einstiege
Für RAG-Systeme setze ich zusätzlich spezialisierte Embedding-Modelle ein, die deine Dokumente durchsuchbar machen – auch hier Open Source und lokal auf deinem Server.
Alle paar Monate erscheinen Modelle, die für bestimmte Aufgaben besser funktionieren. Ich bleibe auf dem Laufenden und aktualisiere bestehende Installationen, wenn ein Update echten Mehrwert bringt – nicht bei jedem Hype.
RAG: KI mit deinem Unternehmenswissen
RAG steht für Retrieval-Augmented Generation und ist der Schlüssel dazu, dass eine KI nicht nur allgemein kluge Antworten gibt, sondern Antworten basierend auf deinen Dokumenten, Prozessen und Daten.
So funktioniert es: Deine Unternehmensdokumente (Handbücher, Verträge, Wikis, E-Mails, FAQ) werden in eine Vektordatenbank eingespeist. Wenn ein Mitarbeiter die KI etwas fragt, sucht das System zuerst die relevantesten Dokumente und gibt dem Sprachmodell diesen Kontext mit. Das Ergebnis: präzise Antworten, die auf eurem tatsächlichen Wissen basieren.
- Intern – Mitarbeitende fragen nach Richtlinien, Prozessen, Produktwissen. Antworten in Sekunden statt stundenlanger Suche
- Extern – Kundensupport-Bots, die tatsächlich eure Produkte kennen und korrekte Antworten geben
- Automatisiert – Dokumente klassifizieren, zusammenfassen, Daten extrahieren – ohne manuellen Aufwand
Hardware & Kosten: Was brauche ich?
Eine der häufigsten Fragen. Die gute Nachricht: Für einen ersten produktiven Einsatz brauchst du kein Rechenzentrum.
- Dedizierter GPU-Server – Für produktive KI-Modelle braucht es einen Server mit leistungsfähiger GPU und ausreichend RAM. Das ist kein Raspberry-Pi-Projekt – aber die Kosten sind planbar und fallen pro Server an, nicht pro Mitarbeiter
- Skalierung nach Bedarf – Für einen Pilot mit kleinem Team reicht ein Server. Wächst die Nutzung, wächst die Infrastruktur mit – ohne dass sich das Kostenmodell grundlegend ändert
- On-Premise möglich – Die Lösung kann auf einem Hetzner-Server, in eurem eigenen Rechenzentrum oder direkt im Büro laufen – je nachdem, was eure Anforderungen an Datensouveränität und Latenz verlangen
Die konkreten Kosten hängen vom Anwendungsfall, der Modellgröße und der gewünschten Performance ab. In einem Erstgespräch kann ich eine realistische Einschätzung geben, welche Infrastruktur für dein Vorhaben sinnvoll ist.
DSGVO-Konformität: nicht optional, sondern Pflicht
Datenschutz ist bei KI-Projekten kein Nice-to-have – besonders für deutsche und europäische Unternehmen. Mit einer Self-Hosted-Lösung bist du auf der sicheren Seite:
- Alle Daten bleiben im Unternehmen – keine Weitergabe an OpenAI, Google oder andere Drittanbieter
- Volle Datensouveränität – du weißt genau, wo deine Daten sind und wer darauf zugreift
- Besonders relevant für sensible Branchen – Medizin, Recht, HR, Finanzen und überall dort, wo Vertraulichkeit nicht verhandelbar ist
- Audit-sicher – Du kannst jederzeit nachweisen, dass keine Daten an externe Dienste fließen
Cloud-KI vs. Self-Hosted KI
Wann lohnt sich welcher Ansatz?
| Cloud-KI (OpenAI, Azure etc.) | Self-Hosted KI (Ollama) | |
|---|---|---|
| Datenschutz | Daten verlassen das Unternehmen | Alles bleibt lokal |
| DSGVO | Auftragsverarbeitung nötig, Restrisiko | Keine Drittanbieter, volle Kontrolle |
| Kosten | Pro Nutzer/Monat, steigt mit jedem Seat | Fixe Serverkosten, unabhängig von Nutzerzahl |
| Qualität | Top-Modelle der Anbieter sind sehr leistungsfähig | Open-Source holt rasant auf, für viele Aufgaben gleichwertig |
| Anpassung | Begrenzt (Prompts, System Messages) | Volle Kontrolle über Modell, Kontext, Verhalten |
| Verfügbarkeit | Abhängig vom Anbieter | Dein Server, deine Uptime |
Meine ehrliche Einschätzung: Nicht jede Aufgabe braucht Self-Hosted. Für allgemeine Textgenerierung ohne sensible Daten kann Cloud-KI sinnvoll sein. Aber sobald Unternehmensdaten ins Spiel kommen – und das ist meistens der Fall – ist Self-Hosted der sicherere und langfristig günstigere Weg.
Häufige Fragen
Brauche ich eigene IT-Kompetenz im Team?
Nein. Ich richte alles ein und kann den laufenden Betrieb optional begleiten. Dein Team nutzt die KI über ein einfaches Web-Interface – ohne technisches Know-how.
Wie lange dauert die Einrichtung?
Ein erster Prototyp mit deinen Dokumenten ist oft in 1–2 Wochen einsatzbereit. Der Rollout für das ganze Team dauert je nach Umfang 2–6 Wochen.
Sind Open-Source-Modelle so gut wie ChatGPT?
Für viele Unternehmens-Aufgaben: ja. Modelle wie Llama liefern für interne Wissensabfragen, Dokumentenanalyse und Chatbots vergleichbare Ergebnisse – bei voller Datensouveränität. Wo proprietäre Modelle für einen konkreten Anwendungsfall überlegen sind, empfehle ich ehrlich eine hybride Lösung.
Was passiert, wenn bessere Modelle erscheinen?
Ein Modellwechsel ist bei Ollama so einfach wie ein Update. Ich beobachte den Markt laufend und empfehle Upgrades, wenn ein neues Modell echten Mehrwert für deinen Anwendungsfall bringt – nicht bei jedem Release.
Kann ich später zur Cloud wechseln – oder umgekehrt?
Ja. Die RAG-Architektur ist modular: die Vektordatenbank mit deinen Dokumenten bleibt unabhängig vom Sprachmodell. Du kannst das Modell jederzeit austauschen oder einen hybriden Ansatz fahren.
Eigene KI aufbauen?
Lass uns gemeinsam herausfinden, ob Self-Hosted KI für dein Unternehmen der richtige Weg ist – und mit welchem Anwendungsfall du am besten startest.
Lass uns reden