Eine eigene KI auf deinem Rechner laufen lassen? Das war 2023 noch ein Projekt für ganze Wochenenden. Heute reicht ein Installer und 20 Minuten Zeit. Wer lokale KI installieren will, hat 2026 zwei klare Wege: Ollama für die Kommandozeile, LM Studio für die grafische Oberfläche.
Dieser Guide führt dich Schritt für Schritt durch das Setup. Du erfährst, was deine Hardware leisten muss, welche Software passt und wie du dein erstes Modell startest. Stand: Mai 2026.
Hardware-Check vor der Installation
Bevor du startest, prüfe deine Hardware. Lokale KI braucht drei Dinge: genug RAM, eine ordentliche GPU und freien Speicher auf der Platte.
Das Minimum für ein 7B- oder 8B-Modell:
- 16 GB RAM (32 GB sind komfortabler)
- 8 GB VRAM auf der GPU (oder Apple Silicon mit 16 GB Unified Memory)
- 10 bis 15 GB freier SSD-Speicher pro Modell
Mit einer RTX 3060, einem M2 MacBook oder einer RTX 4060 läuft Llama 3.3 8B flüssig. Für 70B-Modelle brauchst du 48 GB VRAM und eine RTX 4090 oder zwei RTX 3090 im Verbund.
Reicht die Hardware nicht, gibt es zwei Optionen. Entweder du startest mit kleineren Modellen wie Phi-4 oder Gemma 4 mit 3 Milliarden Parametern. Oder du wählst eine gehostete Lösung wie CorporateLLM, die ohne eigene Hardware auf EU-Servern läuft.
Ollama vs. LM Studio: Welches Tool passt?
Beide Programme lassen dich lokale KI installieren und nutzen. Sie unterscheiden sich im Bedien-Konzept.
Ollama läuft als Service im Hintergrund. Du steuerst es über die Kommandozeile oder über eine REST-API. Ideal für Entwickler, die Modelle in eigene Apps einbinden wollen. Auch Tools wie n8n, LangChain oder Open WebUI sprechen Ollama nativ an.
LM Studio bringt eine grafische Oberfläche mit. Modelle suchst und lädst du per Klick aus dem integrierten Hugging-Face-Browser. Chats startest du direkt im Programm. Perfekt für Einsteiger ohne Terminal-Erfahrung.
Unser Tipp: Starte mit LM Studio, wenn du noch nie ein Modell lokal gefahren hast. Wechsle zu Ollama, sobald du Workflows bauen oder anbinden willst. Beide nutzen das gleiche GGUF-Format. So bleiben deine Modelle übertragbar.
Schritt 1: Ollama installieren
Lade Ollama von ollama.com herunter. Es gibt Installer für macOS, Windows und Linux. Doppelklick, fertig.
Nach der Installation läuft ein lokaler HTTP-Server auf Port 11434. Im Terminal steht jetzt der Befehl ollama bereit. Prüfe das mit:
ollama --version
Kommt eine Versions-Nummer zurück, ist alles in Ordnung. Unter Windows musst du eventuell ein neues Terminal-Fenster öffnen, damit der Pfad greift.
Schritt 2: Erstes Modell laden
Jetzt holst du dein erstes Modell. Für den Einstieg empfehlen wir Llama 3.3 8B. Im Terminal:
ollama run llama3.3
Beim ersten Aufruf lädt Ollama das Modell herunter. Das dauert je nach Internet 2 bis 10 Minuten. Anschließend startet ein Chat direkt im Terminal. Tippe deine Frage, drücke Enter, und Llama antwortet.
Mit /bye verlässt du den Chat. Das Modell bleibt geladen und startet beim nächsten Aufruf in Sekunden. Weitere Modelle ziehst du mit ollama pull mistral oder ollama pull qwen3.
Schritt 3: Open WebUI für die Chat-Oberfläche
Die Kommandozeile reicht für Tests. Im Alltag willst du eine ChatGPT-ähnliche Oberfläche. Open WebUI liefert genau das und läuft über Docker.
Installation per Docker:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
Öffne danach http://localhost:3000 im Browser. Beim ersten Start legst du ein Konto an. Open WebUI erkennt dein laufendes Ollama automatisch und listet alle installierten Modelle.
Damit hast du eine private ChatGPT-Alternative. Sie speichert Verläufe, erlaubt Modell-Wechsel mitten im Chat und lädt Dateien für Q&A hoch. Wie du KI strategisch im Unternehmen verankerst, liest du in unserem Beitrag über KI im Unternehmen einsetzen.
Schritt 4: Eigene Dokumente anbinden
Lokale KI wird produktiv, sobald sie deine Daten kennt. Open WebUI bringt RAG (Retrieval Augmented Generation) ab Werk mit.
So gehst du vor:
- Im Menü "Workspace" auf "Knowledge" klicken
- Neue Knowledge Base anlegen und Namen vergeben
- PDFs, Markdown oder Office-Dateien per Drag-and-Drop hochladen
- Im Chat die Knowledge Base als Quelle auswählen
Open WebUI zerlegt die Dateien in Chunks, erzeugt Embeddings und legt sie in ChromaDB ab. Bei jeder Frage sucht das System die passenden Stellen und reicht sie ans Modell weiter. Antworten basieren dann auf deinen Dokumenten, nicht auf öffentlichem Trainings-Wissen.
Was nach dem Setup wichtig wird
Setup und Erst-Konfig sind nur der Anfang. Im Alltag siehst du: Modelle bekommen Updates, Performance schwankt, der Hardware-Bedarf wächst. Wer mehrere Mitarbeiter parallel bedienen will, kommt mit einem Desktop-PC schnell an Grenzen.
Hier kommen die nächsten Schritte. Modelle regelmäßig per ollama pull updaten. Token-Raten mit --verbose messen. Backups vom Modell-Verzeichnis ziehen. Für Teams ab fünf Personen lohnt sich ein dedizierter Server. Oder eine gehostete Plattform wie CorporateLLM. Sie bündelt GPT-5, Claude und Gemini auf EU-Hardware.
Fazit
Lokale KI installieren ist 2026 keine Hürde mehr. Ollama plus Llama 3.3 plus Open WebUI bringt dich in unter 30 Minuten ans Ziel. Du hast eine private ChatGPT-Alternative auf dem Rechner. Deine Daten bleiben dabei zu 100 Prozent im Haus.
Der nächste logische Schritt: eigene Dokumente per RAG anbinden und die Modelle zur Wissens-Maschine deines Teams machen. Wer skalieren will, prüft früh, ob eigene Hardware oder eine EU-gehostete Plattform der bessere Weg ist. Beide Wege führen zu DSGVO-konformer KI ohne API-Wahnsinn.















.webp)

.webp)

.webp)






















































