Google veröffentlicht Gemma 4: das leistungsstärkste Open-Source-Modell, das auf nahezu jedem Gerät läuft. Vom Smartphone bis zum MacBook. Multimodal, mit 256.000 Token Kontext-Fenster und Reasoning-Fähigkeiten. Komplett kostenlos, komplett lokal. Hier erfährst du, was Gemma 4 kann und wie du es sofort einsetzt.
Was macht Gemma 4 besonders?
Gemma 4 von Google DeepMind ist nicht einfach nur ein weiteres Open-Source-Modell. Drei Eigenschaften setzen es ab. Erstens: Es läuft auf fast jedem Gerät. Zweitens: Es ist vollständig multimodal. Drittens: Es hat Reasoning-Fähigkeiten: ein Thinking-Modell, das viele übersehen.
Das 256.000 Token Kontext-Fenster übertrifft die meisten Cloud-Modelle. Und das Entscheidende: Du bezahlst keinem Anbieter einen Cent. Deine Daten bleiben auf deinem Gerät. Gerade im Geschäfts-Kontext, wo Daten-Sicherheit zählt, ist das ein klarer Vorteil gegenüber Cloud-basierten Alternativen.

Drei Modellgrößen: für jedes Gerät die richtige
Google bietet Gemma 4 in drei Größen an:
Das 1B-Modell läuft sogar auf Smartphones. Es erreicht GPT-3.5-Niveau und verarbeitet trotzdem Bilder, Audio, Video und Sprache. Kein anderes Open-Source-Modell dieser Größe bietet multimodale Fähigkeiten.
Das 4B-Modell ist der Sweet Spot. Es läuft auf jedem MacBook oder Notebook mit Apple M1 bis M5 und 16 GB RAM. Es schlägt diverse Cloud-Modelle aus dem Jahr 2024. Für die meisten Anwender ist das die richtige Wahl: lokal, schnell, leistungsstark.
Das Flaggschiff-Modell erreicht GPT-4-Niveau. Es belegt Platz 3 weltweit unter allen Open-Source-Modellen. Für anspruchsvolle Aufgaben wie Code-Reviews, komplexe Analysen oder Machine-Learning-Projekte.
Alle drei Modelle sind multimodal. Selbst das kleinste verarbeitet Text, Bilder, Videos und Audio. Das ist bei lokalen Modellen selten: die meisten beschränken sich auf reinen Text.
Gemma 4 mit Ollama in 2 Minuten starten
Der schnellste Weg zu Gemma 4 führt über Ollama. Falls noch nicht installiert: Ollama herunterladen, öffnen, fertig. Dann im Terminal:
ollama run gemma4
Das 4B-Modell wird automatisch geladen. Danach kannst du direkt chatten, Fragen stellen oder Aufgaben bearbeiten: alles lokal auf deinem Rechner.
Besonders relevant seit dieser Woche: Ollama nutzt jetzt Apples MLX-Framework. Die Ergebnisse sind drastisch. Die Text-Verarbeitung ist 57-mal schneller als vorher. Die Antwort-Geschwindigkeit liegt 93-mal höher. Der Grund: Ollama nutzt jetzt Apples eigenen KI-Chip und den gemeinsamen Speicher der M-Chips optimal aus. Gespräche zwischen Sessions bleiben gespeichert, was Rechenzeit bei Folgefragen spart.
Voraussetzung für die volle MLX-Beschleunigung: ein Mac mit 32 GB RAM. Mit 16 GB läuft Gemma 4 trotzdem: ohne die MLX-Optimierung.
Gemma 4 direkt in Claude Code nutzen
Du arbeitest bereits mit Claude Code? Dann kannst du Gemma 4 direkt dort einbinden. Der Befehl:
ollama launch claude --model gemma4
Eine lokale Claude-Code-Session startet: powered by Gemma 4. Komplett kostenlos, mit allen multimodalen Fähigkeiten. Das ist besonders relevant, wenn du bei Claude Code an Usage Limits stößt. Statt dein gesamtes Setup zu ändern, nutzt du für bestimmte Aufgaben einfach das lokale Modell.
Das gleiche Prinzip funktioniert für Codex, Open Code oder OpenClaw. Gemma 4 über Ollama ist modell-agnostisch einsetzbar: überall dort, wo du ein lokales LLM brauchst.
Alternativ kannst du Gemma 4 auch in der Cloud testen. Über das Google AI Studio erreichst du das Modell direkt im Browser. Für den dauerhaften Einsatz ist der lokale Weg über Ollama aber effizienter und kostenlos, wie wir auch in unserem Claude Code Guide für Einsteiger und Profis für die lokale Modell-Integration beschreiben.
Wann sich Gemma 4 lokal lohnt: und wann nicht
Gemma 4 lokal lohnt sich für:
- Daten-sensible Aufgaben: Kundendaten, interne Dokumente, Compliance-relevante Inhalte bleiben auf deinem Gerät
- Kostenoptimierung: keine API-Kosten, kein Abo, keine Token-Limits
- Audio-Transkription: lokal und multimodal, ohne externe Dienste
- Schnelle Folgefragen: dank MLX-Integration und Session-Speicher extrem schnell auf Apple Silicon
Cloud-Modelle bleiben besser für:
- Komplexe Coding-Aufgaben, bei denen Opus 4.6 oder GPT-5.4 klar überlegen sind
- Aufgaben mit sehr großem Kontext über 256.000 Tokens
- Team-Kollaboration, bei der mehrere Nutzer gleichzeitig arbeiten
Der smarte Ansatz: Beide Welten kombinieren. Claude Code oder Codex für anspruchsvolle Aufgaben. Gemma 4 lokal für alles, was schnell, privat und kostenfrei laufen soll. So sparst du Tokens bei deinem Cloud-Anbieter und behältst die Kontrolle über sensible Daten.
Fazit: lokale KI wird alltagstauglich
Gemma 4 markiert einen Wendepunkt für lokale KI. Ein multimodales Modell mit Reasoning-Fähigkeiten, das auf jedem Laptop läuft: kostenlos. Zusammen mit der MLX-Beschleunigung in Ollama entsteht ein Setup, das vor einem Jahr undenkbar gewesen wäre.
Der beste Zeitpunkt zum Starten: jetzt. Ein Terminal-Befehl, zwei Minuten Ladezeit. Danach hast du ein leistungsstarkes KI-Modell lokal auf deinem Rechner. Ohne Abo, ohne API-Key, ohne Daten in der Cloud.























.png)






.webp)

.webp)




