Stell dir vor, du schaust einen Film ohne Ton. Keine Schritte auf nassem Asphalt, kein Donnergrollen, keine Musik. Das Bild bleibt – aber die Emotion verschwindet. Genau dieses Problem löst Mirelo AI, eines der am schnellsten wachsenden KI-Startups Europas. Im Gespräch mit Leonard Schmedding erklärt Gründer und CEO CJ Simon Gabriel, wie sein Berliner Startup mit eigenen Foundation Models die KI-Audiogenerierung neu definiert. Du erfährst, warum Audio die dritte Säule der KI-Revolution ist, wie Mirelo mit 50-mal weniger Rechenleistung als große Sprachmodelle arbeitet und welche Chancen sich für Kreative, Filmemacher und Unternehmen ergeben.
Wer ist CJ Simon Gabriel?
CJ Simon Gabriel bringt einen Werdegang mit, der in der KI-Welt selten ist. Bevor er sich der Informatik zuwandte, studierte er Klavier, Orgel und Komposition am Konservatorium in Straßburg. Dort schloss er mit Diplom ab. Erst danach wechselte er in die Ingenieur-Wissenschaften.
Seine Promotion absolvierte er am Max-Planck-Institut für intelligente Systeme in Tübingen. Dort forschte er unter Bernhard Schölkopf – einem der weltweit meistzitierten Informatiker. Seine Dissertation behandelte die Grundlagen generativer Modelle wie GANs und VAEs. Genau jene Architekturen bilden heute die Basis für Bild-, Video- und Audio-Generierung mit KI.
Nach Stationen an der ETH Zürich, bei Facebook AI Research und den AWS Labs gründete Simon Gabriel im November 2023 gemeinsam mit Florian Wenzel das Startup Mirelo AI in Berlin.
Was macht Mirelo AI genau?
Mirelo entwickelt eigene Foundation Models für KI-Audio. Diese Modelle erzeugen automatisch synchronisierte Soundeffekte und Musik für Videos, Gaming und visuelle Medien. Der Nutzer lädt ein Video hoch. Innerhalb weniger Sekunden generiert das Modell passende Geräusche und einen stimmigen Musik-Track.
Das klingt simpel, ist aber technisch extrem anspruchsvoll. CJ erklärt im Interview: „Wir generieren nicht nur den Sound. Wir synchronisieren ihn direkt mit dem Video." Genau diese präzise Synchronisation unterscheidet Mirelo von reinen Text-to-Audio-Tools.
Das aktuelle Flaggschiff-Modell heißt Mirelo SFX v1.5. Es erzeugt verschiedene Soundtrack-Varianten schneller als in Echtzeit. Nutzer testen es direkt über die Plattform Mirelo Studio oder binden es per API in eigene Anwendungen ein.
41 Millionen Dollar Seed-Runde: Warum investieren A16Z und Index Ventures?
Im Dezember 2025 sicherte sich Mirelo eine Seed-Finanzierung von 41 Millionen Dollar. Angeführt wurde die Runde von Andreessen Horowitz (A16Z) und Index Ventures. Unter den Angel-Investoren finden sich klangvolle Namen: Arthur Mensch (CEO von Mistral AI), Jakob Uszkoreit (Co-Autor des „Attention Is All You Need"-Papers) und weitere KI-Größen.
Warum fließt so viel Geld in KI-gestützte Audio-Generierung? CJ bringt es auf den Punkt: „Audio ist die vergessene dritte Säule der KI-Revolution." Während Text, Bild und Video rasant wuchsen, blieb Sound technisch unterentwickelt.
Guido Appenzeller von A16Z betonte, Mirelo arbeite an einem der technisch anspruchsvollsten und am wenigsten erforschten Bereiche generativer Medien. Georgia Stevenson von Index Ventures ergänzte, dass Sound zu oft ein nachträglicher Gedanke in der Videoproduktion sei – obwohl er darüber entscheide, ob ein Video wirklich beim Publikum ankommt.
Warum ist Sound so wichtig für Videos?
George Lucas sagte einmal, Sound mache 50 Prozent des Kinoerlebnisses aus. CJ geht noch weiter: „Wenn überhaupt, dann ist das eine Untertreibung." Im Interview erklärt er: Die Bilder liefern den Inhalt. Aber die gesamte emotionale Ebene – Atmosphäre, Spannung, Freude – entsteht durch den Sound.
Ein konkretes Beispiel: Nimm den gleichen Film und leg einen anderen Soundtrack darunter. Sofort verändert sich die gesamte Stimmung. Dieses Prinzip gilt für Hollywood-Produktionen genauso wie für YouTube-Videos, Werbespots und Social-Media-Clips.
Gerade im Werbebereich ist der Sound ein entscheidender Faktor. CJ betont: „Der Sound kann den Unterschied machen zwischen einem viralen Video und einem nicht-viralen Video." Wer professionelle Inhalte erstellt, braucht professionelles Audio. Genau hier setzt Mirelo an – und ähnlich wie KI-Telefonassistenten bereits den Kundenkontakt verändern, transformiert KI-Audio die gesamte Medien-Produktion.
Von Ray Kurzweil bis Deep Learning: Die Geschichte der KI-Musik
Die Idee, Maschinen Musik komponieren zu lassen, ist nicht neu. Bereits 1965 stellte Ray Kurzweil bei „I've Got a Secret" seinen Musik-Computer vor. Dieser komponierte Klavierstücke, die das Publikum kaum von echten Aufnahmen unterschied.
Was hat sich seitdem verändert? CJ erklärt den Unterschied so: Früher nutzte man statistische Modelle, die theoretisch gut verstanden waren. Die Ergebnisse fielen aber eher mittelmäßig aus. Heutige tiefe neuronale Netze versteht selbst die Forschung im Detail nicht mehr vollständig. Dafür liefern sie drastisch bessere Resultate.
Ein entscheidender Wendepunkt war die Transformer-Architektur von 2017. Sie steckt heute in Large Language Models, Vision Models – und eben auch in Audio-Modellen. Gleichzeitig veränderte sich die Art, wie Musik digital abgebildet wird.
Früher arbeitete man auf der Ebene der Partitur – also mit symbolischen Darstellungen wie MIDI-Dateien. Heute generieren Modelle direkt die Audio-Waveform. Der Klang entsteht also nicht mehr als abstrakte Notation, sondern als tatsächliches Audiosignal. Das erlaubt eine viel feinere Steuerung von Klangfarbe, Dynamik und Ausdruck. CJ verdeutlicht: Jeder, der schon mal eine Partitur rein mechanisch abgespielt gehört hat, weiß, dass es ganz anders klingt als ein echter Pianist.
Dazu kommen Fortschritte bei VAEs (Variational Autoencoders). Diese Methode erlaubt es, Sounds effizient zu komprimieren und darzustellen. Genau das nutzt Mirelo für seine schlanken, aber leistungsfähigen Modelle.
Eigene Foundation Models statt API-Wrapper
Was Mirelo von vielen KI-Startups unterscheidet: Das Team baut eigene Modelle von Grund auf. Keine Anwendung auf Basis von GPT oder anderen vortrainierten Systemen. Mirelo trainiert seine Netzwerke komplett selbst.
CJ erklärt, warum das funktioniert: „Audio hat den Vorteil, dass die Modelle deutlich kleiner sind als Large Language Models." Typische Audio-Modelle haben zwischen 1 und 10 Milliarden Parameter. Große Sprachmodelle dagegen bewegen sich bei einer Billion Parameter oder mehr. Das bedeutet: Mirelo braucht 50- bis 100-mal weniger Rechenleistung.
Diese Effizienz ermöglichte es dem Team, bereits mit der Pre-Seed-Runde von wenigen Millionen Euro erste Modelle zu trainieren. Ein Startup mit 10 Mitarbeitern schlägt damit etablierte Player wie Sony, Tencent und Kling in unabhängigen Blind-Tests.
Wie funktioniert Video-to-Sound?
Der Workflow bei Mirelo ist bewusst einfach gehalten. Du lädst ein Video auf mirelo.ai hoch. Das Modell analysiert die visuellen Inhalte und generiert passende Soundeffekte. Zusätzlich erstellt es einen Musik-Track, der zur Stimmung passt.
Das Video wird in Segmente von 8 bis 10 Sekunden aufgeteilt – passend zu den Videoschnitten. Für jedes Segment generiert das Modell individuelle Sounds. Bist du mit einem Abschnitt nicht zufrieden? Ein Klick erzeugt eine neue Variante. Die Generierung dauert nur 6 bis 8 Sekunden pro Segment und läuft parallel über alle Abschnitte.
Für die Zukunft plant CJ deutlich mehr Interaktivität: „Wir wollen weg davon, dass die Maschine alles nur macht. Wir wollen dahin, dass der Mensch Aspekte selbst adaptieren kann." Ähnlich wie bei Googles Nano Banana im Bildbereich soll man künftig einzelne Sounds gezielt verändern können, statt alles neu zu generieren.
Warum wird Sound getrennt vom Video erzeugt?
Eine naheliegende Frage: Wäre es nicht besser, Audio und Video gleichzeitig zu generieren? Modelle wie Googles Veo 3 versuchen genau das. CJ argumentiert dagegen – mit einem Vergleich aus der Filmbranche.
Jede Kamera hat ein Mikrofon. Trotzdem nimmt man in professionellen Filmproduktionen so wenig Originalton wie möglich auf. Nur die Dialoge werden direkt aufgezeichnet. Alle anderen Geräusche – Schritte, Türen, Atmosphäre – werden im Nachhinein hinzugefügt. Dafür sorgen sogenannte Foley Artists, die Geräusche mit Gegenständen nachahmen.
Der Grund: Nur so behält der Regisseur volle Kontrolle über die Atmosphäre. CJ bestätigt das auch für KI-Videos: „Wir haben Kunden, die mit Veo 3 Videos generiert haben und trotzdem zu uns kommen. Weil sie den Sound gezielt verändern wollen." Bei nativ erzeugtem Audio muss das gesamte Video neu generiert werden, um den Sound zu ändern. Bei Mirelo dauert eine neue Sound-Variante nur Sekunden.
Ein weiterer Aspekt: Hintergrundmusik und Atmosphäre laufen über längere Zeiträume als einzelne Videoclips. Ein Urwald-Ambiente soll 30 Sekunden oder 3 Minuten dauern – nicht nur die 10 Sekunden eines einzelnen Clips. Diese Konsistenz lässt sich nur durch nachträgliche Audio-Generierung sicherstellen.
Der KI-Audio-Markt: Größe und Potenzial
Wer an KI-Audio denkt, unterschätzt oft die Dimension dieses Marktes. CJ ordnet die Zahlen ein: Der Studio-Videomarkt (Hollywood, Filmproduktionen) umfasst rund 100 Milliarden Dollar. Der Gaming-Markt liegt bei etwa 300 Milliarden Dollar. In beiden Bereichen fließen 5 bis 10 Prozent des Budgets in Audio.
Dazu kommt der Werbemarkt, der mindestens genauso groß ist wie beide zusammen. Gerade bei Werbung entscheidet der Sound über die emotionale Wirkung – und damit über den Erfolg einer Kampagne.
Der globale Markt für KI-Audio wird laut Analysten von rund 4 Milliarden Dollar im Jahr 2025 auf über 20 Milliarden Dollar bis 2031 wachsen. Mirelo positioniert sich mit seinem Fokus auf Video-Synchronisation in einer Nische, die bisher kaum bedient wird.
Roadmap: Wohin entwickelt sich Mirelo?
Mirelo verfolgt zwei Vermarktungswege. Erstens das Mirelo Studio als Web-Plattform für Einzelnutzer und kleine Studios. Zweitens die API für Plattformen wie Runway, Luma Labs oder Kling, die Mirelos Modelle in ihre eigenen Tools einbetten.
Auf der Roadmap stehen mehrere Meilensteine. Kurzfristig will das Team die Editing-Fähigkeiten erweitern. Nutzer sollen einzelne Aspekte des generierten Sounds gezielt anpassen können. Langfristig plant Mirelo den Ausbau zur vollständigen Audio Suite für visuelle Medien – inklusive Musik und möglicherweise auch Sprache.
CJ betont dabei einen wichtigen Grundsatz: „Es geht nicht darum, Sounddesigner zu ersetzen. Für Leute, die sich keinen Sounddesigner leisten können, wollen wir es möglich machen, guten Sound zu haben." Professionelle Sounddesigner sollen die Plattform künftig als kreatives Werkzeug nutzen – nicht als Bedrohung wahrnehmen.
Warum bleibt Mirelo in Deutschland?
Beide Gründer lebten bereits in Deutschland. CJ wuchs in Frankreich auf, lebt aber seit über 10 Jahren im deutschsprachigen Raum. Florian ist in Berlin ansässig. Doch es gibt auch strategische Gründe.
Europa ist historisch der Hotspot für Musik- und Audio-Startups. Spotify, SoundCloud, Ableton, Epidemic Sound – fast alle großen Musik-Tech-Firmen der letzten 20 Jahre stammen aus Schweden oder Deutschland. CJ erklärt: „Kunst hat in Europa einen ganz anderen Stellenwert als in den USA. Das macht auch aus der Business-Logik Sinn."
Gleichzeitig räumt er ein: Die 41-Millionen-Dollar-Runde wäre mit rein europäischen Fonds kaum möglich gewesen. Europäische Investoren seien bei frühen Phasen oft zu risikoscheu. „Nur auf einer Supertechnologie kann man in Europa kaum racen. Wer große Outcomes möchte, muss auch große Risiken nehmen." Amerikanische VCs wie A16Z hätten da eine deutlich höhere Risikobereitschaft.
Musik-Background als Wettbewerbsvorteil
CJ sieht seine musikalische Ausbildung als klaren Vorteil. Er hat ein geschultes Gehör, das Feinheiten in generierten Sounds erkennt. Bei der Bewertung von Modellen – einer der schwierigsten Aufgaben in der KI-Forschung – ist genau das entscheidend.
Auch im Team spiegelt sich das wider: „Die Leute, die sich bei uns am meisten mit Evaluierung beschäftigen, sind die aktivsten Musiker." Der Musik-Hintergrund hilft zusätzlich beim Verständnis, wie Sound repräsentiert und in Netzwerk-Architekturen abgebildet wird.
Nicht zuletzt öffnet der Bezug zur Musikwelt Türen. CJ pflegt Kontakte zu ehemaligen Kommilitonen vom Konservatorium, die heute professionelle Musiker sind. Ihr Feedback fließt direkt in die Produktentwicklung ein.
Wer sich für die Schnittstelle zwischen KI und Beruf interessiert, findet im AI Automations Manager ein konkretes Beispiel dafür, wie technisches Wissen und Branchenexpertise gemeinsam den Unterschied machen.
Mirelo vs. die Konkurrenz: Wer spielt mit im KI-Audio-Markt?
Mirelo bewegt sich in einem Feld, das zunehmend umkämpft ist. ElevenLabs dominiert bei Text-to-Speech und hat im August 2025 auch einen Musik-Generator gestartet. Suno und Udio erzeugen komplette Songs aus Text-Prompts. Adobe integriert mit Firefly einen Sound-Generator in seine Creative Cloud. Und Kling AI aus China bietet bereits Video-to-Audio-Fähigkeiten.
Was macht den Unterschied? CJ positioniert Mirelo klar: „Wir sind die einzigen, die sich ausschließlich auf Audio für Videos konzentrieren." Während andere Tools Sounds isoliert erzeugen, synchronisiert Mirelo Effekte präzise mit dem visuellen Geschehen. Das ist technisch deutlich anspruchsvoller.
In unabhängigen Blind-Tests schneidet Mirelos Modell laut eigenen Angaben besser ab als alle Mitbewerber. Auch TechCrunch bestätigte, dass das Tool bei einem Praxistest stimmige, synchronisierte Ergebnisse lieferte. Die Nische „Video-konditionierter Sound" ist noch klein – aber genau dort sieht das Startup seinen strategischen Vorteil.
Gleichzeitig wächst der Druck von den Großen. Googles Veo 3.1 integriert Audio nativ in generierte Videos. Doch CJ sieht das eher als Bestätigung: „Plötzlich merken alle: Oh, vielleicht sollten wir Sound hinzufügen." Genau das habe Mirelo von Anfang an gepredigt.
Mirelo Studio: So testest du die Modelle selbst
Jeder kann Mirelos Modelle bereits heute kostenlos ausprobieren. Der Weg ist denkbar einfach:
Gehe auf mirelo.ai und klicke auf „Go to App". Lade ein eigenes Video hoch oder nutze eines der Testvideos. Das Modell analysiert das Video und erzeugt Soundeffekte plus Musik-Track in wenigen Sekunden. Einzelne Segmente lassen sich per Klick neu generieren.
Das Preismodell reicht von einem kostenlosen Tier bis zu Abo-Plänen ab 5 Euro pro Monat. Der empfohlene Creator-Plan liegt bei rund 20 Euro monatlich. Für Entwickler steht eine Self-Service-API bereit, über die sich API-Schlüssel direkt auf der Plattform erzeugen lassen.
Mensch plus KI: Warum volle Automatisierung nicht das Ziel ist
CJ betont im Gespräch mehrfach: Vollständige Automatisierung ist nicht der richtige Ansatz. Auch bei einem 90-Minuten-Film braucht es menschlichen Input. Welche Atmosphäre soll eine Szene haben? Welcher Laserschwert-Sound soll durchgängig zum Einsatz kommen?
„Wenn man es wirklich nur der KI überlässt, wird es meistens nicht ganz so persönlich", erklärt CJ. Die besten Ergebnisse entstehen, wenn Kreative mit den KI-Tools arbeiten und ihre eigene Vision einbringen. Das gilt für Sound genauso wie für Text, Bild oder Video.
Dieses Prinzip kennen wir aus allen Bereichen der generativen KI. Wer aus der Film- oder Videoproduktion kommt, erstellt mit KI-Video-Tools bessere Ergebnisse als jemand ohne Branchenwissen. CJ will deshalb intuitive Werkzeuge schaffen. Keine komplexen Interfaces, die nur Experten bedienen können. Stattdessen Tools, die jeder versteht – die aber gleichzeitig genügend Kontrolle bieten.
Mirelo sucht Talente: Musik trifft auf Machine Learning
Das Team von Mirelo umfasst aktuell rund 10 Mitarbeiter. Bis Ende 2026 soll sich die Zahl verdoppeln oder verdreifachen. Gesucht werden vor allem Leute an der Schnittstelle von Technologie und Kreativität.
CJ formuliert es direkt: „Wer sowohl technische Kenntnisse hat als auch aus dem Sounddesign- oder Videobereich kommt, ist für uns fast ein Jackpot." Konkret sucht Mirelo Research Scientists, Fullstack-Entwickler und Produkt-Experten. Erfahrung bei Google Brain, Meta FAIR, Disney oder ähnlichen Labs ist ein Plus – aber kein Muss.
Bewerber finden offene Stellen auf mirelo.ai. Das Team arbeitet remote mit Schwerpunkten in Tübingen und Berlin. Auch europaweit sind Positionen verfügbar.
Fazit: Mirelo AI schließt die größte Lücke der generativen KI
KI-generierte Videos ohne Sound sind wie Stummfilme. Mirelo AI schließt genau diese Lücke – mit eigenen Foundation Models, die synchronisierte Soundeffekte in Sekunden erzeugen. Die Kombination aus wissenschaftlicher Exzellenz, musikalischem Background und effizienter Modellarchitektur macht das Berliner Startup zu einem ernsthaften Player im globalen KI-Markt.
Mit 41 Millionen Dollar Funding, Investoren wie Andreessen Horowitz und einer klaren Vision als Audio-Layer für alle visuellen Inhalte steht Mirelo erst am Anfang. Der KI-Audio-Markt wächst rasant – und CJ Simon Gabriel hat die Expertise und das Team, um ihn entscheidend mitzugestalten. Für Content Creator, Filmemacher und Unternehmen heißt das: Sound wird nicht länger ein nachträglicher Gedanke sein. Er wird zur Kernkompetenz jeder Medienproduktion.








.png)






.webp)

.webp)












