KI-Telefonassistent fonio: Wie Daniel Keinrath das letzte Voice-AI-Problem löst
fonio ist ein KI-Telefonassistent aus Wien, der Anrufe für kleine und mittlere Unternehmen automatisiert annimmt. Im Interview mit Leonard Schmedding erklärt CEO Daniel Keinrath die Hintergründe. Sein Team löste das letzte große Problem der Branche. Die sogenannte Turn Detection sorgt dafür, dass die KI nicht mehr ins Wort fällt.
fonio bedient heute knapp 10.000 Kunden. Das Unternehmen meldet 6,5 Millionen Euro wiederkehrenden Jahresumsatz. Wir zeigen, welche Technik hinter diesem Tempo steckt.
Drei Probleme bremsten jeden Voice Agent
Keinrath nennt drei Hürden, die jeden Anbieter von Sprach-KI begleitet haben. Das erste Problem war die Stimme. Sie klingt heute natürlich, aber noch nicht perfekt. Ein geübtes Ohr hört die KI weiterhin heraus.
Das zweite Problem heißt Latenz. Sie misst, wie schnell die KI antwortet. Seit rund vier Monaten hält fonio die Latenz konstant unter 800 Millisekunden. Das gilt als magische Schwelle für ein menschliches Gesprächsgefühl. Die Antwort kommt heute sogar fast zu schnell.
Genau daraus entstand das dritte Problem. Die Turn Detection entscheidet, ob ein Anrufer fertig gesprochen hat. Fällt die KI zu früh ins Wort, bricht das Gespräch. fonio hat dieses Problem vor drei Wochen gelöst.
Turn Detection: Das eigene Modell hinter fonios Vorsprung
fonio baute ein eigenes Modell für die Turn Detection. Es läuft permanent im Hintergrund. Das Modell berechnet, ob ein Sprecher endet oder nur nachdenkt. Ein typischer Fall ist das Buchstabieren einer E-Mail-Adresse.
Der Effekt zeigt sich in einer harten Kennzahl. Früher lag die Turn Detection hinter der Hälfte aller Kündigungen. Heute verursacht sie unter ein Prozent der Abwanderung. Keinrath sieht fonio damit als einen der ersten Anbieter weltweit, der diese Hürde nimmt.
Den genauen Aufbau hält das Team bewusst zurück. Es handelt sich nicht um ein simples Fine-Tuning. fonio rechnet, dass Wettbewerber dieses Problem in etwa sechs Monaten ebenfalls lösen. Bis dahin bringt der Vorsprung spürbares Wachstum.
Solche technischen Details entscheiden über die Qualität im Alltag. Wer einen KI-Telefonassistenten plant, sollte die Latenz und die Turn Detection genau prüfen. Unser Team begleitet Unternehmen bei genau dieser Auswahl, etwa mit dem Überblick zum KI-Telefonassistenten für Unternehmen. Auch der Voice-Agent-Report liefert dazu konkrete Kriterien.
17 Millionen Seedrunde und der Kurs auf 30 Millionen ARR
fonio sammelte eine Seedrunde über 17 Millionen Euro ein. Die Bewertung liegt bei 140 Millionen Euro. Angeführt hat die Runde der Londoner Investor 20VC von Harry Stebbings. Das Geld fließt vor allem ins Produkt und in die Internationalisierung.
Die Zahlen wachsen schnell. fonio meldet aktuell 6,5 Millionen Euro ARR. Pro Monat kommen rund 2 Millionen Euro hinzu. Im Sommer soll die Marke von 10 Millionen fallen. Bis Jahresende peilt das Team etwa 30 Millionen Euro an.
Das Team wuchs von zwei auf 50 Mitarbeiter in zwölf Monaten. Bis Jahresende sollen es 100 bis 120 Personen sein. Das Hauptquartier bleibt bewusst in Wien. Neue Standorte entstehen in Barcelona, Paris, Warschau und London. Ein Büro in New York ist wahrscheinlich.
Selbstlernende Wissensdatenbank und RAG in 0,2 Sekunden
Keinrath sieht das größte Hindernis nicht in der Leistung der Agenten. Das größere Problem ist ihr Wissen. Fehlen Informationen, halluziniert die KI und liefert falsche Antworten. fonio setzt darum auf eine selbstlernende Wissensdatenbank.
Das System arbeitet in zwei Stufen. Nach jedem Gespräch erstellt fonio Aufgaben für unsichere Antworten. Der Kunde ergänzt fehlende Informationen per Vorschlag. fonio scrapt dafür die Firmen-Website und schlägt passende Antworten direkt vor.
Die zweite Stufe geht weiter. Auf Wunsch klinkt sich fonio in die Telefonanlage ein. Das System hört bei Gesprächen mit und lernt die Sprache im Unternehmen. fonio hostet diese Daten in Deutschland und arbeitet DSGVO-konform.
Auch die Geschwindigkeit überzeugt. fonio zerlegt jedes PDF in viele kleine Schnipsel. Zu jedem Schnipsel entsteht eine Mini-Zusammenfassung. So findet das System die richtige Stelle sehr schnell. Eine RAG-Anfrage dauert nur 0,2 Sekunden, selbst bei 300 Seiten.
Vom Prompt zum Baukasten: Multichannel, CRM und Integrationen
Vor einem Jahr setzte fonio noch voll auf Prompts. Diesen Weg hat das Team verlassen. Viele Unternehmen fühlten sich von Prompts überfordert. Heute bauen Kunden ihren KI-Telefonassistenten aus fertigen Blöcken zusammen.
Die Plattform wächst über das Telefon hinaus. fonio hat WhatsApp als neuen Kanal gestartet. E-Mail und Chatbots folgen im selben System. Darüber legt das Team ein eigenes CRM.
Das CRM zieht Kontaktdaten direkt aus dem Gespräch. fonio erkennt Vorname, Nachname und Adresse automatisch. Beim zweiten Anruf begrüßt die KI den Anrufer mit Namen. Eigene Felder lassen sich frei definieren.
Für komplexe Abläufe nutzt fonio Webhooks und API-Anfragen. Die KI fragt während des Calls externe Systeme ab. Ein Beispiel ist der Bestellstatus aus Shopify. Vor dem Call gleicht das System die Nummer mit HubSpot oder Salesforce ab. Bei komplexen Workflows lohnt sich die Zusammenarbeit mit einem Implementierungspartner wie uns.
Native Integrationen kamen zuletzt dazu. Dazu zählen Airtable, Google Sheets, Make, n8n und Slack. fonio baute dafür ein eigenes Framework wie einen internen App Store. Damit liefert das Team rund drei neue Integrationen pro Woche.
Wohin sich der Voice-AI-Markt entwickelt
Den letzten großen Sprung bei der Stimme datiert Keinrath auf Ende 2024. Seitdem kamen vor allem kleine Updates. Die großen Labs richten ihre Rechenleistung auf Coding-Agenten aus. Sprachmodelle stehen dort seltener im Fokus.
Trotzdem erwartet Keinrath noch dieses Jahr einen weiteren Durchbruch. Viele finanzstarke Firmen arbeiten weiter an der Stimme. Anbieter wie ElevenLabs klingen im Web schon sehr emotional. Im echten Telefonat scheitern viele Stimmen jedoch an Latenz und Fehlern.
Ein größeres Thema sieht Keinrath in der Agent-zu-Agent-Kommunikation. Zwei KI-Systeme müssten dann nicht mehr in natürlicher Sprache reden. Sie tauschen einfach Befehle und Daten aus. Bei diesem Schritt verändert sich der gesamte Markt erneut.
Fazit: Der KI-Telefonassistent wird marktreif
fonio zeigt, wie schnell sich der Markt für Sprach-KI professionalisiert. Mit der gelösten Turn Detection erreicht der KI-Telefonassistent ein neues Niveau. Latenz, Wissen und Integrationen entscheiden jetzt über den Erfolg. Unternehmen sollten Anbieter genau nach diesen Kriterien prüfen.
Häufige Fragen
Was ist ein KI-Telefonassistent?
Ein KI-Telefonassistent nimmt eingehende Anrufe automatisch an und beantwortet Fragen in natürlicher Sprache. fonio richtet diesen Dienst in wenigen Minuten ein. Das System scrapt die Firmen-Website und baut daraus ein Grundwissen. Per Rufweiterleitung übernimmt die KI dann die Anrufe. Für Unternehmen senkt das die Last im Support und sichert die Erreichbarkeit rund um die Uhr.
Was bedeutet Turn Detection bei Voice Agents?
Turn Detection erkennt, wann ein Anrufer mit dem Sprechen fertig ist. Ohne diese Technik fällt die KI dem Anrufer ins Wort. Das passiert oft beim Buchstabieren von Nummern oder E-Mail-Adressen. fonio nutzt ein eigenes Modell, das permanent die Wahrscheinlichkeit für ein Satzende berechnet. Dadurch sank dieser Kündigungsgrund von rund 50 Prozent auf unter ein Prozent.
Was kostet der KI-Telefonassistent von fonio?
fonio gehört zu den günstigsten Anbietern am Markt. Eine Minute kostet inklusive Telefonie und Sprachmodell rund 10 Cent. Die Pakete starten bei 100 Euro pro Monat. Das größere Paket liegt bei 300 Euro pro Monat. Wer den Dienst selbst nachbauen will, zahlt laut Keinrath schnell mehr und erhält trotzdem kein fertiges Setup.
Ist fonio DSGVO-konform?
Ja. fonio hostet die Daten in Deutschland und arbeitet DSGVO-konform. Die selbstlernende Wissensdatenbank greift nur mit Zustimmung auf die Telefonanlage zu. Auch das Mithören bei Gesprächen aktiviert der Kunde aktiv. So behalten Unternehmen die Kontrolle über sensible Daten. Das ist für viele Branchen mit strengen Vorgaben ein wichtiges Kriterium.
Wie funktioniert die selbstlernende Wissensdatenbank?
Die Wissensdatenbank lernt aus jedem Gespräch. Ist die KI bei einer Antwort unsicher, erstellt fonio eine Aufgabe für den Kunden. Der Kunde bestätigt oder bearbeitet den passenden Vorschlag. In der zweiten Stufe hört fonio auf Wunsch bei echten Gesprächen mit. So versteht das System die Sprache im Unternehmen und verbessert die Antworten laufend.
























