← Blogg · 2026-06-12 · 2 min läsning
Varför vi inte gör realtids-audio-transkription
Gong och Salesloft har det. Vi har det inte. Här är den tekniska och produktmässiga anledningen — och varför text-input är snabbare i praktiken.
Gong-säljare frågar mig: “har ni realtids-transkription under samtal?”
Svar: nej. Inte ännu. Förmodligen inte heller om ett år.
Det är inte tekniskt omöjligt. Det är medvetet bortvalt. Här är varför.
Vad realtids-audio kostar tekniskt
För att transkribera och AI-analysera ett samtal i realtid behöver du fyra saker:
- WebRTC eller liknande för att fånga audio från ena säljaren och båda parters mikrofoner
- Streaming-transkription med under 300ms latency (Deepgram, Speechmatics, OpenAI Realtime)
- Diarisering som funkar — vem sa vad
- AI-analys ovanpå strömmen, helst under 500ms TTFT
Latensbudget från säljaren talar till AI svarar: under 800ms för att kännas användbart. Över 1500ms och säljaren har redan svarat själv.
Det är gjorbart. Men kostnaden är 1-2 veckor utveckling per komponent, plus löpande driftkostnad på 0,40-0,80 USD per sammtalstimme bara för transkriptionen.
Vad text-input ger istället
Vår AI-coach är en chatsidopanel som öppnar på en deal. Säljaren skriver kort vad kunden säger:
“fråga om budget” “nämnde Gong” “tvekade på pris”
AI svarar strömmande med nästa fråga, invändnings-svar, konkurrent-flagg. Latens: under 400ms TTFT. Kostnad: 0,02-0,05 USD per samtal.
Snabbare än audio. Det låter konstigt men det är sant. Audio måste:
- spelas in
- skickas till STT
- diariseras
- skickas vidare till LLM
- få svar tillbaka
- visas
Total kedja: 1500-2500ms i bästa fall. Plus 30-40% felmarginal på svenska accenter, brus, kross-talk.
Text in är 200ms från knapptryck till AI börjar skriva. Inga rare-case-buggar. Inga “AI:n missförstod ‘Stockholm’ som ‘shop home’”.
Vad beta-säljare faktiskt gör
Jag har 4 beta-säljare som testat AI-coachen. De skriver 5-15 korta noter per samtal. Det är inte mer ansträngande än att klottra på papper bredvid mobilen.
Det de vinner: AI har full kontext på dealen, tidigare möten, konkurrent-flaggor. Den föreslår nästa fråga som ÄR meningsfull i kontext, inte bara “ställ mer öppna frågor” som en generell sälj-AI hade gjort.
När bygger vi realtids-audio?
När en av tre saker händer:
- Realtid-STT blir gratis (Whisper-distill open source modeller är nära men inte där)
- Vi får en beta-kund med 20+ säljare som specifikt ber om det och betalar
- Apple eller Google släpper en device-level audio-API som löser diariseringen åt oss
Tills dess: ärligt skyltad text-input AI-coach som faktiskt funkar. Inte fake-marketade “realtids AI” som inte gör vad det utlovar.
Det ärliga svaret
Säljare köper Gong för många anledningar. Realtids-transkription är en av dem. Vi tar ungefär 60% av Gongs värde för 50% av priset. Vi tar inte 100% av deras värde för 50% — vi tog medvetet bort en sak.
Om det är ett dealbreaker för dig: ta Gong. Vi är inte rätt verktyg.
Om det inte är ett dealbreaker: vi är en mycket bättre value-for-money än Gong för 1-15-personers säljteam.
Magnus · Closify Group AB
Vill du testa det?
20 minuter. Levande demo av plattformen. Inget kreditkort. Inga slides.
Boka 20-min-demo