← Blogg · 2026-06-12 · 2 min läsning

Varför vi inte gör realtids-audio-transkription

Gong och Salesloft har det. Vi har det inte. Här är den tekniska och produktmässiga anledningen — och varför text-input är snabbare i praktiken.

Gong-säljare frågar mig: “har ni realtids-transkription under samtal?”

Svar: nej. Inte ännu. Förmodligen inte heller om ett år.

Det är inte tekniskt omöjligt. Det är medvetet bortvalt. Här är varför.

Vad realtids-audio kostar tekniskt

För att transkribera och AI-analysera ett samtal i realtid behöver du fyra saker:

  1. WebRTC eller liknande för att fånga audio från ena säljaren och båda parters mikrofoner
  2. Streaming-transkription med under 300ms latency (Deepgram, Speechmatics, OpenAI Realtime)
  3. Diarisering som funkar — vem sa vad
  4. AI-analys ovanpå strömmen, helst under 500ms TTFT

Latensbudget från säljaren talar till AI svarar: under 800ms för att kännas användbart. Över 1500ms och säljaren har redan svarat själv.

Det är gjorbart. Men kostnaden är 1-2 veckor utveckling per komponent, plus löpande driftkostnad på 0,40-0,80 USD per sammtalstimme bara för transkriptionen.

Vad text-input ger istället

Vår AI-coach är en chatsidopanel som öppnar på en deal. Säljaren skriver kort vad kunden säger:

“fråga om budget” “nämnde Gong” “tvekade på pris”

AI svarar strömmande med nästa fråga, invändnings-svar, konkurrent-flagg. Latens: under 400ms TTFT. Kostnad: 0,02-0,05 USD per samtal.

Snabbare än audio. Det låter konstigt men det är sant. Audio måste:

  • spelas in
  • skickas till STT
  • diariseras
  • skickas vidare till LLM
  • få svar tillbaka
  • visas

Total kedja: 1500-2500ms i bästa fall. Plus 30-40% felmarginal på svenska accenter, brus, kross-talk.

Text in är 200ms från knapptryck till AI börjar skriva. Inga rare-case-buggar. Inga “AI:n missförstod ‘Stockholm’ som ‘shop home’”.

Vad beta-säljare faktiskt gör

Jag har 4 beta-säljare som testat AI-coachen. De skriver 5-15 korta noter per samtal. Det är inte mer ansträngande än att klottra på papper bredvid mobilen.

Det de vinner: AI har full kontext på dealen, tidigare möten, konkurrent-flaggor. Den föreslår nästa fråga som ÄR meningsfull i kontext, inte bara “ställ mer öppna frågor” som en generell sälj-AI hade gjort.

När bygger vi realtids-audio?

När en av tre saker händer:

  1. Realtid-STT blir gratis (Whisper-distill open source modeller är nära men inte där)
  2. Vi får en beta-kund med 20+ säljare som specifikt ber om det och betalar
  3. Apple eller Google släpper en device-level audio-API som löser diariseringen åt oss

Tills dess: ärligt skyltad text-input AI-coach som faktiskt funkar. Inte fake-marketade “realtids AI” som inte gör vad det utlovar.

Det ärliga svaret

Säljare köper Gong för många anledningar. Realtids-transkription är en av dem. Vi tar ungefär 60% av Gongs värde för 50% av priset. Vi tar inte 100% av deras värde för 50% — vi tog medvetet bort en sak.

Om det är ett dealbreaker för dig: ta Gong. Vi är inte rätt verktyg.

Om det inte är ett dealbreaker: vi är en mycket bättre value-for-money än Gong för 1-15-personers säljteam.

Magnus · Closify Group AB

Vill du testa det?

20 minuter. Levande demo av plattformen. Inget kreditkort. Inga slides.

Boka 20-min-demo
Boka 20-min-demo