Centralino Telefonico AI – Intelligenza Artificiale – Economico per PMI e Call Center

Negli ultimi 15 anni ho realizzato soluzioni di comunicazione sempre più evolute. Negli ultimi 2 anni il trend sempre crescente è quello di sostituire l’operato umano di basso livello, con soluzioni altamente automatizzate. Le Realtime API di OpenAI hanno mostrato la qualità che si può ottenere in una conversazione con un chatbot, ma al tempo stesso han fatto capire che i costi di utilizzo, per soluzioni così “monolitiche”, sono ancora troppo elevate. I costi per una PMI od un call center sono nell’ordine di 0,34/0,40 centesimi di euro al minuto per canale, arrivando ad ottenere costi anche di qualche euro per singola conversazione.

Oggi vi mostro come integro Asterisk PBX , in locale (su hardware performante ) , con intelligenza artificiale, in modo personalizzato e sostenibile dal punto di vista dei costi, per piccole imprese e anche per call center di dimensioni ridotte.

Centralino Telefonico AI - Intelligenza Artificiale - Economico per PMI e Call Center

Architettura  del Centralino Telefonico dotato di  Intelligenza Artificiale

  1. Asterisk PBX
    Il cuore del centralino: gestisce le chiamate  creando due canali simultanei, in uno avviene la sintesi vocale del testo ricevuto dall’ Intelligenza Artificiale e nell’altro si registra in continuo il parlato dell’ Utente, che diventa di volta in volta, il nuovo input per l’AI. La riproduzione dell’audio  può essere interrotta (barge-in) senza perdere nulla .

  2. Flowise
    Strumento open-source per costruire chatflows nel quale utilizzeremo (ma con possibilità di swap tra le molteplici tecnologie diponibili)

    • Document store  integrato e ChromaDB per il vector retrieval

    • Buffer di memoria persistente da usare durante comunicazioni successive  (l’identificativo chiamate è un’ottimo id per salvare le conversazioni pregresse)

    • Chiamata LLM (Groq o alternativa locale come Ollama) per generare la risposta

  3. Google ASR
    Trascrive in tempo reale la voce dell’utente → testo.

  4. Microsoft Speech API
    Converte in voce naturale la risposta testuale generata ed attraverso la funzionalità streaming inizia a riprodurre appena riceve i primi chunk di testo.

  5. ChromaDB
    Archiviazione vettoriale delle knowledge base custom.

  6. Groq LLM / Ollama
    Genera risposte intelligenti; su hardware locale elimina il costo per token.


Costi delle API (lingua italiana)

 

Tecnologia Costo al minuto Costo all’ora Free tier
Google ASR (std) $0,024 /min (≈ €0,022) $1,44 /ora (≈ €1,32) 60 min gratis/mese
Google ASR (logging on) $0,016 /min (≈ €0,015) $0,96 /ora (≈ €0,88) incluso nel free tier sopra
MS Speech TTS (neurale) $16 /M char → ≈$0,016 /min (≈ €0,015) $0,96 /ora (≈ €0,88) 500 k char gratis/mese
MS Speech TTS (standard) $4 /M char → ≈$0,004 /min (≈ €0,0036) $0,22 /ora (≈ €0,20) 5 M char gratis/mese
Groq LLM (cloud) ~$0,000001/token Trascurabile (≪ €0,01) Trial API key gratuita in anteprima
LLM locale (Ollama) €0 (solo HW/energia) €0

Conversione euro basata su cambio ≈ 1 $ = 0,92 €.


Esempi pratici

  • Chiamata da 5 minuti

    • ASR: 5×€0,022 ≈ €0,11

    • TTS (neurale): 5×€0,015 ≈ €0,075

    • LLM cloud: ≈ €0,001
      Totale: ~€0,19 per chiamata

  • 1 ora continua

    • ASR: 60×€0,022 ≈ €1,32

    • TTS: 60×€0,015 ≈ €0,90

    • LLM: ≈ €0,01
      Totale: ~€2,23/ora

Con un LLM locale (Ollama , a patto di avere abbastanza potenza di calcolo) azzerate anche l’ultimo centesimo: €2,22/ora solo per ASR+TTS.


Vantaggi per PMI e call center

  • Personalizzazione totale: knowledge base cucita su misura, NLU/LLM addestrabili sui vostri dati, reportistica realizzata su richiesta.

  • Scalabilità economica: paghi soltanto ciò che consumi, pochi centesimi a chiamata.

  • Privacy e controllo: possibilità di “shiftare” l’LLM in locale, senza trasferire dati su cloud.(richiesta potenza di calcolo)

Se stai cercando un centralino AI potente e conveniente, questa architettura è la soluzione ideale per offrire un servizio avanzato senza sforare il budget.

Il prezzo vero che si paga è quel minimo di latenza (percettibile ma non tale da infastidire) che viene data da un sistema non speech to speech, chi cerca soluzioni del genere, ad ora, deve rivolgersi a soluzioni dal costo di utilizzo decisamente superiore.

Come soluzione per alleviare questa minima latenza, abbiamo realizzato un sistema che, in maniera del tutto trasparente, aggiunge al flusso audio inviato al chiamante, un lieve rumore di sottofondo che simula il brusio classico dell’ufficio in orario di lavoro. Questo piccolo accorgimento rende la brevissima attesa della risposta completamente naturale e rilassante.