Asterisk e i servizi text to speech

Asterisk e i servizi text to speech consentono al centralino la possibilità quasi di parlare potendo sintetizzare al volo del testo scritto in fonemi comprensibili come voce umana.

Asterisk e i servizi text to speech nelle prime implementazioni disponibili anni addietro, quali Festival TTS o similari, erano del tutto insoddisfacenti, anche se, bisogna dirlo, lo sforzo prodotto da Università o privati nel realizzare tali soluzioni ha fatto da apripista verso le soluzioni odierne e va sicuramente apprezzato.

La voce era di tono marcatamente metallico e la comprensibilità, spesso abbinata a linee analogiche, era molto bassa (la conversione analogico/digitale e viceversa porta sempre ad un decadimento della qualità) ed una volta provato sul campo si rimaneva insoddisfatti e frustrati.

Anche le soluzioni commerciali non avevano una qualità tale da poter essere vendute ad occhi chiusi a potenziali clienti ed avendo provato Cepstral TTS (dal modico costo di licenza) posso dire che il livello era appena sufficente per un utilizzo semiprofessionale.

Abbiamo dovuto aspettare tempi recenti per vedere i BIG del mondo IT offrire soluzioni di qualità elevatissima a prezzi stracciati, facendoci rimpiangere tutto il tempo perso dietro a soluzioni dal sapore amatoriale.

Attualmente le soluzioni di Text To Speech più importanti fanno capo a Google, IBM e Amazon.

Al giorno d’oggi Google, per quanto riguarda le API di Text to Speech e Speech to Text, possiede una marcia in più come qualità globale (ed è l’unico ad offrire uno Speech to Text in Italiano), ma la sua tendenza a variare le API che fungono da MIDDLEWARE (e quindi rendendo non funzionanti i progetti realizzati) lo rendono un partner non proprio affidabilissimo.

IBM tra i tre è quello con la qualità complessiva inferiore anche se sembra essere più vicino agli sviluppatori, ma Amazon Polly attualmente sembra essere la scelta ideale.

GIGAOM ha rilasciato uno script preconfezionato per il suo utilizzo mostrando come l’SDK di Amazon abbia reso il suo utilizzo di una semplicità disarmante, ed infatti l’invio del testo ed il download dell’audio risultante avviene mediante uno script PHP che può essere integrato facilmente all’interno di un IVR di Asterisk.

L’integrazione con un Database può essere il primo passo verso una forma di interattività tra centralino Asterisk ed Utente, potendo fornire attraverso un IVR ben configurato, delle risposte personalizzabili al volo.

Asterisk e i servizi text to speech consentono al centralino la possibilità quasi di parlare potendo sintetizzare al volo del testo scritto in fonemi comprensibili come voce umana.

Condividi su

PC Backup