Google: “la nostra sintesi vocale è quasi indistinguibile dalla voce umana”

Google

Google sostiene che l’ultima versione del suo sistema di sintesi vocale basato sull’intelligenza artificiale, con nome in codice Tacotron 2, è praticamente quasi indistinguibile dal linguaggio umano, presentando alcuno esempi comparativi per dimostrare ciò che afferma.

La nuova sintesi vocale Tacotron 2 di Google, è in grado adattare la tonalità in base alle punteggiature in maniera eccezionale

Tacotron 2 legge direttamente i testi scritti, e secondo quanto afferma Google, è in grado di utilizzare il contesto di quanto scritto per pronunciare correttamente parole che hanno la fonetica simile ma a seconda di quanto scritto, hanno un significato o un tempo diverso. L’intelligenza artificiale è anche in grado di riconoscere la punteggiatura e sottolineare le parole.

Google

L’autore Dave Gershgorn su un suo articolo della testata Quartz, ci spiega nel dettaglio come funziona, dicendo che:

“Il sistema è ufficialmente la seconda generazione della tecnologia di sintesi vocale realizzata da Google, composta da due reti neurali profonde. La prima rete traduce il testo in uno spettrogramma in formato pdf, il che è una tecnica grafica per rappresentare le frequenze audio nel tempo. Lo spettrogramma viene quindi inserito su WaweNet, un sistema realizzato dal laboratorio di ricerca IA DeepMind di Alphabet, che legge quindi il grafico e genera di conseguenza gli elementi audio corrispondenti.”

Google non ha ancora rivelato però quale dei due suoi campioni comparativi sia l’originale, e quale è stato invece generato dalla sua nuova Tacotron 2, ma Gershgorn è stato in grado di scoprirle visualizzando la sorgente della pagina e rivelando che le versioni artificiali sono rispettivamente i campioni audio soprannominati “2a”, “1a”, “1a” e “2a”.

Come potete ascoltare dagli esempi, che vi abbiamo linkato in pagina, la nuova pronuncia basata sul contesto di Google si rivela piuttosto impressionante, interpretando correttamente la punteggiatura presente nel testo e regolando di conseguenza l’intonazione in modo appropriato.

Arriveremo al punto da confondere gli assistenti vocali con voci umane? Dite la vostra nei commenti!