Il chatbot vocale Sesame parla come una persona vera, ed è inquietante

Il Conversational Speech Model (CSM) sviluppato dalla startup IA Sesame sta suscitando reazioni contrastanti, con molti utenti che lo trovano straordinariamente realistico e altri che lo percepiscono come inquietante.
Questo chatbot vocale utilizza due voci principali, Miles e Maya, per interagire con gli utenti. La capacità del sistema di riprodurre sfumature vocali, pause naturali, risate e persino piccoli errori di pronuncia contribuisce alla sensazione di autenticità. Questo approccio, secondo Sesame, mira a creare una vera “presenza vocale”, rendendo le interazioni più coinvolgenti e naturali rispetto ai tradizionali assistenti vocali.
Secondo Brendan Iribe, cofondatore della startup, l’obiettivo è costruire assistenti che non si limitino a eseguire comandi, ma che siano capaci di instaurare un dialogo autentico con gli utenti, favorendo fiducia e comprensione reciproca.
Tuttavia, l’estremo realismo del modello ha portato alcuni tester a provare un coinvolgimento emotivo. In un caso riportato su Reddit, un utente ha raccontato di aver parlato con CSM per 30 minuti e di aver provato una sensazione di “una vera conversazione con qualcosa di reale”. Un altro utente ha descritto come la figlia di quattro anni si sia affezionata alla voce di Maya, scoppiando in lacrime quando non le è stato permesso di continuare a parlarle.
Dal punto di vista tecnico, il modello di Sesame si distingue per un approccio innovativo rispetto ai tradizionali sistemi di sintesi vocale. Invece di generare separatamente semantica e dettagli acustici, CSM utilizza un’unica architettura multimodale basata su trasformatori in grado di elaborare simultaneamente testo e audio. Il modello più avanzato è composto da 8,3 miliardi di parametri e si basa su Llama di Meta.
Test ciechi hanno mostrato che, in assenza di contesto, molti utenti non riescono a distinguere tra una voce generata da CSM e una registrazione reale. Tuttavia, quando inserito in una conversazione più complessa, il modello mostra ancora limiti nella fluidità e nella gestione del ritmo.
Iribe stesso ha ammesso che il sistema è ancora “troppo entusiasta e a volte inappropriato nel tono, nella prosodia e nel tempismo”, ma ritiene che i margini di miglioramento siano significativi.
Nonostante il fascino suscitato dalla tecnologia, non mancano le preoccupazioni legate a possibili usi impropri. Uno dei rischi più evidenti riguarda le frodi telefoniche, visto che la capacità di generare voci iperrealistiche potrebbe rendere i truffatori ancora più difficili da individuare.
Inoltre, mentre il modello attuale di Sesame non supporta la clonazione vocale, versioni open source di tecnologie simili potrebbero rendere possibile la creazione di imitazioni perfette delle voci di chiunque, aumentando il rischio di frodi e manipolazioni. Non a caso, OpenAI ha scelto di limitare l’accesso alla propria tecnologia vocale per timore di abusi.
Sesame ha annunciato che renderà disponibili alcune parti del suo modello sotto licenza Apache 2.0, permettendo ad altri sviluppatori di costruire su questa tecnologia. Tra gli obiettivi futuri della startup ci sono l’espansione del modello a oltre 20 lingue, l’aumento della scala del modello e del volume di dati di addestramento e lo sviluppo di modelli “fully duplex”, in grado di gestire meglio la dinamica naturale di una conversazione.