Le nuove voci di Gemini stanno per arrivare: “Ruby” e “River” pronte a sfidare ChatGPT

Android Authority ha svelato l'arrivo delle nuove voci di Gemini: "Ruby" e "River". Questo scoop ha stupito tutti anticipando l'annuncio di Google. Come reagiranno gli utenti? E, soprattutto, quale sarà la contromossa di OpenAI?

Queste funzionalità vocali promettono un’interazione più naturale e umana, cercando di colmare le lacune criticate dagli utenti

L’avvincente battaglia tra Google e OpenAI per la supremazia nel mercato delle IA continua e si arricchisce di un nuovo capitolo.

I protagonisti di questa guerra all’ultimo bit, non sono robot con sembianze umane, ma assistenti vocali che si contendono le preferenze degli utenti.

Gemini, il modello linguistico multimodale, sviluppato da Google DeepMind, infatti sta per lanciare un nuovo assalto a ChatGPT con Ruby e River, le nuove voci per il suo assistente vocale.

Questo è quanto emerso da un colpo giornalistico d’altri tempi che ha rovinato i piani di Google, ma vediamo nel dettaglio come è nato questo scoop imprevedibile (e imprevisto)…

Ruby e River le nuove voci di Gemini: la storia di uno scoop

Hai mai sentito parlare di Serendipity?

È un concetto che definisce una scoperta rivoluzionaria avvenuta per caso.

La scoperta dell’America di Cristoforo Colombo? Serendipity!

La casualità dell’evento però non toglie nulla alla portata epica dell’impresa (d’altronde non c’era il GPS ai tempi di Colombo).

Ecco, anche la storia che ti voglio raccontare oggi è andata così, ma ciò non toglie nulla all’importanza dello scoop!

Ma veniamo ai fatti:

Il 17 Giugno 2024 Android Authority ha pubblicato un articolo in cui ha rivelato al mondo le due nuove funzionalità voce di Gemini, anticipando tutti sul tempo, perfino Google stessa, che ancora non aveva annunciato niente (e ancora oggi, il 19 Giugno 2024 non ha emesso un fiato)!

Insomma, un colpo giornalistico, cosa rara al tempo dell’informazione globalizzata.

Immagino lo stupore dell’autore del pezzo, Rushil Agrawal, quando si è imbattuto nella notizia.

Se ne stava bello tranquillo, esplorando le varie impostazioni di Gemini, perso nei meandri più tecnici, nel labirinto di codici, incomprensibile ai più, ma un parco giochi per un nerd come lui!

Bene, all’improvviso, proprio mentre gli stava calando la palpebra, dopo una lunga giornata di lavoro, si è imbattuto in una nuova sezione chiamata Voice, che permette di selezionare due opzioni inedite:

Ruby per la lingua inglese e River per il tedesco!

E a quel punto come scrive lui stesso è comparsa la scritta: “Seleziona quale voce dovrebbe essere preferita per le risposte vocali della Ricerca”.

Ovviamente scovata una news del genere l’abile (e fortunato) reporter si è fiondato dal capo redattore e tutto trafelato gli ha comunicato la scoperta, così il superiore, un po’ incredulo, non ci ha pensato un attimo a dirgli: “scrivi subito il pezzo!”

Ed è così che la notizia di un autorevole ma piccolo sito di tecnologia, sicuramente non un colosso dell’informazione, ha fatto il giro del globo ed è arrivata fino a noi, spoilerando di fatto l’annuncio di Google.

Ma ora il dubbio che mi viene è:

le due voci, Ruby e River, sono già pronte, e quando saranno utilizzabili?

Perché Google ha tardato così tanto ad annunciarle?

La prudenza di Big G è comprensibile vista la severità degli utenti, sempre più esigenti e critici, però nei prossimi giorni sicuramente ne sapremo di più…

Intanto cara Gemini, la sorpresa è rovinata! Infatti, ancora prima che Big G potesse urlare “SORPR…”, tutti sapevamo già tutto!

Ruby e River: conosciamo meglio le voci di Gemini

Ruby e River non sono i nomi di due personaggi dei cartoni Looney Tunes, anche se lo sembrerebbero.

Queste nuove voci rappresentano la prossima frontiera della tecnologia vocale di Google, pensate per portare l’interazione con gli assistenti vocali a un livello di umanità e naturalezza senza precedenti.

Insomma, nomi simpatici e adorabili, dietro alle “armi” tattiche con cui Big G intende sferrare l’ennesimo attacco al rivale OpenAI.

Ma conosciamole meglio:

Ruby è la voce inglese, descritta come calda e rassicurante, perfetta per quei momenti in cui hai bisogno di un tono amichevole e comprensivo.

River, quella tedesca, d’altra parte, ha un timbro più profondo e autorevole, ideale per chi cerca un’interazione più formale e professionale.

Descrizione delle funzionalità vocali di Ruby e River di Gemini, fonte androidauthority 17 Giugno 2024
Tratto da Android Authority, 17 Giugno 2024

Entrambe le voci sono state progettate utilizzando tecniche avanzate di sintesi vocale e machine learning, con l’obiettivo di rendere le conversazioni con Gemini il più fluide e piacevoli possibile.

Chissà quando potremmo finalmente sentirle direttamente, per ora ci tocca accontentarci delle descrizioni che trapelano dagli addetti ai lavori.

Intanto l’attesa cresce e mi sembra di aspettare la prima parola di Maggie Simpson, anche se temo, che una volta che Ruby e River toglieranno il ciuccio, non ci diranno “mamma” o “papà”, ma:

“per la modalità premium vocale, inserisci il numero della tua carta di credito…”

Al di là delle battute, Big G con questa nuova mossa, brutalmente spoilerata da Android Authority , e diffusa a macchia d’olio in tutto il web, riuscirà a far ricredere gli utenti più scettici, già scottati dalle voci di Google Assistant?

Big G ha un problema con le funzioni vocali? Il parere di utenti ed esperti

Come ti ho scritto in un mio precedente articolo, dal 5 Giugno 2024 è disponibile anche da noi in Italia l’app di Gemini.

E, come sai, molte funzionalità vocali di Google Assistant sono utilizzabili anche per Gemini, tra cui settare un timer, effettuare chiamate e impostare un promemoria.

Peccato che le voci di Assistant non godano di ottima fama tra utenti sempre più esigenti.

Per farmi un’idea e testare il polso del pubblico, mi sono fatto un giro su Reddit, che se si evitano gli eserciti di bot, può essere un luogo interessante.

Bene, ho visto che finora le voci disponibili su Gemini vengono definite “una delusione completa”, e si leggono cose del tipo “sembra un vecchio che cerca di sembrare giovane”, ” la voce maschile che sento è stridente e poco piacevole”, fino alla definitiva e poco tenera: “con Chat GPT non c’è proprio partita”.

Ecco, ti assicuro che i commenti sono tutti di questo tenore, non sono bot, me ne sono accertato, anche perché Reddit avendo sottoscritto accordi sia con OpenAI che con Google (come ti ho raccontato nel mio articolo) dovrebbe essere imparziale…

Ma quali sono altri pareri più circostanziati e autorevoli (non ce ne vorranno gli esimi commentatori di Reddit come “Crazy Frog 84” e “Sex Machine 77”), al di là delle impressioni così di pancia?

Tech Radar in un suo articolo molto ben argomentato ha messo in luce vari aspetti negativi delle funzionalità vocali di Gemini, come per esempio l’eccessiva dipendenza dallo sblocco del telefono per eseguire i comandi vocali. Questo problema rende l’assistente meno pratico e veloce rispetto alla concorrenza, che ha già ottimizzato queste interazioni per un uso più immediato.

Inoltre nel pezzo viene evidenziato come spesso il telefono rischi di spegnersi prima che il comando venga eseguito (problema non da poco!)

Una funzionalità vocale avanzata dovrebbe migliorare l’efficienza, non ostacolarla, e questa è una lacuna che Google deve colmare rapidamente se vuole competere sul serio.

The Verge invece scrive come Gemini fatichi a cogliere le sfumature della lingua e questo può essere frustrante, soprattutto con accenti diversi dall’americano tradizionale. E ovviamente questa è una limitazione significativa in un mondo globalizzato dove l’inglese non è parlato da tutti nello stesso modo.

Mentre David Johnston, Data Scientist di ThoughtWork, società tecnologica di consulenza, si sofferma sulla scarsa velocità e la poca naturalezza del tono e del timbro vocale. E prosegue in modo molto polemico, dicendo di preferire Chat GPT, ma a mio parere ci è andato giù troppo pesante, anche se si trovano spunti interessanti nelle sue parole.

Insomma le criticità sono tante, chissà se Gemini riuscirà a mettere d’accordo critica e pubblico ma come si dice: del futuro non c’è certezza!

Da Scarlett Johansson a Ruby & River: quali voci sentiremo domani?

Ruby e River rappresentano per Google un tentativo di riscatto e innovazione. Se queste nuove voci riusciranno a vincere le resistenze degli utenti e a rispondere efficacemente alle critiche, Gemini sferrerebbe un duro colpo al rivale ChatGPT.

Ogni cosa che succede in questo senso va sempre messa in relazione con la competizione tra i due colossi, non dimenticarlo!

E, a giudicare dal grafico qui sotto, Gemini sta iniziando la sua rincorsa…

Grafico di download Gemini VS cHATgpt, fonte Statista.com
Grafico di Statista, confronto tra Chat GPT e Gemini di Febbraio 2024

Ora non so chi la spunterà tra i due, ma come spesso accade nelle storie di tecnologia, il successo non dipenderà solo dalle innovazioni tecniche, ma anche dalla capacità di Google di ascoltare e rispondere alle esigenze dei suoi utenti.

Per questo motivo a Mountain View ci si aspetta tanto dalle voci di Ruby e River e l’hype è davvero alto!

Ora, non mi aspetto di sentire Barry White e Celine Dion, ma sicuramente voci rassicuranti e piacevoli, e non cacofoniche!

Basta che nessuno ci si riconosca, come è accaduto con Scarlett Johansson che ha fatto causa a OpenAI perché ha utilizzato una voce identica alla sua!

Già, la partita si gioca anche su questo terreno: coniugare esperienze utente soddisfacenti ma rispettare i diritti individuali e non appropriarsi senza permesso dei dati altrui, anche se si parla di celebrità!

A questo punto, non posso fare a meno di ricordare il film “Lei” (Her) del 2013, in cui Joaquin Phoenix si innamora di un sistema operativo proprio con la voce di Scarlett Johansson, guarda caso! (quando si dice, basta la voce…)

La pellicola, tanto futuristica quanto inquietante, solleva interrogativi profondi sulle relazioni umane con la tecnologia (te la consiglio!).

Screen shot tratto dal film Her di Spike Jonze del 2013

Mentre avanziamo verso assistenti vocali sempre più sofisticati, il confine tra realtà e fantasia si assottiglia, costringendoci a riflettere su quanto siamo disposti a delegare la nostra umanità a una voce digitale.

Vedremo se il futuro sarà una voce melodiosa come un usignolo, o uno stridio stonato e insopportabile come un gessetto raschiato sulla lavagna!

Takeaways

  • Google DeepMind sta lanciando due nuove voci, Ruby per l’inglese e River per il tedesco, con l’obiettivo di rendere le interazioni con il suo assistente vocale Gemini più naturali e umane. Questa mossa è pensata per competere direttamente con ChatGPT di OpenAI, nel contesto di una crescente battaglia tra giganti della tecnologia
  • La rivelazione di Ruby e River è stata un colpo giornalistico ottenuto per caso da Rushil Agrawal di Android Authority. L’autore, esplorando le impostazioni di Gemini, ha scoperto le nuove voci, anticipando Google che non aveva ancora annunciato nulla ufficialmente. Questo ha creato un notevole fermento mediatico
  • Ruby è descritta come una voce calda e rassicurante, ideale per interazioni amichevoli, mentre River ha un timbro profondo e autorevole, più adatto a contesti formali. Entrambe le voci sono state sviluppate utilizzando avanzate tecniche di sintesi vocale e machine learning per offrire un’esperienza utente fluida e piacevole.
  • Le attuali funzionalità vocali di Gemini hanno ricevuto critiche, soprattutto riguardo alla necessità di sbloccare il telefono per eseguire comandi vocali e la mancanza di naturalezza nel timbro vocale. Gli utenti sono scettici, ma c’è un grande hype attorno a Ruby e River, nella speranza che queste nuove voci possano colmare le lacune attuali.
  • Ruby e River non sono solo innovazioni tecniche, ma rappresentano anche una sfida per Google nel soddisfare le esigenze degli utenti e rispettare i diritti individuali. Il successo delle voci digitali dipenderà dalla capacità di coniugare esperienze utente di qualità con l’attenzione alle questioni etiche, come il rispetto dell’identità vocale di persone reali

FAQ

Cosa sono le nuove voci Ruby e River di Gemini?

Ruby e River sono le nuove voci introdotte da Google DeepMind per il suo assistente vocale Gemini. Ruby è progettata per l’inglese ed è descritta come calda e rassicurante, mentre River è destinata al tedesco e ha un timbro più profondo e autorevole. Queste voci mirano a migliorare l’interazione utente rendendola più naturale e umana.

Come sono state scoperte le voci Ruby e River?

Le voci Ruby e River sono state scoperte per caso dal giornalista Rushil Agrawal di Android Authority, mentre esplorava le impostazioni di Gemini. Questa scoperta inaspettata ha portato alla pubblicazione di un articolo che ha rivelato al mondo queste nuove funzionalità, anticipando l’annuncio ufficiale di Google

Quali sono le critiche attuali sui servizi vocali di Gemini?

Attualmente, gli utenti criticano i servizi vocali di Gemini per la loro dipendenza dallo sblocco del telefono per eseguire comandi vocali e la mancanza di naturalezza del timbro vocale. Inoltre, ci sono problemi con la comprensione delle sfumature linguistiche e l’interazione con accenti diversi dall’americano tradizionale. Google spera che Ruby e River possano risolvere queste problematiche.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Ricevi i migliori aggiornamenti di settore