La tecnologia digitale è matura e sufficientemente economica per andare oltre l’InStore Radio, sia sul fronte delle sintesi vocale da testo (text-to-speech), dove le voci “robotiche” sono un ricordo del passato, che sul fronte del riconoscimento di parole e comprensione del senso di intere frasi, anche se parlare ad una macchina mette ancora molti a disagio. Questi enormi e veloci progressi sono merito delle tecniche di Intelligenza Artificiale che si sono evolute sul Cloud per mezzo, tra gli altri, dei “Deep Neural Networks” e HW specializzato.
Se è vero, come è vero, che l’arte è un’antenna sul cambiamento della società e l’apripista a nuove tendenze, alla Biennale di Venezia recentemente conclusa, più partecipazioni nazionali, come Turchia e Libano, erano interamente basate sul suono, per non parlare dell’esperienza sonora che ha trasformato il Giardino delle Vergini all’Arsenale. Non parliamo ovviamente di musica.
L’acquisto in un negozio ai tempi di Amazon deve essere necessariamente un’esperienza gradevole ed utile perché se l’obiettivo si limita a comodità e convenienza, niente batte un click su un eCommerce. Il suono è una componente che può arricchire l’esperienza d’acquisto, uno dei cinque sensi meno sfruttati e meno impegnativo sul fronte del carico cognitivo o, in altre parole, con meno necessità della nostra sempre più scarsa attenzione.
Lo abbiamo appena anticipato. Mentre per guardare un Digital Signage devo distogliere l’attenzione dal prodotto, una combinazione di voci e suoni che insieme valorizzano gli articoli ai quali sto passando vicino, non richiede nemmeno che mi fermi o che giri lo sguardo. Se sto già toccando un prodotto, non devo subire interruzioni. Una prima differenza con l’InStore Radio è quindi la contestualità. L’audio digitale può essere udibile solo in certi spazi (di più su questo argomento alla fine) e addirittura adeguarsi, con tecniche di riconoscimento facciale anonimo, al genere ed età del cliente, al suo umore ed al tempo di permanenza in quella zona. Il contenuto e il tono da usare con una persona anziana sono certamente diversi da quelle più adatte per un adolescente.
Oltre che contestuale, l’audio digitale può essere anche interattivo. Se ho bisogno dell’assistenza di una commessa non devo mettermi a cercare, basta rispondere Sì ad una proposta. Utilizzando “chat bot” (robot che sono in grado di sostenere delle semplici conversazioni), i clienti più “disinibiti” possono fare richieste specifiche sui prodotti e sul servizio ed ottenere delle risposte la cui utilità è proporzionale all’impegno profuso nella fase di progettazione ed evoluzione nel tempo di questi strumenti.
L’enorme accelerazione delle tecniche di Intelligenza Artificiale hanno trovato nel linguaggio parlato un’importante area di applicazione. Nella comprensione (trascrizione) di singole parole, le tecniche basate sui “neural network” hanno eguagliato in accuratezza gli esseri umani. Inoltre la comprensione del senso delle frasi è basilare non solo per i “chat bot” ma anche per la traduzione automatica nelle varie lingue, per arrivare a parlare in una lingua mentre l’interlocutore sente direttamente la traduzione in un’altra, di cui esistono già dei primi esempi.
In questo filone, l’accordo di questa estate tra Google e Walmart è centrato sull’eCommerce vocale, per contrastare il predominio di Amazon con i suo cilindretti Echo basati sulla tecnologia Alexa, pensati come assistenti vocali casalinghi e, guarda caso, anche per ordinare i prodotti appena terminati, senza interrompere l’attività in corso. Un’esperienza simile a quella cui ci stanno abituando Siri di Apple e Cortana di Microsoft.
L’altro accordo di fine Agosto, piuttosto eclatante perché avvenuto tra Amazon e Microsoft, concorrenti diretti nel Cloud Computing, riguarda l’interoperabilità tra le rispettive tecnologie Alexa e Cortana. Microsoft non ha dispositivi con cui sperare di entrare in massa nelle case, mentre Amazon non poteva accedere al giacimento di informazioni gestite da Outlook ed dal resto delle applicazioni Office 365. Inoltre entrambe le aziende sperano di scalfire il predominio di Apple e Google (tramite Android) nel campo degli smartphones che sono gli strumenti di interazione vocale per eccellenza.
Sarebbe utile che la contestualità fisica potesse essere addirittura limitata ad un singolo cliente per evitare di disturbare altri vicini. Se il fascio sonoro potesse seguire il cliente anche mentre si sposta, sarebbe un ulteriore passo avanti.
Questa direzionalità dinamica è normale nella ricezione per mezzo di “array” di 2 o più microfoni che mettono a “fuoco” solo una direzione ed eliminano i disturbi provenienti da altre direzioni, come succede nei PC portatili e specialmente nei dispositivi audio come Echo di Amazon o Home Assistant di Google.
La direzionalità dinamica è invece ben più difficile e costosa da ottenere nella fase inversa di emissione di suoni. Gli “array” di altoparlanti sono ingombranti, per cui si ricorre spesso all’interferenza (udibile) tra due trasduttori di ultrasuoni (non udibili) affiancati. Ulteriori progressi in questo campo che riducano costi e dimensioni non dovrebbero tardare.
Già oggi, se i dispositivi audio interattivi sono quelli consumer prima citati, magari aiutati da “riflettori sonori” (come “campane” che pendono dal soffitto) si ottiene una certa salvaguardia della privacy con un buon rapporto prezzo prestazioni e l’apertura all’eventuale interattività tramite “chat bot”.
La considerazione finale è che creare delle esperienze “memorabili” con dei “chat bot” è molto complesso non solo dal punto di vista tecnico ma specialmente da quello creativo, senza considerare che parte dei consumatori non è ancora abituata a conversare con delle macchine. Le esperienze audio contestuali non interattive sono invece più accessibili sia sul fronte tecnico che creativo, pur essendo in grado di trasformare l’esperienza d’acquisto. Possono essere il punto di partenza verso l’Audio Intelligente nel Retail.
© Copyright 2023 aKite srl – Privacy policy | Cookie policy