annulla
Visualizzazione dei risultati per 
Cerca invece 
Intendevi dire: 

Iscriviti adesso. Entra a far parte della nostra community!

Parliamo di: tecnologia di separazione dei canali audio con IA

profile.country.GB.title
_J.G.M_
Community Team
Community Team
724 Visualizzazioni

main.jpg

 

La separazione dei canali audio è una tecnologia che rende possibile estrarre suoni singoli da sorgenti sonore miste. Questa operazione era all'inizio una cosa molto difficile da realizzare, ma grazie all'integrazione della tecnologia IA di Sony nel 2013 siamo riusciti a migliorare notevolmente le prestazioni. È stato possibile ottenere splendidi risultati in applicazioni quali la restaurazione di film classici, l'eliminazione del rumore sugli smartphone e il karaoke in tempo reale per i servizi di streaming musicale. Prevediamo che i campi di applicazione possano aumentare in futuro.

 

Yuki Mitsufuji del nostro Tokyo R&D Center e Stefan Uhlich del nostro Stuttgart R&D Center ci raccontano qualcosa in più.

 

Ricreare le capacità umane attraverso le macchine.

 

"Quando noi esseri umani ascoltiamo una performance in cui più suoni sono mescolati insieme, siamo in grado di distinguere i singoli strumenti; oppure, durante una conversazione, riusciamo a concentrarci in modo naturale su una singola voce, anche quando siamo circondati da una grande folla", spiega Yuki. Prima dell'introduzione della tecnologia IA, questo era estremamente difficile da fare con i computer. "Alcune persone hanno descritto questo processo come mescolare due succhi, per poi estrarne uno solo", ricorda.

 

Nella dimostrazione di seguito, puoi ascoltare tre esempi di applicazione della tecnologia di separazione dei canali audio in una scena di Lawrence d'Arabia, dove mostriamo come estrarre il dialogo o diversi effetti sonori.

 

 

La separazione dei canali audio con IA funziona "insegnando" ai computer ad eseguire i task.

 

Prendiamo ad esempio la chitarra: questo strumento ha un suono e una frequenza molto specifici, appresi dalla rete neurale durante la formazione.

 

"Durante questa formazione, la rete vede molta musica - più di quanta ne sentiremo mai nella nostra vita - insieme al suono target da estrarre", spiega Stefan. Pertanto, indipendentemente da quanti suoni diversi vengono mixati insieme in una registrazione, il nostro sistema IA è in grado di identificare le caratteristiche particolari della chitarra ed estrarle.

 

 "Per fare un esempio, noi sappiamo riconoscere una mela perché ne abbiamo già viste tante prima" spiega Yuki. "L'applicazione dell'IA alla separazione dei canali audio funziona in base allo stesso principio, sia da un punto di vista meccanico che concettuale".

 

Con questa tecnologia si può quasi tornare indietro nel tempo

 

La tecnologia di separazione dei canali audio IA non solo consente di rivisitare vecchie canzoni, estrarre tracce vocali, separare gli strumenti o remixare tracce, ma offre immense potenzialità di intrattenimento immersivo.

 

"Per offrire un campo sonoro coinvolgente allo spettatore, è necessario inviare i suoni da angolazioni diverse e ricreare uno spazio audio 3D", chiarisce Stefan. "Tuttavia, nei film classici, i dialoghi e gli effetti sonori si trovano sulla stessa traccia, e questo rappresenta un limite a ciò che si può estrarre e al modo in cui si può rendere coinvolgente il campo sonoro. Ci siamo chiesti se avessimo potuto estendere la nostra tecnologia ai film: dopo aver "appreso" da una libreria di effetti sonori (foley), il nostro sistema di IA è stato in grado di estrarre con successo i singoli effetti sonori dalla copia master."

 

Puoi vedere questo processo in pratica nel video di Lawrence d'Arabia sopra.

 

Ci sono anche altri campi di applicazione a cui non si pensa immediatamente quando si parla di tecnologia di separazione dei canali audio, ma che senza dubbio si basano su di essa.

 

Yuki parla di aibo, il cane robotico di Sony. "AIBO può rispondere alla voce umana e comunicare; AIBO raccoglie tutti i suoni che lo circondano e rileva pertanto anche altri rumori, come gli stessi suoni meccanici di AIBO o il rumore del vento. Utilizzando la separazione dei canali audio con IA per estrarre le voci umane e rimuovere gli altri rumori di sottofondo, siamo riusciti a migliorare le capacità di riconoscimento vocale."

 

Abbiamo applicato metodi simili anche ad altri prodotti: lo smartphone Xperia™ consente agli utenti di ascoltare voci umane nitide senza il rumore del vento, mentre la nostra tecnologia "modalità karaoke" sviluppata per lo streaming musicale rimuove le tracce vocali in tempo reale per consentire alla voce dell'utente di fondersi con la sorgente audio.

 

Guardando al futuro.

 

Sony PSL e Sony Music Solutions iniziano ad offrire queste tecnologie esternamente e Yuki non vede l'ora di scoprire cosa ci riserva il futuro. "Ci auguriamo che la nostra tecnologia sia come una macchina del tempo che consenta agli artisti del passato e del presente di collaborare".

 

Stefan non vede l'ora che la tecnologia si espanda ulteriormente. "Da un punto di vista tecnologico, assisteremo alla transizione verso la separazione universale delle sorgenti audio, anche nei casi in cui non solo il numero di sorgenti è sconosciuto ma anche i tipi di sorgente non sono specificati", ci dice. "Le persone lo hanno individuato come uno scenario stimolante ma interessante, che consentirà casi d'uso ancora più commerciali".

 

Non vediamo l'ora di esplorare le nuove frontiere della separazione dei canali audio con IA. Dove vorresti vederla utilizzata?

 

Questo testo è l’adattamento di un articolo pubblicato su Sony.net. L’originale è disponibile qui: https://www.sony.net/SonyInfo/technology/stories/AI_Sound_Separation/