在過去,電影後製在製作擬聲音效(Foley)時,需要進入錄音室,用一堆令人意想不到的道具來模擬影片的腳步聲、環境音等各種聲音。如今,雖說有許多方便的數位音源資料庫,但想細緻模擬出特定的節奏和聲音表情,還是會遭遇到許多挑戰。
最近,Adobe Research和美國西北大學(Northwestern University)在arXiv上聯合發表了〈Sketch2Sound: Controllable Audio Generation via Time-Varying Signals and Sonic Imitations〉論文,並介紹了「Sketch2Sound」這套很酷的AI音效生成工具,只需對著麥克風哼幾個音,或忘掉羞恥,忘情模仿一下飆車燒胎的聲音,Sketch2Sound就能讓相似度相當低的哼唱,「變形」成彷彿真實的音效。
如同論文中的展示影片,我們不需要多麽會模仿,或是多厲害的口技,只要用適當的音量變化、音調高低來做你想要的聲音表情,再透過簡單的提示詞形容(比方影片展示的car racing、forest ambience),就能滑順地讓業餘的哼唱,變成非常專業的音效。Sketch2Sound顧名思義,就像是在為音效做草稿,再讓AI幫你「轉聲」。
這何止是電影音效製作,就連廣告、遊戲、有聲書、甚至是網路影片創作,都是Sketch2Sound能守備的應用場景啊。
Sketch2Sound:在「文字轉聲音」模型上加上「聲音控制」層
簡單來說,Sketch2Sound就是DiT(Latent Diffusion Transformer)的文字轉音訊模型,加上響度(loudness)、亮度(spectral centroid)、音高(pitch probabilities)三個主要的聲音控制信號。也就是說,即便你的口技很業餘,AI還是能只認你的聲音表情(響度、亮度、音高),再透過你的提示詞,轉換成完全不同的音色,就比方汽車引擎聲。
而在展示影片中,也有示範用電吉他來「轉聲」,就說明了AI認的是聲音表情,而文字轉音訊模型負責將它轉成各種不同的音色。
不曉得你對Sketch2Sound期不期待?或許,這不是多了不起的創新,但它確實是一種更直覺也更有彈性的創作方式,也能大幅降低創作門檻,讓不具混音和聲音設計專業的人,用哼哼唱唱就能做出專業配音,真的相當有趣。說不定,未來Adobe會在Premiere剪輯軟體裡加入Sketch2Sound的功能也不一定?