用AI把心情哼成歌!Google打造MusicLM輸入文字就能生成專屬BGM

除了大家很熟悉的AI人工智慧聊天機器人ChatGPT、以文字生成圖像的Midjourney,沒想到,AI還可以用來作曲?像在去年底推出的Riffusion的音樂AI,就是一款很神奇的應用。它透過Stable Diffusion先將文字轉化為聲譜圖(spectrogram),再以此來生成音樂。

除了曲風、樂器以外,你可以在Riffusion中輸入任何提示詞,任何抽象的詞彙都沒問題,Riffusion會在其為基礎的種子圖像(seed image)上,加以變化,實時轉化為一段全新的曲調,不停循環,在你加入新的提示詞後,又滑順的過渡到新的樂曲。以一個做興趣為出發的項目而言,著實讓人驚豔。


近日,Google研究團隊發表了音樂生成AI——MusicLM,同樣是將文字轉化為音樂。不同的是,為了要能生成出擁有顯著複雜性、連貫且流暢的高品質樂曲,MusicLM可是經過了28萬小時的音樂數據庫訓練。

MusicLM從音樂流派、樂器、場景氛圍、演奏家的演奏水準、時代等都能辨識,並產出對應的樂曲;除了單一樂曲外,MusicLM也可以生成「故事模式」,透過一系列不同的敘述,產出如同電影配樂般的組曲;不僅於文字描述,還可以透過哼唱、彈奏樂器,將一小段旋律延伸成一段完整樂曲,甚至是和其他不同曲風結合等等。

在MusicLM提供的範例中,可以看到如此複雜的提示詞,如:「融合雷鬼和電子舞曲,帶有空曠的、超凡脫俗的聲音。令人感到迷失在太空中的體驗,音樂的設計旨在喚起一種驚奇和敬畏的感覺,同時又適合跳舞。」、「街機遊戲的配樂。它節奏快且熱血,帶有朗朗上口的電吉他即興重複段落。音樂是重複的,讓人容易記住,但有意想不到的聲音,如鐃鈸撞擊聲或鼓聲。」比較可惜的是,在涉及人聲演唱的部分表現不佳,只要有歌詞的地方聽起來都像在胡言亂語。

雖說研究團隊同時也釋出5千多個由專業音樂家創造出的音樂敘述大全「MusicCaps」,以供大家參考怎樣成為一個AI音樂溝通大師。然而,在研究過程中他們也發現,AI生成的音樂中約有1%是直接從訓練的歌曲中複製而來,礙於版權因素,目前MusicLM仍無法向大眾開放使用,這同時也是所有AI應用目前所面臨的極大難題。

訂閱電子報

返回頂端