作者:王姵文
AI 生成音樂在這一波生成式 AI 浪潮當中,雖然目前還未有足夠商業化的作品攻佔市場,但對想借助 AI 力量的音樂創作者來說也是很好的工具。
生成式 AI 協作專輯《Mirage FM》
英國藝術家 Damien Roach,在去年 12 月接觸到 AI 音樂生成項目 Riffusion,這款 AI 工具不是用聲音本身,而是透過機器學習技術,用聲音訊號的圖像,也就是所謂的「頻譜圖」來重新作曲,產生獨樹一格的音樂;藍調吉他、爵士鋼琴、非洲節奏等各種音樂類型,都擁有各異其趣的頻譜圖,將這些資料輸入模型後,Riffusion 會學習辨識其特徵。
今年 4 月,Roach 透過他的創意代理商和唱片公司 555×5555 發表了名為《Mirage FM》的專輯,其中 21 首歌曲收錄的每個聲音,都是透過 Riffusion 以文字轉音頻 AI 的樣本製作:Roach 先花了好幾週上網搜尋別出心裁的影音片段,再進行剪輯與編排。
《Mirage FM》可以在多個平台上免費播放,包括 SoundCloud 和 YouTube,並涵蓋了 house、garage、pop 和 grime 等多種流派,它在線上獨立音樂商城 Bandcamp 上的售價是 7英鎊(約台幣 270 元)。
美「SongR」、日「CREEVO」,給關鍵字30秒後AI唱出整首歌
除了 Google 日前宣布開始試用的 AI 工具 MusicLM 以外,還有許多小規模新創公司開發的作曲 AI 可以協作。
支援英語歌詞的 SongR 操作簡單、生成的結果也比較接近完成品。如果使用者已經有自己寫好的歌詞,在 Web 介面選擇喜歡的曲風框(選項有 Pop、Hip hop、Cafe、Piano Rock 共 4 種)、直接輸入歌詞,並選擇男聲(Kevin)或女聲(Emily),靜待 30 秒就能下載或線上聆聽搭配該歌詞自動生成的歌曲,長度約 1 分多鐘。
即使沒有歌詞,也能在輸入框打入喜歡的關鍵字,AI 會連同歌詞一起生成。輸入框的上限為 750 字(符)。儘管生成曲的品質與完成度不能說與市面上的流行音樂接近,但略帶一些生硬的表現,反而保留了素人創作的清新感。生成的歌曲可以自由公開,因此已有許多使用者在 Twitter 上貼出了使用 SongR 作成的歌曲。
以下是使用 ChatGPT 生成英文歌詞後、選擇「Cafe」並輸入 SongR 後自動生成的歌曲。
針對日本歌詞,日本也有類似的技術。根據 ITmedia 報導介紹,CREEVO 是京都大學在 2020 年公開的作曲 AI,運用名古屋工業大學的歌聲合成技術「Sinsy」,可以藉由使用者的評價再生成新的 AI 模型。
雖然日文表現上比較自然、而具有優勢,但是 CREEVO 的技術完成度不如 SongR 來得高,樂曲風格也比較缺乏流行感。輸入的內容僅限寫好的歌詞,無法用關鍵詞自行生成。而且樂曲長度限制只有 12 小節,生成歌曲只有 30 秒,對於一般歌曲來說,是還無法進入副歌的長度。
但是相對於 SongR 的自動生成強大,使用者沒有太多自由發揮的空間,CREEVO 可以選取更多編曲樂器、曲風、以及和弦(提供一些耳熟能詳的歌曲的和弦供選取),儘管無法直接做出一首完整的歌曲,但或許更適合利用這些選項、進行創意發想。
Meta 開源自家文字轉音樂 AI MusicGen
Meta 先前發布並開源了自家的音樂生成 AI MusicGen。這個工具可以將文字描述轉為約 12 秒的音頻,也可以依照參考的音頻來進行調整,會生成符合文字描述和參考音樂的旋律。
MusicGen 是基於 Transformer 模型開發的,音頻資料則是藉由 Meta 的 EnCodec 音頻tokenizer 分割成較小的部分,可以如同大型語言模型可以預測出音樂的下一個片段。
MusicGen 是藉 2 萬小時的音樂數據進行訓練,其中包括 1 萬首授權音樂曲目,以及來自ShutterStock 和 Pond5 的 39 萬首僅有樂器的歌曲。
經外媒《TechCrunch》實測,當下簡單的指令時,MusicGen 生成的歌曲是具旋律的,生成結果與 Google 的音樂生成 AI MusicLM 結果相當。
小結
利用生成式 AI 集結既有歌曲元素自製成新音樂的風氣愈來愈盛,雖然能讓一般人在製作音樂上更容易,卻不一定能讓專業的作曲家在短時間失去工作,只是這背後牽扯出的版權問題不容忽視,音樂產業像唱片公司環球音樂集團 Universal Music Group 等,呼籲串流平台不要讓 AI 使用有版權的歌曲進行訓練。
另外Meta 對 MusicGen 雖然沒有對使用者施加限制,但強調 MusicGen 所使用的訓練資料,都有先與音樂合法持有者包括 Shutterstock 簽訂協議。