作者:王姵文
隨著 ChatGPT 的超高熱度,Google、微軟等科技巨頭近期也掀起 AI 大戰,不過是生成別種內容,或是藉此推出相似內容,都抓準時機要蹭這一波ChatGPT的熱度。
Jukebox
OpenAI發布了最新的人工智慧應用Jukebox,這是一個可以產生各種類型和風格歌曲的神經網路,OpenAI現在將模型權重和程式碼,以及用於探索生成樣本的工具發布在GitHub上,供其他研究人員進一步深入研究。
OpenAI提到,他們之所以會開始進行人工智慧在音樂上的應用,因為這是生成模型當前的界限,OpenAI之前的相關研究MuseNet,探索了大量MIDI資料合成音樂的方法,而現在他們從原始音訊中,讓模型解決高多樣性和超長結構的問題,且特別的是,在原始音訊域無法容忍發生在短期、中長期和長期時序的錯誤。
OpenAI研究團隊使用自動編碼器解決這個問題,編碼器會移除無關的訊息位元,將原始音訊壓縮成較低維的空間,而新模型會在壓縮空間中產生音訊,然後將其採樣回原始音訊空間。
為了訓練這個模型,OpenAI在網路上抓了120萬首歌組成新的資料集,其中有60萬首是英文歌,並配對LyricWiki的歌詞和元資料,歌曲元資料包含藝術家、專輯類型和歌曲年份,還有與每首歌曲相關聯的心情和播放列表關鍵字,以32位元44.1 kHz的原始音質,並隨機降混(Downmix)左右聲道產生單聲音訊,達到資料增強的目的。
研究人員提到,雖然Jukebox無論是在音樂品質、連貫性、音訊樣本的長度,以及對藝術家、類型和歌詞的適應能力都往前一大步,但Jukebox所創建的音樂與人類的作品相比,仍是天壤之別。雖然Jukebox產生的歌曲,在局部具有連貫性,可產生遵循傳統的和弦模式,甚至表現出深刻的獨奏,但是卻不會有像是重複的副歌這類大型的音樂結構。
而且由於受Jukebox所使用的採樣技術影響,採樣的過程非常緩慢,約要9個小時才能渲染出一分鐘的音訊,所以現在的成果還不能放在互動式的應用程式中。
除了研究成果之外,這項研究在推特上受到討論的另一個點,在於版權問題,因為Jukebox自動產生各種風格的歌曲,這些歌曲可能包含知名歌手的聲音以及相似風格的旋律,因此OpenAI也被質疑,在把這些歌曲作為訓練資料集之前,是否有取得適當的授權,但有人則認爲,這可能要討論用來訓練人類跟訓練機器人原始資料的不同之處。
MusicLM
Google 最近發表了「MusicLM」的研究成果,這個 AI 可以直接依照文字,自動產生任何類型的音樂。當然 MusicLM 並不是第一組 AI 音樂生成器,先前 Google 自家就曾推出 AudioML、OpenAI 也有 Jukebox 可以透過 AI 模型生成音樂;但 MusicLM 最強大之處在於它有足足 280,000 小時的音樂資料量。
想要一首混搭雷鬼與舞曲的全新新歌?當然可以,MusicLM 可以自由混搭不同的音樂類型和樂器,甚至還可以透過輸入的文字,直接指定「地點、時代」,讓那些過去電腦難以掌握的抽象概念來編寫音樂。
不過就跟現有的 AI 生成模型一樣,MusicLM 也有瑕疵,像是目前混出來的人聲常常令人聽不懂,或是直接混出雖然好聽但人類難以理解的方式演奏。
而且版權是另一個大問題。出於版權問題,Google 並未向大眾開放試用 MusicLM;MusicLM 目前還是有 1% 的機率直接使用到原始音樂的片段而有會侵權問題。
文心一言
中國百度公司基於文心大模型技術,推出生成式對話產品「文心一言」,將於 3 月完成內部測試,面向公眾開放。不過網友諷刺:「它牛就牛在不僅僅輸入內容有違禁詞庫,輸入的內容也不能有違禁詞」
不過有網友表示:「試了下百度的山寨 ChatGPT,它牛就牛在不僅僅輸入內容有違禁詞庫,輸入的內容也不能有違禁詞。」
小結
隨著ChatGPT的熱度,未來會有越來越多AI相關工具出現,究竟會對整體社會帶來好處,還是會漸漸取代人類的一些技能和工作,值得令人深思和觀察。