中文 | English

【ChatGPT專題】ChatGPT的爆紅,陸續有山寨和類似產品出現!

作者:王姵文

隨著 ChatGPT 的超高熱度,Google、微軟等科技巨頭近期也掀起 AI 大戰,不過是生成別種內容,或是藉此推出相似內容,都抓準時機要蹭這一波ChatGPT的熱度。

Jukebox

OpenAI發布了最新的人工智慧應用Jukebox,這是一個可以產生各種類型和風格歌曲的神經網路,OpenAI現在將模型權重和程式碼,以及用於探索生成樣本的工具發布在GitHub上,供其他研究人員進一步深入研究。

OpenAI提到,他們之所以會開始進行人工智慧在音樂上的應用,因為這是生成模型當前的界限,OpenAI之前的相關研究MuseNet,探索了大量MIDI資料合成音樂的方法,而現在他們從原始音訊中,讓模型解決高多樣性和超長結構的問題,且特別的是,在原始音訊域無法容忍發生在短期、中長期和長期時序的錯誤。

OpenAI研究團隊使用自動編碼器解決這個問題,編碼器會移除無關的訊息位元,將原始音訊壓縮成較低維的空間,而新模型會在壓縮空間中產生音訊,然後將其採樣回原始音訊空間。

為了訓練這個模型,OpenAI在網路上抓了120萬首歌組成新的資料集,其中有60萬首是英文歌,並配對LyricWiki的歌詞和元資料,歌曲元資料包含藝術家、專輯類型和歌曲年份,還有與每首歌曲相關聯的心情和播放列表關鍵字,以32位元44.1 kHz的原始音質,並隨機降混(Downmix)左右聲道產生單聲音訊,達到資料增強的目的。

研究人員提到,雖然Jukebox無論是在音樂品質、連貫性、音訊樣本的長度,以及對藝術家、類型和歌詞的適應能力都往前一大步,但Jukebox所創建的音樂與人類的作品相比,仍是天壤之別。雖然Jukebox產生的歌曲,在局部具有連貫性,可產生遵循傳統的和弦模式,甚至表現出深刻的獨奏,但是卻不會有像是重複的副歌這類大型的音樂結構。

而且由於受Jukebox所使用的採樣技術影響,採樣的過程非常緩慢,約要9個小時才能渲染出一分鐘的音訊,所以現在的成果還不能放在互動式的應用程式中。

除了研究成果之外,這項研究在推特上受到討論的另一個點,在於版權問題,因為Jukebox自動產生各種風格的歌曲,這些歌曲可能包含知名歌手的聲音以及相似風格的旋律,因此OpenAI也被質疑,在把這些歌曲作為訓練資料集之前,是否有取得適當的授權,但有人則認爲,這可能要討論用來訓練人類跟訓練機器人原始資料的不同之處。

MusicLM

Google 最近發表了「MusicLM」的研究成果,這個 AI 可以直接依照文字,自動產生任何類型的音樂。當然 MusicLM 並不是第一組 AI 音樂生成器,先前 Google 自家就曾推出 AudioML、OpenAI 也有 Jukebox 可以透過 AI 模型生成音樂;但 MusicLM 最強大之處在於它有足足 280,000 小時的音樂資料量。

想要一首混搭雷鬼與舞曲的全新新歌?當然可以,MusicLM 可以自由混搭不同的音樂類型和樂器,甚至還可以透過輸入的文字,直接指定「地點、時代」,讓那些過去電腦難以掌握的抽象概念來編寫音樂。
不過就跟現有的 AI 生成模型一樣,MusicLM 也有瑕疵,像是目前混出來的人聲常常令人聽不懂,或是直接混出雖然好聽但人類難以理解的方式演奏。

而且版權是另一個大問題。出於版權問題,Google 並未向大眾開放試用 MusicLM;MusicLM 目前還是有 1% 的機率直接使用到原始音樂的片段而有會侵權問題。

文心一言

中國百度公司基於文心大模型技術,推出生成式對話產品「文心一言」,將於 3 月完成內部測試,面向公眾開放。不過網友諷刺:「它牛就牛在不僅僅輸入內容有違禁詞庫,輸入的內容也不能有違禁詞」

不過有網友表示:「試了下百度的山寨 ChatGPT,它牛就牛在不僅僅輸入內容有違禁詞庫,輸入的內容也不能有違禁詞。」

小結

隨著ChatGPT的熱度,未來會有越來越多AI相關工具出現,究竟會對整體社會帶來好處,還是會漸漸取代人類的一些技能和工作,值得令人深思和觀察。

分享到社群

vMaker編輯部

歡迎各界朋友投稿你的maker故事,不論是個人作品、創客觀點或是創客的經驗分享,我們都十分期待能聽到您的分享。 投稿請至:contact@vmaker.tw

This site or product includes IP2Location LITE data available from https://lite.ip2location.com.