中文 | English

【從Rob到RT-2】靠著機器學習,機器人可以自己推理與行動

本文將介紹兩個案例,從業餘玩家到企業層面應用,機器學習為機器人賦予更強大的推理和行動能力,描繪了人工智慧不斷演進的精彩軌跡。

跨足人工智慧的學習之旅:Rob的誕生

MrRandom93決定不再沉迷工作或連續狂看Netflix,而是透過學習製作機器人,給自己帶來新的分心活動。Random93先生的成果是Rob:一個由手工製造並賦予生命的機器人,使用電子設備和ChatGPT技術。

儘管Rob的運動表現未達到波士頓動力公司ATLAS那樣的跑酷水平,但其創造者MrRandom93成功地賦予機器人一個迷人的個性。投入了多年的努力,使用Raspberry Pi、可充電電池、伺服系統、觸摸感應器和OLED屏幕等裝置,以及與ChatGPT相結合,為Rob注入智能和響應能力。

Rob不僅能回答問題,還能通過Raspberry Pi相機模組和ChatGPT的描述功能「看見」周圍的世界。在一段影片中,Rob甚至能辨識一部經典的諾基亞手機,顯示出其在視覺認知方面的能力。這個例子展示了機器學習如何在業餘層面應用,同時提供了機器人技術的一個有趣展示,突顯人工智慧在娛樂和公益領域的潛力。

在影片中,Rob能辨識一部經典的諾基亞手機,顯示出其在視覺認知方面的能力

在影片中,Rob能辨識一部經典的諾基亞手機,顯示出其在視覺認知方面的能力(圖片來源

Google的機器人進化之路:RT-2的嶄新功能

Google的Deepmind團隊則是推出了機器人RT-2。RT-2代表了機器學習、推理和行動的最新突破。使用Robotic Transformer 2 (RT-2) AI 模型,RT-2可以進行學習、推理和行動,甚至超越了其前身RT-1。RT-2具有驚人的能力,例如從面前的一塊岩石,決定最佳的臨時錘子;或者為疲倦的人推薦合適的飲料;即使沒有明確的指示,它可以用簡單的語言執行分配給它的基本任務,即使是它不熟悉的物件(將番茄醬推入藍色立方體)。

相比於RT-1,RT-2更進一步能夠透過理解更多視覺線索,來執行基本的思維鏈推理。RT-2透過將機器人數據與基於網路的圖像和文字解釋結合,訓練視覺語言模型,以解決更複雜的視覺語言任務。這種整合提供了新的能力,使RT-2能夠更靈活地回應用戶的指令,即使在沒有明確指示的情況下也能做出複雜的推論。

(圖片來源:Google DeepMind部落格

儘管RT-2在學習、推理和行動方面取得了顯著進展,但它仍然面臨著一些局限性。機器人實際上僅能執行其所學到的動作,無法創造新的事物。雖然RT-2更有機地理解周圍的世界,但它仍然受到機器人數據的物理限制。但是RT-2的突破代表了機器學習技術在機器人領域的演進,為未來更廣泛的應用提供了有力支持,同時引領了人工智慧的新浪潮。

從以上Rob與RT-2的故事,充分展示了機器學習在業餘和企業層面的應用,為人工智慧與機器人的未來,描繪了更加廣泛的可能性。

參考資料:

1.This Cute Robot Uses AI to Recognize the World Around It, and It Has a Message for You (Source)

2.MrRandom93影片連結(Source)

3.Google’s RT-2 Robot Gives ChatGPT-Style AI a Body (Source)

4.Google Deepmind部落格(Source)

分享到社群

vMaker編輯部

歡迎各界朋友投稿你的maker故事,不論是個人作品、創客觀點或是創客的經驗分享,我們都十分期待能聽到您的分享。 投稿請至:contact@vmaker.tw

This site or product includes IP2Location LITE data available from https://lite.ip2location.com.