作者:王姵文
AlphaGo打敗世界棋王李世乭
2016年3月8日到3月15日,AlphaGo和韓國職業九段棋士李世乭進行五局三勝制的圍棋對弈比賽,AlphaGo是由Google DeepMind開發的電腦圍棋軟體,比賽地點位於南韓首爾舉行,採中國圍棋規則:黑方給白方的貼目為七目半,思考時間每方兩小時,用完後各有三次一分鐘讀秒。結果為AlphaGo以四勝一敗擊敗李世乭。
AlphaGo 與李世乭的對弈,使得人工智慧在世人眼前大爆發,它不僅是屬於人工智慧領域與科技公司,同時也是屬於市井小民的里程碑。在美國如此,在韓國與中國更是如此,因為這些國家視圍棋為人類智慧結晶的巔峰。
這場棋賽彰顯出科技的力量與其終將超越人類的恐懼,同時也帶來樂觀的前景,此一科技往往會以出人意表的方式推動人類更上層樓。儘管馬斯克等人警告其中的危險性,但是這段時期人工智慧的前景一片光明,從此之後AI對於圍棋世界的影響甚鉅。
AlphaGo對陣柯潔取得全勝
2017年,萬眾矚目的新一輪圍棋人機大戰在中國烏鎮圍棋峰會登場,由Google DeepMind開發的人工智慧AlphaGo,對戰19歲的世界圍棋冠軍柯潔,採三盤兩勝。
由於AlphaGo已在2016年打敗南韓棋王李世乭,且進化版「Master」更在2017年初取得60連勝。而柯潔在這場比賽發生前,已經從2014年末開始持續在Go Ratings排名世界第一,此外他在韓國棋院、日本棋院和中國圍棋協會排名中也是世界第一,所以柯潔對戰AlphaGo的這場比賽也被視為人類和人工智慧的終極對戰。
外界都不看好柯潔與AlphaGo的這場對弈。前圍棋世界冠軍古力表示,柯潔只有10%的機率勝利,人工智慧專家李開復甚至認為,柯潔贏的機率幾乎是0%。不過柯潔在發佈會表示,會盡最大努力爭取勝利,拼死一博。
比賽時間為2017年5月23日、25日和27日進行,最終AlphaGo Master以3:0戰勝了當時世界排名第一的圍棋棋手柯潔。
AI在圍棋上的應用和技術
AlphaGo使用蒙地卡羅樹搜尋(Monte Carlo tree search),藉助估值網路(value network)與走棋網路(policy network)這兩種深度神經網路,通過估值網路來評估大量選點,並通過走棋網路選擇落點。AlphaGo最初通過模仿人類玩家,嘗試匹配職業棋士的過往棋局,其資料庫中約含3000萬步棋著。後來它達到了一定的熟練程度,它開始和自己對弈大量棋局,使用強化學習進一步改善它。圍棋無法僅通過尋找最佳棋步來解決;圍棋一盤平均約有150步,每一步平均約有200種可選的下法,這意味著有太多需要解決的可能性。
台灣大學電機系教授于天立認為,Google能夠成功結合深度神經網路、加強式學習和蒙地卡羅樹狀搜尋三種演算法,其成果值得喝采。他認為這種技術應該適用於一般連續性決策問題。因為AlphaGo可以在眾多可行的決策中,適當分配運算資源來探索此一決策所帶來的好處及壞處,並且可從探索中回饋修正錯誤。不過于也提到,即使AlphaGo所使用的學習模型比較具有一般性,它離真正完全通用的學習模型仍有一段距離。
小結
AlphaGo被譽為人工智慧研究的一項標誌性進展,在此之前,圍棋一直是機器學習領域的難題,甚至被認為是當代技術力所不及的範疇。國際圍棋聯盟的秘書長李夏辰認為將來圍棋棋士會藉助電腦來提升棋藝,從錯誤中學習。