感謝李世石生命般的抗爭 現在我敢說AlphaGo的命門其實很簡單

  2016年3月13日,人機大戰第四局李世石執白180手中盤勝AlphaGo。說這一勝是人類歷史上最重要的一勝也不為過,就不多說了。從圍棋技術與算法上來說,最重要的意義是,我們終于看到了一張AlphaGo的敗局譜,明確知道AlphaGo有重大bug,前三局過后看似威力無比的機器,發起瘋狗癥竟然會走出那么可笑的招法。

  現在終于知道,為什么谷歌只公布了與樊麾的五盤正式對局的棋譜,卻不公布非正式對局里二盤敗局的棋譜。哪怕一盤敗局的全譜泄露出來,人類稍作調查就會知道如何對付它。李世石接到谷歌的邀請,只考慮3分鐘沒提什么條件就應戰了。從人類與機器斗爭的角度看,這真不折不扣是《三體》中描述的有礙于人類生存的“傲慢”。不夸張地說,只要李世石要求谷歌公布一張AlphaGo的敗局譜,這次人機大戰的勝利者就非??赡芨膶?。但也不能怪李世石,估計所有職業棋手都想不到,這是人類的共性。我們要感謝李世石,終于用生命一般的抗爭在第四局逼出了真相。

  1996年國際象棋第一次人機大戰,卡斯帕羅夫就謹慎得多。他提出先由助手和IBM的機器下測試棋,正式比賽時卡斯帕羅夫以4:2獲勝。這是因為國際象棋程序當時已經發展多年,顯示了不低的實力。而圍棋程序也是發展了多年,雖然取得了幾次重大進步,人的感覺仍然是職業棋手讓五六子的水平。樊麾的失利是一個重要信 號,但從人類情緒來看,越是不懂圍棋技術的人越敢預測機器的勝利。棋迷與職業棋手更了解自己這邊的“強大實力”,更了解圍棋作為一個算法問題的復雜度,傲慢沒有減少。

  第四局李世石獲勝的關鍵,賽前我就在上一篇文章中作出了非常接近實戰進程的預測:開放式接觸戰,利用機器“不喜歡打劫”的特性,讓機器犯昏。

  李世石這第78手在人類看來,其實還是有漏洞的,仔細拆解會發現這并不是最佳著手,黑棋應對了白不行。但是這招非常神奇地引發了機器的bug。為什么會有bug,難有定論,我認為最可能是AlphaGo的價值網絡出問題了(觀察者注:關于AlphaGo的價值網絡,田淵棟的這篇《AlphaGo的分析》做了很好的科普,作者為前谷歌工程師,Facebook智能圍棋 darkforest 的負責人和第一作者)。

?20160321_009

  如圖至第82手。80和82都是必然的,所以叫78為神之一手。其實AlphaGo這時走B位,據職業棋手分析,空里沒有什么棋。如果白M13撲,黑可以 提掉78一子,白L13再打吃,黑粘在78位。下面白吃不掉63這個子。對人來說變化并不復雜。觀戰棋手猜測李世石預想的變化圖是這樣的:

?20160321_010

  如果AlphaGo走1位,那白只好2位先手接回一子,再4位先手切斷,在外面做出一片形勢,局勢還能維持。

?20160321_011

  而AlphaGo卻走了實戰的83手,后面一連串招法都特別糊涂的樣。所以犯錯是從83手開始的。Deepmind負責人哈薩比斯說從79到85手,機器都以為自己勝率高達70%,到第87手才發現不對勁,一步棋評分就急劇下降了。降到多少沒有說,但肯定是個很低的分,所以才后面一連串搞笑的棋。這些搞笑的棋本身到是不難解釋,為了偷得可憐的一點勝率,它覺得別的招都不如你打吃看不見。Zen之類的MCTS程序落后了亂下很常見。我們要解釋,為什么AlphaGo下了錯誤的83。

  這個局面特別復雜,把整個棋盤中間都卷進去了,可以說根本不是地塊劃分的問題。決定性因素就是怎么出棋,出多大的棋,出劫的話怎么造對自己有利的劫。從AlphaGo的算法來看,它會從當前這個局面進行搜索展開,對葉子節點給出判斷。一半是靠價值網絡,一半是靠“快速走子策略”走到終局。

  價值網絡的意思是,它靜態地看整個盤面,用一個多層的神經網絡直接算,就報告這個局面誰會勝。雖然它能“深度學習”到很多隱藏的概念,我們很難想象,在一個火藥桶一樣的盤面上,一個靜態的不搜索的神經網絡居然可以判斷清楚最終的勝負。這種復雜局面,我斷定價值網絡的判斷誤差是極大的。也許價值網絡在各種葉子節點粗粗地一看,黑棋在中間以多打少似乎應該是形勢一片大好。這應該不難理解,無論谷歌怎么拿幾億個局面訓練價值網絡,我也不相信它能判斷清楚。

  那么AlphaGo在葉子節點還有一半的機會,就是“快速走子”你一招我一招不停直到終局。這個快速走子策略的實力還不錯,速度比策略網絡快1000倍的情況下,單只靠這個策略就有KGS的3D實力,做得其實很好了。但我們再想想,這么復雜的盤面,兩個KGS的3D在那下到終局,你信得過它們的模擬質量?黑死還是白死估計就是隨機的了。如果讓兩個真實的人類3D在這個局面下,黑好白好確實可能等于扔硬幣。

  如果“快速走子終局”給的結果是隨機,基本就是價值網絡在那主導判斷了。它要是有系統性的錯誤偏向,誤以為黑形勢一片大好,那可能一大堆葉子節點都有類似錯誤,因為盤面很相似。所以綜合起來,AlphaGo的MCTS模塊,讓價值網絡在那高興,下了83和85還是繼續高興,勝率還是70%。終于在白下了86,黑87后,價值網絡發生了“跳變”,這里出現了棋塊特征的本質變化,一大片類似葉子節點的價值網絡判斷都倒轉過來,于是只一手,勝率就從70%跳到30%之類的悲慘數字了。

  這是我的猜測,只能盡量地往合理上靠,最終如何希望Deepmind能給出分析。但是顯然,復雜的對殺盤面會對價值網絡造成嚴重困擾,這應該是AlphaGo體系架構中一個不太好消除的命門。同時復雜的對殺盤面,又讓“快速走子策略”模仿精度下降。要是兩個3D在那下和平棋終局,你占10目我占9目,錯進錯出最后一平均是可能把局面好壞概率性模擬清楚。但要是50-50%機會的大對殺,就和其它地方無關了,模擬到最后也提供不了什么有效信息。

  AlphaGo搜索中的兩個武器都失靈了,就只有依靠“策略網絡”提供的各個候選點的概率了。同樣的原因,這個策略網絡只是一個靜態評估,復雜盤面各處頭緒很多,各種要點多得是,看上去的好點到處都是。我不相信策略網絡就那么湊巧對真正的好點給出高的概率。

  可以非常合理的認為,對于復雜的、頭緒很多的對殺盤面,AlphaGo所有的搜索武器都會失靈,容易做出錯誤選擇!三大搜索武器“策略網絡”、“價值網絡”、“快速走子終局數子”,全都失靈?。ㄓ^察者注:關于AlphaGo三大利器,田淵棟的這篇《AlphaGo的分析》做了很好的科普,作者為前谷歌工程師,Facebook智能圍棋 darkforest 的負責人和第一作者)

  都失靈了,不管你怎么調參數拼湊一個MCTS架構,最后也還是失靈。這就是AlphaGo的命門!

  讓我們人類開心的是,這并不是很難實現的!我和Zen下過,水平不夠怎么也下不過它。要么局部被它殺死,要么圈地大局觀搞不過。但是下多了,慢慢也琢磨出來了辦法。就不要怕它,這里開一片頭緒,那里開一片,留著不動。然后各種頭緒慢慢湊一起,這里的選擇會影響那里。這種情況下Zen就昏了,它的搜索武器其實比AlphaGo更差,更是全都失靈了。我雖然也昏,但就死盯著某一個“陰謀”,設計一條路線圖就夠了,不去搜索那么多亂七八糟的。最后哈哈,Zen上當了,我陰謀得逞,吃了一大片終于贏了。其實我的水平真的遠不如Zen,各個局面手段和大局明顯不如。

  那么對李世石這樣的職業高手來說,復雜盤面更不是個事了。職業高手能理清楚復雜盤面的推理邏輯,用清楚的變化圖給出殺招。這正是體現大高手水平的地方。

  因此我大膽推測,AlphaGo其實沒有那么可怕。所有MCTS為基礎的程序都有的大漏洞,它一樣有,而且從算法角度沒有什么好辦法解決!這是算法原理決定的,不是寫程序代碼錯了幾行的小bug。

  如果職業高手們了解了AlphaGo的漏洞,就不要客氣搞什么棋理圈地,直接就上去跟它殺!但不要在局部亂殺,不是說“在此決一勝負”,如李世石第一局開始的殺法,不對。要這里留點味道,那里留些頭緒,最后這些亂子湊到一起去,一定把AlphaGo弄昏頭。(觀察者小編:這里一點,那里一絲,留有余味。人類的曖昧啊,阿爾法狗暫時還學不會)

  因此,除了“不喜歡打劫”以外,AlphaGo還不喜歡復雜的盤面。所以前三局中它表現得特別喜歡定型,有手段就使出來,減少頭緒。這是它的搜索特性決定的。

  分析清楚以后就可以肯定,AlphaGo的漏洞不小。開始人類不了解它,看它下得象模象樣,還時不時有好招,被它嚇到了,沒有找到它的命門。它是有幾招絕活玩得不錯,封閉局面算得不錯,圈地運動搞得不錯,幾百萬次算到終局去人不可能玩得過。選點也很靠譜,算得快算得準。在它擅長的領域和它打,當然就不是對手,哪怕是人類最高水平的也不行。但復雜盤面是人類的天生優勢,這不是MCTS那幾招搞得定的,需要人類高手制造頭緒歸納頭緒的邏輯能力。

  AlphaGo的缺陷被測試出來以后,人類高手將可能對機器取得壓倒性的勝利。當然人類高手需要改變下法,不要和自己人下那樣講棋理數著目下。碰到機器就要攪,越復雜越好。不是一處變化多手數多那種復雜,而是攪出的頭緒越多越好。

  這還沒有提到打劫的能力,這更是人類高手勝過機器的地方。機器可以用控制流避開劫爭,但這終究不是辦法。如果人想通了,自己不要虛,大膽引入劫爭分支,機器總是避劫原理上就不合于棋道。當然這個分析起來更復雜。

  綜上所述,如果高水平圍棋程序還是基于MCTS架構的,都會有難以解決的大缺陷。我對人類高手一段時間內壓制機器充滿信心!

  

Comments are closed.

广西星悦麻将河池版 银行投资理财产品 二肖中特期期准免费 丨足球彩票比分直播 如何理财收益比較高 微乐湖北麻将手机版 宁波牌九绝技 河内五分彩投注网站 山西体彩泳坛夺金 球探比分即比分 九乐游戏棋牌平台 天天麻将柳州版外挂 体彩官方网站 电玩捕手机捕鱼 山东麻将打法 中大奖网站 三分彩平台