Re: [微信文章] 中國李喆六段評第一戰

看板GO (圍棋)作者 (台灣加油)時間9年前 (2016/03/11 00:18), 編輯推噓17(17033)
留言50則, 17人參與, 最新討論串6/6 (看更多)
講一下兩日棋迷對於這所謂低階失誤的看法。 李喆講出一些演算法的正確觀念,但有些地方他沒考慮到。 ※ 引述《tlm (Netherlands)》之銘言: : 【四、AlphaGo 的“失誤”】 : 這盤棋AlphaGo有沒有失誤? : 令人欣慰,從人的眼光來看,我們可以找到AlphaGo的明顯失誤。這種失誤不是指那種基 : 於人類經驗而認為的失誤(經驗有可能會騙人),而是可以通過邏輯分析來確認的失誤。 : 1 )“失誤”一: : 白136手吃。對於職業棋手而言很容易判斷,應該吃在一路,比實戰便宜大約1目。 : 2 )“失誤”二: : 白142手擋,對於職業棋手而言,這也是一個很容易確認的明顯虧損。 : 白棋正確的下法是1位跳,這樣將來留下了5、7、9吃兩子救回三子的下法,從目數上分析 : 明顯優於實戰(大約1-2目)。即使白棋不在5位扳,走8位先手粘掉也優於實戰一點點。 : 這兩處“失誤”都是在局部,沒有任何與外界的關聯性,屬於封閉式的失誤,其虧損可以 : 用邏輯推理的方式證明。相較於AI展示出來的水平,似乎這兩個失誤是“不應該”的。 : 基於此,又有棋手表示:“這都看不到,AI不過如此啊”。 : 前面“惡手”裡講到的左下角白棋的問題,也有人看做是第三個失誤。但那個失誤的性質 : 與這兩個不同,我們對那個失誤的認定在很大程度上還是基於經驗的,雖然也包含了邏輯 : 推理,但並不完全。在我看來,按照笛卡爾的理論,對這那失誤的認定是可懷疑的。 : 但這兩個失誤卻不可懷疑。既然如此,我為什麼要在標題裡給“失誤”打引號呢? : 這引出了一個非常有趣的話題:在棋盤上,失誤的定義是什麼? : 3 )不同的“失誤”定義 : 對於我們棋手而言,什麼是棋盤上的失誤?假如我們把基於經驗認定的失誤都排除在外, : 只留下基於邏輯推理認定的失誤,那麼失誤意味著:A在邏輯上優於B,而我選擇了B。 : 在這個意義上,只要我們找到了“可確認的更優下法”,就認為我們出現了失誤。 : 但是,對於AI而言,失誤是否意味著相同的事情?我們怎麼理解AI出現了在我們看來低於 : 其水準的失誤? : 這就涉及到AI的算法問題。假如AI有一天窮盡了圍棋,那麼只要它有一步不踏在最優解集 : 合裡,就是失誤。但是,現在的AI還遠無法窮盡圍棋。 : AlphaGo的算法運用了神經網路加蒙地卡羅,蒙地卡羅演算法的一個特點是:不求最優。 : 蒙地卡羅演算法給出的是搜索之後的勝率評估,然後AI會根據這個勝率來選擇落子點。也 : 就是說,AlphaGo本來就不追求最強最優的下法,它只是追求在它看來勝率最高的下法。 : 那麼,回到前面那兩個“失誤”,之所以打上引號,是因為在AlphaGo看來,或許這根本 : 不是失誤! : 雖然在我們人類看來,邏輯上明顯A優於B,但AI在那時認為兩者的勝率相似,從獲勝的角 : 度來說,兩者沒有區別!甚至A之後的犯錯機率高於B,從而導致它認為B的勝率高於A! : 如果兩條路同樣能通往勝利,在AI的意義上,你還能說它是失誤嗎? : 或許能! : 但是前提條件是人類利用這種“失誤”擊敗了它!否則,在AI的意義上我們無法指責那是 : 它的失誤。 蒙地卡羅演算法並不是不求最優,只求勝率最高。精準一點的講法是,它根本不知  什麼是最優,它是從它的有限模擬中,將勝率最高的,當做是最優的。  因為這個原因,演算法在大部份的情況下,它並不能確定它下的是不是最優的。那  為什麼會在好像困難的大局下出好棋,但在局部的地方,出現低階失誤?  老實說,我認為根本完全不是失誤。二日棋迷棋力不夠,請有實力的人看一下我猜  的對不對。在局末,優勢確定下, AI 是可以選擇,略微吃虧,但較有把握的方法  。也就是說,可能到最後, AI 認為剩下的地方,這兩處是它相對沒有把握的,但  這兩處輸個三目,它確定還領先,那它當然願意選擇這樣做。人類是經過一些邏輯  判斷,確定這裡怎麼下最好。對 AI 來說,它的模擬可能也是跟它說,這樣下最好  。但它大概有另一個訊息,若照實際的下法,雖然吃虧,卻有把握不輸太多。相對  的那些最優下法,它怕其實是自己沒模擬到。  所以,請厲害的棋手看一下,這兩處是否是在收官時,相對複雜的地方?而 AI 下  的地方,是不是後續變化相對單純的地方?如果是的話,那 AI 根本沒有失誤,只  是用另一種方式來確保勝利。如果局面落後, AI 依然下出這種非最佳解,我們才  比較有把握說這是低階失誤。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.74.113 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457626727.A.E44.html

03/11 00:25, , 1F
所以會想要改貼目設定去逼AlphaGO看看
03/11 00:25, 1F

03/11 00:31, , 2F
這解釋蠻合理的。
03/11 00:31, 2F

03/11 00:34, , 3F
A有80%的可能贏20目,B有90%的可能贏1目,以程式來講
03/11 00:34, 3F

03/11 00:35, , 4F
會跑B,但以人來看是一步緩手...小猜想
03/11 00:35, 4F

03/11 00:37, , 5F
小局部MC不是等於窮解嗎
03/11 00:37, 5F

03/11 00:37, , 6F
同意jimmy20642的推論。
03/11 00:37, 6F

03/11 00:37, , 7F
小局部能窮解只是正好和勝率解同解?
03/11 00:37, 7F

03/11 00:38, , 8F
收官其實不是重點啊 大家都知道電腦收官超強
03/11 00:38, 8F

03/11 00:38, , 9F
大家都知道電腦收官超強,但棄子爭先全壓先手收官的想法
03/11 00:38, 9F

03/11 00:38, , 10F
就很意外了…
03/11 00:38, 10F

03/11 00:39, , 11F
變化擺得完的話,兩解應該收斂
03/11 00:39, 11F

03/11 00:40, , 12F
所以其實落後不多也應該下下看拚一拚?
03/11 00:40, 12F

03/11 00:40, , 13F
越後面電腦計算能力越省力,也會越好是正常的。
03/11 00:40, 13F

03/11 00:41, , 14F
我覺得棄子爭先職棋想得出來,前提要有時間
03/11 00:41, 14F

03/11 00:41, , 15F
掌控時間也是棋力的一部分啊....
03/11 00:41, 15F

03/11 00:42, , 16F
jimmy20642 講的情況,還要配合目前領先落後,棋局階段,
03/11 00:42, 16F

03/11 00:43, , 17F
然後 AI 再根據哪個是通往最後勝利的最好機會
03/11 00:43, 17F

03/11 00:44, , 18F
若是落後個十目,或許就選 A 了
03/11 00:44, 18F

03/11 00:45, , 19F
然後,大家可能太小看所謂的局部能窮解
03/11 00:45, 19F

03/11 00:45, , 20F
首先,什麼叫局部,對於有棋感的棋手,這當然不是問題
03/11 00:45, 20F

03/11 00:46, , 21F
但對於 AI 來說,多遠算是局部,都沒那麼容易
03/11 00:46, 21F

03/11 00:47, , 22F
所以,局部的問題,是相對容易,但不見得 AI 能算完
03/11 00:47, 22F

03/11 01:03, , 23F
你太低估ai了 今天很明顯計算是不同水平的
03/11 01:03, 23F

03/11 01:04, , 24F
AI本來就不是把所有變化算完啊,他只是掃了一遍眾多
03/11 01:04, 24F

03/11 01:04, , 25F
變化的勝率而已
03/11 01:04, 25F

03/11 01:05, , 26F
然後他下了勝率最高的那個變化
03/11 01:05, 26F

03/11 01:06, , 27F
棋諺第一句就說勝利不用勝的多了
03/11 01:06, 27F

03/11 01:09, , 28F
對電腦來說 第幾手後就算收關了
03/11 01:09, 28F

03/11 01:13, , 29F
說真的電腦的思考在跑局部最佳解,人類又何嘗不是呢?
03/11 01:13, 29F

03/11 01:14, , 30F
搞不好是人類自己腦中沒run到 而電腦看到輸的可能
03/11 01:14, 30F

03/11 01:16, , 31F
圍棋對電腦來說是減法,每走一步可能性就減少許多
03/11 01:16, 31F

03/11 01:18, , 32F
那可能真的是人類無法理解的領域了,看那天Google如
03/11 01:18, 32F

03/11 01:18, , 33F
果有釋出程式或再開放更多挑戰,看AlphaGo跟職業棋士
03/11 01:18, 33F

03/11 01:18, , 34F
下能不能打出他看到的逆轉,再翻轉當前的圍棋理論
03/11 01:18, 34F

03/11 01:20, , 35F
AG雖不能講話,但還是可以下棋讓更多人看見他的思路
03/11 01:20, 35F

03/11 01:25, , 36F
把兩台AlphaGO互打的情況拿出來看 或許就能發現什麼
03/11 01:25, 36F

03/11 01:40, , 37F
AG左右互搏可能有太多跟人類不同的理解,還是跟人類
03/11 01:40, 37F

03/11 01:40, , 38F
對弈比較好
03/11 01:40, 38F

03/11 01:40, , 39F
如果有程式碼 就可以讓他顯示每一步的搜尋樹跟評分
03/11 01:40, 39F

03/11 01:45, , 40F
這要和開發團隊合作才有可能 例如從某一手以後雙方交換
03/11 01:45, 40F

03/11 01:46, , 41F
看看 AlphaGo 要怎麼對付自己出的招
03/11 01:46, 41F

03/11 01:51, , 42F
如果人下不活的讓電腦來下能活, 那棋力高低就沒有疑問了
03/11 01:51, 42F

03/11 03:15, , 43F
AlphaGo裡面神經網路的訓練目標的確是以勝負結果為主
03/11 03:15, 43F

03/11 03:16, , 44F
因此贏10目還是贏2目對它而言都是一樣的
03/11 03:16, 44F

03/11 03:17, , 45F
它主要想確定的是 它贏棋的"機率"
03/11 03:17, 45F

03/11 09:52, , 46F
alphaGo 釋出程式碼也鍛鍊不出現在的強度。
03/11 09:52, 46F

03/11 09:53, , 47F
除非 DeepMind 連train 好的參數都願意公開
03/11 09:53, 47F

03/11 09:53, , 48F
我其實覺得他們可以公開給職棋玩看看和測試
03/11 09:53, 48F

03/11 09:54, , 49F
但會不會干擾現在的 trained result 就不一定了
03/11 09:54, 49F

03/11 22:09, , 50F
推40樓。自我否定的否定 是真正的檢驗
03/11 22:09, 50F
文章代碼(AID): #1MuPvdv4 (GO)
文章代碼(AID): #1MuPvdv4 (GO)