Re: [討論] 李世石 VS AlphaGo 第二局看法

看板GO (圍棋)作者 (可以吃嗎?)時間9年前 (2016/03/11 15:56), 9年前編輯推噓21(254105)
留言134則, 28人參與, 最新討論串10/14 (看更多)
看很多不下棋的在那邊放話好像電腦每一步都是對的,覺得可以細想一下程式的原 理,畢竟目前的程式離真理還是有很大的差距的。我也只是個十幾年前的業四,也 不敢說要評棋,但一些簡單好壞應該還是可以講講。 棋類不像POKER、麻將、或撲克牌遊戲是機率遊戲,棋類很多地方是有唯一解的。用 死活詰棋當例子,如果電腦真的只是用機率判斷,勝率最高的那點可能是: [對手應的若是那唯一解電腦必死,下其他任何點電腦都活,勝率99%] 電腦應該選擇這變化嗎?當然不該! 當然我相信AG程式裡會對必勝必敗的點做排除(不然可能連簡單攻殺都會出錯),但 我只是強調AG用所謂"最高勝率"判斷落子的策略也正是目前電腦應該還可以被擊敗 的原因。越早期的著手你要用勝敗機率來判斷越是困難,也很好理解為什麼電腦前 期容易出現惡棋。 柯潔講話那麼托大我覺得也是有原因的(當然我覺得他來下也不見得會贏),就是因 為電腦還是有出現明顯的壞棋。AG有些疑問手有可能是好棋,像11虎完13手拔,或 37尖沖這種過去普遍覺得不太好的,也許事實上並不太虧。 (解釋給X日棋迷:通常13要手拔不會先虎,因為那會把棋下重容易被攻。尖沖通常 認為對方若在3路你尖沖合理,對方在4路你讓人4路圍空通常是虧的,也就是為什 麼評論會認為小李怎樣都該往4路那邊壓而不該實戰往5路壓) 但43黏到61是黑不好的型這應該是沒甚麼爭議的。若實戰李沒有之後幾個緩手讓黑 下到73,而是早一步攻擊那塊弱棋,那應該會是白主動的局面。換個方向想,電腦 中間那坨單官下半天最後還要多花一手73來連回,想也知道不可能好。 因為棋不是機率遊戲,但電腦是用機率來判斷,因此人若能把握這點下出局部最佳 解應是可以在佔些便宜的。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.51.208 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457683013.A.1C2.html

03/11 15:58, , 1F
電腦資源不是無限 而電腦判斷計算難易的方法也跟人不同
03/11 15:58, 1F

03/11 15:58, , 2F
所以可能有部分落子人來看很容易計算出優劣 電腦很難
03/11 15:58, 2F

03/11 15:58, , 3F
本來就是這樣了 電腦又不是神 只要有失誤就會輸
03/11 15:58, 3F

03/11 15:58, , 4F
於是對於電腦來講自然該去下別種選擇
03/11 15:58, 4F

03/11 15:59, , 5F
電腦每一步大概都只有5成多把握而已 強就強再不會失常而
03/11 15:59, 5F

03/11 15:59, , 6F
以上優劣說的是局部可以算出絕對優劣的地方.
03/11 15:59, 6F

03/11 16:00, , 7F
來個天才型的高手把把都出妙手 電腦自然越下勝率越低
03/11 16:00, 7F

03/11 16:00, , 8F
不需要跟電腦拼計算 用大局意識跟電腦玩
03/11 16:00, 8F

03/11 16:02, , 9F
真的很多不懂圍棋的在那邊自以為 連叫吃是什麼都不知
03/11 16:02, 9F

03/11 16:05, , 10F
電腦後面盤面越窄 精確率會越高 人類只有前期有機會
03/11 16:05, 10F

03/11 16:09, , 11F
你講的就是李喆說的,電腦欠缺邏輯論證的推理
03/11 16:09, 11F

03/11 16:09, , 12F
AlphaGO大局觀還是不錯 能夠在這上面贏過AlphaGO還
03/11 16:09, 12F

03/11 16:09, , 13F
很難說
03/11 16:09, 13F

03/11 16:10, , 14F
職業棋士的比賽,如果最後靠對方犯錯獲勝,那也不是值得
03/11 16:10, 14F

03/11 16:11, , 15F
記錄的名局。本來圍棋的勝負就是要全部都是合理應手。
03/11 16:11, 15F

03/11 16:12, , 16F
推 中肯!
03/11 16:12, 16F

03/11 16:15, , 17F
沒人在懷疑你說的那些地方AG有問題 關鍵是中前盤看似不1
03/11 16:15, 17F

03/11 16:16, , 18F
好的棋到底有沒有不好 另外一方面 李喆也推測 這種邏輯
03/11 16:16, 18F

03/11 16:16, , 19F
上就證明不好的選擇 可能隨著局勢越緊張接近而越少會作
03/11 16:16, 19F

03/11 16:16, , 20F
03/11 16:16, 20F

03/11 16:17, , 21F
多賺一目的價值會隨著局勢僵持緊張甚至劣勢=而變大
03/11 16:17, 21F

03/11 16:18, , 22F
而之後需要負擔的計算複雜度(風險)是固定的
03/11 16:18, 22F

03/11 16:18, , 23F
其實我覺得現在很大一個點就是,人類覺得的好壞,似乎
03/11 16:18, 23F

03/11 16:18, , 24F
問題就是當電腦在布局下出怪手 小李並沒有去反擊
03/11 16:18, 24F

03/11 16:18, , 25F
AG不這麼認為,而事後看起來也...
03/11 16:18, 25F

03/11 16:18, , 26F
所以說夠僵持的時候"推測"可能就不會出這些看起來有問題的
03/11 16:18, 26F

03/11 16:19, , 27F
你第一行哪來的? 幾乎沒人這樣講
03/11 16:19, 27F

03/11 16:19, , 28F
如果前兩盤是針對AlphaGO可能的弱點 而下出有別以往
03/11 16:19, 28F

03/11 16:19, , 29F
的策略/棋風 那在0:2下 後三盤我也認為該回到合理的
03/11 16:19, 29F

03/11 16:19, , 30F
應手
03/11 16:19, 30F

03/11 16:19, , 31F
所以根本也無法說那些是好棋 反正人類還是不會學電腦的棋
03/11 16:19, 31F

03/11 16:19, , 32F
好棋是慢慢累積的 壞棋是後面無法挽回的
03/11 16:19, 32F

03/11 16:19, , 33F
我不算懂圍棋 只看了柯直播
03/11 16:19, 33F

03/11 16:19, , 34F
柯一直說李下的很怪 不像平常的李
03/11 16:19, 34F

03/11 16:20, , 35F
會扯到劫也是說打劫去拼九死一生
03/11 16:20, 35F

03/11 16:21, , 36F
不打劫去拼十死無生 只是局面不會整個崩這樣輸
03/11 16:21, 36F

03/11 16:21, , 37F
問個白癡問題,AlphaGo的型不好那麼顯而易見
03/11 16:21, 37F

03/11 16:21, , 38F
然而李沒打劫 所以柯一直覺得很奇怪
03/11 16:21, 38F

03/11 16:21, , 39F
那時李也沒時間了 在讀秒
03/11 16:21, 39F
還有 55 則推文
還有 4 段內文
03/11 17:07, , 95F
想在早期靠"不是很好的著手"取得利益, 本身也很難做到
03/11 17:07, 95F

03/11 17:08, , 96F
AlphaGo 當然不是無敵, 單機都還是可以擊敗分散式了
03/11 17:08, 96F

03/11 17:08, , 97F
樓上,當然,alphaGo還沒有train到最好
03/11 17:08, 97F

03/11 17:09, , 98F
就算train到最好,也不一定能到圍棋之神的實力
03/11 17:09, 98F

03/11 17:11, , 99F
問題是要壓過人類 實力不需要到圍棋之神啊 @@
03/11 17:11, 99F

03/11 17:14, , 100F
是的。
03/11 17:14, 100F

03/11 17:16, , 101F
所以單機和分散對下是不錯的指標, 愈靠近 100%, 就知道
03/11 17:16, 101F

03/11 17:16, , 102F
實力愈強了
03/11 17:16, 102F

03/11 17:17, , 103F
實際上alphaGO進步的地方並非單機跟離散
03/11 17:17, 103F

03/11 17:17, , 104F
離散勝率高只是因為它算得比較快,可以多算一點
03/11 17:17, 104F

03/11 17:18, , 105F
alphaGO進步的話則是在算之前的候選挑選進步
03/11 17:18, 105F

03/11 17:18, , 106F
要知道實力有沒有變強應該是用新版的跟舊版的比較
03/11 17:18, 106F

03/11 17:20, , 107F
理論上算的愈深愈有機會找到更佳解 新舊只差在訓練
03/11 17:20, 107F

03/11 17:21, , 108F
分散式勝率提高代表運算加深以後正確率有提高
03/11 17:21, 108F

03/11 17:23, , 109F
alphaGO的重點就在訓練,搜尋多深都只是硬體的問題
03/11 17:23, 109F

03/11 17:24, , 110F
我甚至認為,當train的越好,單機的勝率會提升
03/11 17:24, 110F

03/11 17:26, , 111F
單機或分散 兩邊都 train 過一樣的東西啊 /_\
03/11 17:26, 111F

03/11 17:27, , 112F
分散能找到更多確實更好的選擇 才是代表訓練成功不是嗎?
03/11 17:27, 112F

03/11 17:27, , 113F
找到好的選擇這件是對單機跟分散是一樣的
03/11 17:27, 113F

03/11 17:28, , 114F
差別在於分散從好的選擇裡面挑出最好的會更好
03/11 17:28, 114F

03/11 17:28, , 115F
所以如果deep learning 已經好到幫你挑的非常好
03/11 17:28, 115F

03/11 17:28, , 116F
那你其實不太需要運算量就能選出最好的那步
03/11 17:28, 116F

03/11 17:29, , 117F
此時就不太需要分散運算
03/11 17:29, 117F

03/11 17:29, , 118F
我覺得在前中段講這個沒啥可能耶 後段則已經是公認的強
03/11 17:29, 118F

03/11 20:46, , 119F
同marrvosal 覺得單機勝率越高才表示成長 克服了運算速度
03/11 20:46, 119F

03/11 20:49, , 120F
你的解釋一日棋迷看的懂才有鬼 有的話樓下幫我吹
03/11 20:49, 120F

03/11 21:42, , 121F
marrvosal的解釋完全正確。
03/11 21:42, 121F

03/11 22:37, , 122F
我這種只上過AI intro的人都看得出來你講什麼胡話。
03/11 22:37, 122F

03/11 22:37, , 123F
蒙地卡羅基於的本來就是最大最小樹。維基一下最大最
03/11 22:37, 123F

03/11 22:37, , 124F
小樹就完全解答你這篇的外行問題了。
03/11 22:37, 124F

03/12 00:25, , 125F
哥沒上過AI intro,你可以在板上開課,請
03/12 00:25, 125F

03/12 00:39, , 126F

03/12 00:39, , 127F
這裡就有說會有我提的疑問了,加入minimax可以理解,但那是
03/12 00:39, 127F

03/12 00:40, , 128F
game theory的東西跟monte carlo tree不是直接關係,謝謝
03/12 00:40, 128F

03/12 00:42, , 129F
總之就是加一個選擇最好的最差解的判別來濾掉必敗局面
03/12 00:42, 129F

03/12 02:40, , 130F
我還是覺得不是,Monte Carlo tree search理論上會收斂
03/12 02:40, 130F

03/12 02:41, , 131F
到minimax,我猜測這裡也是類似的原理:自己和對方的好
03/12 02:41, 131F

03/12 02:43, , 132F
手在MC tree裏頭會走得特別深。如果對『好手』的判斷
03/12 02:43, 132F

03/12 02:43, , 133F
夠準就可以避免你說的問題。
03/12 02:43, 133F

03/12 02:48, , 134F
我也不知道我說的對不對,marrvosal要不要發一篇教學XD
03/12 02:48, 134F
文章代碼(AID): #1Mudf572 (GO)
討論串 (同標題文章)
文章代碼(AID): #1Mudf572 (GO)