Re: [問題] 為什麼現在AlphaGO開始會"讓"呢?

看板GO (圍棋)作者 (Peaceful Warrior)時間9年前 (2017/05/23 20:23), 9年前編輯推噓11(12129)
留言42則, 17人參與, 最新討論串2/5 (看更多)
這問題從第一次人機戰開始就不停有人問,我來認真解釋一下好了 其實推文也有人講到重點了 大家已經知道電腦看的是勝率了,這是根本原因沒錯 但這勝率是怎樣來的才是重點 簡單說AlphoGo有兩個系統 一個可以靠當下就猜出大概每步棋的價值(可以簡單想成勝率) 另一個就是,反正我就選一步,然後自己左右互搏下他個上千盤,看勝率多少就好 目前v25版本的第一個系統到底有多準 還有這兩個系統現在互相比重佔了幾成 在官方公布前不知道 我們就簡單先拿容易理解的第二系統來說 就會知道AlphaGo到底在"讓"什麼鬼了 現在假想一個情境:AlphaGo執白,棋局已到中後盤全局無弱棋,領先5目半 但這"領先5目半"從人類的角度來看的 電腦看到什麼呢?他只看到"我怎麼下勝率都接近100%" 那假如現在有10個可能的選點 其中最好的一手(不損目)的只有1種 損1目、損2目、損3目的各三種 AlphaGo把每一種都試一次之後結果會發現,啊怎麼好像都一樣啊?(勝率都接近100%) 於是只剩一些微小的模擬隨機誤差來決定他想選哪個 簡單說等於他就是隨便選了一個,當然選中最佳解的機率是不高的 所以雖然人類角度看起來他就是在損、在讓 但在電腦的角度這叫做"我就真的不知道哪個比較好啊?看起來不都一模一樣嗎?" 當然,這絕對是不影響最終勝負的 因為假如電腦不幸選了損3目的棋,現在上帝視角來看盤面只領先2目半了 下一次同樣看到10的選點,一樣的價值分布 他會發現,不損目、損1目、損2目的勝率都一樣,接近100%,但損3目的勝率只有30% 他很自然就會在前三種可能性隨機挑一個,但絕不會挑到會輸的那種 如此隨機的挑著挑著,由於每次最佳解被挑到的機率,一定小於其他解 最後結果就是會變成只贏一點點,但他就是會贏 這其實是很有趣的一個地方 因為”思考方式”的不同造成互相不理解 就像電腦也會覺得人類布局的棋非常詭異(假如電腦有感情的話) 明明我試了一千次就發現A下法勝率比B下法高5百分點 你為什麼還是選A,你是故意在讓我嗎? 他就無法理解人類真的就是沒辦法看出A、B哪個選點比較好 就只是靠感覺隨便選了一個而已 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.6.25 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1495542184.A.EC1.html

05/23 20:27, , 1F
現在盤勢分析,看到阿發狗開始讓,就知道這盤勝負已定..
05/23 20:27, 1F

05/23 20:29, , 2F
更精確的說就是他發現每步勝率都差不多(接近100%)
05/23 20:29, 2F

05/23 20:29, , 3F
所以選到最佳解的機率開始下滑
05/23 20:29, 3F

05/23 20:30, , 4F
局勢差不多的時候,最佳跟次佳解的勝率差距一定很大
05/23 20:30, 4F

05/23 20:30, , 5F
那他就一定會走到最佳解
05/23 20:30, 5F

05/23 20:32, , 6F
所以只有在均勢的時候才能逼出ai的實力 也才會造成計算
05/23 20:32, 6F

05/23 20:32, , 7F
負擔 那時對電腦限時才有意義
05/23 20:32, 7F

05/23 21:07, , 8F
奇怪,那為何不能設計穩贏的時候再追求最多領地?
05/23 21:07, 8F

05/23 21:08, , 9F
而且alphaGo下緩的時候真的判斷100%贏了嗎?應該還沒吧
05/23 21:08, 9F

05/23 21:17, , 10F
100%是好理解的講法,精確說就是勝率起伏不大了
05/23 21:17, 10F

05/23 21:26, , 11F
因為目數多寡跟勝負不是完全正相關的 為了降低演算法的負擔
05/23 21:26, 11F

05/23 21:26, , 12F
應該還有另外一種可能: 虧的走法真的勝率比較高
05/23 21:26, 12F

05/23 21:27, , 13F
這個應該能解釋中盤放緩,不是指尾盤可以算盡的時候
05/23 21:27, 13F

05/23 21:34, , 14F
有優勢的時候 做小虧的交換來取勝說不定勝率真的比較高
05/23 21:34, 14F

05/23 21:36, , 15F
反正贏多贏少都是贏 優勢本來就是一種籌碼
05/23 21:36, 15F

05/23 22:07, , 16F
大推,請問文章可轉載於弈棋嗎?謝謝您!
05/23 22:07, 16F

05/23 22:59, , 17F
雖然alphaGo選擇勝率高的走 但勝率高的不一定是有理的棋
05/23 22:59, 17F

05/23 22:59, , 18F
但要讓alphaGo走進盲點必須要那條path深到alphaGo算不到
05/23 22:59, 18F

05/23 23:13, , 19F
他能設計穩贏追求更多領地 但沒有意義 Deepmind不是圍棋設
05/23 23:13, 19F

05/23 23:14, , 20F
計公司 他要盡量在「最少規則」下做最多的事情 以確保他設
05/23 23:14, 20F

05/23 23:14, , 21F
計出來的演算法可以應用在更多領域
05/23 23:14, 21F

05/23 23:40, , 22F
我覺得電腦計算上一定會判斷+-目數 公司也知道alphago跟
05/23 23:40, 22F

05/23 23:40, , 23F
神一樣了 這場跟人類下就真的是指導棋 有沒有可能其實中
05/23 23:40, 23F

05/23 23:40, , 24F
國棋院早在比賽前枱面下安排妥當了 公司賽前對祂輸入指令
05/23 23:40, 24F

05/23 23:40, , 25F
:+1/4
05/23 23:40, 25F

05/24 00:08, , 26F
推 很有說服力
05/24 00:08, 26F

05/24 01:03, , 27F
今天忘了哪位解說者有講, 對人來說, 優勢越大棋盤越小
05/24 01:03, 27F

05/24 01:03, , 28F
所以人會追求多贏
05/24 01:03, 28F

05/24 02:10, , 29F
推 原來是這樣啊
05/24 02:10, 29F

05/24 03:27, , 30F
人類感覺的贏到爆勝率也沒接近百分之百,有看過zen6之類
05/24 03:27, 30F

05/24 03:27, , 31F
的中盤頂多6-70%,收官也9x%;電腦剪枝加挑穩的下,絕不
05/24 03:27, 31F

05/24 03:27, , 32F
是什麼99.x% 跟 99.x%穩贏下哪都沒差。alphago 就是在比
05/24 03:27, 32F

05/24 03:27, , 33F
賽結束前逐步往100提升至
05/24 03:27, 33F

05/24 05:08, , 34F
你到底有沒有看論文 不懂裝懂。。。
05/24 05:08, 34F

05/24 07:09, , 35F
為啥要設計成領先越多目勝率沒越高?
05/24 07:09, 35F

05/24 07:56, , 36F
因為用找最大勝利目數來算會有經典的平均數問題
05/24 07:56, 36F

05/24 07:56, , 37F
全世界平均一個人一顆睪丸?
05/24 07:56, 37F

05/24 07:57, , 38F
目數高不代表勝率高
05/24 07:57, 38F

05/24 10:46, , 39F
從MCTS的原理來看,贏10目和贏1目對勝率加成都是一樣的
05/24 10:46, 39F

05/24 10:48, , 40F
電腦看勝率不是看贏多少目,而是接下來的N種變化中
05/24 10:48, 40F

05/24 10:48, , 41F
出現勝利盤面最多的走法
05/24 10:48, 41F

05/24 12:07, , 42F
有興趣請參考Monte Carlo tree search這是alphago的核心
05/24 12:07, 42F
稍微澄清一下 1. 100%是誇張的說法,實際上通常頂多就是70%, 80%之類, 但這對電腦已經算是很穩的意思了,套句人類口語說法就是"贏定了" 2. 如果某損目下法,確實能讓局面更穩勝率提高,這選擇沒啥爭議, 我只是特別針對某些明明看起來損了目, 同時其他不損目的下法也完全看不出有什麼風險在裡面, 甚至感覺上沒有減少到任何複雜度的特別情境討論而已 很多人懷疑這種100%盡損的棋一定是刻意讓,其實不是 3. 這只是個簡化和只取片段的說法 若直接照搬說AlphaGo就是這樣判斷的,確實會有點誤導之嫌, 我只是單純用非常簡單誇張的例子, 讓大家試著從勝率之眼去看棋盤, 而不是從人類數目的眼光去看 ※ 編輯: BBSealion (114.25.6.25), 05/24/2017 21:30:00
文章代碼(AID): #1P92cex1 (GO)
文章代碼(AID): #1P92cex1 (GO)