Re: [問題] 再和alphago重覆同一盤棋?

看板GO (圍棋)作者 (shantotto)時間9年前 (2016/03/17 01:05), 編輯推噓6(608)
留言14則, 5人參與, 最新討論串3/3 (看更多)
※ 引述《Dialysis (Chiquitia)》之銘言: : 不好意思,有個問題想了好一會兒,實在是不確定答案, : 想來也只有這個板最合適問。 : 倘若重覆alphago第一盤和李世石的對奕內容, : 那麼,alphago還會下出一樣的步數嗎? : 我的直覺告訴我,應該是不一樣, : 但,到底隨機的機轉及其比重占了多少,實在是不懂如何去思考, : 請問有人能釋疑? 圍棋的一個盤面其實有八種變形, 對稱 2 種乘上旋轉 0/90/180/270 度 4 種. 完全相同的局面, 只是觀棋的角度不同. 然而把這些盤面變形丟進 Policy/Value Network 得到的值不會完全相同. 把類神經網路設計成遇到變形可以吐出相同的值並不是辦不到, 但會有一些副作用, 像是效果較差或是鑑別不出特殊的對稱棋型. 一個解決的方法是把八種變形都丟進去算取平均, 棋力會更高一點但速度慢很多. 所以 AlphaGo 實戰時是算到某個盤面時隨機取一種變形, 再次算到時再取另一種變形平均, 一個盤面的估算最多是八種變形的平均. 如果這裡的隨機是真隨機而非固定順序, 那麼同樣的盤面還是會有微妙的差異影響後面的應手. 不過我個人認為... 實戰用八倍的 GPU 下去解決比較快, 雖然很耗電 :p -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.17.29 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1458147928.A.F21.html

03/17 02:33, , 1F
推,我的理解(可能不對)是AlphaGo使用的蒙特卡羅變形是
03/17 02:33, 1F

03/17 02:33, , 2F
沒有隨機性的(非常簡化來說,如果有個盤面下A手的機率和
03/17 02:33, 2F

03/17 02:34, , 3F
B手的機率是2:1,那可能就會A-B-A-A-B-A...這樣去搜尋
03/17 02:34, 3F

03/17 02:44, , 4F
說不定唯一的隨機性就是原po提到的這點?
03/17 02:44, 4F

03/17 03:35, , 5F
同一個點不保證每次算都一樣
03/17 03:35, 5F

03/17 13:18, , 6F
有個問題耶...同樣的盤面,因為方向不同,下起來會有差嗎?
03/17 13:18, 6F

03/17 13:18, , 7F
程式來說把這八種變化視同為一種不難呀...o.Oa
03/17 13:18, 7F

03/17 14:06, , 8F
對喔還有旋轉 XD
03/17 14:06, 8F

03/17 17:28, , 9F
其實也沒這麼多,開局黑棋第一手有不成文的習慣要下右
03/17 17:28, 9F

03/17 17:28, , 10F
這樣就已經扣掉很多對稱重複問題了
03/17 17:28, 10F

03/17 17:28, , 11F
要下右上角
03/17 17:28, 11F

03/18 02:50, , 12F
像原po解釋的,paper有提到故意設計讓它的判斷標準對稱
03/18 02:50, 12F

03/18 02:51, , 13F
可以做到但實戰會變弱XD 其實我不懂為什麼
03/18 02:51, 13F

03/18 02:51, , 14F
不過我覺得八倍的GPU還是不太值得? 至少多搜一層呢XD
03/18 02:51, 14F
文章代碼(AID): #1MwP9OyX (GO)
文章代碼(AID): #1MwP9OyX (GO)