Re: [情報] Alphago新的自戰對局

看板GO (圍棋)作者 (可以吃嗎?)時間7年前 (2017/05/27 23:07), 7年前編輯推噓15(15061)
留言76則, 13人參與, 最新討論串2/2 (看更多)
※ 引述《HeterCompute (異質運算)》之銘言: : https://deepmind.com/research/alphago/alphago-vs-alphago-self-play-games/ : AlphaGo說每天都會更新10盤新的自我對戰。 : PS:一開始點進去第一盤好像會有bug不能按, : 要看的話請自己點一下其它盤再點回來第一盤。 : PS2:10盤有8盤黑棋爆炸,看來貼目7.5太多了XD 看野狐職棋講前三盤,大致就是一直說看不懂:D 如果說真要從AI學些甚麼,大概主要在佈局階段吧。模擬出來的結果 讓人知道不同佈局下哪邊才是最大的大場。 用這角度思考很好理解為什麼AI通常不會把人類定石下完,因為定石 的每步交換都是只看"區域"的兩分而較少考慮全局,而每步價值可能 是遞減的,比方說佔空角可能價值20目,掛角可能值15目,再下一步 可能只剩10目,所以AI可能掛完就手拔了,因為外面有更大的點(AI 理解為勝率更高) 再來就是不同局面下先手價值多大或甚麼時候可以手拔也是可以跟AI 學習判斷的。不管AI互下或跟人下的譜常常就是一直手拔,有時做些 區域被認為損目的交換就是為了搶先手。這次覺得柯潔很厲害的點就 是三盤似乎都不像上次李世石那麼被動,他很努力在各種情勢中設法 脫先,避免局勢完全被電腦帶著走,但可惜實力有差距 想想真要對人類學棋更有意義的話可能還是要人類和AI對弈。從AI邏 輯來想,他的勝負手或官子都和人類理解的最佳下法有差異,而且對 人下棋的邏輯來說是沒甚麼幫助的。比方說收官吧,人類落後時仍會 下最佳解(最大官子)等待機會,但對AI來說他早就預見這樣收必敗, 勝率很低。所以AI互下時落後方AI的選點可能是人類一看明顯沒棋又 損目的送菜(對AI來說送菜的點可能他模擬時才有勝機),而領先方AI 可能判斷大優勢所以一直退讓也一樣在損目,這種時候兩邊都不是下 最佳解,那自然就不一定值得學 這次放出的AI對奕譜大概都是挑過的,猜測應該都是挑選全盤兩方估 計勝率維持相近或是有勝率倒轉的才較有可看性。不然很多AI對奕的 譜應該是一面倒,落後方不斷用無理手測試然後越虧越多勝率不斷被 拉開後投子 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.83.66.131 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1495897678.A.F8D.html

05/27 23:10, , 1F
意思就是對手愈強,展現出來的棋譜素質也就愈高
05/27 23:10, 1F

05/27 23:12, , 2F
但十盤棋譜素質高到幾乎沒有棋手懂,棋感差太多了
05/27 23:12, 2F

05/27 23:16, , 3F
我的看法跟你不一樣 序盤也沒辦法學AI,因為你不知
05/27 23:16, 3F

05/27 23:16, , 4F
道他後續的下法,學都無從學起,只能說境界真的差太
05/27 23:16, 4F

05/27 23:16, , 5F
05/27 23:16, 5F
他等於提供一個模擬數據告訴你這步手拔去下其他點的點位價值更大。當然你 可能不太確定兩者到底分別"多大",但你願意相信AI判斷的話可以參考他的比 較結果來排列兩點的價值高低。畢竟AI怎樣下都沒違背基本棋理太多,他比較 常推翻的是人類的"習慣下法"

05/27 23:18, , 6F
如果明後年的佈局跟今天差異很大,新手新型超多,算不算
05/27 23:18, 6F

05/27 23:18, , 7F
學到?
05/27 23:18, 7F

05/27 23:20, , 8F
能學是必然的 只是能學得而且能夠理解應該是少數中的少數
05/27 23:20, 8F

05/27 23:21, , 9F
就跟人一樣 每個人出生就有差異了 總有幾個人是特別能夠
05/27 23:21, 9F

05/27 23:22, , 10F
對圖形理解分析較強 而且計算能力好的 不過這樣的人大多
05/27 23:22, 10F

05/27 23:22, , 11F
不是在玩圍棋罷了
05/27 23:22, 11F

05/27 23:23, , 12F
AG每天下成千上萬盤棋要怎麼挑?最多就是讓黃博士針對
05/27 23:23, 12F
很容易啊,寫程式篩選勝率圖,比方選多少手內勝率沒有太大分歧的,或是 勝率圖有多次黃金死亡交叉的,汰除那種快速一面倒一條斜線向上的勝率圖 棋局

05/27 23:23, , 13F
每個定石都是好幾十個變化然後妥協出來的,要改變就
05/27 23:23, 13F

05/27 23:24, , 14F
是要把他一整套學起來,不然你只模仿他那一步,別人
05/27 23:24, 14F

05/27 23:24, , 15F
這就好像人剛剛發現日心說,AI突然丟個相對論出來
05/27 23:24, 15F

05/27 23:24, , 16F
^類
05/27 23:24, 16F

05/27 23:24, , 17F
隨便變招,你根本不會用,更不要說他那千變萬化的
05/27 23:24, 17F

05/27 23:24, , 18F
手拔
05/27 23:24, 18F

05/27 23:24, , 19F
不同開局前幾步大概選一下,更有可能就是隨機選出來
05/27 23:24, 19F

05/27 23:25, , 20F
樓上比喻正確,連微積分都不會,根本看不懂相對論
05/27 23:25, 20F

05/27 23:25, , 21F
怎麼回事
05/27 23:25, 21F
也不用想得那麼玄。AI常選的定式或佈局手拔時機也重複出現,除了少數匪夷 所思,大部分那些職棋還是研究得出他的用意。人的問題在於棋盤空曠時價值 大小掌握準確性太差,現在等於有個程式當工具幫助你判斷,是不用太妄自菲 薄

05/27 23:25, , 22F
還有很重要的一點是,黑棋現在很明顯是貼目過重
05/27 23:25, 22F

05/27 23:26, , 23F
如果沒有勝率表,你根本不知道AG現在到底是在拼命還
05/27 23:26, 23F

05/27 23:26, , 24F
去年古力賽後有幫AG三盤自我對戰快棋來探討,當時就已
05/27 23:26, 24F

05/27 23:26, , 25F
是在下本手,搞不好他只是想試試看,你拿去照抄根本
05/27 23:26, 25F

05/27 23:27, , 26F
經有些招法看不太懂或是需要耗費大量時間才能解讀
05/27 23:27, 26F

05/27 23:27, , 27F
東施效顰
05/27 23:27, 27F

05/27 23:28, , 28F
基本上這五十盤就像無字天書一樣,是拿來供不是拿來用
05/27 23:28, 28F

05/27 23:29, , 29F
很多佈局跟套路也是我們照著古人的下法發展出自己的下法
05/27 23:29, 29F

05/27 23:29, , 30F
要說完全沒用到不至於 棋手原本就是要多下才有棋感 只是
05/27 23:29, 30F

05/27 23:30, , 31F
你要完全吃透才用那才是不可能的事情 都沒試怎麼知道如何
05/27 23:30, 31F

05/27 23:31, , 32F
最適合的運用方式
05/27 23:31, 32F
※ 編輯: ilw4e (111.83.66.131), 05/27/2017 23:45:17

05/27 23:45, , 33F
是啊,是重複出現,代表一定有理論可以解釋他,
05/27 23:45, 33F

05/27 23:45, , 34F
只是境界差太多,真的不知道從何學起
05/27 23:45, 34F

05/27 23:46, , 35F
回t大,你不吃透到一定程度,就如同邯鄲學步,沒下
05/27 23:46, 35F

05/27 23:46, , 36F
個數個月,根本不敢拿出來下
05/27 23:46, 36F

05/27 23:49, , 37F
其實圍棋原本就這樣阿,流行佈局或下法不是都高段開始下,
05/27 23:49, 37F

05/27 23:49, , 38F
這麼跟你說好了 就棋手而言你要完全的理解阿法狗是不太
05/27 23:49, 38F

05/27 23:49, , 39F
然後慢慢地大家一直研究然後教學,最後初學組也一樣這樣下
05/27 23:49, 39F

05/27 23:50, , 40F
可能的事 但是就部分的套路來講 可能有人了解了阿法狗
05/27 23:50, 40F

05/27 23:51, , 41F
的佈局 有的人了解他的部分套路 當這些人拿著這些新套
05/27 23:51, 41F

05/27 23:52, , 42F
路或新佈局交手 經過了很多棋局就發展出我們認定的新的
05/27 23:52, 42F

05/27 23:53, , 43F
棋理 從以前到現在都是如此 我們原本的學習就是從模仿棋
05/27 23:53, 43F

05/27 23:53, , 44F
譜開始 以前可以這樣學習 到現在也是可以的
05/27 23:53, 44F

05/27 23:55, , 45F
如果AG真的20級 硬要講解就類似初學者講解高手對戰一樣
05/27 23:55, 45F

05/27 23:57, , 46F
所以最可能講解的 理應是棋力最高的人或其他AI
05/27 23:57, 46F

05/27 23:58, , 47F
摸透本來就是高段的事啊,就像業餘的去看職業譜常常也是記
05/27 23:58, 47F

05/27 23:59, , 48F
套路,幾個敢說真的搞懂全部變化?:D
05/27 23:59, 48F

05/28 00:00, , 49F
所以柯潔能和Deepmind人員聯合探討這三盤棋 應該很有價值
05/28 00:00, 49F

05/28 00:00, , 50F
所以到底要不要講解、要不要研究,如果答案是要,那我真
05/28 00:00, 50F

05/28 00:00, , 51F
的不了解先篤定說學不來的用意是什麼?又不是要學到能贏
05/28 00:00, 51F

05/28 00:00, , 52F
alphago,只要用這些招能讓勝率提高,那就夠了
05/28 00:00, 52F

05/28 00:01, , 53F
就是能理解到為什麼這樣下勝率可能高就好,如果自己試發現
05/28 00:01, 53F

05/28 00:01, , 54F
勝率反而更低那就果斷放棄就好XD
05/28 00:01, 54F

05/28 00:02, , 55F
當然要講解 要研究啊,只是你看小目二尖高跳還是沒
05/28 00:02, 55F

05/28 00:03, , 56F
什麼人下,等到數年之後,大家都摸個大概之後,傳到
05/28 00:03, 56F

05/28 00:03, , 57F
我們業餘也大概明白之後,就是大家都下的時候啦
05/28 00:03, 57F

05/28 00:03, , 58F
只是現在alphago如果什麼都不跟你交流,你自己摸真
05/28 00:03, 58F

05/28 00:03, , 59F
的什麼也不懂啊
05/28 00:03, 59F

05/28 00:03, , 60F
就像柯潔最近一直下三三一定也研究過覺得那樣應該不虧阿
05/28 00:03, 60F

05/28 00:04, , 61F
其實機器學習也有一個新方向是追求模型的"解釋能力"
05/28 00:04, 61F

05/28 00:04, , 62F
因為三三好理解啊,但是小目二尖高跳怎麼理解?
05/28 00:04, 62F

05/28 00:05, , 63F
論文公佈後應該會有十個版本的偽物,別擔心沒得印證
05/28 00:05, 63F

05/28 00:05, , 64F
所以未來AI往"能講解" 這方向發展也是有可能的
05/28 00:05, 64F

05/28 03:43, , 65F
我本來以為DM會把這整塊Open source, 結果只是發布論文...
05/28 03:43, 65F

05/28 03:43, , 66F
有點意外就是了
05/28 03:43, 66F

05/28 06:15, , 67F
因為阿發狗的程式是可以變化後套用在其他領域的,谷歌
05/28 06:15, 67F

05/28 06:15, , 68F
不太可能釋出嚷大家抄。
05/28 06:15, 68F

05/28 07:22, , 69F
小目二間高跳常常可以用小目二間高掛來手割 比起其它
05/28 07:22, 69F

05/28 07:22, , 70F
的一些新手可能算還好吧
05/28 07:22, 70F

05/28 08:21, , 71F
只能當棋譜是太玄神經了,懂圍棋的反而看不懂。
05/28 08:21, 71F

05/28 17:18, , 72F
所以現在能瞭解google和deepmind的苦心和決斷力
05/28 17:18, 72F

05/28 17:19, , 73F
他們不辦這個人機大戰2.0,讓全世界看到現在的alphago
05/28 17:19, 73F

05/28 17:19, , 74F
已經無懈可擊、近乎完美,全世界會認同alphago嗎?
05/28 17:19, 74F

05/28 17:20, , 75F
會認同這些乍看之下完全無法理解的自戰棋譜嗎?
05/28 17:20, 75F

05/28 17:28, , 76F
早就認同了吧,去年Master那60盤就知道差距了
05/28 17:28, 76F
文章代碼(AID): #1PAPPE-D (GO)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
文章代碼(AID): #1PAPPE-D (GO)