[新聞] 中韓資料互通養虎為患 李世石評新Alphago

看板GO (圍棋)作者 (逍遙山水憶秋年)時間9年前 (2017/01/09 21:34), 編輯推噓4(62130)
留言138則, 15人參與, 最新討論串1/1
中韓對弈資料互通養虎為患 李世石評新AlphaGo 新浪體育訊  9日,韓tygem網對韓國新聞界爆料說,“和谷歌deepmind團隊一直保持緊 密的合作關係,為AlphaGo的發展不遺餘力提供了全面的支援。”即AlphaGo深度學習的“ 人類棋譜”主要採集于韓tygem對弈,而這款對弈平臺與中國實現了資料互通,柯潔、范 廷鈺等中國職業棋手長年在此平臺與朴廷桓等韓國職業交流,為伺服器積累了大量的人類 頂級棋譜。AlphaGo實際去年3月人機大戰前就已“潛伏”在tygem平臺覓食,而tygem平臺 最終起到了“養虎為患”的作用。   去年12月16日,韓tygem新事業團隊接到谷歌deepmind公司黃士傑博士的電子郵件, 要求“註冊韓國國籍的帳號Magister(P),以測試新版AlphaGo”。黃士傑同時要求刪除 表明是英國籍的帳號“deepmind”,這一帳號是去年3月“人機大戰”前“潛伏”tygem平 臺的AlphaGo的馬甲,而且被明眼的棋友戳穿。而“deepmind”這一帳號的戰績也是不盡 人意,也沒有引起任何轟動效果。   Magister(P)去年12月29日至31日在tygem平臺出沒,每日十盤連克中韓頂尖棋手取 得三十連勝,旋即AlphaGo又穿上“Master”的馬甲出現在中國“野狐”平臺連戰三天取 得三十連勝,在中韓兩大對弈平臺橫掃人類職業棋手取得了“60:0”的戰績。  去年3月13日的“人機大戰”第四局,李世石靠“神之一手”戰勝了AlphaGo,這一局很 有可能成為人類面對AlphaGo在正式比賽上取得的唯一一盤勝局。李世石去年成為韓國棋 壇的“獎金王”,一年賺了8億韓元。年關之際,李世石又做出驚人舉動,向他的家鄉新 安郡的福利機構捐獻了5000萬韓元。李世石還指定“專款專用”,為飛禽面(飛禽島) 727口的低收入孤寡老人和殘疾人,100口低收入單親家庭和“多文化家庭(異國婚姻)” 置辦過冬的棉衣和被褥。   李世石也關注新版AlphaGo在網路對弈平臺橫掃中韓頂尖棋手的表現。李世石評價說 :“去年3月和我較量的AlphaGo,進入讀秒就會出現一些不穩,現在這一部分得到補強了 。現在職業棋手和新版AlphaGo在相同讀秒條件下比賽,就沒有勝算了。AlphaGo是機器, 所以不會出現失誤,但人類棋手在讀秒催促下很容易出現失誤。所以AlphaGo讀秒,而人 類棋手有2~3小時相對充裕的比賽用時的情況下比賽,那麼五盤中有機會贏一盤。”   此前,李世石在接受採訪時表態“支持柯潔至少贏兩局”。李世石說:“超越國籍, 我想支援後輩棋手柯潔。”   藍烈 http://sports.sina.com.cn/go/2017-01-09/doc-ifxzkfuh6428301.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.73.51 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1483968893.A.F55.html

01/09 21:39, , 1F
內文錯很多吧... deepmind帳號是黃博士自己下的 所以
01/09 21:39, 1F

01/09 21:39, , 2F
才沒有很驚人
01/09 21:39, 2F

01/09 22:03, , 3F
養虎為患 這鳥結論
01/09 22:03, 3F

01/09 22:19, , 4F
是2個都有在下
01/09 22:19, 4F

01/09 22:57, , 5F
黃博士是用deepmind很久 不過後面幾場似乎有用阿法狗測試
01/09 22:57, 5F

01/09 22:58, , 6F
不過黃沒出來闢謠 也沒人去問就是了
01/09 22:58, 6F

01/09 23:12, , 7F
AlphaGO:人類頂級棋譜?ZZZzzz
01/09 23:12, 7F

01/10 00:05, , 8F
ㄏㄏ 又有人開始消費了
01/10 00:05, 8F

01/10 02:56, , 9F
推捐錢給弱勢,推支持後輩柯傑~
01/10 02:56, 9F

01/10 03:49, , 10F
新版早就不吃人類棋譜自己練了,這篇還是算了吧
01/10 03:49, 10F

01/10 10:23, , 11F
"AlphaGO這麼強 是吸收了我們的頂級棋譜"
01/10 10:23, 11F

01/10 11:03, , 12F
「新版是沒吃過人類棋譜的版本」<=雖然很多人都這樣猜
01/10 11:03, 12F

01/10 11:04, , 13F
了 但官方有宣布確認過嗎?
01/10 11:04, 13F

01/10 11:04, , 14F
master就是當初說要嘗試完全不吸收棋譜自己練的版本?
01/10 11:04, 14F

01/10 11:17, , 15F
這事去年老闆和 Aja 都講過... 時間這麼長應該是做完了
01/10 11:17, 15F

01/10 11:17, , 16F
從理論上來看 初始階段餵的人類棋譜的確可能變成污染 @@
01/10 11:17, 16F

01/10 11:58, , 17F
還在人類棋譜 就訓練資料來看根本連0.1%的比例都沒有
01/10 11:58, 17F

01/10 11:58, , 18F
輸了就開始各種找理由 也太好笑
01/10 11:58, 18F

01/10 12:39, , 19F
我個人認為V25是V18練上去的啦
01/10 12:39, 19F

01/10 14:04, , 20F
反正就"應該"做完了 "大概"是了 "這些招法沒見過"所以
01/10 14:04, 20F

01/10 14:05, , 21F
是自我版 根本都是猜的
01/10 14:05, 21F

01/10 14:06, , 22F
看了AlphaGO的下棋評估方式就會發現 要做純淨版絕對不是
01/10 14:06, 22F

01/10 14:07, , 23F
那麼簡單 光是"何謂勝利" 你沒有樣板給電腦看 也說不清
01/10 14:07, 23F

01/10 14:09, , 24F
光是AG自我對奕 因為勝率而修正落子點 形成沒看過的下法
01/10 14:09, 24F

01/10 14:10, , 25F
就是非常常見的事 隨著時間人類譜的影響降低也可預見
01/10 14:10, 25F

01/10 14:15, , 26F
電腦判斷何謂勝利還真的不用樣板就做得到,只要會填子就好
01/10 14:15, 26F

01/10 14:41, , 27F
不是最後的勝利啦 是"某局面下"的勝負判斷
01/10 14:41, 27F

01/10 14:45, , 28F
01/10 14:45, 28F

01/10 14:46, , 29F
正確的話 因為自我無限對奕的方法 AG以前的AI就用過了
01/10 14:46, 29F

01/10 14:47, , 30F
效果都沒有AG的好 被殺得不要不要的 假設拿掉人類譜
01/10 14:47, 30F

01/10 14:47, , 31F
AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別
01/10 14:47, 31F

01/10 14:51, , 32F
拿掉人類譜還有兩張空白有待訓練的網路
01/10 14:51, 32F

01/10 14:54, , 33F
那要這麼說 AG就只是錢砸出來的 誰的電腦連得多 就越猛
01/10 14:54, 33F

01/10 14:55, , 34F
錢是必要條件,不是充分條件
01/10 14:55, 34F

01/10 14:57, , 35F
我的意思是AG目前的高度 人類譜佔了一半 抽掉了=頓失五
01/10 14:57, 35F

01/10 14:58, , 36F
成功 一年時間 大概跟刑天等等齊頭
01/10 14:58, 36F

01/10 15:06, , 37F
我現在沒在討論master有沒有抽掉人類譜,這點等他們自己公
01/10 15:06, 37F

01/10 15:06, , 38F
佈就好,我只是個看熱鬧的。剛開始我是不了解你怎麼推論出
01/10 15:06, 38F

01/10 15:06, , 39F
沒有抽掉的,現在比較明白了
01/10 15:06, 39F
還有 59 則推文
01/10 17:24, , 99F
value network: 給定當前局面,估計是白勝還是黑勝
01/10 17:24, 99F

01/10 17:24, , 100F
rollout是類比value吧
01/10 17:24, 100F

01/10 17:25, , 101F
人類棋譜只用在 1, 而且還不用 RL 希望它保有變化
01/10 17:25, 101F

01/10 17:26, , 102F
fast rollout 是用來"把棋盤填滿"用的
01/10 17:26, 102F

01/10 17:29, , 103F
填滿不就是要算勝率
01/10 17:29, 103F

01/10 17:31, , 104F
其實這幾個元件都是為了增加 MCTS 效率 而且可以分拆開~
01/10 17:31, 104F

01/10 17:32, , 105F
value 和 rollout 都是評估勝率的手段啊
01/10 17:32, 105F

01/10 17:34, , 106F
https://goo.gl/3BRcmg 可以複習一下
01/10 17:34, 106F

01/10 17:34, , 107F
policy 跟 rollout 有什麼同目標我就不知了
01/10 17:34, 107F

01/10 17:36, , 108F
"給定當前局面,預測 / 採樣下一步的走棋" 指的是這件事
01/10 17:36, 108F

01/10 17:39, , 109F
rollout 也不是隨便亂下啊 亂下太沒有效率了
01/10 17:39, 109F

01/10 17:40, , 110F
所以把人類棋譜抽掉等於只是換掉 policy network 而已
01/10 17:40, 110F

01/10 17:41, , 111F
沒人提到 rollout 是亂下吧
01/10 17:41, 111F

01/10 17:45, , 112F
"AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別"
01/10 17:45, 112F

01/10 17:46, , 113F
我指的是上面這個~
01/10 17:46, 113F

01/10 17:48, , 114F
其實 AlphaGo 裡面用的這些元件 幾乎都是之前有人試過的
01/10 17:48, 114F

01/10 17:51, , 115F
只是個別運作了不起業餘棋力 要怎麼串就是困難點~
01/10 17:51, 115F

01/10 21:02, , 116F
官方不是有說還是有用到人類棋譜啊?
01/10 21:02, 116F

01/11 00:24, , 117F
我是滿懷疑論文說MCTS用SL policy network
01/11 00:24, 117F

01/11 00:25, , 118F
這樣RL policy network就只是用來產生data給value
01/11 00:25, 118F

01/11 00:25, , 119F
network
01/11 00:25, 119F

01/11 00:26, , 120F
這樣訓練下去,也只是在練value network而已
01/11 00:26, 120F

01/11 00:27, , 121F
這樣棋力就會突破天際?
01/11 00:27, 121F

01/11 00:29, , 122F
這部份論文沒有提出數據,只是一段話帶過
01/11 00:29, 122F

01/11 00:30, , 123F
而且MCTS真的用SL policy network才會表現好的話,
01/11 00:30, 123F

01/11 00:31, , 124F
要怎麼不使用人類棋譜?
01/11 00:31, 124F

01/11 00:32, , 125F
不用的話,那就是從30級開始練的RL policy network
01/11 00:32, 125F

01/11 00:42, , 126F
這樣效果會比SL policy好?若是這樣,那用原本的RL
01/11 00:42, 126F

01/11 00:43, , 127F
policy network應該也是可以才對吧
01/11 00:43, 127F

01/11 00:48, , 128F
所以我懷疑其實MCTS用的是RL policy network
01/11 00:48, 128F

01/11 00:54, , 129F
重點是RL沒錯呀,用SL只是權宜之計,避免太多運算
01/11 00:54, 129F

01/11 01:17, , 130F
而且看figure5d,SL policy network也沒多麼多樣化
01/11 01:17, 130F

01/11 01:17, , 131F
機率最高的兩個點加起來就95%了
01/11 01:17, 131F

01/11 01:20, , 132F
再者,APV-MCTS就已經有使搜尋不過於集中的機制了
01/11 01:20, 132F

01/11 18:41, , 133F
樓上這個疑問很有意思,有沒有可能是人類的policy是不好的
01/11 18:41, 133F

01/11 18:41, , 134F
起點...
01/11 18:41, 134F

01/11 18:46, , 135F
這裡面其實很多東西都要用試的 直覺去猜並不準確
01/11 18:46, 135F

01/11 18:47, , 136F
對開發團隊來說是在完全未知的領域 別人還要靠他們解答
01/11 18:47, 136F

01/12 00:04, , 137F
SL policy network是猜測KGS 6d~9d快棋的落子,我覺
01/12 00:04, 137F

01/12 00:04, , 138F
得這肯定是有很大的改善空間
01/12 00:04, 138F
文章代碼(AID): #1OSv5zzL (GO)
文章代碼(AID): #1OSv5zzL (GO)