[閒聊] AlphaGO棋風定型的可能性

看板GO (圍棋)作者 (小熊得冠軍)時間9年前 (2016/03/12 23:38), 9年前編輯推噓16(17122)
留言40則, 17人參與, 最新討論串1/1
以AlphaGo訓練的方式來說 他是以RL(reinforcement learning) 的方式去訓練結構的參數 就我的理解 每次下完一盤(步)棋都會 依照不同的結果給的獎勵值 去調整參數 因此alphaGo會不會在這三場棋後 變成更能適應小李的下棋模式 甚至是 專門對付他的棋風(local minimum)而不是下出全局最佳解呢? 感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢? -- Sent from my Android -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.145.213 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457797137.A.ECE.html

03/12 23:39, , 1F
他前兩盤變啦 沒用 這盤變回來 更慘
03/12 23:39, 1F

03/12 23:40, , 2F
她跟小李下三盤 跟自己下幾百萬盤你覺得這三盤有影響嗎
03/12 23:40, 2F

03/12 23:41, , 3F
他現在不一定在training phase, 可能不會改參數
03/12 23:41, 3F

03/12 23:42, , 4F
據了解不會,他只會不斷變強
03/12 23:42, 4F

03/12 23:44, , 5F
沒可能,因為三盤的量實在太少,他每天至少能自我對局一
03/12 23:44, 5F

03/12 23:44, , 6F
百萬盤,請算算看3/1,000,000會造成多大影響。
03/12 23:44, 6F

03/12 23:44, , 7F
理論上它應該不會針對對手進行演算法的調整
03/12 23:44, 7F

03/12 23:45, , 8F
說不定吧 單機版都贏得了分散式版 代表不是沒有機會
03/12 23:45, 8F

03/12 23:45, , 9F
不會 這三盤跟插花一樣 他每天自我對戰一百萬局耶
03/12 23:45, 9F
真的根插花一樣XD 不過如果他有在Training phase 這三場的權重值又有調大的話搞不好有機會><

03/12 23:45, , 10F
微乎其微
03/12 23:45, 10F

03/12 23:45, , 11F
更何況沒輸代表原本的知識已經夠用了
03/12 23:45, 11F

03/12 23:46, , 12F
大概就每天下一百萬局中其中對手弱弱的一局
03/12 23:46, 12F

03/12 23:46, , 13F
但是如果 輸入棋譜的阿法購VS自練起家的阿法購 打千萬盤
03/12 23:46, 13F

03/12 23:46, , 14F
說實在的 AI現在根本不知道跟他對下的是誰 等到有一天
03/12 23:46, 14F

03/12 23:46, , 15F
你下輸他,應該不會列入參考吧! 我想
03/12 23:46, 15F

03/12 23:47, , 16F
當他有一個性質迥異的對手 陪他打個千萬盤 可能出棋楓
03/12 23:47, 16F

03/12 23:47, , 17F
AI知道對面是誰那才恐怖
03/12 23:47, 17F

03/12 23:49, , 18F
有天AlphaGO刻意走出第一局對戰棋型 彷彿在問:是你嗎?
03/12 23:49, 18F

03/12 23:49, , 19F
天啊 想到就毛毛的
03/12 23:49, 19F
塔史亮是你! ※ 編輯: Likedodo (233.137.145.213), 03/12/2016 23:54:18

03/13 00:11, , 20F
自我training跟實戰調整的參數應該會不一樣吧
03/13 00:11, 20F

03/13 00:13, , 21F
正常的話 實戰中根本不會 training, 回去再手動做較好
03/13 00:13, 21F

03/13 00:13, , 22F
我記得 Aja 好像有提到 這次用的網路參數和去年底一樣
03/13 00:13, 22F

03/13 00:14, , 23F
所以這三場以來一面戰鬥一面學習只是個幻想而已
03/13 00:14, 23F
的確是這樣....但是這三場一場比一場艱難,真的讓人會聯想到這樣XD ※ 編輯: Likedodo (114.47.237.215), 03/13/2016 00:27:55

03/13 01:00, , 24F
所以alphaGO只自我對弈到去年底而已?
03/13 01:00, 24F

03/13 01:04, , 25F
訓練的結果只是一堆數字, 可以任意抽換不同版本
03/13 01:04, 25F

03/13 01:05, , 26F
這三盤他屌贏兩盤(應該吧) 你覺得他值得為這種內容改變
03/13 01:05, 26F

03/13 01:05, , 27F
下法嗎?
03/13 01:05, 27F
以訓練的角度來說 就算這次的解沒有比較好 也就是淘汰而已 但如果與這種高段棋士對弈 能夠帶來更好參數 也會有訓練的價值吧 反正參數能備份阿XD

03/13 01:05, , 28F
我想要換成純 AlphaGo 對奕棋譜重新訓練 也有研究意味在
03/13 01:05, 28F

03/13 01:06, , 29F
訓練完可以拿兩種版本互相對奕 看看棋力是不是真有增強
03/13 01:06, 29F
的確有研究的價值 沒有引導資料 從亂數重新訓練 不知道這樣有沒有辦法訓練出現在的數學模型

03/13 01:06, , 30F
拜託請再造一台純AlphaGO 不要刪目前這台的檔啊QAQ
03/13 01:06, 30F

03/13 01:07, , 31F
所以google還沒拿出最近的參數出來…,太扯了
03/13 01:07, 31F
※ 編輯: Likedodo (114.47.237.215), 03/13/2016 01:25:46

03/13 01:10, , 32F
其實是整個棋盤掌握力 狗狗力勝全職棋
03/13 01:10, 32F

03/13 01:10, , 33F
當你發現狗狗走出大損還樂勝 代表實力差距之大
03/13 01:10, 33F

03/13 01:18, , 34F
AG:連續好幾天幾百萬盤,卻來5盤慢棋且好弱的對手?
03/13 01:18, 34F

03/13 03:28, , 35F
birdy590請問有印象Aja哪裡提到嗎,意思是其實這次的跟
03/13 03:28, 35F

03/13 03:28, , 36F
1月底的paper差不多呀..
03/13 03:28, 36F

03/13 06:37, , 37F
期待純 AlphaGo 打破過去大家認為有用的定石
03/13 06:37, 37F

03/13 10:00, , 38F
下面rgx網友的文章裡陳經是說這次的AlphaGo強非常多,
03/13 10:00, 38F

03/13 10:01, , 39F
(跟去年底的比起來)從ELO看起來也是如此,作者(之一)
03/13 10:01, 39F

03/13 10:02, , 40F
Silver也是表示到賽前某段時間(?)有持續自我訓練
03/13 10:02, 40F
文章代碼(AID): #1Mv3WHxE (GO)
文章代碼(AID): #1Mv3WHxE (GO)