[情報] AlphaZero戰勝將棋與西洋棋最強軟體

看板GO (圍棋)作者 (異質運算)時間8年前 (2017/12/06 20:38), 8年前編輯推噓56(56065)
留言121則, 33人參與, 8年前最新討論串1/1
https://arxiv.org/pdf/1712.01815.pdf 這次論文的標題是: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 從零學棋, 使用相似的神經網路架構, 一樣沒有使用任何人類知識, 4小時打敗西洋棋最強軟體Stockfish, 2小時打敗將棋最強軟體Elmo, 34小時打敗圍棋AlphaGoZero 20blocks 3天版本, (圍棋其實有些爭議,因為他這次用了5000TPU,上次AlphaGoZero只用2000TPU), 以MCTS打倒傳統的alpha beta search, 通用於完全訊息遊戲, 又一偉大的突破。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.169.176.30 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1512563895.A.CBE.html

12/06 20:45, 8年前 , 1F
一個通用於下棋的AI?
12/06 20:45, 1F
沒錯

12/06 20:50, 8年前 , 2F
又達到新境界了
12/06 20:50, 2F

12/06 20:54, 8年前 , 3F
不知道限制多嚴格,有運氣成分的(例如暗棋)或多人的
12/06 20:54, 3F

12/06 20:54, 8年前 , 4F
(例如跳棋)不知道能否通用過去
12/06 20:54, 4F
暗棋這種非完全訊息遊戲很難說,跳棋這種只有多人應該沒什麼問題。 ※ 編輯: HeterCompute (118.169.176.30), 12/06/2017 20:56:17

12/06 20:55, 8年前 , 5F
力王:大家可以回家啦~
12/06 20:55, 5F

12/06 20:59, 8年前 , 6F
逆天啦 發展這麼快
12/06 20:59, 6F

12/06 21:01, 8年前 , 7F
暗棋可以計算機率的,但因複雜度不高,且有部分運氣,所以人類
12/06 21:01, 7F

12/06 21:02, 8年前 , 8F
棋手會有一定勝率
12/06 21:02, 8F

12/06 21:04, 8年前 , 9F
想看阿法零跟赤木茂打麻將
12/06 21:04, 9F

12/06 21:06, 8年前 , 10F
AlphaGO老師:我是說在座的各位都是__
12/06 21:06, 10F

12/06 21:15, 8年前 , 11F
已經征服完全訊息遊戲了,希望星海二也會有突破
12/06 21:15, 11F

12/06 21:41, 8年前 , 12F
真的是在座的各位都是哈哈,可以回家啦~~~
12/06 21:41, 12F

12/06 21:43, 8年前 , 13F
多人跟雙人是有很多不同,沒問題就有鬼囉.
12/06 21:43, 13F

12/06 22:22, 8年前 , 14F
這也終結了西洋棋的西西里防禦。
12/06 22:22, 14F

12/06 22:35, 8年前 , 15F
這世界變化太快好累啊
12/06 22:35, 15F

12/06 22:52, 8年前 , 16F
太強了 O o
12/06 22:52, 16F

12/07 00:11, 8年前 , 17F
借轉chess
12/07 00:11, 17F
asglay:轉錄至看板 chess 12/07 00:15

12/07 00:27, 8年前 , 18F
多人會有問題吧,有人合作或針對都會影響吧
12/07 00:27, 18F

12/07 00:28, 8年前 , 19F
AlphaZero:我不是說人類而已,我是說連其他程式也都是_
12/07 00:28, 19F

12/07 00:28, 8年前 , 20F
兩個人的完全訊息遊戲最複雜的應該就圍棋,其他應該都
12/07 00:28, 20F

12/07 00:28, 8年前 , 21F
不是問題了
12/07 00:28, 21F

12/07 00:30, 8年前 , 22F
這樣的話 完全訊息遊戲已經到盡頭了
12/07 00:30, 22F

12/07 00:31, 8年前 , 23F
說不定世上最後一塊淨土會是麻將 AI與人類打成平手
12/07 00:31, 23F

12/07 01:06, 8年前 , 24F
使用ZERO學習模式是不可能學會星海的,即使用map hack
12/07 01:06, 24F

12/07 01:07, 8年前 , 25F
因為星海的規則和變化數遠遠超過圍棋太多太多了
12/07 01:07, 25F

12/07 01:07, 8年前 , 26F
非完全訊息遊戲人類跟AI互有勝負不奇怪
12/07 01:07, 26F

12/07 01:12, 8年前 , 27F
這件事大概可以把所有完全訊息的問題解了...
12/07 01:12, 27F

12/07 02:30, 8年前 , 28F
為什麼會是麻將?非完全訊息遊戲多如牛毛
12/07 02:30, 28F

12/07 02:35, 8年前 , 29F
德州撲克比麻將難多了吧
12/07 02:35, 29F

12/07 09:35, 8年前 , 30F
我比較想看它打LOL,個種壓血和反殺XD
12/07 09:35, 30F

12/07 09:37, 8年前 , 31F
而且說不定它可以真正演算出最適合的對線角和友方英雄
12/07 09:37, 31F

12/07 10:19, 8年前 , 32F
期待生物科技或材料的革命性
12/07 10:19, 32F

12/07 11:27, 8年前 , 33F
非完全訊息難在抽卡機率計算和本身牌組的搭配,麻將、德
12/07 11:27, 33F

12/07 11:28, 8年前 , 34F
州撲克其實比較好解決,星海要模擬人的地方很多,要圖片辨
12/07 11:28, 34F

12/07 11:28, 8年前 , 35F
視,很多非關策略的問題要解決,個人感覺其實難多了!
12/07 11:28, 35F

12/07 11:48, 8年前 , 36F
才剛出一個AlphaGO zero 又再創一個打敗他 我都麻痺了
12/07 11:48, 36F
還有 46 則推文
還有 2 段內文
12/08 00:41, 8年前 , 83F
Daniel Negreanu
12/08 00:41, 83F

12/08 00:42, 8年前 , 84F
撲克AI贏得只是限定100大盲的單挑 一般打的都是六人桌
12/08 00:42, 84F

12/08 00:42, 8年前 , 85F
九人桌 籌碼也是上下波動的
12/08 00:42, 85F

12/08 00:45, 8年前 , 86F
AI能在主流比賽或現金局都還沒攻克
12/08 00:45, 86F

12/08 00:48, 8年前 , 87F
Poker AI如果攻克現金桌,基本上你就可以拿去玩線上TH做持
12/08 00:48, 87F

12/08 00:49, 8年前 , 88F
續賺錢了,就好像如果你研發出預測股價的技術就拿去投入股
12/08 00:49, 88F

12/08 00:49, 8年前 , 89F
市賺錢XD
12/08 00:49, 89F

12/08 00:53, 8年前 , 90F
另外就是,TH的現金桌跟Tournament的打法也會有所不同,同
12/08 00:53, 90F

12/08 00:54, 8年前 , 91F
一套訓練出來的AI基本上應該是沒法在這兩種環境共用的
12/08 00:54, 91F

12/08 00:54, 8年前 , 92F
如HanaYukii提到,桌上人數的不同也會影響打法
12/08 00:54, 92F

12/08 00:56, 8年前 , 93F
順帶一提,上面提到WSOP Main Event的buy-in(參賽費用)
12/08 00:56, 93F

12/08 00:56, 8年前 , 94F
是一個人一萬美金
12/08 00:56, 94F

12/08 00:59, 8年前 , 95F
Poker AI如果夠強線上絕對看到一堆AI在打,畢竟是真錢在賭
12/08 00:59, 95F
感謝樓上各大高手解惑,真是有趣的內容 ※ 編輯: HeterCompute (118.169.179.36), 12/08/2017 01:25:13

12/08 02:04, 8年前 , 96F
順便提一下,master其實沒有跟zero平等較量過
12/08 02:04, 96F

12/08 02:04, 8年前 , 97F
當時zero用的計算力比master拿到的強
12/08 02:04, 97F

12/08 02:20, 8年前 , 98F
去西洋棋論壇看了一下,能對Stockfish無敗真是了不起
12/08 02:20, 98F

12/08 02:20, 8年前 , 99F
的成就,每個棋譜都異常精彩
12/08 02:20, 99F

12/08 02:57, 8年前 , 100F
德撲的AI已經屌打人類了,之前李開復辦的比賽,卡內基美隆
12/08 02:57, 100F

12/08 02:58, 8年前 , 101F
大學的Libratus樂勝,只是硬體要求有點高
12/08 02:58, 101F

12/08 02:58, 8年前 , 102F

12/08 03:02, 8年前 , 103F
是有限注,補充一下樓上眾高手的說法
12/08 03:02, 103F

12/08 03:32, 8年前 , 104F
Libratus就僅限heads up單挑阿
12/08 03:32, 104F

12/08 18:08, 8年前 , 105F
單挑比多人桌單純非常多,說服力還不夠
12/08 18:08, 105F

12/08 18:10, 8年前 , 106F
有限注也比no-limit單純更多。
12/08 18:10, 106F

12/08 18:11, 8年前 , 107F
另外就是,現金桌的職業高手的強項是強在1.懂得分辨出其他
12/08 18:11, 107F

12/08 18:12, 8年前 , 108F
的高手並且避開,找出魚並坐在那一桌,2.判讀其他人臨場的
12/08 18:12, 108F

12/08 18:14, 8年前 , 109F
情緒跟打法變化。大多是只打heads-up train不出來的東西
12/08 18:14, 109F

12/08 18:16, 8年前 , 110F
AI要真的能打多個打多人桌而且決定入座或離桌,長期+EV會
12/08 18:16, 110F

12/08 18:17, 8年前 , 111F
比較稱得上攻克現金桌XD 至於tournament又是另一個課題。
12/08 18:17, 111F

12/08 18:20, 8年前 , 112F
話說看文章裡面寫說是玩no-limit
12/08 18:20, 112F

12/08 18:22, 8年前 , 113F
https://goo.gl/AQukJd wiki也寫是針對no-limit
12/08 18:22, 113F

12/08 18:24, 8年前 , 114F
所以現在alphazero策略上訓練已經超凡入聖了,接下來要克
12/08 18:24, 114F

12/08 18:26, 8年前 , 115F
服的就是非關策略上,理解、圖片辨識,諸多擬人上的問題了
12/08 18:26, 115F

12/08 18:28, 8年前 , 116F
就算要說超凡入聖也只是針對容易模擬並評估結果的雙人對抗
12/08 18:28, 116F

12/08 18:28, 8年前 , 117F
資訊公開類別的問題就是了,跳問題種類要研究的事情還多呢
12/08 18:28, 117F

12/15 11:59, 8年前 , 118F
圍棋那邊的確有爭議,要不alphazero至少要挑戰40天版本
12/15 11:59, 118F

12/15 12:00, 8年前 , 119F
40 block的alphago Zero,畢竟用了5000個TPU..
12/15 12:00, 119F

12/15 12:01, 8年前 , 120F
不好意思!我就是抱著狗咬狗看好戲的心態,看有沒有機會
12/15 12:01, 120F

12/15 12:02, 8年前 , 121F
elo破6000,或讓李世石版本4子還完勝之類的!
12/15 12:02, 121F
文章代碼(AID): #1Q9-Ito- (GO)
文章代碼(AID): #1Q9-Ito- (GO)