[情報] AlphaGo Zero,新版本的AlphaGo

看板GO (圍棋)作者 (異質運算)時間7年前 (2017/10/19 01:37), 7年前編輯推噓71(710122)
留言193則, 43人參與, 7年前最新討論串1/1
https://www.youtube.com/watch?v=tXlM99xPQC8
https://www.youtube.com/watch?v=WXHFqTvfFSw
https://deepmind.com/blog/alphago-zero-learning-scratch/ 新的AlphaGo Zero,是完全沒有受人類棋譜影響的AlphaGo, 訓練3天,以勝率100%打敗了AlphaGo 李世石版本, 21天,達到了Master版本(柯潔)的水準, 並且在訓練40天之後,對Master版本勝率90%, 論文也登在Nature。 https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.20.68 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1508348222.A.117.html

10/19 01:40, 7年前 , 1F
...終於要神乎其技了嗎?
10/19 01:40, 1F

10/19 01:46, 7年前 , 2F
訓練三天後完封李世石版, 最後對柯潔版 100 場贏 89
10/19 01:46, 2F

10/19 01:47, 7年前 , 3F
演算法也變了.. 全靠自己訓練果然比人手動干預更強
10/19 01:47, 3F

10/19 01:47, 7年前 , 4F
Re:從零開始的下棋生活
10/19 01:47, 4F

10/19 01:48, 7年前 , 5F
policy/value network 合併, 不再使用 rollout~
10/19 01:48, 5F

10/19 01:48, 7年前 , 6F
看看其它圍棋軟體多快會跟進
10/19 01:48, 6F

10/19 01:53, 7年前 , 7F
這個進展有點快啊
10/19 01:53, 7F

10/19 01:56, 7年前 , 8F
連結第二個是這個吧?
10/19 01:56, 8F

10/19 01:56, 7年前 , 9F
感謝

10/19 01:58, 7年前 , 10F
好想看master被虐的棋譜..無法想像master會怎麼被虐
10/19 01:58, 10F

10/19 02:00, 7年前 , 11F
棋譜在Nature論文的補充資料可找到:
10/19 02:00, 11F

10/19 02:00, 7年前 , 12F
10/19 02:00, 12F

10/19 02:03, 7年前 , 13F
有自戰, 對李世石版本, 及對Master版本的棋譜
10/19 02:03, 13F

10/19 02:33, 7年前 , 14F
上帝降臨了...
10/19 02:33, 14F

10/19 02:35, 7年前 , 15F
快速打完了Zero對Master,佈局大概就兩種,開局前20手
10/19 02:35, 15F

10/19 02:36, 7年前 , 16F
左右都長一樣,和先前55盤自戰多樣的佈局不同
10/19 02:36, 16F

10/19 02:36, 7年前 , 17F
不知道是不是因為是掛在論文下的關係特別選的
10/19 02:36, 17F
照這個棋譜推斷,應該之前的自戰多樣布局是有選過的。 另外Zero vs Master我沒數錯應該是17:3, 其中有兩盤輸是因為這個布局, https://i.imgur.com/GYMPqqv.png
大膽預測右上角那個奇怪定石黑棋大吃虧,導致Zero輸兩盤。

10/19 03:12, 7年前 , 18F
但是Zero的自戰又不一樣了,多數二連星對二連星
10/19 03:12, 18F

10/19 03:13, 7年前 , 19F
但也有少數不是的,然後看到Zero對Master都沒出現的小
10/19 03:13, 19F

10/19 03:13, 7年前 , 20F
目一間跳守角
10/19 03:13, 20F
Zero對Master只下二連星,自戰卻有星小目小飛守角。 不太確定為什麼會這樣

10/19 04:27, 7年前 , 21F
那個自戰,好像只有40block資料夾的最後一盤是完全體
10/19 04:27, 21F

10/19 04:28, 7年前 , 22F
前面19盤似乎是各個階段的自戰
10/19 04:28, 22F
對,但是最後一盤不是二連星

10/19 08:22, 7年前 , 23F

10/19 08:22, 7年前 , 24F

10/19 08:23, 7年前 , 25F
有新的系列影片上傳了 ZERO 對決 MASTER
10/19 08:23, 25F
https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip 這裡可以載棋譜,至於棋譜是什麼版本下的請參照論文

10/19 08:26, 7年前 , 26F
天網要出現了XD
10/19 08:26, 26F

10/19 08:32, 7年前 , 27F
《第一天下圍棋就上手》~AlphaGoZero著
10/19 08:32, 27F
《從零開始,三天超越全人類不求人》~AlphaGoZero著

10/19 08:32, 7年前 , 28F
10/19 08:32, 28F

10/19 08:35, 7年前 , 29F
右上那個定石不是黑棋自己挑的嗎xd
10/19 08:35, 29F
自己挑的不代表一定好啊

10/19 08:43, 7年前 , 30F
是說Alphago要不要開放讓棋手練習這樣
10/19 08:43, 30F

10/19 09:07, 7年前 , 31F
感覺Zero的下法比較淳樸 沒有像master那麼震撼
10/19 09:07, 31F

10/19 09:18, 7年前 , 32F
圍棋上帝...
10/19 09:18, 32F
還有 121 則推文
還有 1 段內文
10/20 01:18, 7年前 , 154F
兩個network合併準確率有下降 但運算簡化有補回來
10/20 01:18, 154F

10/20 01:19, 7年前 , 155F
結果棋力反而變強 亂猜的rollout也被捨棄
10/20 01:19, 155F

10/20 01:19, 7年前 , 156F
看完只有拜服阿,從強到更強超強爆強的感覺 Orz
10/20 01:19, 156F

10/20 01:20, 7年前 , 157F
一開始愛吃子 慢慢學會圍地和厚勢
10/20 01:20, 157F

10/20 01:21, 7年前 , 158F
然後一些已知的定式被發現 這時候就已經很強了
10/20 01:21, 158F

10/20 01:23, 7年前 , 159F
現在可以臭屁,我還可以贏學3小時的 alphago zero , lol
10/20 01:23, 159F

10/20 02:34, 7年前 , 160F
err其實只有差rollout跟feature,前者對訓練的影響是0
10/20 02:34, 160F

10/20 02:34, 7年前 , 161F
後者差13倍但需要耗資源學規律所以很難說哪個比較好
10/20 02:34, 161F

10/20 02:52, 7年前 , 162F
@tlchen 你只要想一下,人類的定石也不過就是從古至今從對
10/20 02:52, 162F

10/20 02:53, 7年前 , 163F
局或自我研究中累積下來的經驗不斷傳承下來,人類一開始也
10/20 02:53, 163F

10/20 02:53, 7年前 , 164F
是從零出發的
10/20 02:53, 164F

10/20 02:53, 7年前 , 165F
現在AlphaGo Zero不過就是靠高速大量對局在以天計的時間內
10/20 02:53, 165F

10/20 02:54, 7年前 , 166F
排完了人類長久以來的研究得到一樣甚至超前的結果而已
10/20 02:54, 166F

10/20 02:55, 7年前 , 167F
而人類可以自豪的就是,以人類完成一局棋需要那麼久的時間
10/20 02:55, 167F

10/20 02:56, 7年前 , 168F
,能進化的速度如此之慢,然而AlphaGo還是證明了人類畢竟
10/20 02:56, 168F

10/20 02:57, 7年前 , 169F
長久的累積還是對了很多東西。不要因為被AlphaGo超越就開
10/20 02:57, 169F

10/20 02:58, 7年前 , 170F
始否定人類累積下來的東西,這事實上就只是人類研發出來的
10/20 02:58, 170F

10/20 02:58, 7年前 , 171F
新進化方式超越了人類以前的舊進化方式罷了
10/20 02:58, 171F

10/20 10:03, 7年前 , 172F
不過有看到一種說法,AlphaGO也有inductive bias,只是
10/20 10:03, 172F

10/20 10:05, 7年前 , 173F
剛好它的算法跟人類下棋的bias是同一路數,所以有可能某日
10/20 10:05, 173F

10/20 10:06, 7年前 , 174F
來了個外星人用全新的算法避開AlphaGO和人的bias達到更高
10/20 10:06, 174F

10/20 10:07, 7年前 , 175F
可能我太看清人類的能力了.所以,alphao zero所呈現的,我反
10/20 10:07, 175F

10/20 10:07, 7年前 , 176F
境界,也就是說現在Zero自學得出和人類類似的的定式未必能
10/20 10:07, 176F

10/20 10:08, 7年前 , 177F
證明這些定式就是正確無誤
10/20 10:08, 177F

10/20 10:08, 7年前 , 178F
而是驚訝人類的成果.至於說 alpha zero 多快就達到多高的
10/20 10:08, 178F

10/20 10:08, 7年前 , 179F
實力. 其實若是從下的局數來看, 而不是以時間來看,它或許
10/20 10:08, 179F

10/20 10:09, 7年前 , 180F
不見得那麼厲害
10/20 10:09, 180F

10/20 10:09, 7年前 , 181F
我當然不是說它不強,它強到沒有辦法去談.只是就學習來說
10/20 10:09, 181F

10/20 10:10, 7年前 , 182F
不該只用時間來說它比人類快
10/20 10:10, 182F

10/20 11:50, 7年前 , 183F
AlphaGo 演算法目標只有一個, 就是要把會贏的方法記下來
10/20 11:50, 183F

10/20 11:51, 7年前 , 184F
它連在棋盤上亂填都沒有排除, 這樣要怎麼說有 bias?
10/20 11:51, 184F

10/21 00:51, 7年前 , 185F
個人覺得alphago/zero一定還有死活問題
10/21 00:51, 185F

10/21 00:52, 7年前 , 186F
master還特別用個反master來消除master的死活問題
10/21 00:52, 186F

10/21 02:24, 7年前 , 187F
一種自我冥想練功的概念,阿發狗快出來社交,不然會變宅宅
10/21 02:24, 187F

10/21 02:26, 7年前 , 188F
變得多強不是重點,還要下贏人才能稱神
10/21 02:26, 188F

10/21 03:23, 7年前 , 189F
zero 跟 master 不一樣 沒剩下什麼是人類給它的
10/21 03:23, 189F

10/22 00:55, 7年前 , 190F
Master 處理死活防輸
10/22 00:55, 190F

10/22 23:05, 7年前 , 191F
master已碾壓全部的人類,沒機會輸,而zero還碾壓master,
10/22 23:05, 191F

10/22 23:06, 7年前 , 192F
一個神上面還有更高的神的境界,而且進步還沒有結束..
10/22 23:06, 192F

10/23 07:47, 7年前 , 193F
七龍珠感
10/23 07:47, 193F
文章代碼(AID): #1Pvv4-4N (GO)
文章代碼(AID): #1Pvv4-4N (GO)