Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

看板GO (圍棋)作者 (加拿大好美)時間8年前 (2017/11/09 23:06), 編輯推噓30(300158)
留言188則, 16人參與, 8年前最新討論串4/8 (看更多)
※ 引述《tlchen (台灣加油)》之銘言: : ※ 引述《qweewqq (風一樣的男子)》之銘言: : : DeepMind指出,他們不使用任何人類知識,AlphaGo Zero用上的是新的「強化學習」方法 : 對於 "不使用任何人類知識" 這句, 我心中始終有個大問號. : 首先, 在一開始的 random play, AZ 根本不知何時要停. : 必須人工設定去停它. 這用到了人類知道這樣的遊戲, 應該有限步要停. : 雖然 AZ 的參數是經由自我對戰學的, 但整個架構呢? : 要有幾層的的類神經網路? 每層有多少節點? 層跟層間的結構? : covolution 要用 5x5 還是怎樣的大小? : 要怎樣配合 VN, PN? 要用 MCTS 來尋找? : 這些都沒用到人類的圍棋知識嗎? : 這整個大架構, 是在學人類棋譜時, 發現這樣的架構, 可以訓練出不錯的 AI. : 這架構不是隨便設就行得通的吧? : 經由人類棋譜訓練, 找到一個好的大架構, 這樣可以稱作不使用人類知識? : 如果今天一個完全不懂圍棋的人, 只針對規則, 就去訂了大模型架構, : 然後經由自我對戰去學參數. 這樣的結果, 那叫做不使用任何人類圍棋知識. : 現在這樣算嗎? 我心中實在有很大的黑人問號. 1. AGZ 怎會不知何時要停? 何必需要什麼特別人工設定它? 跟第一盤或第幾盤也沒關係 給定圍棋規則(禁自盡 禁同型) 即使你2個人類對下 到最後雙方再無可著手的時候就是終局(你可以找個人試試) 這跟機器或人類無關 1. 原po 一直在搞混人類知識跟人類圍棋知識 所謂人類圍棋知識 是專指人類"在棋盤上"的著手 應法 思考 這叫圍棋知識(不包括基本規則) AGZ "就算有" 建立在之前 AlphaGo的基礎上 比如說要用 幾層類神經網路 MCTS 或其它 "人類工程上"的知識 但這些跟"人類圍棋知識" 並不相同 基本上這個是工程問題 數學問題 主是跟棋盤大小 圍棋規則 及圍棋本質等相關的東西 而跟人類"棋盤上的著法"無關 基本上你搞混了 build time 跟 run time AGZ的工程師懂或不懂圍棋也不重要(他要懂基本規則) 他不需要是一張白紙 除非AGZ 的設計者有把 什麼不屬於基本規則的想法寫入程式 如征子 定石 手順等等 不然AGZ 本來就沒用到"人類圍棋知識" 就是只給定基本規則 所有的著法都可以 所有的著法都是自我對戰發現改良的 它訓練過程根本沒看過人類下棋 沒跟人對下 總之 人類工程上對圍棋的知識(解法 演算法 設計等) \= 人類圍棋知識 寫出一個GAME 不代表我在玩這個GAME時是天下無敵 在GAME裡面無敵不表示我能寫出這個GAME 一個是 build time 一個是 run time 這兩個意義也不同 不要搞混 如果你今天要把人類只要跟圍棋有關的東西都叫人類圍棋知識了 把所有東西都定義進來 這就沒什麼好講的 (至於你一直說AGZ大架構有沒有用到人類的圍棋知識, 如果AGZ 只針對圍棋的基本規則去設計 優化 那就沒有用到 如果AGZ 有針對盤面特定結構去設計 優化 那就是有) -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.120.180 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510239989.A.3B4.html

11/09 23:33, 8年前 , 1F
簡單明瞭
11/09 23:33, 1F

11/09 23:35, 8年前 , 2F
還有 alpha go 並不是因為人類棋譜才找出一個好的大
11/09 23:35, 2F

11/09 23:35, 8年前 , 3F
架構 而是本來就設計出一個架構 才拿人類棋譜來驗證
11/09 23:35, 3F

11/09 23:35, 8年前 , 4F
或先得到一個還不錯的結果
11/09 23:35, 4F

11/09 23:40, 8年前 , 5F
樓上這個可有根據?我抱懷疑的態度
11/09 23:40, 5F

11/09 23:41, 8年前 , 6F
電腦圍棋的演進,如何設定,不斷在改變
11/09 23:41, 6F

11/09 23:42, 8年前 , 7F
而改變的原因,很大的因素是看跟人下,怎樣改變可提升勝率
11/09 23:42, 7F

11/09 23:43, 8年前 , 8F
AlphaGo 的架構,完全跟之前的無關?
11/09 23:43, 8F

11/09 23:45, 8年前 , 9F
講個較極端的例子,假設今天有個工程師分別用VGGNet,
11/09 23:45, 9F

11/09 23:45, 8年前 , 10F
你應該先看一下 DZG作者那串文
11/09 23:45, 10F

11/09 23:46, 8年前 , 11F
GoogLeNet, 及 ResNet 設計了三個AI. 並分別用人類棋譜去
11/09 23:46, 11F

11/09 23:46, 8年前 , 12F
alphago實際上是用現有的一些技術拼湊實驗出來
11/09 23:46, 12F

11/09 23:47, 8年前 , 13F
學參數.然後三個AI對打,假設最後ResNet贏了,所以工程師之
11/09 23:47, 13F

11/09 23:47, 8年前 , 14F
過去就算有人想到 也沒有足夠資源做出來
11/09 23:47, 14F

11/09 23:48, 8年前 , 15F
zero就更不用說了 成本高的誇張
11/09 23:48, 15F

11/09 23:48, 8年前 , 16F
後就只用ResNet的版本,然後用自我對戰學參數.
11/09 23:48, 16F

11/09 23:49, 8年前 , 17F
這樣的AI,算不算沒有用到人類的圍棋知識?
11/09 23:49, 17F

11/09 23:50, 8年前 , 18F
無言 顯然沒看懂這篇
11/09 23:50, 18F

11/09 23:50, 8年前 , 19F
根據這篇的說法,那似乎是沒有用到人類的知識
11/09 23:50, 19F

11/09 23:51, 8年前 , 20F
alphago一開始就拋棄了人類的「圍棋知識」
11/09 23:51, 20F

11/09 23:51, 8年前 , 21F
在我的認知,它用到了人類的圍棋知識.因為所謂的優化,並不
11/09 23:51, 21F

11/09 23:52, 8年前 , 22F
餵人類棋譜的時候 還可以說會受人類決策的影響
11/09 23:52, 22F

11/09 23:52, 8年前 , 23F
不只是參數的優化.這位工程師,一開始還做了一個三種模型
11/09 23:52, 23F

11/09 23:52, 8年前 , 24F
麻煩先定義一下 什麼叫「圍棋知識」
11/09 23:52, 24F

11/09 23:52, 8年前 , 25F
間的優化.而這個優化,用到了人類圍棋知識
11/09 23:52, 25F

11/09 23:53, 8年前 , 26F
不用人類棋譜, 純粹自戰可能也會得到 ResNet 最適合的結論
11/09 23:53, 26F

11/09 23:53, 8年前 , 27F
tlchen,我建議你先定義一下你的人類圍棋知識是哪些
11/09 23:53, 27F

11/09 23:53, 8年前 , 28F
你從來沒定義過你這個用詞指涉的範圍,這樣討論不下去
11/09 23:53, 28F

11/09 23:54, 8年前 , 29F
類似的情況是我之前文章說的,大架構的優化,沒用到人類的
11/09 23:54, 29F

11/09 23:54, 8年前 , 30F
知識嗎?
11/09 23:54, 30F

11/09 23:54, 8年前 , 31F
這些根本不是圍棋知識 而是寫程式的知識
11/09 23:54, 31F

11/09 23:54, 8年前 , 32F
人類的知識和人類的圍棋知識差很多耶?你指哪個?
11/09 23:54, 32F

11/09 23:55, 8年前 , 33F
人類的知識, 但不見得是圍棋的
11/09 23:55, 33F

11/09 23:55, 8年前 , 34F
只要規則定義清楚 程式設計師根本不需要會下圍棋
11/09 23:55, 34F

11/09 23:55, 8年前 , 35F
我說的是人類圍棋知識,而棋譜是它的表現
11/09 23:55, 35F

11/09 23:56, 8年前 , 36F
不過以DM說可以應用在其他領域(伺服器省電),應該是泛用的
11/09 23:56, 36F

11/09 23:56, 8年前 , 37F
若選大架構是可以從自戰選的,我就認為是沒用到人類圍棋知
11/09 23:56, 37F

11/09 23:57, 8年前 , 38F
識,這是我在先前文章就這樣說的
11/09 23:57, 38F

11/09 23:57, 8年前 , 39F
不用, 反而需要的是神經網路方面的知識
11/09 23:57, 39F
還有 109 則推文
11/10 01:45, 8年前 , 149F
tlchen有沒有看過zero自戰的第一盤?很精彩,建議看看
11/10 01:45, 149F

11/10 01:47, 8年前 , 150F
一開始沒有做活跟吃子的觀念,亂下碰觸到規則才發生吃子
11/10 01:47, 150F

11/10 01:50, 8年前 , 151F
還會自己把空填滿自殺
11/10 01:50, 151F

11/10 01:51, 8年前 , 152F
而黑子181枚,白子180枚,共361枚,下完就沒得下了,最後由
11/10 01:51, 152F

11/10 01:51, 8年前 , 153F
規則來定出勝負。Zero就是從這種模式訓練過來的!
11/10 01:51, 153F

11/10 02:02, 8年前 , 154F
看了一下,不止..40block下到共541步,20block下到共469步
11/10 02:02, 154F

11/10 03:08, 8年前 , 155F
我是覺得可以放棄解釋了,基本上他就是用他的自定義在做討
11/10 03:08, 155F

11/10 03:09, 8年前 , 156F
論,或者說根本不是要討論而只是想講他的定義
11/10 03:09, 156F

11/10 03:10, 8年前 , 157F
@wadashi1 沒有子下完這種事。規則上萬一真的雙方子用完,
11/10 03:10, 157F

11/10 03:10, 8年前 , 158F
應該說初始的價值網絡都是一片空白的,完全只依靠人
11/10 03:10, 158F

11/10 03:10, 8年前 , 159F
類給的算式求最佳解
11/10 03:10, 159F

11/10 03:10, 8年前 , 160F
可以用交換死子的方式重新取得可下的子。
11/10 03:10, 160F

11/10 03:11, 8年前 , 161F
@chris610020 你解釋這個已經沒有用了,因為那就是認為那
11/10 03:11, 161F

11/10 03:11, 8年前 , 162F
個一片空白的網路也算是靠「他認為的圍棋知識」選出來的
11/10 03:11, 162F

11/10 03:12, 8年前 , 163F
他就是
11/10 03:12, 163F

11/10 03:23, 8年前 , 164F
他講的偏向演算法優化,盡量不要做無意義的事
11/10 03:23, 164F

11/10 03:26, 8年前 , 165F
不優化只是跑的比較慢,解果還是一樣的
11/10 03:26, 165F

11/10 03:27, 8年前 , 166F
結果
11/10 03:27, 166F

11/10 03:31, 8年前 , 167F
這倒未必,選取的架構不同也許會落到不同的Local Max裡面
11/10 03:31, 167F

11/10 03:32, 8年前 , 168F
而落到Local Max裡面並沒有什麼理論保證一定出得來
11/10 03:32, 168F

11/10 11:43, 8年前 , 169F
感覺起來tlchen認為..因為圍棋規則來修正Zero就算是用到
11/10 11:43, 169F

11/10 11:44, 8年前 , 170F
人類圍棋知識,但..不給Zero規則,它怎麼知道怎麼玩?什麼
11/10 11:44, 170F

11/10 11:45, 8年前 , 171F
不能下?怎麼決定勝負? 人類的定石,征子,棋譜,所有人類的
11/10 11:45, 171F

11/10 11:45, 8年前 , 172F
技巧,Zero完全沒有,有的只是定義的圍棋規則對它的修正。
11/10 11:45, 172F

11/10 11:59, 8年前 , 173F
tlchen沒說的那麼淺,但是他認為繼承上一版本的原始架構
11/10 11:59, 173F

11/10 12:00, 8年前 , 174F
參數都是圍棋知識,這和大多數的定義不同,問題是他的定
11/10 12:00, 174F

11/10 12:01, 8年前 , 175F
義目前沒引出什麼有建設性的討論。
11/10 12:01, 175F

11/10 12:14, 8年前 , 176F
這篇不是很明確說出人類棋譜等於人類圍棋知識了嗎?
11/10 12:14, 176F

11/10 12:15, 8年前 , 177F
規則比較像邊界條件,不屬於知識吧
11/10 12:15, 177F

11/10 16:18, 8年前 , 178F
如果只是棋譜本身不是知識,是資訊。要將資訊歸納整理後
11/10 16:18, 178F

11/10 16:21, 8年前 , 179F
才能稱為知識,比如說你如果不懂化學拿到元素週期表
11/10 16:21, 179F

11/10 16:22, 8年前 , 180F
就算能夠全部背起來也不能說懂得週期表裡面的化學知識
11/10 16:22, 180F

11/10 16:26, 8年前 , 181F
拿電腦圍棋來說,AG出世前的第一波專家系統AI通常都有真對
11/10 16:26, 181F

11/10 16:29, 8年前 , 182F
判斷局部攻殺部分輸入人類的定石Data,與AG的最大差別並非
11/10 16:29, 182F

11/10 16:30, 8年前 , 183F
輸入不同的data,而是使用了人類圍棋知識中"局部"的觀念
11/10 16:30, 183F

11/10 16:33, 8年前 , 184F
來做死活判斷,而局部這個觀念是人類自行總結的規則裡沒有
11/10 16:33, 184F

11/10 19:33, 8年前 , 185F
tlchen一開始就對參數這東西理解錯了 weight怎麼給的也
11/10 19:33, 185F

11/10 19:34, 8年前 , 186F
是靠機器學習自己修正的 須要人給weight還能算機器學習?
11/10 19:34, 186F

11/10 20:41, 8年前 , 187F
辛苦,那廝基本上就是自尊心太強的X孩
11/10 20:41, 187F

11/10 20:42, 8年前 , 188F
別再浪費時間回啦
11/10 20:42, 188F
文章代碼(AID): #1Q16xrEq (GO)
討論串 (同標題文章)
文章代碼(AID): #1Q16xrEq (GO)