[問題] AlphaZero如果突然給它20x20的棋盤

看板GO (圍棋)作者 (達)時間7年前 (2019/06/15 14:32), 編輯推噓12(12037)
留言49則, 10人參與, 6年前最新討論串1/1
這個演示非常令人驚訝,但哈薩比斯還是有所保留。如果虛擬平板略微往上移動一點點, 程式就會失敗。DeepMind程式所學到的技能是如此受限制--它甚至無法對環境的微小變 化(比人類走路時對環境產生的微小影響還小)作出反應--至少在沒有數千輪強化學習 的情況下既是如此。但是現實世界已經內置了這樣的應對系統。 https://tinyurl.com/yydt55tn Deepmind老大說 即使是已經訓練好的「打磚塊」遊戲AI 只要遊戲設定做個微小的調整 AI就會失敗 需要再更多的訓練,才能因應新的狀況 圍棋「人類」棋手如果突然面對20x20的棋盤 可能對棋力沒什麼影響 那麼如果突然讓目前最強圍棋AI「AlphaZero」和人類下20x20 AI可能會表現的如何? thanks -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.78.253 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1560580368.A.8CD.html

06/15 15:08, 7年前 , 1F
前幾盤可能可以贏吧
06/15 15:08, 1F

06/15 15:09, 7年前 , 2F
我覺得這個議題蠻好的 值得一試
06/15 15:09, 2F

06/15 16:28, 7年前 , 3F
如果什麼都不動,alphago不能下20路圍棋,因為連輸
06/15 16:28, 3F

06/15 16:28, 7年前 , 4F
入只能是19路棋盤,但是如果經過一些技巧訓練個1天
06/15 16:28, 4F

06/15 16:28, 7年前 , 5F
,贏過人類還是綽綽有餘
06/15 16:28, 5F

06/15 16:48, 7年前 , 6F
應該要重新train吧 但只要input維度改一下 其他架構大概
06/15 16:48, 6F

06/15 16:48, 7年前 , 7F
可以沿用 感覺是這樣
06/15 16:48, 7F

06/15 21:01, 7年前 , 8F
之前用leela跑19路之外,全部都當成19路在下
06/15 21:01, 8F

06/15 22:54, 7年前 , 9F
有影響 但不會到非常劇烈
06/15 22:54, 9F

06/15 22:54, 7年前 , 10F
對人類而言
06/15 22:54, 10F

06/15 23:16, 7年前 , 11F
主要是cnn對邊緣太敏感 提供座標給cnn能部分解決問題
06/15 23:16, 11F

06/15 23:16, 7年前 , 12F
圍棋的話多輸入盤面大小應該任意盤面都能共用網路吧
06/15 23:16, 12F

06/16 00:27, 7年前 , 13F
其實了解深度學習的話就知道這沒什麼好驚訝的啊XD
06/16 00:27, 13F

06/16 00:29, 7年前 , 14F
@AmibaGelos 把棋盤大小也都當參數當然也不是不行,但這樣
06/16 00:29, 14F

06/16 00:29, 7年前 , 15F
實質上等價於每種大小的棋盤分別訓練,甚至未必比較好
06/16 00:29, 15F

06/16 00:30, 7年前 , 16F
你如果想要用這種方式把20x20也同時訓練起來,造成的結果
06/16 00:30, 16F

06/16 00:30, 7年前 , 17F
就是所花的時間(或訓練到一定棋力所需局數)就是19x19所
06/16 00:30, 17F

06/16 00:32, 7年前 , 18F
需 + 20x20所需,至少以現有架構而言它沒有學習不同盤面大
06/16 00:32, 18F

06/16 00:33, 7年前 , 19F
小共通知識的能力。未來技術再發展也許慢慢會往這邊前進,
06/16 00:33, 19F

06/16 00:34, 7年前 , 20F
人類舉一反三的能力一直都是共通型AI的長遠目標
06/16 00:34, 20F

06/16 17:35, 7年前 , 21F
不一定吧 如果有無關盤面大小的準則的話 大小就標定
06/16 17:35, 21F

06/16 17:35, 7年前 , 22F
邊緣而已 類似標定黑白 策略確實不同 但不是不會重疊
06/16 17:35, 22F

06/17 10:10, 7年前 , 23F
人家AI就跟人類不一樣啊
06/17 10:10, 23F

06/17 17:47, 7年前 , 24F
AI目前這種學習方式就是學不到那樣的通則
06/17 17:47, 24F

06/17 17:49, 7年前 , 25F
現在是貼目數不同都會無法完全通用的狀態,AI學不到那種「
06/17 17:49, 25F

06/17 17:50, 7年前 , 26F
我把現在當作落後所以攻兇一點就搞定了」的轉換性概念。當
06/17 17:50, 26F

06/17 17:50, 7年前 , 27F
然有一組AI的目標設定為就算領先也會盡可能繼續取得目數而
06/17 17:50, 27F

06/17 17:51, 7年前 , 28F
不要退守,那個設定就相對能應付貼目改變問題,但付出的代
06/17 17:51, 28F

06/17 17:52, 7年前 , 29F
價就會是潛在的安定性。
06/17 17:52, 29F

06/17 17:53, 7年前 , 30F
至於盤面大小,現況是不同盤面肯定要重新訓練的情況,不然
06/17 17:53, 30F

06/17 17:54, 7年前 , 31F
別說複雜細算了,征子算錯的情況都有可能發生。在19路棋盤
06/17 17:54, 31F

06/17 17:55, 7年前 , 32F
訓練出來的模組採用一個征子有利的下法,到了20路變成征子
06/17 17:55, 32F

06/17 17:56, 7年前 , 33F
不利,深度學習選取棋步時可能並不會發現這個問題
06/17 17:56, 33F

06/17 17:57, 7年前 , 34F
這點反而是傳統搜尋式AI有機會搜尋下去發現問題,搜尋層數
06/17 17:57, 34F

06/17 17:57, 7年前 , 35F
足夠的話。
06/17 17:57, 35F

06/18 00:41, 7年前 , 36F
也許吧 有空設計個網路混合訓練6*6~9*9 應該很有趣xd
06/18 00:41, 36F

06/18 00:50, 7年前 , 37F
說到征子,以現在的架構,盤面越大征子好像要練訓越久?
06/18 00:50, 37F

06/18 00:50, 7年前 , 38F
理論上好像越大的棋盤人類越有機會用征子套爆AI
06/18 00:50, 38F

06/18 17:59, 7年前 , 39F
應該說本來手數多的套路如大型定石、長時間劫爭這些本來就
06/18 17:59, 39F

06/18 17:59, 7年前 , 40F
是要訓練更多局才會有機率覆蓋到完整最佳著手
06/18 17:59, 40F

06/18 18:06, 7年前 , 41F
征子本來可以視為一個很長的套路,然而征子是一個人類能
06/18 18:06, 41F

06/18 18:06, 7年前 , 42F
夠用共通概念推理快速簡化計算的特例,圍棋AI沒有這種簡
06/18 18:06, 42F

06/18 18:06, 7年前 , 43F
化概念,需要真的實際算過
06/18 18:06, 43F

06/18 18:08, 7年前 , 44F
所以盤面越大當然就大幅增加訓練時間。一方面要模擬完一
06/18 18:08, 44F

06/18 18:08, 7年前 , 45F
局需要更久,而獲取足夠資訊所需的訓練對局數也大幅增加
06/18 18:08, 45F

06/18 18:12, 7年前 , 46F
@AmibaGelos 混合訓練不同大小目前事實上就是無意義啦。
06/18 18:12, 46F

06/18 18:12, 7年前 , 47F
對AI問題是全等於分開訓練,而且反而有可能因為對於盤面大
06/18 18:12, 47F

06/18 18:12, 7年前 , 48F
小這個參數的模糊化導致模型品質的下降
06/18 18:12, 48F

09/13 01:54, 6年前 , 49F
以人類觀點來說 這不就叫做 不知變通嗎XD
09/13 01:54, 49F
文章代碼(AID): #1T194GZD (GO)
文章代碼(AID): #1T194GZD (GO)