[新聞] 馬庫斯再談AlphaGo Zero:不是從零開始 已刪文

看板GO (圍棋)作者 (星浪)時間8年前 (2018/01/21 06:43), 編輯推噓9(9033)
留言42則, 4人參與, 8年前最新討論串1/1
馬庫斯再談AlphaGo Zero:不是從零開始  文章來源:量子位公眾號   紐約大學心理學和神經科學教授馬庫斯(Gary Marcus)堅信AlphaZero仍依賴於一些 人類知識,也曾在AlphaZero解讀現場這樣diss哈薩比斯。   可能覺得說得不夠,近日,馬庫斯在arXiv發佈了本月第二篇長文Innateness, AlphaZero, and Artificial Intelligence,繼續論證AlphaZero“可以在沒有人類指 導的情況下訓練到超過人類水準”的說法被誇大了。   “當代人工智慧論文(通常)用了一個‘相當不錯的’具體結果,對更廣泛的主題做 出了絕對普遍和離譜的斷言。”幾個小時前,他在推特引用了這句話,說明自己怒懟的原 因。   在文章中,馬庫斯將AlphaGo、AlphaGo Zero、AlphaZero的歸結成一種“神奇的AI工 程”,代號“AlphaStar”。   它是一種深層結構的混合,它不單利用深度學習人,也依賴於像樹搜索這樣的傳統符 號技巧(symbolic technique)。   這到底是種怎樣的神奇工程?馬庫斯從DeepMind如何構建Alpha家族的架構開始講起 ,量子位元將重點內容編譯整理如下。   △ 馬庫斯   從零開始?   DeepMind在論文中說“一種純強化學習方法是可行的,即使在最具挑戰性的領域,它 也能訓練到超過人類的水準,並且無需人類的案例和指導。除了基本規則外,沒有任何領 域的基礎知識。”   我不贊同。   他們系統中的很多方面延續了在之前在圍棋程式上積累的研究,比如構建遊戲程式中 常用的蒙特卡洛樹搜索。這種技術可以用來評估動作和對策,在樹狀結構上快速得到測試 結果。   問題來了,蒙特卡洛樹這種結構不是通過強化學習從資料中學習的。相反,它在 DeepMind的程式中是與生俱來的,根深蒂固地存在於每個反覆運算的AlphaStar。   可以發現,DeepMind給出的卷積結構很精確,有很多下圍棋的精確參數在裡面,這不 是通過純碎的強化學習學到的。並且,固有演算法和知識的整合的取樣機制不在 AlphaZero的實驗範圍內,這樣可能會導致模型效果變差。   與其說AlphaGo是從白板開始學習,不如說是它在構建的開始就站在了巨人的肩膀上 。   完美資訊博弈之外   無論是圍棋、國際象棋還是將棋,都屬於完美資訊博弈。在這些遊戲中,每個玩家可 以在任何時候看到已經發生或正在發生的遊戲局勢。正因如此,圍棋、國際象棋和將棋問 題特別適合用大資料的方法“蠻力破解”。   問題來了,同樣的機制能解決更廣泛的問題嗎?   AlphaGo Zero的解釋中並沒有說明應用範圍,結果是否在其他挑戰中通用也沒有被提 及。事實是,即使在其他棋類遊戲中,這套方法可能並不適用。   圍棋程式需要的是強模式識別和樹搜索技能,但其他遊戲需要的能力可能不是這些。 文明系列的遊戲需要在不確定的交通網絡中做出決策,遊戲強權外交需要形成聯盟,字謎 遊戲需要語言技能等等。   還有一個例子,Moravcik等人研究的AI DeepStack能在德撲中擊敗人類對手,就需要 一套相關但不同的先天結構,這無疑和完美資訊的單機Atari遊戲需要的結構不同。 DeepMind想同時攻克這兩種遊戲,那他需要的是一套廣泛的先天機制,而不是僅適用于單 一遊戲的系統。   如何讓這套先天機制適用于完美資訊博弈以外的遊戲呢?我們接著往下看。   先天機制(Innate machinery)   僅僅有強化學習和蒙特卡洛樹搜索這兩種先天機制還不夠,那麼,如果要達到通用人 工智慧,我們需要怎樣的結構呢?   在去年10月5號和LeCun的論證中,我有機會總結出一套計算原語組合: 物體的表示 架構化和代數表示 基於變數的操作 type-token區別 表示集合、位置、路徑、軌跡、障礙和持久性的能力 表示物體的可視性的方法 時空鄰近(Spatiotemporal contiguity) 因果關係 平移不變性 分析成本效益的能力   具備了上述的基礎列表中的原語,可能自然就能擁有其他技能了。比如基於博弈的樹 搜索可能是AlphaStar與生俱來的,但是人們可能學習如何做出分析,即使精確度差了些 ,但至少可以把時間、因果關係和意圖性結合在一起,具備成本效益分析的能力。   但上面列表僅僅是個初版,它應該有多長還是個未知數。這讓我想起1994年Pinker提 出的一組的先天能力,裡面甚至包括了恐懼、自我概念和性吸引力。這些都有些經驗主義 ,但每個特徵都被認知和發展心理學、動物行為學和神經科學所支撐。   更重要的是,就目前的目的而言,這個領域確實存在一些可能的先天機制值得AI研究 者去思考,簡單假設在預設情況下,包含很少或幾乎不包含先天機制就讓人滿意了,往好 了說這叫保守。往壞了說,不經過思考就承諾從頭開始重新學習可能也非常愚蠢,這是將 每個獨立的AI系統置於需要重新概括數百萬年來進化的初始位置。   最後,附論文連結: https://arxiv.org/abs/1801.05667   — 完 — http://sports.sina.com.cn/go/2018-01-20/doc-ifyquptv8188212.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1516488202.A.67F.html

01/22 00:23, 8年前 , 1F
感覺就是不同專業的在那邊鬼打牆
01/22 00:23, 1F

01/22 01:14, 8年前 , 2F
這樣講吧,他說的其實是對的,但是從一開始兩邊切入點或者
01/22 01:14, 2F

01/22 01:14, 8年前 , 3F
說對特定關鍵詞的定義就不一樣了,當然好像各說各話XD
01/22 01:14, 3F

01/22 01:18, 8年前 , 4F
用圍棋知識可以下西洋棋? 那也是奇了
01/22 01:18, 4F

01/22 01:20, 8年前 , 5F
他是說光用來訓練的架構可能就得需要不一樣
01/22 01:20, 5F

01/22 01:20, 8年前 , 6F
其實說真的,這點目前來說是無法證偽只能各說各話的部分,
01/22 01:20, 6F

01/22 01:21, 8年前 , 7F
因為AlphaGo已經屌打人類了,目前誰也不知道能不能研發出
01/22 01:21, 7F

01/22 01:22, 8年前 , 8F
其實這套方法的目標是完全資訊遊戲
01/22 01:22, 8F

01/22 01:23, 8年前 , 9F
堅持裡面一定有什麼圍棋知識還蠻奇怪的
01/22 01:23, 9F

01/22 01:23, 8年前 , 10F
單一架構可以把非完美資訊遊戲也都吃下來
01/22 01:23, 10F

01/22 01:24, 8年前 , 11F
不然如何看待同一套方法可以通吃將棋西洋棋
01/22 01:24, 11F

01/22 01:24, 8年前 , 12F
他的意思就是選取架構本身已經帶有「相對適合架構」的資訊
01/22 01:24, 12F

01/22 01:24, 8年前 , 13F
為什麼一定要同一套架構吃下其他種類的遊戲? 黑人問號
01/22 01:24, 13F

01/22 01:24, 8年前 , 14F
在內,其實就是之前版上戰過一輪那個話題
01/22 01:24, 14F

01/22 01:25, 8年前 , 15F
因為,人類就是用一套架構吃下所有遊戲,而AI既然想近似人
01/22 01:25, 15F

01/22 01:25, 8年前 , 16F
真的要講人類知識 也是「針對完全資訊遊戲」的知識
01/22 01:25, 16F

01/22 01:25, 8年前 , 17F
類,當然研究目標就是同樣只用一套架構搞定
01/22 01:25, 17F

01/22 01:25, 8年前 , 18F
這其實很抽象 因為根本沒人知道哪些東西有效
01/22 01:25, 18F

01/22 01:26, 8年前 , 19F
為什麼一定要近似人類?對這教授而言是他研究的主題
01/22 01:26, 19F

01/22 01:26, 8年前 , 20F
所以說了啊,這目前基本上就是不能證偽的說法,只能大家都
01/22 01:26, 20F

01/22 01:27, 8年前 , 21F
抱著自己的定義各說各話,事實上很難決定高下對錯
01/22 01:27, 21F

01/22 01:27, 8年前 , 22F
但不代表一定要往這方向走
01/22 01:27, 22F

01/22 01:27, 8年前 , 23F
因為通用人工智能本來就是人工智慧的大目標,就算AlphaGo
01/22 01:27, 23F

01/22 01:28, 8年前 , 24F
他們的目標也是如此,不然不會費心思又去測玩別的棋類、或
01/22 01:28, 24F

01/22 01:28, 8年前 , 25F
者想同一架構轉移到別的問題上
01/22 01:28, 25F

01/22 01:28, 8年前 , 26F
終極目標應該是盡量逼近圍棋之神
01/22 01:28, 26F

01/22 01:29, 8年前 , 27F
如果目標不是通用化,那下完圍棋就可以封印計畫了,解新問
01/22 01:29, 27F

01/22 01:29, 8年前 , 28F
但模仿人類跟這個目標其實沒什麼關係
01/22 01:29, 28F

01/22 01:29, 8年前 , 29F
題根本不需要堅持既有架構能沿用。
01/22 01:29, 29F

01/22 01:30, 8年前 , 30F
通用化也包括了分類問題然後各個擊破
01/22 01:30, 30F

01/22 01:30, 8年前 , 31F
事實上演算法的研究本來大目標就會擺在能更通用,往狹窄方
01/22 01:30, 31F

01/22 01:30, 8年前 , 32F
連在地上爬都不會就想飛?
01/22 01:30, 32F

01/22 01:30, 8年前 , 33F
向的研究都嘛是通用架構太難搞不出來的權宜之計
01/22 01:30, 33F

01/22 01:31, 8年前 , 34F
現實是解完問題就封印了沒錯啊 同一套方法要解星海
01/22 01:31, 34F

01/22 01:31, 8年前 , 35F
應該是有困難 一定還要另外找突破點
01/22 01:31, 35F

01/22 01:32, 8年前 , 36F
這問題本來就很難 前三十年都沒啥進度還不夠難嗎
01/22 01:32, 36F

01/22 01:32, 8年前 , 37F
所以這只是表示AlphaGo架構並不夠通用,並不代表他們不想
01/22 01:32, 37F

01/22 01:33, 8年前 , 38F
做出更通用的架構,實際情況跟目標當然會有差
01/22 01:33, 38F

01/22 18:13, 8年前 , 39F
alpha go 本來就不是圍棋專用不是嗎
01/22 18:13, 39F

01/22 18:34, 8年前 , 40F
但是他們是「挑圍棋」來測試這個架構,不是「只想解圍棋」
01/22 18:34, 40F

01/22 21:48, 8年前 , 41F
重點在這個架構是針對完全資訊遊戲 不是圍棋
01/22 21:48, 41F

01/22 21:48, 8年前 , 42F
看看原文裡的質疑就知道問題在哪了
01/22 21:48, 42F
文章代碼(AID): #1QOyOAP_ (GO)
文章代碼(AID): #1QOyOAP_ (GO)