[新聞] 馬庫斯再談AlphaGo Zero:不是從零開始 已刪文
馬庫斯再談AlphaGo Zero:不是從零開始
文章來源:量子位公眾號
紐約大學心理學和神經科學教授馬庫斯(Gary Marcus)堅信AlphaZero仍依賴於一些
人類知識,也曾在AlphaZero解讀現場這樣diss哈薩比斯。
可能覺得說得不夠,近日,馬庫斯在arXiv發佈了本月第二篇長文Innateness,
AlphaZero, and Artificial Intelligence,繼續論證AlphaZero“可以在沒有人類指
導的情況下訓練到超過人類水準”的說法被誇大了。
“當代人工智慧論文(通常)用了一個‘相當不錯的’具體結果,對更廣泛的主題做
出了絕對普遍和離譜的斷言。”幾個小時前,他在推特引用了這句話,說明自己怒懟的原
因。
在文章中,馬庫斯將AlphaGo、AlphaGo Zero、AlphaZero的歸結成一種“神奇的AI工
程”,代號“AlphaStar”。
它是一種深層結構的混合,它不單利用深度學習人,也依賴於像樹搜索這樣的傳統符
號技巧(symbolic technique)。
這到底是種怎樣的神奇工程?馬庫斯從DeepMind如何構建Alpha家族的架構開始講起
,量子位元將重點內容編譯整理如下。
△ 馬庫斯
從零開始?
DeepMind在論文中說“一種純強化學習方法是可行的,即使在最具挑戰性的領域,它
也能訓練到超過人類的水準,並且無需人類的案例和指導。除了基本規則外,沒有任何領
域的基礎知識。”
我不贊同。
他們系統中的很多方面延續了在之前在圍棋程式上積累的研究,比如構建遊戲程式中
常用的蒙特卡洛樹搜索。這種技術可以用來評估動作和對策,在樹狀結構上快速得到測試
結果。
問題來了,蒙特卡洛樹這種結構不是通過強化學習從資料中學習的。相反,它在
DeepMind的程式中是與生俱來的,根深蒂固地存在於每個反覆運算的AlphaStar。
可以發現,DeepMind給出的卷積結構很精確,有很多下圍棋的精確參數在裡面,這不
是通過純碎的強化學習學到的。並且,固有演算法和知識的整合的取樣機制不在
AlphaZero的實驗範圍內,這樣可能會導致模型效果變差。
與其說AlphaGo是從白板開始學習,不如說是它在構建的開始就站在了巨人的肩膀上
。
完美資訊博弈之外
無論是圍棋、國際象棋還是將棋,都屬於完美資訊博弈。在這些遊戲中,每個玩家可
以在任何時候看到已經發生或正在發生的遊戲局勢。正因如此,圍棋、國際象棋和將棋問
題特別適合用大資料的方法“蠻力破解”。
問題來了,同樣的機制能解決更廣泛的問題嗎?
AlphaGo Zero的解釋中並沒有說明應用範圍,結果是否在其他挑戰中通用也沒有被提
及。事實是,即使在其他棋類遊戲中,這套方法可能並不適用。
圍棋程式需要的是強模式識別和樹搜索技能,但其他遊戲需要的能力可能不是這些。
文明系列的遊戲需要在不確定的交通網絡中做出決策,遊戲強權外交需要形成聯盟,字謎
遊戲需要語言技能等等。
還有一個例子,Moravcik等人研究的AI DeepStack能在德撲中擊敗人類對手,就需要
一套相關但不同的先天結構,這無疑和完美資訊的單機Atari遊戲需要的結構不同。
DeepMind想同時攻克這兩種遊戲,那他需要的是一套廣泛的先天機制,而不是僅適用于單
一遊戲的系統。
如何讓這套先天機制適用于完美資訊博弈以外的遊戲呢?我們接著往下看。
先天機制(Innate machinery)
僅僅有強化學習和蒙特卡洛樹搜索這兩種先天機制還不夠,那麼,如果要達到通用人
工智慧,我們需要怎樣的結構呢?
在去年10月5號和LeCun的論證中,我有機會總結出一套計算原語組合:
物體的表示
架構化和代數表示
基於變數的操作
type-token區別
表示集合、位置、路徑、軌跡、障礙和持久性的能力
表示物體的可視性的方法
時空鄰近(Spatiotemporal contiguity)
因果關係
平移不變性
分析成本效益的能力
具備了上述的基礎列表中的原語,可能自然就能擁有其他技能了。比如基於博弈的樹
搜索可能是AlphaStar與生俱來的,但是人們可能學習如何做出分析,即使精確度差了些
,但至少可以把時間、因果關係和意圖性結合在一起,具備成本效益分析的能力。
但上面列表僅僅是個初版,它應該有多長還是個未知數。這讓我想起1994年Pinker提
出的一組的先天能力,裡面甚至包括了恐懼、自我概念和性吸引力。這些都有些經驗主義
,但每個特徵都被認知和發展心理學、動物行為學和神經科學所支撐。
更重要的是,就目前的目的而言,這個領域確實存在一些可能的先天機制值得AI研究
者去思考,簡單假設在預設情況下,包含很少或幾乎不包含先天機制就讓人滿意了,往好
了說這叫保守。往壞了說,不經過思考就承諾從頭開始重新學習可能也非常愚蠢,這是將
每個獨立的AI系統置於需要重新概括數百萬年來進化的初始位置。
最後,附論文連結:
https://arxiv.org/abs/1801.05667
— 完 —
http://sports.sina.com.cn/go/2018-01-20/doc-ifyquptv8188212.shtml
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166
※ 文章網址: https://www.ptt.cc/bbs/GO/M.1516488202.A.67F.html
→
01/22 00:23,
8年前
, 1F
01/22 00:23, 1F
推
01/22 01:14,
8年前
, 2F
01/22 01:14, 2F
→
01/22 01:14,
8年前
, 3F
01/22 01:14, 3F
→
01/22 01:18,
8年前
, 4F
01/22 01:18, 4F
推
01/22 01:20,
8年前
, 5F
01/22 01:20, 5F
→
01/22 01:20,
8年前
, 6F
01/22 01:20, 6F
→
01/22 01:21,
8年前
, 7F
01/22 01:21, 7F
推
01/22 01:22,
8年前
, 8F
01/22 01:22, 8F
→
01/22 01:23,
8年前
, 9F
01/22 01:23, 9F
推
01/22 01:23,
8年前
, 10F
01/22 01:23, 10F
→
01/22 01:24,
8年前
, 11F
01/22 01:24, 11F
→
01/22 01:24,
8年前
, 12F
01/22 01:24, 12F
→
01/22 01:24,
8年前
, 13F
01/22 01:24, 13F
→
01/22 01:24,
8年前
, 14F
01/22 01:24, 14F
→
01/22 01:25,
8年前
, 15F
01/22 01:25, 15F
→
01/22 01:25,
8年前
, 16F
01/22 01:25, 16F
→
01/22 01:25,
8年前
, 17F
01/22 01:25, 17F
→
01/22 01:25,
8年前
, 18F
01/22 01:25, 18F
→
01/22 01:26,
8年前
, 19F
01/22 01:26, 19F
→
01/22 01:26,
8年前
, 20F
01/22 01:26, 20F
→
01/22 01:27,
8年前
, 21F
01/22 01:27, 21F
→
01/22 01:27,
8年前
, 22F
01/22 01:27, 22F
→
01/22 01:27,
8年前
, 23F
01/22 01:27, 23F
→
01/22 01:28,
8年前
, 24F
01/22 01:28, 24F
→
01/22 01:28,
8年前
, 25F
01/22 01:28, 25F
推
01/22 01:28,
8年前
, 26F
01/22 01:28, 26F
→
01/22 01:29,
8年前
, 27F
01/22 01:29, 27F
→
01/22 01:29,
8年前
, 28F
01/22 01:29, 28F
→
01/22 01:29,
8年前
, 29F
01/22 01:29, 29F
→
01/22 01:30,
8年前
, 30F
01/22 01:30, 30F
→
01/22 01:30,
8年前
, 31F
01/22 01:30, 31F
→
01/22 01:30,
8年前
, 32F
01/22 01:30, 32F
→
01/22 01:30,
8年前
, 33F
01/22 01:30, 33F
→
01/22 01:31,
8年前
, 34F
01/22 01:31, 34F
→
01/22 01:31,
8年前
, 35F
01/22 01:31, 35F
→
01/22 01:32,
8年前
, 36F
01/22 01:32, 36F
推
01/22 01:32,
8年前
, 37F
01/22 01:32, 37F
→
01/22 01:33,
8年前
, 38F
01/22 01:33, 38F
推
01/22 18:13,
8年前
, 39F
01/22 18:13, 39F
推
01/22 18:34,
8年前
, 40F
01/22 18:34, 40F
推
01/22 21:48,
8年前
, 41F
01/22 21:48, 41F
→
01/22 21:48,
8年前
, 42F
01/22 21:48, 42F
GO 近期熱門文章
PTT遊戲區 即時熱門文章
15
19
16
22