[新聞] 馬庫斯再談AlphaGo Zero：不是從零開始　已刪文

看板GO (圍棋)作者joanzkow (星浪)時間8年前 (2018/01/21 06:43)推噓9(9推 0噓 33→)

留言42則, 4人參與討論串1/1

馬庫斯再談AlphaGo Zero：不是從零開始　文章來源：量子位公眾號　　紐約大學心理學和神經科學教授馬庫斯（Gary Marcus）堅信AlphaZero仍依賴於一些人類知識，也曾在AlphaZero解讀現場這樣diss哈薩比斯。　　可能覺得說得不夠，近日，馬庫斯在arXiv發佈了本月第二篇長文Innateness， AlphaZero， and Artificial Intelligence，繼續論證AlphaZero“可以在沒有人類指導的情況下訓練到超過人類水準”的說法被誇大了。　　“當代人工智慧論文（通常）用了一個‘相當不錯的’具體結果，對更廣泛的主題做出了絕對普遍和離譜的斷言。”幾個小時前，他在推特引用了這句話，說明自己怒懟的原因。　　在文章中，馬庫斯將AlphaGo、AlphaGo Zero、AlphaZero的歸結成一種“神奇的AI工程”，代號“AlphaStar”。　　它是一種深層結構的混合，它不單利用深度學習人，也依賴於像樹搜索這樣的傳統符號技巧（symbolic technique）。　　這到底是種怎樣的神奇工程？馬庫斯從DeepMind如何構建Alpha家族的架構開始講起，量子位元將重點內容編譯整理如下。　　△ 馬庫斯　　從零開始？　　DeepMind在論文中說“一種純強化學習方法是可行的，即使在最具挑戰性的領域，它也能訓練到超過人類的水準，並且無需人類的案例和指導。除了基本規則外，沒有任何領域的基礎知識。” 　　我不贊同。　　他們系統中的很多方面延續了在之前在圍棋程式上積累的研究，比如構建遊戲程式中常用的蒙特卡洛樹搜索。這種技術可以用來評估動作和對策，在樹狀結構上快速得到測試結果。　　問題來了，蒙特卡洛樹這種結構不是通過強化學習從資料中學習的。相反，它在 DeepMind的程式中是與生俱來的，根深蒂固地存在於每個反覆運算的AlphaStar。　　可以發現，DeepMind給出的卷積結構很精確，有很多下圍棋的精確參數在裡面，這不是通過純碎的強化學習學到的。並且，固有演算法和知識的整合的取樣機制不在 AlphaZero的實驗範圍內，這樣可能會導致模型效果變差。　　與其說AlphaGo是從白板開始學習，不如說是它在構建的開始就站在了巨人的肩膀上。　　完美資訊博弈之外　　無論是圍棋、國際象棋還是將棋，都屬於完美資訊博弈。在這些遊戲中，每個玩家可以在任何時候看到已經發生或正在發生的遊戲局勢。正因如此，圍棋、國際象棋和將棋問題特別適合用大資料的方法“蠻力破解”。　　問題來了，同樣的機制能解決更廣泛的問題嗎？　　AlphaGo Zero的解釋中並沒有說明應用範圍，結果是否在其他挑戰中通用也沒有被提及。事實是，即使在其他棋類遊戲中，這套方法可能並不適用。　　圍棋程式需要的是強模式識別和樹搜索技能，但其他遊戲需要的能力可能不是這些。文明系列的遊戲需要在不確定的交通網絡中做出決策，遊戲強權外交需要形成聯盟，字謎遊戲需要語言技能等等。　　還有一個例子，Moravcik等人研究的AI DeepStack能在德撲中擊敗人類對手，就需要一套相關但不同的先天結構，這無疑和完美資訊的單機Atari遊戲需要的結構不同。 DeepMind想同時攻克這兩種遊戲，那他需要的是一套廣泛的先天機制，而不是僅適用于單一遊戲的系統。　　如何讓這套先天機制適用于完美資訊博弈以外的遊戲呢？我們接著往下看。　　先天機制（Innate machinery）　　僅僅有強化學習和蒙特卡洛樹搜索這兩種先天機制還不夠，那麼，如果要達到通用人工智慧，我們需要怎樣的結構呢？　　在去年10月5號和LeCun的論證中，我有機會總結出一套計算原語組合：物體的表示架構化和代數表示基於變數的操作 type-token區別表示集合、位置、路徑、軌跡、障礙和持久性的能力表示物體的可視性的方法時空鄰近（Spatiotemporal contiguity）因果關係平移不變性分析成本效益的能力　　具備了上述的基礎列表中的原語，可能自然就能擁有其他技能了。比如基於博弈的樹搜索可能是AlphaStar與生俱來的，但是人們可能學習如何做出分析，即使精確度差了些，但至少可以把時間、因果關係和意圖性結合在一起，具備成本效益分析的能力。　　但上面列表僅僅是個初版，它應該有多長還是個未知數。這讓我想起1994年Pinker提出的一組的先天能力，裡面甚至包括了恐懼、自我概念和性吸引力。這些都有些經驗主義，但每個特徵都被認知和發展心理學、動物行為學和神經科學所支撐。　　更重要的是，就目前的目的而言，這個領域確實存在一些可能的先天機制值得AI研究者去思考，簡單假設在預設情況下，包含很少或幾乎不包含先天機制就讓人滿意了，往好了說這叫保守。往壞了說，不經過思考就承諾從頭開始重新學習可能也非常愚蠢，這是將每個獨立的AI系統置於需要重新概括數百萬年來進化的初始位置。　　最後，附論文連結： https：//arxiv.org/abs/1801.05667 　　— 完 — http://sports.sina.com.cn/go/2018-01-20/doc-ifyquptv8188212.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1516488202.A.67F.html

→

jpg31415926

01/22 00:23, 8年前 , 1^F

01/22 00:23, 1^F

推

[新聞] 馬庫斯再談AlphaGo Zero：不是從零開始 已刪文

[新聞] 馬庫斯再談AlphaGo Zero：不是從零開始　已刪文