Re: [好文推薦] 這兩盤棋 沒人會比李世石做得好消失

看板GO (圍棋)作者時間9年前 (2016/03/12 11:35), 9年前編輯推噓10(10043)
留言53則, 10人參與, 最新討論串8/8 (看更多)
有些觀念我覺得要釐清一下比較好 ML的訓練過程說穿了也只是一種數學問題 要分析演算法還是得回到數學的本質 既然Alphago的決策模式加入了隨機性 再加上訓練NN的過程也不能保證得到global optimum 換言之 不管你在training階段餵多棒的data進去 testting階段就是有機會掉到local optimum 而當local optimum距離真正的global optimum很遠時 預測就可能出錯 NN模型具有弱點可以從不同面向說明: 1. 因為它的數學模型複雜, 不屬於convex函數 任何最佳化演算法本來就不能在這類模型上保證得到global optimum 2. 訓練時採用的stochast gradient descent演算法 本身就是局部最佳求解的方式之一 3. 訓練過程中其實也參與一些隨機的機制 (dropout) 現在NN能再紅起來是靠大數據加上研究者聰明的訓練方式 (冠上deep learning之名重新出發) 很大程度地壓抑住上面的本質問題 但不代表它就沒有被破解的空間 否則那些研究如何加雜訊使模型失效的研究者不就是做心酸的嗎 : -- : 推 ddavid: 不過其實我覺得談到雜訊的時候training處理比較重要 03/12 01:00 : → ddavid: 因為只要training沒因為雜訊造成overfitting,就相對不怕 03/12 01:02 : → ddavid: testing用的資料也有雜訊 03/12 01:03 這個說法是有問題的 以NN來說研究者的確透過加雜訊的方式使模型失效 但你會說訓練出來的模型overfittting嗎 不會呀 因為它的泛化能力在一般資料上還是表現得很好 只是這不代表它就沒有漏洞可鑽 : → aaaba: 反正就是圍棋的輸入很乾淨,沒也所謂雜訊干擾的問題。train 03/12 01:18 : → aaaba: ing的時候根本就沒有加爛譜砸自己腳的道理。測試階段也無法 03/12 01:18 : → aaaba: 讓電腦接收到雜訊,落子偏一路之類的,對電腦可不是什麼雜 03/12 01:18 : → aaaba: 訊,而是你下壞了。 03/12 01:18 這個說法也太武斷 如果演算法能準確判斷每一步壞棋 相當於有能力找到global optimum了 但從數學本質分析NN就是只能做到近似最佳解而已 所以必然存在一些決策容易使訓練出來的系統預測失準 只不過要找到這些漏洞 悲觀地說還是得靠演算法而不是人 不過我很認同你說的圍棋資料是相對乾淨的data這件事 要處理的data乾淨與否對ML是非常重要的 在這方面我甚至認為是圍棋資料的優勢 以下是我第一局比完當天寫在個人FB頁面的看法 作為參考佐證: -- 今天有在關心AI的人應該都很興奮吧,下午我在辦公室其實也興奮得做不下事,一直找同 事討論這話題。不過持平說,AI(或者說machine learning)在圍棋競技取得的勝利其意義 未必像一般人想像的這麼大:   1. ML的精神是透過模型訓練機制從大量的、看似無規則的資料中歸納出有意義的pattern ,換言之若資料本身不具此性質(或pattern性質遭到破壞),再高明的ML技術也難使力。 從這點來看,圍棋遊戲是非常適合ML大展手腳的data。19x19棋盤格搭配黑/白/無三種狀 態變化,可能的輸入棋面為3^361種,這個數字對於許多現實應用所要處理的資料變化其 實還遠小得多。例如一張640x480以8 bit編碼的數位影像,資料可能性就有 256^(640x480)種。   2. 第1點從資料空間說明了圍棋遊戲這種資料形態在ML應用上的優勢,但更關鍵的一點或 許是圍棋資料不太出現會影響決策的雜訊,也就是說資料的pattern性質不容易被破壞。 這裡可以將雜訊直觀地理解成無法預測的隨機變數。在圍棋世界裡造成棋手判斷錯誤的一 步並不是雜訊,而是對手對數十回合後精密預測的結果,換言之這裡面必然存在某種 pattern可以學習。然而真實世界中,不管是從感測器(sensor)收到的訊號或者從人類活 動中量化得到的數值,卻會面臨各式各樣雜訊挑戰。這些雜訊基本無法歸納,都是模型殺 手。   3. 綜合1,2點,如果將ML技術看待成data-model-prediction三者之間建立起來的關係, 圍棋遊戲在data-model這一段的難度其實遠遠低於其他AI應用。然而alphago的成功也不 容抹煞,它證明了現在的ML演算法已經差不多征服model-prediction這一段的複雜度,畢 竟以決策結果的空間來說圍棋是非常困難的,而今天中盤後alphago卻做到近乎零失誤演 出。但未來ML的挑戰仍然是在data-model這一段,要縮小資料空間的複雜度,必須仰賴對 問題的先驗知識(prior knowledge)以及考驗演算法本身對雜訊的容錯程度。說白話一點 ,當資料本身的pattern性質已經微乎其微了,你怎麼期待ML演算法能夠分辨什麼是雜訊 的擾動而什麼又是這世界隱含的規則呢?從不完美的資料裡發掘由資料詮釋的完美邏輯, 這才應該是ML研究者們繼續努力的價值所在。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.43.207.184 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457753722.A.E98.html

03/12 11:39, , 1F
推,請問餵什麼data有什麼一般理論嗎?
03/12 11:39, 1F

03/12 11:39, , 2F
好像有時候要餵好的,有時候要餵unbiased的,
03/12 11:39, 2F

03/12 11:40, , 3F
譬如說AlphaGo這麼強,但是似乎也不是自己餵給自己?
03/12 11:40, 3F

03/12 11:45, , 4F
看data source的性質 如果是像sensor收到的這種數值
03/12 11:45, 4F

03/12 11:46, , 5F
可是就我所知,deep跟傳統的ML很不一樣
03/12 11:46, 5F

03/12 11:46, , 6F
勢必帶noise 那訓練階段就要故意加一點noisy data下去
03/12 11:46, 6F

03/12 11:46, , 7F
我一直覺得 好像真的認為AG找到的是最佳解的人沒那麼多
03/12 11:46, 7F

03/12 11:46, , 8F
只是爭論的是當它下出一個看似有問題的手(如果不是簡
03/12 11:46, 8F

03/12 11:46, , 9F
單邏輯就能判斷的壞棋)到底要怎麼判斷 畢竟終究人類本
03/12 11:46, 9F

03/12 11:46, , 10F
來累積的認知也可能離global optimum有段距離
03/12 11:46, 10F

03/12 11:47, , 11F
ML你不告訴他的他不會知道,但是deep確有可能自己找出來
03/12 11:47, 11F

03/12 11:48, , 12F
ML可以阿 只是過去ML模型沒這麼複雜 泛化能力就差
03/12 11:48, 12F

03/12 11:48, , 13F
而且這樣說很奇怪 deep本來就是ML的一種
03/12 11:48, 13F

03/12 11:48, , 14F
可是ML還是base on人設計給電腦的rule
03/12 11:48, 14F

03/12 11:48, , 15F
不是耶 你有誤會
03/12 11:48, 15F

03/12 11:49, , 16F
但是deep是讓電腦自己把rule找出來
03/12 11:49, 16F

03/12 11:50, , 17F
喔,我應該是說傳統的ML跟deep L
03/12 11:50, 17F

03/12 11:51, , 18F
至少就我的認知,傳統的ML我們把棋譜那些「劣手」當作劣手
03/12 11:51, 18F

03/12 11:52, , 19F
餵給電腦去train的話,那test時的時候就不會把劣手當好手
03/12 11:52, 19F

03/12 11:53, , 20F
但是deep我們不會告訴他好壞,所以好壞是電腦子自己找到的
03/12 11:53, 20F

03/12 11:54, , 21F
因此原本在棋界公認不好的下法,卻被AlphaGo翻盤
03/12 11:54, 21F
因為你的說法有點矛盾所以我試著回答兩個面向 如果是指不告訴演算法label而要它學習出資料的pattern 這叫unsupervised learning ML一直都有這種技術 而如果是指訓練label中帶noie的情況卻期望演算法自動抵抗 這個題目過去ML也一直在研究 只是改良的幅度沒到十分驚人而已 基於deep learning的NN可以超越過去所有ML技術 主要原因還是它的模型複雜度比過去高太多了

03/12 11:59, , 22F
請問樓上,可是AlphaGo的paper裡看起來光用SL policy
03/12 11:59, 22F

03/12 12:00, , 23F
network和它的變體就很強了,我的理解這邊是單純學習
03/12 12:00, 23F

03/12 12:01, , 24F
就很強了,這個有什麼特別的解釋嗎?
03/12 12:01, 24F

03/12 12:02, , 25F
policy不能用RL,因為RL會有破台後便固定玩法的問題
03/12 12:02, 25F

03/12 12:03, , 26F
推認真討論。我把我的說法多闡明一下,乾淨的資料使得分類
03/12 12:03, 26F

03/12 12:03, , 27F
器的boundary可以劃分的很好,如此一來,人類棋手若非因為
03/12 12:03, 27F

03/12 12:03, , 28F
細算的理由,而在正手旁一路落子,“極大的機會”是一招惡
03/12 12:03, 28F

03/12 12:03, , 29F
或著說他會很容易掉到local minimal上,比較合理的還是
03/12 12:03, 29F

03/12 12:03, , 30F
手,而非引發bug的雜訊。另外,就統計而言,deep net只要比
03/12 12:03, 30F

03/12 12:03, , 31F
人更靠近另一個更好的local opt就足夠勝過人類,加上mcts的
03/12 12:03, 31F

03/12 12:03, , 32F
架構,大大補足了non cvx的問題。
03/12 12:03, 32F
我了解你的意思 不過貼那個連結就是想表達即使模型預測失效的機率很低 研究者還是有策略利用另外一套演算法找出它的缺點 不用這麼絕望 畢竟面對的不是百分百global optimum

03/12 12:03, , 33F
用SL或是和SL對練的RL
03/12 12:03, 33F

03/12 12:09, , 34F
然後這篇跟我的經驗完全相反@@..起碼在online的時候
03/12 12:09, 34F

03/12 12:10, , 35F
data的entropy越高NN表現就越比PM+regression好
03/12 12:10, 35F
這是當然阿 data source複雜度越高當然就要提高模型的複雜度 我心得那一段要說明的是圍棋這種乾淨資料對"所有ML技術"而言都是比較歡迎的 (但是這種說法並沒有討論到決策空間的複雜度)

03/12 12:24, , 36F
抱歉小弟並非ML專精,只是因為研究需要略懂皮毛,用詞失準
03/12 12:24, 36F

03/12 12:24, , 37F
還請多多指正。
03/12 12:24, 37F

03/12 12:24, , 38F
雖然說影像動輒5000*3000,棋盤只有19*19,但是拿來相比未
03/12 12:24, 38F

03/12 12:24, , 39F
必適合,因為點與點之間關係的複雜性是不能相比的
03/12 12:24, 39F

03/12 12:24, , 40F
可以借這篇問一下嗎 alphago的用時策略是固定的嗎
03/12 12:24, 40F

03/12 12:32, , 41F
用時估算,fast policy等關鍵點google肯定是不會講的
03/12 12:32, 41F

03/12 12:33, , 42F
大家講的神乎其技的DCNN反而是最簡單的部分@@
03/12 12:33, 42F

03/12 12:36, , 43F
認同樓上,那邊很吃domain knowledge
03/12 12:36, 43F

03/12 12:36, , 44F
他又不是純靠nn 干擾他只能造成mcts效率降低
03/12 12:36, 44F

03/12 12:37, , 45F
而且資料是操作人員在餵 想靠污染不切實際
03/12 12:37, 45F
你好像誤會了 希望做到的是在testing階段下出怪手(像對輸入資料加noise)使模型預測失準 而不是在訓練階段加雜訊

03/12 12:38, , 46F
認同樓上
03/12 12:38, 46F
※ 編輯: fallcolor (114.43.207.184), 03/12/2016 12:51:53

03/12 12:57, , 47F
真正決定落子的是Mcts 裡面用的網路目標只是要比亂數好
03/12 12:57, 47F

03/12 12:58, , 48F
Nn不準只是效率差點 還沒法控制
03/12 12:58, 48F

03/12 13:00, , 49F
只要比RN好OTZ,從RL Value到SL policy就從6d升到8d了
03/12 13:00, 49F

03/12 13:03, , 50F
說的是 但貼那個link就是要說明有策略可以讓NN效率變差
03/12 13:03, 50F

03/12 13:04, , 51F
MCTS如何破解的部分就需要其他專家補充了
03/12 13:04, 51F

03/12 14:01, , 52F
想不到在圍棋版可以看到關於ML/AI的討論@@ 受益良多
03/12 14:01, 52F

03/12 15:22, , 53F
RBM?
03/12 15:22, 53F
文章代碼(AID): #1MuuvwwO (GO)
討論串 (同標題文章)
文章代碼(AID): #1MuuvwwO (GO)