Re: [轉錄] 「戰勝自己」對於AlphaGo而言不只是口號

看板GO (圍棋)作者 (機槍設計師)時間9年前 (2016/03/14 15:12), 9年前編輯推噓12(12032)
留言44則, 14人參與, 最新討論串2/2 (看更多)
※ 引述《Tkuei (it's me)》之銘言: : 這是台大資工林守德老師在他FB寫的一篇文章,是他看過Nature那篇論文之後寫的感想 : 個人認為高手解讀應該有助於釐清大家對AlphaGo行為模式的理解 : 原文連結:https://goo.gl/m8cBHn (FB連結,不喜誤入) 小弟是programmer,也是業餘圍棋的愛好者,看了這幾天的直播,忍不住發一點自己的心 得。 我在看過論文以後,我覺得用更通俗的方法來描述AlphaGo,應該說他已經不是傳統上認定 的電腦AI,而是一個人,而這個「人」,靠著超強記憶力,在短短二年裡,經歷了可能千 年的玩棋歷程,有著超強的直覺。 他就從頭到尾用超強的記憶力,靠著直覺在下棋,甚至不懂規則。這意思是說,搞不好如 果有低等但神經元多且長壽的生物,我們把他抓來,把他的大腦接上電子訊號控制,把他 的視覺感官接成電腦棋盤,動作神經接鍵盤,讓他可以下棋,下得好給食物獎勵,下不好 給懲罰(AlphaGo的神經網路訓練是有獎勵,但是有沒有懲罰我就不知道了),也許這樣 的生物也可以練出不低的棋力,例如說章魚的神經元有五億個(人腦有1000億個以上), 專心練棋,搞不好比AlphaGo的運作成本還低XD AlphaGo的價值或者說其恐怖,就是他已經具備類似人類的直覺,哪一天他要來畫畫還是寫 音樂,搞不好都有可能發生,你要說他有沒有情感,搞不好可能也算有了,就是在上一盤 他發現下錯棋,開始胡亂亂下,可能就是,也許AlphaGo以後應該作一個螢幕,顯示他認為 當下勝率多少,勝率高就是很開心的臉,勝率低就是苦瓜臉,當某一棋對手下出Alphago無 法應,亂硬的時候,開心的臉瞬間變苦瓜臉,你就知道他的情緒了。XD 其實應該作這個,才公平,因為李九段的心情情緒大家都看得到,可是AlphaGo的心情(勝 率)大家又看不到,這真的不公平。 跟AlphaGo不同的是,人類下棋是直覺跟邏輯並行的,好的職業棋手知道何時要切換,Alph -aGo的狀況是,這一位「棋手」他不是邏輯不好完全依賴感覺行事,就是這一盤沒有掌握 到切換的時機,該拼邏輯的時候,他卻還在靠感覺,有點像是完全靠感覺開車,一但感覺 出錯,就歇斯底里,發生意外那樣XD AlphaGo已經被訓練成這樣感覺派的了,昨天也不能說那是bug,比較可能說是一個「千年 老人」棋士下棋的壞習慣終於被抓到了。那將來Google的下一個圍棋人工智慧,BetaGo、 GamaGo會不會換不同的「訓練法則」,來訓練神經網路變出不同的棋風呢?值得期待。 一點心得分享XDXD -- the First Order帝國軍莒光日主題歌:我們敬愛的達斯維達 https://www.youtube.com/watch?v=-iksyCHHIuI
班長:每個人都要唱!大聲唱! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.195.168.170 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457939554.A.8A2.html ※ 編輯: mgdesigner (123.195.168.170), 03/14/2016 15:15:01

03/14 15:15, , 1F
李40雖然情緒大家看的到 但是alphaGO又不看 這種情況下
03/14 15:15, 1F

03/14 15:15, , 2F
把alphaGO的情緒顯現出來給李40看 才是不公平吧
03/14 15:15, 2F

03/14 15:17, , 3F
這個太超自然了啦...你要講也要連結到演算法吧@@
03/14 15:17, 3F

03/14 15:19, , 4F
情緒看不看的倒不是重點 但是李世石情緒會波動 但阿發夠
03/14 15:19, 4F

03/14 15:19, , 5F
其實就是根據你講的情緒來下棋的 這是他最大的優勢
03/14 15:19, 5F

03/14 15:20, , 6F
*李世石情緒波動會影響他下的棋的好壞
03/14 15:20, 6F

03/14 15:32, , 7F
那不是直覺 就是網絡架構加上已經訓練好的權重而已
03/14 15:32, 7F
我覺得,這要定義何謂「直覺」 我們人類的直覺,是否也是由我們神經元的權重組成?

03/14 15:32, , 8F
其實google可以辦一場alphgo A跟alphgo B下棋 看會怎樣
03/14 15:32, 8F

03/14 15:35, , 9F
辦了幾千萬場了,只是沒公開而已
03/14 15:35, 9F

03/14 15:41, , 10F
其實已經有AI可以製作音樂了,創作不再是人類所獨有
03/14 15:41, 10F
不過還不夠好聽就是了.. 期待AlphaGO轉行作音樂可不可以好聽一點XD

03/14 15:43, , 11F
而電腦的電晶體數量很快就會追上人腦的神經元數量
03/14 15:43, 11F

03/14 15:45, , 12F
現在的電子人腦思考速度大概是人腦的1/1000,如果摩爾
03/14 15:45, 12F

03/14 15:46, , 13F
定律不變,大概40年後,電子腦就跟人腦擁有相同速度
03/14 15:46, 13F
※ 編輯: mgdesigner (123.195.168.170), 03/14/2016 15:50:51

03/14 15:49, , 14F
^打錯,應該是20年後
03/14 15:49, 14F

03/14 15:50, , 15F
應該給大家看不給李看
03/14 15:50, 15F

03/14 15:55, , 16F
同意樓上
03/14 15:55, 16F

03/14 15:56, , 17F
我也希望看到alphaGo的情緒,幫它做個臉吧 XD
03/14 15:56, 17F

03/14 15:57, , 18F
對耶 給大家看好像不錯
03/14 15:57, 18F

03/14 16:11, , 19F
要做出情緒應該不難,勝率低時苦惱表情,高時輕鬆表情
03/14 16:11, 19F

03/14 16:12, , 20F
隨機亂數,偶爾做出跟勝率相反的欺敵表情,夠擬真了吧
03/14 16:12, 20F

03/14 16:14, , 21F
看的懂的騙不了人
03/14 16:14, 21F

03/14 16:16, , 22F
看得懂的人才會對欺敵表情絕得困惑啊
03/14 16:16, 22F

03/14 16:17, , 23F
明明AG都快輸了為什麼表情一臉輕鬆,會想自己是否漏算
03/14 16:17, 23F

03/14 16:18, , 24F
AI的介紹(有中文字幕)
03/14 16:18, 24F

03/14 16:19, , 25F
看完影片你會覺得自己快變成nothing了
03/14 16:19, 25F

03/14 16:20, , 26F
人腦還是有效率很多,李世石下過的棋少電腦很多
03/14 16:20, 26F

03/14 17:17, , 27F
樓上定義很怪,怎麼不說三個月就能贏九段的這種效率?
03/14 17:17, 27F

03/14 17:41, , 28F
人腦反而沒效率吧,人腦最重要的事情是活著,光是這
03/14 17:41, 28F

03/14 17:42, , 29F
項就要花1/3時間去睡覺,還要吃喝拉撒,就算在下圍棋
03/14 17:42, 29F

03/14 17:43, , 30F
用到的部分頂多就10%,其他90%zj負責生存
03/14 17:43, 30F

03/14 17:44, , 31F
阿法狗就只做一件事就是算圍棋,而且不會死阿
03/14 17:44, 31F

03/14 17:53, , 32F
後面那幾手亂下對AG來說不是亂下,但對人來說是亂下
03/14 17:53, 32F

03/14 17:54, , 33F
如果是亂下的棋,小李一一照應會不會很奇怪?他可以不理
03/14 17:54, 33F

03/14 17:55, , 34F
所以AG在賭小李不會應手,都應完,AG就投降了,因為沒棋
03/14 17:55, 34F

03/14 17:57, , 35F
賭這種機率為0的棋,對人當然是亂下,但AG哪知道機率0?
03/14 17:57, 35F

03/14 18:00, , 36F
AG有評估對方應手機率的函式嗎??
03/14 18:00, 36F

03/14 20:16, , 37F
我是說下幾盤棋可以到職棋
03/14 20:16, 37F

03/14 20:17, , 38F
所以一樣多的神經元不見得可以做到一樣多的事
03/14 20:17, 38F

03/14 20:19, , 39F
越不接近暴力法就越有效率,像窮舉到類神經
03/14 20:19, 39F

03/14 23:34, , 40F
你的解釋相當的有意思,完全靠「棋感」,而且看起像
03/14 23:34, 40F

03/14 23:34, , 41F
細算的地方,其實也是靠感覺。
03/14 23:34, 41F

03/14 23:34, , 42F
也就是看機率,說難聽一點就是:大概這樣下會贏。
03/14 23:34, 42F

03/15 00:42, , 43F
是的這就是他演算法的主軸。
03/15 00:42, 43F

03/15 22:19, , 44F
AlphaGo就是一個記憶力超強的賭徒,這種感覺
03/15 22:19, 44F
文章代碼(AID): #1MvcHYYY (GO)
文章代碼(AID): #1MvcHYYY (GO)