欲香欲色天天综合久久,911无码在线视频

羿閣發(fā)自凹非寺

【資料圖】

量子位 | 公眾號(hào) QbitAI

一個(gè)連業(yè)余棋手都打不過(guò)的新模型，竟然擊敗了世界最強(qiáng)圍棋AI——KataGo？

沒(méi)錯(cuò)，這驚掉人下巴的結(jié)果來(lái)自MIT、UC伯克利等的最新論文。

研究人員利用對(duì)抗攻擊方法，抓住了KataGo的盲點(diǎn)，并基于該技術(shù)使一個(gè)菜鳥(niǎo)級(jí)圍棋程序成功打敗了KataGO。

在沒(méi)有搜索的情況下，這一勝率甚至達(dá)到了99%。

這么算下來(lái)，圍棋界的食物鏈瞬間變成了：業(yè)余棋手>新AI>頂級(jí)圍棋AI？

等等，這個(gè)神奇的新AI是怎么做到又菜又厲害的？

刁鉆的攻擊角度

在介紹新AI之前，讓我們先來(lái)了解一下這次被攻擊的主角——KataGo。

KataGo，目前最強(qiáng)大的開(kāi)源圍棋AI，由哈佛AI研究員開(kāi)發(fā)。

此前，KataGo戰(zhàn)勝了超人類(lèi)水平的ELF OpenGo和Leela Zero，即使沒(méi)有搜索引擎的情況下，其水平也與歐洲前100名圍棋專(zhuān)業(yè)選手相當(dāng)。

剛剛拿下三星杯冠軍、實(shí)現(xiàn)“三年四冠”的韓國(guó)圍棋“第一人”申真谞，就一直用的KataGo進(jìn)行陪練。

△圖源：Hangame

面對(duì)實(shí)力如此強(qiáng)勁的對(duì)手，研究人員選擇的方法可以說(shuō)是四兩撥千斤了。

他們發(fā)現(xiàn)，盡管KataGo通過(guò)與自己進(jìn)行數(shù)百萬(wàn)次游戲來(lái)學(xué)習(xí)圍棋，但這仍然不足以涵蓋所有可能的情況。

于是，這次他們不再選擇自我博弈，而是選擇對(duì)抗攻擊方法：

讓攻擊者（adversary）和固定受害者（victim，也就是KataGo）之間進(jìn)行博弈，利用這種方式訓(xùn)練攻擊者。

這一步改變讓他們僅用訓(xùn)練KataGo時(shí)0.3%的數(shù)據(jù)，訓(xùn)練出了一個(gè)端到端的對(duì)抗策略（adversarial policy）。

具體來(lái)說(shuō)，該對(duì)抗策略并不是完全在做博弈，而是通過(guò)欺騙KataGo在對(duì)攻擊者有利的位置落子，以過(guò)早地結(jié)束游戲。

以下圖為例，控制著黑子的攻擊者主要在棋盤(pán)的右上角落子，把其他區(qū)域留給KataGo，并且還心機(jī)的在其他區(qū)域下了一些容易被清理的棋子。

論文共同一作Adam Gleave介紹：

這種做法會(huì)讓KataGo誤以為自己已經(jīng)贏了，因?yàn)樗牡乇P(pán)(左下)比對(duì)手的要大得多。

但左下角的區(qū)域并沒(méi)有真正貢獻(xiàn)分?jǐn)?shù)，因?yàn)槟抢锶粤粲泻谧樱@意味著它并不完全安全。

由于KataGo對(duì)勝利過(guò)于自信——認(rèn)為如果游戲結(jié)束并計(jì)算分?jǐn)?shù)自己就會(huì)贏——所以KataGo會(huì)主動(dòng)pass，然后攻擊者也pass，從而結(jié)束游戲，開(kāi)始計(jì)分。(雙方pass，棋就結(jié)束)

但正如Gleave分析的一樣，由于KataGo圍空中的黑子尚有活力，按照圍棋裁判規(guī)則并未被判定為“死子”，因此KataGo的圍空中有黑子的地方都不能被計(jì)算為有效目數(shù)。

因此最后的贏家并不是KataGo，而是攻擊者。

這一勝利并不是個(gè)例，在沒(méi)有搜索的情況下，該對(duì)抗策略對(duì)KataGo的攻擊達(dá)到了99%的勝率。

當(dāng)KataGo使用足夠的搜索接近超人的水平時(shí)，他們的勝率達(dá)到了50%。

另外，盡管有這種巧妙的策略，但攻擊者模型本身的圍棋實(shí)力卻并不強(qiáng)：事實(shí)上，人類(lèi)業(yè)余愛(ài)好者都可以輕松地?fù)魯∷?/p>

研究者表示，他們的研究目的是通過(guò)攻擊KataGo的一個(gè)意想不到的漏洞，證明即使高度成熟的AI系統(tǒng)也會(huì)存在嚴(yán)重的漏洞。

正如共同一作Gleave所說(shuō)：

（這項(xiàng)研究）強(qiáng)調(diào)了對(duì)AI系統(tǒng)進(jìn)行更好的自動(dòng)化測(cè)試以發(fā)現(xiàn)最壞情況下的失敗模式的必要性，而不僅僅是測(cè)試一般情況下的性能。

研究團(tuán)隊(duì)

該研究團(tuán)隊(duì)來(lái)自MIT、UC伯克利等，論文共同一作為T(mén)ony Tong Wang和Adam Gleave。

Tony Tong Wang，麻省理工學(xué)院計(jì)算機(jī)科學(xué)專(zhuān)業(yè)博士生，有過(guò)在英偉達(dá)、Genesis Therapeutics等公司實(shí)習(xí)的經(jīng)歷。

Adam Gleave，加州大學(xué)伯克利分校人工智能博士生，碩士和本科畢業(yè)于劍橋大學(xué)，主要研究方向是深度學(xué)習(xí)的魯棒性。