應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

AI新方向:對(duì)抗攻擊

2018-11-15 15:21 SciTouTiao

導(dǎo)讀:在調(diào)查近幾年 AI 領(lǐng)域的過(guò)程中,我發(fā)現(xiàn)近幾年對(duì)抗攻擊的概念逐漸出現(xiàn)在全世界各國(guó)研究人員的視野中,我認(rèn)為這將會(huì)是現(xiàn)在乃至未來(lái)幾年最引人矚目的新方向之一。

在調(diào)查近幾年 AI 領(lǐng)域的過(guò)程中,我發(fā)現(xiàn)近幾年對(duì)抗攻擊的概念逐漸出現(xiàn)在全世界各國(guó)研究人員的視野中,我認(rèn)為這將會(huì)是現(xiàn)在乃至未來(lái)幾年最引人矚目的新方向之一。

概述我在國(guó)內(nèi)的兩個(gè)著名的學(xué)術(shù)搜索網(wǎng)站 AMiner 和 Acemap 進(jìn)行了調(diào)查,以 adversarial attack和相近意思的 poisoning attack 等詞作為關(guān)鍵詞搜索了相關(guān)的論文,以下是兩個(gè)網(wǎng)站給出的論文數(shù)據(jù)分析圖表。

1.jpg

一方面,從圖中很明顯可以看出,在 2015 年直到今年,adversarial attack相關(guān)的論文顯著增多,這說(shuō)明了在機(jī)器學(xué)習(xí)發(fā)展飛速的今天,機(jī)器學(xué)習(xí)的安全問(wèn)題逐漸被研究者們所重視。 所以我認(rèn)為這個(gè)方向在未來(lái)幾年應(yīng)該會(huì)是一個(gè)新興的熱點(diǎn)。

另一方面,雖然這類(lèi)論文在近幾年顯著增多,但是這并不能說(shuō)明這個(gè)方向的前景更好、 可挖掘的知識(shí)更多。所以我又搜索了另一個(gè)現(xiàn)在已經(jīng)成為熱門(mén)方向的領(lǐng)域——reinforcement learning的數(shù)據(jù)來(lái)作為對(duì)比。

2.jpg

通過(guò)對(duì)比 reinforcement learning 和 adversarial attack 的熱度和論文發(fā)表數(shù)量,可以發(fā)現(xiàn)與強(qiáng)化學(xué)習(xí)這類(lèi)已經(jīng)成為熱門(mén)的方向相同,對(duì)抗攻擊也開(kāi)始有論文、熱度急劇上升的階段, 但是與之不同的是,對(duì)抗攻擊論文的絕對(duì)數(shù)量至今仍很少。

這說(shuō)明了對(duì)抗攻擊的可研究的東西還處于正在被研究者們逐漸挖掘的過(guò)程,還未形成一個(gè)體系。所以從這一點(diǎn),直觀上來(lái)說(shuō), 我認(rèn)為最近的科技新詞應(yīng)當(dāng)是 adversarial attack。

原理對(duì)抗攻擊的開(kāi)山之作 Intriguing properties of neural networks[12]中提到了神經(jīng)網(wǎng)絡(luò)的兩個(gè)現(xiàn)象。

第一個(gè)是高維神經(jīng)網(wǎng)絡(luò)的神經(jīng)元并不是代表著某一個(gè)特征,而是所有特征混雜在所有神經(jīng)元中;第二個(gè)是在原樣本點(diǎn)上加上一些針對(duì)性的但是不易察覺(jué)的擾動(dòng),就很容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)的分類(lèi)錯(cuò)誤。

第二個(gè)性質(zhì)就是對(duì)抗攻擊的理論基礎(chǔ),后來(lái)Goodfellow 在 Explaining and Harnessing Adversarial Examples[13]中提出原因并非是深層神經(jīng)網(wǎng)絡(luò)的高度非線(xiàn)性和過(guò)擬合,即使是線(xiàn)性模型也存在對(duì)抗樣本。在這篇論文中,我們可以粗淺地認(rèn)為對(duì)抗攻擊之所以能夠成功的原因是誤差放大效應(yīng):

3.jpg

發(fā)展過(guò)程在調(diào)研該領(lǐng)域的論文的過(guò)程中,我發(fā)現(xiàn),作為machine learning security 的方向,對(duì)抗攻擊的發(fā)展可以歸結(jié)為兩個(gè)核心:不斷尋找新的應(yīng)用場(chǎng)景,不斷利用新的算法

4.jpg

3.1 不斷尋找新的應(yīng)用場(chǎng)景

每當(dāng) machine learning有新的領(lǐng)域出現(xiàn),研究者都會(huì)試圖在該領(lǐng)域上進(jìn)行對(duì)抗攻擊的研究,來(lái)研究出攻擊這種領(lǐng)域的方法和防御的方法。以下是我找到的一些典型領(lǐng)域的對(duì)抗攻擊研究成果:

5.jpg

3.1.1 Computer vision

·Attacks for classification

圖片分類(lèi)是計(jì)算機(jī)視覺(jué)最經(jīng)典的任務(wù),因此在這個(gè)應(yīng)用場(chǎng)景的對(duì)抗攻擊論文最多,比如:Jacobian-based Saliency Map Attack (JSMA)[1],One Pixel Attack[2],DeepFool[3]等。

這些論文的思想都是相同的:都是通過(guò)將圖像的像素點(diǎn)按順序或是隨機(jī)一個(gè)一個(gè)改變,然后通過(guò)隱藏層的梯度來(lái)計(jì)算該點(diǎn)的改變對(duì)整張圖片的攻擊顯著性并且根據(jù)梯度來(lái)選擇下一個(gè)要改變的點(diǎn),通過(guò)這樣的訓(xùn)練最終可以找到最優(yōu)的攻擊像素。

其中,我認(rèn)為 One Pixel Attack[2]的工作效果最顯著,這篇論文僅改變一個(gè)像素就能完成對(duì)整張圖片的攻擊。我認(rèn)為最有新意的一點(diǎn)是,作者運(yùn)用了差分進(jìn)化算法的思想,通過(guò)每一代不斷變異然后“優(yōu)勝劣汰”,最后可以找到足以攻擊整張圖片的一個(gè)像素點(diǎn)和其 RGB值的修改值,這種方法的優(yōu)點(diǎn)是屬于黑盒攻擊,不需要知道網(wǎng)絡(luò)參數(shù)等任何信息。效果如下,我認(rèn)為很顯著:

6.jpg

·Attacks on Semantic Segmentation and Object Detection

語(yǔ)義分割任務(wù)的對(duì)抗攻擊要比分類(lèi)任務(wù)要難很多,語(yǔ)義分割的對(duì)抗樣本生成[4]利用了Dense Adversary Generation 的方法,通過(guò)一組pixels/proposal 來(lái)優(yōu)化生成對(duì)抗樣本損失函數(shù),然后用所生成的對(duì)抗樣本來(lái)攻擊基于深度學(xué)習(xí)的分割和檢測(cè)網(wǎng)絡(luò)。

這篇論文的亮點(diǎn)我認(rèn)為在于將對(duì)抗攻擊的概念轉(zhuǎn)換為對(duì)抗樣本生成的概念,將一個(gè)攻擊任務(wù)轉(zhuǎn)換為生成任務(wù),這就給我們提供了一種新的攻擊思路:將這個(gè)任務(wù)轉(zhuǎn)換為如何選取損失函數(shù)、如何搭建生成模型使得生成的對(duì)抗樣本在攻擊圖片時(shí)有更好的效果。這種概念的轉(zhuǎn)換使得對(duì)抗攻擊不再拘束于傳統(tǒng)的基于 FGSM 算法,也將更多的生成模型引入進(jìn)來(lái),比如GAN。

我認(rèn)為在計(jì)算機(jī)視覺(jué)的對(duì)抗攻擊的局限在于,由于計(jì)算機(jī)視覺(jué)的子領(lǐng)域非常多,所以有一些領(lǐng)域還沒(méi)有人去嘗試過(guò),而且由于深度學(xué)習(xí)的不可解釋性,現(xiàn)階段只能也通過(guò)深度學(xué)習(xí)去生成對(duì)抗樣本去破壞目標(biāo)的學(xué)習(xí),這樣的攻擊是沒(méi)有方向性的,比如無(wú)法控制分類(lèi)任務(wù)的欺騙方向,我認(rèn)為下一步的發(fā)展應(yīng)在于如何去定向欺騙深度學(xué)習(xí)網(wǎng)絡(luò),來(lái)達(dá)到一些更高要求的目的。

3.1.2. Graph

在今年的 ICML 和 KDD 的論文中,有兩篇關(guān)于對(duì)圖結(jié)構(gòu)的對(duì)抗攻擊的論文,一篇是Adversarial Attack on Graph Structured Data[5],另一篇是 Adversarial attacks on neuralnetworks for graph data[6]。這兩篇論文都是對(duì) graph 的攻擊,這是以前從未有人做過(guò)的任務(wù),是一種新的應(yīng)用場(chǎng)景,因此前文我說(shuō)對(duì)抗攻擊發(fā)展還十分稚嫩,還在不斷尋找新的應(yīng)用場(chǎng)景。

由于 graph 結(jié)構(gòu)數(shù)據(jù)可以建?,F(xiàn)實(shí)生活中的很多問(wèn)題,現(xiàn)在也有很多研究者在研究這種問(wèn)題,比如知識(shí)圖譜等領(lǐng)域。

拿知識(shí)圖譜來(lái)舉例,現(xiàn)在百度、阿里巴巴等公司都在搭建知識(shí)圖譜,如果我能攻擊知識(shí)圖譜,在圖上生成一些欺騙性的結(jié)點(diǎn),比如虛假交易等行為,這會(huì)對(duì)整個(gè)公司帶來(lái)很大損失,所以對(duì)圖結(jié)構(gòu)的攻擊和防御都很有研究?jī)r(jià)值。

這兩篇論文的出發(fā)點(diǎn)都是深度學(xué)習(xí)模型在圖分類(lèi)問(wèn)題中的不穩(wěn)定性。

第一篇論文定義了基于圖模型的攻擊:在保持圖分類(lèi)結(jié)果不變的情況下,通過(guò)小規(guī)模的增加和減少邊的方式, 最大化分類(lèi)結(jié)果的錯(cuò)誤率?;诖?,論文提出了基于分層強(qiáng)化學(xué)習(xí)的方法來(lái)創(chuàng)建對(duì)抗樣本。

第二篇論文的思想是對(duì)于要攻擊的目標(biāo)節(jié)點(diǎn),產(chǎn)生一個(gè)干擾圖,使得新圖上的目標(biāo)節(jié)點(diǎn)的分類(lèi)概率和老圖上目標(biāo)節(jié)點(diǎn)的分類(lèi)概率的差距最大,作者提出了Nettack的攻擊模型。

我認(rèn)為現(xiàn)階段對(duì)圖結(jié)構(gòu)的對(duì)抗攻擊的局限在于以下兩點(diǎn):

1.沒(méi)有有效的防御算法。兩篇論文都在講如何去攻擊圖分類(lèi)問(wèn)題,但是對(duì)于防御問(wèn)題, 第一篇論文只簡(jiǎn)單討論了一下,比如隨機(jī) dropout,但是展示的結(jié)果很不理想,而第二篇論文根本沒(méi)有討論防御問(wèn)題。因此對(duì)圖結(jié)構(gòu)的防御問(wèn)題是接下來(lái)的一個(gè)可發(fā)展的方向。

2.現(xiàn)階段圖深度學(xué)習(xí)發(fā)展還不完善,沒(méi)有形成一個(gè)像圖片卷積神經(jīng)網(wǎng)絡(luò)那樣的完整體系,GCN、隨機(jī)游走等算法都各有利弊,所以在整個(gè)體系完成之前,對(duì)抗攻擊的發(fā)展方向不是很明朗。我個(gè)人覺(jué)得隨著可微池化[7]的概念的提出,GCN 應(yīng)該是以后圖深度學(xué)習(xí)的發(fā)展方向,所以對(duì)GCN的攻擊或許很有潛力。

3.1.3 其他領(lǐng)域的對(duì)抗攻擊

近期也有一些其他領(lǐng)域的對(duì)抗攻擊。

首先,Adversarial Examples for Evaluating Reading Comprehension Systems[8]這篇論文對(duì)QA系統(tǒng)進(jìn)行對(duì)抗攻擊,通過(guò)向問(wèn)題中中加入不影響人類(lèi)理解并且不影響正確答案的句子來(lái)欺騙問(wèn)答系統(tǒng),來(lái)獲得錯(cuò)誤的答案。論文中給出的結(jié)果很顯著,使原先75%的 F1 score 下降至 36%,如果允許不符合語(yǔ)法規(guī)則的話(huà)可以下降至 7%。

其次,對(duì)于強(qiáng)化學(xué)習(xí)的對(duì)抗攻擊。Lin等[9]提出了兩種不同的針對(duì)深度強(qiáng)化學(xué)習(xí)訓(xùn)練的代理的對(duì)抗性攻擊。在第一種攻擊中,被稱(chēng)為策略定時(shí)攻擊,對(duì)手通過(guò)在一段中的一小部分時(shí)間步驟中攻擊它來(lái)最小化對(duì)代理的獎(jiǎng)勵(lì)值。提出了一種方法來(lái)確定什么時(shí)候應(yīng)該制作和應(yīng)用對(duì)抗樣本,從而使攻擊不被發(fā)現(xiàn)。在第二種攻擊中,被稱(chēng)為迷人攻擊,對(duì)手通過(guò)集成生成模型和規(guī)劃算法將代理引誘到指定的目標(biāo)狀態(tài)。生成模型用于預(yù)測(cè)代理的未來(lái)狀態(tài),而規(guī)劃算法生成用于引誘它的操作。這些攻擊成功地測(cè)試了由最先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練的代理。

還有一些對(duì)于 RNN, Speech Recognition 等領(lǐng)域的攻擊[10][11],這些領(lǐng)域的對(duì)抗攻擊基本上只有一兩篇。

綜上所述,對(duì)于對(duì)抗攻擊的應(yīng)用場(chǎng)景,現(xiàn)階段所發(fā)掘的只不過(guò)是冰山一角,在這個(gè)領(lǐng)域, 還有很多很多應(yīng)用場(chǎng)景可以進(jìn)行研究。因此,僅從應(yīng)用場(chǎng)景而言,對(duì)抗攻擊絕對(duì)是最近幾年最具潛力的方向。

3.2 算法

對(duì)抗攻擊的本質(zhì)是用機(jī)器學(xué)習(xí)的方法去攻擊機(jī)器學(xué)習(xí)模型,來(lái)檢測(cè)模型的魯棒性。由于它的攻擊目標(biāo)和自身所用的方法都是機(jī)器學(xué)習(xí),所以當(dāng)機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)了更好的算法時(shí),對(duì)于對(duì)抗攻擊而言,這既是新的應(yīng)用場(chǎng)景,又是自身可用的新算法。

在 Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey[14]這篇論文中總結(jié)了12種攻擊方法,如下圖所示:

7.jpg

經(jīng)過(guò)我的調(diào)研,在論文 Adversarial Examples for Semantic Segmentation and Object Detection[4]的啟發(fā)下,我認(rèn)為,既然對(duì)抗攻擊是對(duì)抗樣本的生成任務(wù),而生成任務(wù)又是現(xiàn)在發(fā)展非常迅速的一個(gè)領(lǐng)域,我們可以把一些生成模型遷移到這個(gè)任務(wù)上來(lái)。

比如,現(xiàn)在非常熱門(mén)的對(duì)抗生成網(wǎng)絡(luò) GAN 是生成任務(wù)最有效的模型之一,我認(rèn)為可以借用這種對(duì)抗的思想生成對(duì)抗樣本:一個(gè)專(zhuān)門(mén)向原數(shù)據(jù)中加噪聲的網(wǎng)絡(luò)和一個(gè)試圖根據(jù)對(duì)抗樣本完成分類(lèi)任務(wù)的網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)就像 GAN 里面的生成器和鑒別器一樣對(duì)抗學(xué)習(xí),最后會(huì)收斂于加噪聲的網(wǎng)絡(luò)生成的對(duì)抗樣本足以迷惑分類(lèi)網(wǎng)絡(luò),這樣生成的對(duì)抗樣本或許會(huì)比前文所述的方法效果更好。

由于生成任務(wù)還在不斷發(fā)展,VAE、GAN 等模型或許都可以用于對(duì)抗攻擊,近期新出現(xiàn)的 CoT[15](合作訓(xùn)練)為離散數(shù)據(jù)的生成任務(wù)也提供了一種新的思路,Glow[16]提出了基于流的可逆生成模型,據(jù)說(shuō)效果會(huì)超過(guò)GAN......這些生成模型不斷在發(fā)展,可供對(duì)抗樣本生成借鑒的思路也越來(lái)越多,所以,我認(rèn)為在算法上對(duì)抗攻擊還有無(wú)限的潛力。

總結(jié)經(jīng)過(guò)對(duì)對(duì)抗攻擊的調(diào)研,首先,我發(fā)現(xiàn)這一領(lǐng)域的論文數(shù)很少,而且受大眾的關(guān)注度不是很高,但是對(duì)抗攻擊已經(jīng)有趨勢(shì)要迎來(lái)蓬勃發(fā)展的時(shí)期了。

其次,對(duì)抗攻擊還處于尋找新的應(yīng)用場(chǎng)景和不斷嘗試新的算法的階段,還不成熟,未形 成完整的體系,而且和攻擊與生俱來(lái)的還有防御問(wèn)題,現(xiàn)階段防御問(wèn)題基本還處于把對(duì)抗樣本加入原始數(shù)據(jù)一起訓(xùn)練以此來(lái)防御攻擊的狀態(tài),研究的人很少,也沒(méi)有十分顯著的效果。 這說(shuō)明在這個(gè)領(lǐng)域還有很大的可挖掘的空間。

在機(jī)器學(xué)習(xí)發(fā)展飛速的今天,安全性問(wèn)題正逐漸進(jìn)入人們的的視野,對(duì)抗攻擊不只能夠在網(wǎng)絡(luò)空間進(jìn)行攻擊,還能夠在物理世界中任何使用到機(jī)器學(xué)習(xí)的場(chǎng)景中進(jìn)行有效攻擊,比如針對(duì)人臉識(shí)別、語(yǔ)音識(shí)別的攻擊。為了機(jī)器學(xué)習(xí)更好的發(fā)展,研究對(duì)抗攻擊是有必要的。 因此我認(rèn)為最近的科技新詞是adversarial attack。