人有很強的抽象能力和聯(lián)想力,例如一個由幾塊積木拼成的樂高玩具,小朋友也能輕易認出其中描述的場景。甚至幾個像素,玩家也可以輕易認出這是哪個人物。
但 AI 可不一定會輕易識別出來。
不久前,某知名品牌汽車被曝其自動駕駛系統(tǒng)無法識別白色貨車箱體這樣類似于“一堵墻”的障礙物。在自動駕駛中,行人、車輛被漏檢或者未能及時被檢測到,都可能導致交通事故的產生。此外,安防漏檢危險人物與物品也可能導致安全隱患。這些風險都提示,AI 視覺的安全性值得重視。
在研究 AI 視覺穩(wěn)定性的過程中,阿里安全圖靈實驗室的研究人員札奇發(fā)現,AI 視覺還有一個盲區(qū):利用算法自動鑒別圖片關鍵信息,并巧妙刪除,就像給圖片“打碼”一樣,AI 視覺系統(tǒng)就會無法識別該圖片。最近,這項研究成果被 AI 頂會 ICCV 2021 收錄。
札奇的研究源于逛商場看到樂高玩具迸發(fā)的靈感。當時,她有一個疑問:“人眼如何識別‘馬賽克’式樣的玩具?還有早期的超級馬里奧,雖然只是由幾個簡單像素組成,人卻可以正確識別這種抽象的表達。AI 模型面對‘馬賽克’式的圖片,能正確識別嗎?”
盡管我們期望 AI 模型能具有和人相當的能力,但是“抽象能力”對于現在的 AI 模型來說顯然還是相當有挑戰(zhàn)性的。但相反的,如果我們從對抗樣本的角度來考慮:存不存在一種可能,如果我們去掉圖片中一些對 AI 模型來說關鍵而微小的特征,AI 模型就無法再正確識別這些圖片。
那么什么是對抗樣本呢?
對抗樣本
對抗樣本一開始由 Szegedy 等人在 2013 年定義: 給定一張原始圖片 x 及其標簽 y,以及模型。對抗樣本是指在原圖 x 上加一些刻意制造的微小的擾動,從而讓結果圖像無法被正確識別(如下圖所示)。通常來說,對抗擾動被限制在一定閾值內,從而保證結果圖對人來說與原圖幾乎不可區(qū)分。后續(xù)有很多相關工作在當前設定下進一步探索了更多生成對抗樣本的攻擊方式,以及其他性質,例如遷移性等。
“對抗樣本可能是特征”
在對抗樣本提出后,有各種各樣的防御工作提出,其中對抗訓練是最為有效的防御方式之一,但是對抗訓練有非常明顯的問題是:在穩(wěn)健性(robustness)和準確率(accuracy)之間始終有一個平衡,即對抗訓練提升模型穩(wěn)健性的同時也導致模型的準確率下降。為了解釋這一現象,Ilyas 等人給對抗樣本的存在提出了一個假設:對抗樣本不是 bug,而是一組對人來說不可感知的特征。以人類感知為中心,人類所能察覺的特征就是 robust feature,其他的特征則是 non-robust。例如圖 2 的狗狗,人類只會注意到其中的耳朵鼻子等顯著特征 (robust feature)。
Ilyas 等人通過一組巧妙的實驗說明對抗樣本其實是模型從數據中學習到一部分特征,盡管對人來說不可感知,但是對于模型來說是具有預測意義的。受 Ilyas 等人工作啟發(fā),札奇研究團隊試圖從一個相反的角度來討論一個潛在的攻擊機制:可否去掉一些對人來說微小而不可感知但是對于模型決策又重要的特征,從而形成對抗樣本呢?
AdvDrop, 通過丟信息來制造對抗樣本
他們對此猜想進行了驗證,實驗過程如下:
他們在這個工作中提出一個新的機制來生成對抗樣本:相反于增加對抗擾動,我們通過扔掉一些不可察覺的圖像細節(jié)來生成對抗樣本。關于兩種相反機制的說明如圖 3,當 AdvDrop 放寬丟掉的信息量的閾值 epsilon,產生的對抗樣本越來越趨近于一張灰色圖片,伴隨著圖像存儲量的降低。而相反的,PGD 生成的對抗樣本,隨著干擾幅度的增大,越來越接近于無序噪音。
一張更細節(jié)的對比圖 4 所示,從局部區(qū)域來看,PGD 在圖片的局部生成了更多的細節(jié),表現為更豐富的色彩。而相反的,AdvDrop 生成的對抗樣本與原圖相比失去了一些局部細節(jié),表現在色彩精度的降低。
他們是如何確定丟掉哪些區(qū)域的呢?
為了確定丟掉哪些區(qū)域的圖片信息,并且保證扔掉的細節(jié)人們無法感知,他們提出一種通過優(yōu)化量化表的方式來選擇丟掉信息的區(qū)域以及丟掉的信息量的方法。此外,為了保證丟掉的細節(jié)對于人來說依然不可感知,要先將圖像通過離散傅里葉變換從 RGB 轉換到頻域,再用量化表去量化一些頻域的信息。頻域操作相比于 RGB 的優(yōu)點是,能更好的分離圖像的細節(jié)信息(高頻信息)和結構信息(低頻信息),因此可以保證扔掉的細節(jié)對人來說不可感知。
整個流程如圖 5 所示,從優(yōu)化上,可以被定義為:
其中 D 和分別表示的是離散余弦變環(huán)及反變換,表示的是一個可微分的量化過程。
通常的量化,可以定義為:
但是因為量化函數不可微分,極大影響優(yōu)化過程。因此,札奇研究團隊參考了 Gong 等人的工作,通過引入可控 tanh 函數來漸進的逼近階梯式的量化函數,所以:
其斜度可以由 α 調整,如下圖所示,經過量化函數可微處理,可以更準確的反向傳播梯度從而更準確的估計出應該丟失信息的位置及量化的大小。
結果評估
用 lpips 比較 AdvDrop 及 PGD 在相同信息量變化下的視覺得分:從對抗樣本的不可感知角度來說,在同樣的感知得分下,丟信息操作允許操作的信息量要比加干擾允許的更大。從人類視覺上來說,相比于加噪,人眼對于局部平滑其實更為不敏感,從圖 7 可見,隨著量化表閾值的增大,AdvDrop 生成的對抗樣本的局部細節(jié)越少,例如蜥蜴鱗片的紋理:
從成功率上來說,無論是在目標攻擊還是無目標攻擊的設定下,AdvDrop 有相當高的成功率來生成一個對抗樣本。在目標攻擊下,最高可以達到一個 99.95% 成功率。但相比于傳統(tǒng)加噪的對抗攻擊生成方式 (例如 PGD,BIM) 可以輕易達到 100% 的成功率來說,依然是強度較弱的。
“我們覺得 AdvDrop 強度方面的局限可能來自于兩方面:一方面是由于量化這樣的方式,另一方面,“減信息”可以操作的空間相比于“加信息”的空間來說要小很多。”
他們也評估了 AdvDrop 在不同防御下的表現。目前主流防御方式主要分為兩種,一種是對抗訓練 ,另一種是基于去噪的防御方式。研究發(fā)現 AdvDrop 生成的對抗樣本對于現階段防御方式來說仍是一個挑戰(zhàn),尤其是基于去噪的防御方式。
具體來說,在一定擾動閾值下,基于制造對抗擾動的對抗樣本生成方式經過去噪后,圖片有很大概率恢復成原始圖片。但是對于用 AdvDrop 生成的 對抗樣本來說,其本身就是由于部分特征丟失而導致的錯誤識別,而去噪操作甚至會加劇這種由于丟失而無法識別的問題。
除了防御的角度,考慮到很多數據都是從網上收集而來,而網絡傳輸中往往存在數據壓縮過程,所以通過 AdvDrop 生成的對抗樣本可能“更耐傳輸”。當然,另一個角度來想,也有可能對于正常圖像數據來說,一些正常的數據壓縮(例如 jpeg)也許不經意間就引入了對抗樣本。
總結
因此,傳統(tǒng)對圖片“加工”以騙過 AI 的方法是給圖片加上“噪音”,相當于在當前圖片上針對模型 "亂涂亂畫",讓 AI 無法識別,但原圖片本身的關鍵信息沒有丟失,只要用“橡皮擦”擦一擦,AI 依然能識別。如果反向操作,刪除圖片的關鍵信息,就像打“馬賽克”,圖片的關鍵信息已經丟失,那么 AI 無論如何也難以識別。這意味著,針對“打碼攻擊”,難以有防御措施。
該工作也展示了 AI 模型另一個角度的局限性:對重要細節(jié)丟失的穩(wěn)健性。
在這個工作中,僅僅探索了在頻域上丟信息的操作,通過其他丟信息方式來生成對抗樣本都是可以值得嘗試的未來工作。
專注對 AI 的對抗樣本和模型安全性進行研究的阿里安全高級算法專家越豐提醒,除了 AI 視覺場景,真實場景中也可能存在這種對抗攻擊,例如針對某知名 PS 軟件,只要提供具備對抗攻擊性質的 JPEG 量化表,就能產出有“攻擊性”的圖片。
此外,在實際場景中,圖片信息丟失是常見現象,例如用戶將圖片以 JPEG 形式上傳到網絡,就有一定的信息丟失,可能不經意間就會制造一個“對抗樣本”。越豐認為,這對當前內容安全場景的 AI 識別而言,都是不小的挑戰(zhàn)。
“比如有人將涉黃賭毒圖片以損失部分信息的形式上傳到網絡,人眼依然能領會含義,但 AI 卻沒能正確識別,這對構建清朗、健康網絡環(huán)境而言,就是一種對抗。”越豐舉例道,AI 安全行業(yè)應該警惕這種類型的對抗。
當然,“致盲 AI”不是研究人員的目標,研究人員最終還是想發(fā)現 AI 模型的脆弱性,進一步提升 AI 安全。“在 AI 安全前沿技術上進行探索,一是為了讓 AI 更安全,二是為了讓 AI 助力安全,三是為解決具體社會問題尋找提效的新途徑。”阿里安全圖靈實驗室負責人薛暉提醒,相比“事后彌補”,安全應前置,從源頭守衛(wèi)安全,對前沿技術進行研究布局,以科技創(chuàng)新造就最好的網絡安全。