(CWW)隨著人工智能行業(yè)的發(fā)展,AI技術(shù)被大量應(yīng)用到人們的生活中,而AI模型作為這些技術(shù)的載體,被廣泛部署在云端。作為一種數(shù)字資產(chǎn),AI模型面臨著被竊取的風(fēng)險(xiǎn),其安全性愈發(fā)引起業(yè)界關(guān)注。
11月11日至12日,全球知名信息安全峰會(huì)POC 2021正式舉辦,騰訊朱雀實(shí)驗(yàn)室高級(jí)研究員Mengyun Tang和研究員Tony受邀參加,并進(jìn)行了題為《Towards AI Model Security Protection(AI模型的安全保護(hù))》的分享。
在此次分享中,騰訊朱雀實(shí)驗(yàn)室展示了AI模型攻防實(shí)例,并提出了一種新的模型水印生成方法,這項(xiàng)技術(shù)可以防御多種模型竊取方式,并且對(duì)原模型的輸出幾乎不產(chǎn)生影響,為AI模型版權(quán)提供有效的保護(hù)。
AI模型維權(quán),取證是難點(diǎn)
AI模型作為技術(shù)的核心載體,一旦被竊取,將可能使擁有該技術(shù)的企業(yè)或組織暴露在風(fēng)險(xiǎn)中。例如,某公司的AI模型被黑客惡意盜取后,黑客就可以復(fù)制該公司的業(yè)務(wù),來(lái)?yè)屨际袌?chǎng),獲取間接經(jīng)濟(jì)利益,或者將模型出售給第三方,甚至勒索該公司,來(lái)獲取直接經(jīng)濟(jì)利益。
在模型竊取方式中,代理模型攻擊是一種典型的手段,它通過(guò)訓(xùn)練與原模型功能相似的代理模型來(lái)蒸餾原模型的知識(shí)——將原模型的輸入作為其輸入,原模型的輸出作為其訓(xùn)練標(biāo)簽,并進(jìn)行參數(shù)優(yōu)化,不斷擬合原模型的輸出,最終達(dá)到竊取原模型知識(shí)的目的。
模型竊取流程
而在面對(duì)模型竊取攻擊時(shí),模型的原作者往往容易處于被動(dòng)。因?yàn)楣粽卟⒉恢苯咏佑|原模型,所以原作者無(wú)法提供直接證據(jù),證明被竊取的模型中含有自己的知識(shí)產(chǎn)權(quán),而陷入維權(quán)困難的境地。因此,一旦模型竊取攻擊泛濫,將為人工智能的發(fā)展帶來(lái)更多挑戰(zhàn)。
“隱形”水印,AI模型版權(quán)保護(hù)新方法
針對(duì)上述問(wèn)題,騰訊朱雀實(shí)驗(yàn)室結(jié)合最新的深度學(xué)習(xí)技術(shù),推出了一套為AI模型提供保護(hù)的方法,即對(duì)疑似竊取模型進(jìn)行“取證”,來(lái)證明該模型為“盜版”模型。
這套方法可以在預(yù)先防護(hù)階段,生成肉眼不可見(jiàn)的水印,并將之添加到原模型的輸出上,為原模型的輸出“烙上”版權(quán)信息,同時(shí),對(duì)原模型的輸出幾乎不產(chǎn)生影響。當(dāng)AI模型被攻擊時(shí),其附帶的水印也會(huì)被代理模型學(xué)習(xí)到,進(jìn)而使得代理模型的輸出中也含有該水印。
隨后,通過(guò)經(jīng)訓(xùn)練的提取器,可以從代理模型的輸出中精準(zhǔn)地檢測(cè)到水印的存在,并將預(yù)先嵌入的模型版權(quán)信息進(jìn)行高質(zhì)量的還原,從而為模型原作者提供有力的技術(shù)證據(jù),來(lái)對(duì)抗侵權(quán)行為。
朱雀實(shí)驗(yàn)室提出的模型水印生成方法及其保護(hù)流程
這項(xiàng)技術(shù)為AI模型提供了一道“胎記”,其意義在于,不僅能夠有效地幫助AI模型作者維護(hù)自己的知識(shí)產(chǎn)權(quán),還能打擊“盜版”AI模型,一定程度地遏制模型竊取行為的發(fā)生,促進(jìn)AI行業(yè)的生態(tài)持續(xù)健康發(fā)展。
騰訊安全平臺(tái)部下屬的騰訊朱雀實(shí)驗(yàn)室,致力于實(shí)戰(zhàn)級(jí)APT攻擊和AI安全研究,其建設(shè)的AI安全威脅風(fēng)險(xiǎn)矩陣,專(zhuān)門(mén)針對(duì)人工智能行業(yè)中的潛在風(fēng)險(xiǎn)提供研究和預(yù)案,為AI業(yè)務(wù)提供安全保障。
關(guān)鍵詞: 資訊 通信世界網(wǎng) AI模型 騰訊朱雀實(shí)驗(yàn)室 知識(shí)產(chǎn)權(quán)保護(hù) “