質(zhì)量重于數(shù)量:平衡大型語(yǔ)言模型的算法透明度、問(wèn)責(zé)制和知識(shí)產(chǎn)權(quán)

發(fā)布時(shí)間:2023-08-04 11:41:19  |  來(lái)源:通信世界全媒體  

(CWW)在我們對(duì)推動(dòng)算法革命的數(shù)據(jù)展開(kāi)研究的過(guò)程中,算法透明度和問(wèn)責(zé)制是核心原則。一些人可能誤認(rèn)為這種說(shuō)法是在隱晦地呼吁公開(kāi)知識(shí)產(chǎn)權(quán)。然而,經(jīng)過(guò)細(xì)致入微的研究,我們發(fā)現(xiàn)了一個(gè)更加復(fù)雜的敘事,即大型語(yǔ)言模型和專(zhuān)有模型之間的區(qū)別。

大型語(yǔ)言模型是在綜合文本數(shù)據(jù)集上訓(xùn)練而成的AI系統(tǒng),其設(shè)計(jì)意圖是根據(jù)輸入內(nèi)容生成類(lèi)似人類(lèi)的文本。“大型”一詞體現(xiàn)了模型在參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)量上的規(guī)模。比如 OpenAI 的GPT-3在訓(xùn)練時(shí)運(yùn)用了一個(gè)包含1750億個(gè)海量文本參數(shù)的巨大模型。這些模型必須能夠理解它們生成的文本,通過(guò)辨別訓(xùn)練數(shù)據(jù)中的模式來(lái)生成并輸出預(yù)測(cè)結(jié)果。一個(gè)不變的原則是:只有綜合全面的高質(zhì)量訓(xùn)練數(shù)據(jù)才能使模型生成準(zhǔn)確的預(yù)測(cè)結(jié)果。

與之相反的是,“專(zhuān)有模型”通常由特定實(shí)體或公司創(chuàng)建。其設(shè)計(jì)、結(jié)構(gòu)和算法保護(hù)創(chuàng)建者的知識(shí)產(chǎn)權(quán)。這個(gè)詞往往指的是藍(lán)圖可供公眾使用、修改和傳播的開(kāi)源模型。值得注意的是,專(zhuān)有模型與大型語(yǔ)言模型沒(méi)有本質(zhì)區(qū)別,使用“專(zhuān)有模型”這個(gè)術(shù)語(yǔ)是為了強(qiáng)調(diào)模型的其他特征。


(資料圖片僅供參考)

以O(shè)penAI的GPT-3為例,它既可以是大型語(yǔ)言模型,也可以是專(zhuān)有模型。網(wǎng)絡(luò)安全行業(yè)給出了一個(gè)恰當(dāng)?shù)谋扔鳎骸袄M(jìn),垃圾出”。與網(wǎng)絡(luò)衛(wèi)生實(shí)踐一樣,為模型提供經(jīng)過(guò)整理的高質(zhì)量數(shù)據(jù)可以影響輸出結(jié)果,在實(shí)現(xiàn)精準(zhǔn)異常檢測(cè)的同時(shí)推動(dòng)創(chuàng)新。

那么如何防止數(shù)據(jù)中毒呢?關(guān)鍵在于用細(xì)致入微的數(shù)據(jù)采集和整理取代雜亂無(wú)章的數(shù)據(jù)積累。無(wú)論是專(zhuān)有模型還是開(kāi)源模型,確保采集高質(zhì)量的數(shù)據(jù)可以幫助提升模型輸出結(jié)果的準(zhǔn)確性。決定模型有效性的最終因素是數(shù)據(jù)的質(zhì)量和相關(guān)性,而非數(shù)據(jù)的數(shù)量。

算法透明度要求明確算法的一般操作。例如貸款決策算法應(yīng)說(shuō)明其考慮的因素(收入、信用評(píng)分)及各項(xiàng)因素的權(quán)重。與之相對(duì)應(yīng)的算法問(wèn)責(zé)制則要求實(shí)體對(duì)其算法決策負(fù)責(zé),尤其是當(dāng)出現(xiàn)跡象表明結(jié)果帶有偏差或差別時(shí)。

由于應(yīng)用了機(jī)器學(xué)習(xí),入侵檢測(cè)系統(tǒng)(IDS)可監(jiān)視網(wǎng)絡(luò)是否存在潛在威脅或違反政策的情況。機(jī)器學(xué)習(xí)可以根據(jù)以往數(shù)據(jù)識(shí)別威脅,大大提升了IDS 的能力。但即便如此,透明度和問(wèn)責(zé)制方面仍然存在挑戰(zhàn)。

因此,算法透明度的“潛臺(tái)詞”是IDS 用戶(hù)需要對(duì)決策依據(jù)具備一定的了解。例如,威脅信號(hào)的特征是什么?IDS如何區(qū)分正常活動(dòng)和惡意活動(dòng)?雖然為了避免給攻擊者提供“參考”而不能公布具體的系統(tǒng)機(jī)制,但用戶(hù)只有在掌握足夠信息的情況下才能信任并有效利用該系統(tǒng)。

算法問(wèn)責(zé)制提出了誤報(bào)和漏報(bào)的責(zé)任問(wèn)題。IDS 提供商應(yīng)對(duì)此類(lèi)錯(cuò)誤承擔(dān)責(zé)任,尤其是當(dāng)這些錯(cuò)誤是由算法缺陷引起時(shí)。

目前挑戰(zhàn)在于如何在透明度、問(wèn)責(zé)制、專(zhuān)有利益保護(hù)和潛在攻擊防范之間保持平衡。這是一項(xiàng)涉及多方面的任務(wù),需要細(xì)致入微的考量和各方面兼顧的方法。另外,需要認(rèn)識(shí)到理解某些算法(如神經(jīng)網(wǎng)絡(luò))的決策過(guò)程及保護(hù)專(zhuān)有信息的技術(shù)復(fù)雜性。然而盡管存在這些障礙,但對(duì)于優(yōu)化算法透明度和問(wèn)責(zé)制,專(zhuān)家們已經(jīng)達(dá)成共識(shí)。

鑒于日益智能和先進(jìn)的黑客技術(shù)所帶來(lái)的威脅迫在眉睫,網(wǎng)絡(luò)安全行業(yè)必須擁有同等資源才能對(duì)抗這些AI驅(qū)動(dòng)的攻擊。從長(zhǎng)遠(yuǎn)來(lái)看,安全行業(yè)的目標(biāo)不僅是讓一群人類(lèi)威脅獵手通過(guò)猜測(cè)來(lái)零散地解決問(wèn)題。

當(dāng)務(wù)之急是采取智能化措施來(lái)化解這些不斷發(fā)展的威脅。作為全球網(wǎng)絡(luò)安全領(lǐng)導(dǎo)企業(yè),Palo Alto Networks(派拓網(wǎng)絡(luò))一直在加速AI在網(wǎng)絡(luò)安全堆棧中的應(yīng)用,是當(dāng)今安全行業(yè)最成熟的AI應(yīng)用之一。派拓網(wǎng)絡(luò)不僅在人工智能和機(jī)器學(xué)習(xí)方面的投資處于領(lǐng)先地位,而且還致力于將這些投資轉(zhuǎn)化為客戶(hù)可以獲得的實(shí)實(shí)在在的利益。


關(guān)鍵詞:

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com