機(jī)器之心報(bào)道
機(jī)器之心編輯部
(資料圖)
利用 ChatGPT 等 AI 模型作弊引發(fā)了人們廣泛的擔(dān)憂,而水印正成為解決該問題的一把「利劍」。
近一段時間以來,對話式 AI 模型 ChatGPT 的風(fēng)頭無兩。有人用 ChatGPT 寫代碼、改 bug;還有人用 ChatGPT 寫神經(jīng)網(wǎng)絡(luò),做到了一字不改結(jié)果很好用。然而,ChatGPT 在學(xué)校作業(yè)、論文發(fā)表等領(lǐng)域引發(fā)了人們廣泛的擔(dān)憂,并采取了相應(yīng)的措施。
1 月初,紐約市教育官員宣布禁止學(xué)生在公立學(xué)校使用 ChatGPT 的消息引發(fā)了爭論;人們對 ChatGPT 的擔(dān)憂已經(jīng)蔓延到了 AI 學(xué)界自身,全球知名機(jī)器學(xué)習(xí)會議之一的 ICML 最近也宣布禁止發(fā)表包含由 ChatGPT 和其他類似系統(tǒng)生成內(nèi)容的論文,以免出現(xiàn)「意外后果」。
針對這些反饋,ChatGPT 的提出者 OpenAI 正在努力開發(fā)緩解措施,幫助人們檢測由 AI 自動生成的文本。OpenAI CEO Sam Altman 提出將嘗試水印技術(shù)和其他技術(shù)來標(biāo)記 ChatGPT 生成的內(nèi)容,但又表示不可能做到完美。
大型語言模型的潛在危害,可通過給模型的輸出加水印來緩解,即把信號嵌入到生成的文本中,這些信號對人類來說是不可見的,但算法可以從短范圍的 token 中檢測到。
本文中,來自馬里蘭大學(xué)的幾位研究者針對 ChatGPT 等語言模型輸出的水印進(jìn)行了深入研究。他們提出了一種高效水印框架,水印的嵌入對文本質(zhì)量的影響忽略不計(jì),可以使用高效的開源算法進(jìn)行檢測,而無需訪問語言模型的 API 或參數(shù)。此外,本文方法可以檢測到比較短的合成文本(少至 25 個 tokens),同時使得人類文本在統(tǒng)計(jì)學(xué)上不可能被標(biāo)記為機(jī)器生成。
論文地址:https://arxiv.org/pdf/2301.10226v1.pdf
本文中提出的水印具有以下屬性:
可以在不了解模型參數(shù)或不訪問語言模型 API 的情況下通過算法檢測,因此即使模型不開源,檢測算法也能開源。同時得益于 LLM 不需要加載或運(yùn)行,檢測成本低且速度快;
可以使用標(biāo)準(zhǔn)語言模型生成帶水印的文本,無需重新訓(xùn)練;
只從生成文本的連續(xù)部分檢測到水印,這樣當(dāng)使用生成的一部分創(chuàng)建更大的文檔時,水印依然可以檢測到;
如果不修改生成 tokens 的很大一部分,則無法刪除水?。?/p>
對已經(jīng)檢測到的水印計(jì)算出嚴(yán)格的統(tǒng)計(jì)學(xué)置信度。
馬里蘭大學(xué)副教授、論文作者之一 Tom Goldstein 表示:「OpenAI 正在計(jì)劃阻止 ChatGPT 用戶的一些作弊行為,與此同時,我們通過水印輸出的方式來辨別是否由 ChatGPT 生成的內(nèi)容。在一個具有 1.3B 參數(shù)的模型中,一種新的語言模型水印框架在僅 23 個單詞中檢測出了 LLM 生成的文本,我們有 99.999999999994% 信心檢測到。」
有人毫不夸張的表示,這篇論文標(biāo)志著 LLM 剽竊和反剽竊檢查器之間的競賽已經(jīng)開始。
該方法的出現(xiàn),也讓網(wǎng)友替學(xué)生們捏了一把汗,直呼「振作起來,高中生們!」
在方法介紹部分,首先該研究介紹了一種簡單的水印方法(hard blacklist watermark),該水印易于分析、易于檢測且難以刪除。該方法通過生成禁止出現(xiàn)的 token 黑名單來工作。在檢測水印中,生成水印文本需要訪問語言模型,而檢測水印則不需要。擁有哈希函數(shù)和隨機(jī)數(shù)生成器知識的第三方可以為每個 token 重新生成黑名單,并計(jì)算違反黑名單規(guī)則的次數(shù)。
除此以外,該研究還使用了一種稱為 soft 水印的檢測方法,該算法并沒有嚴(yán)格禁止黑名單 token,而是在白名單 token 的對數(shù)上增加了一個常數(shù) δ,算法如下:
上述水印算法被設(shè)計(jì)為公開的,其實(shí)該算法也可以在私有模式下運(yùn)行,使用一個隨機(jī)密鑰,該密鑰用來保密并托管在 API 上。如果攻擊者不知道用于生成黑名單的密鑰,那么攻擊者就難以刪除水印,因?yàn)楣粽卟恢滥男?token 被列入黑名單。
研究者表示,該水印檢測算法可以公開,使第三方(例如社交媒體平臺)能夠自行運(yùn)行,也可以保持私有并在 API 后面運(yùn)行。
實(shí)驗(yàn)
實(shí)驗(yàn)使用 OPT-1.3B 模型探索了水印效果。為了模擬各種語言建模場景,該研究從 C4 數(shù)據(jù)集的子集中隨機(jī)選擇文本進(jìn)行切片和切塊。
圖 2(左)顯示了各種水印參數(shù)組合的水印強(qiáng)度(z 分?jǐn)?shù))和文本質(zhì)量(困惑度)之間的權(quán)衡。
該研究在表 2 中提供了各種水印參數(shù)的錯誤率表,此外,該研究還在圖 4 中的 ROC 圖表中掃描了一系列閾值。
更多技術(shù)細(xì)節(jié)請參閱原論文。
關(guān)鍵詞: 用ChatGPT作弊 小心被抓 反剽竊水印技術(shù)讓學(xué)生噩夢提前到來