看一级a爱片免费视频,日韩丰满少妇无码

機(jī)器之心報(bào)道

機(jī)器之心編輯部

(資料圖)

利用 ChatGPT 等 AI 模型作弊引發(fā)了人們廣泛的擔(dān)憂，而水印正成為解決該問題的一把「利劍」。

近一段時間以來，對話式 AI 模型 ChatGPT 的風(fēng)頭無兩。有人用 ChatGPT 寫代碼、改 bug；還有人用 ChatGPT 寫神經(jīng)網(wǎng)絡(luò)，做到了一字不改結(jié)果很好用。然而，ChatGPT 在學(xué)校作業(yè)、論文發(fā)表等領(lǐng)域引發(fā)了人們廣泛的擔(dān)憂，并采取了相應(yīng)的措施。

1 月初，紐約市教育官員宣布禁止學(xué)生在公立學(xué)校使用 ChatGPT 的消息引發(fā)了爭論；人們對 ChatGPT 的擔(dān)憂已經(jīng)蔓延到了 AI 學(xué)界自身，全球知名機(jī)器學(xué)習(xí)會議之一的 ICML 最近也宣布禁止發(fā)表包含由 ChatGPT 和其他類似系統(tǒng)生成內(nèi)容的論文，以免出現(xiàn)「意外后果」。

針對這些反饋，ChatGPT 的提出者 OpenAI 正在努力開發(fā)緩解措施，幫助人們檢測由 AI 自動生成的文本。OpenAI CEO Sam Altman 提出將嘗試水印技術(shù)和其他技術(shù)來標(biāo)記 ChatGPT 生成的內(nèi)容，但又表示不可能做到完美。

大型語言模型的潛在危害，可通過給模型的輸出加水印來緩解，即把信號嵌入到生成的文本中，這些信號對人類來說是不可見的，但算法可以從短范圍的 token 中檢測到。

本文中，來自馬里蘭大學(xué)的幾位研究者針對 ChatGPT 等語言模型輸出的水印進(jìn)行了深入研究。他們提出了一種高效水印框架，水印的嵌入對文本質(zhì)量的影響忽略不計(jì)，可以使用高效的開源算法進(jìn)行檢測，而無需訪問語言模型的 API 或參數(shù)。此外，本文方法可以檢測到比較短的合成文本（少至 25 個 tokens），同時使得人類文本在統(tǒng)計(jì)學(xué)上不可能被標(biāo)記為機(jī)器生成。

論文地址：https://arxiv.org/pdf/2301.10226v1.pdf

本文中提出的水印具有以下屬性：

可以在不了解模型參數(shù)或不訪問語言模型 API 的情況下通過算法檢測，因此即使模型不開源，檢測算法也能開源。同時得益于 LLM 不需要加載或運(yùn)行，檢測成本低且速度快；

可以使用標(biāo)準(zhǔn)語言模型生成帶水印的文本，無需重新訓(xùn)練；

只從生成文本的連續(xù)部分檢測到水印，這樣當(dāng)使用生成的一部分創(chuàng)建更大的文檔時，水印依然可以檢測到；

如果不修改生成 tokens 的很大一部分，則無法刪除水?。?/p>

對已經(jīng)檢測到的水印計(jì)算出嚴(yán)格的統(tǒng)計(jì)學(xué)置信度。

馬里蘭大學(xué)副教授、論文作者之一 Tom Goldstein 表示：「OpenAI 正在計(jì)劃阻止 ChatGPT 用戶的一些作弊行為，與此同時，我們通過水印輸出的方式來辨別是否由 ChatGPT 生成的內(nèi)容。在一個具有 1.3B 參數(shù)的模型中，一種新的語言模型水印框架在僅 23 個單詞中檢測出了 LLM 生成的文本，我們有 99.999999999994% 信心檢測到。」

有人毫不夸張的表示，這篇論文標(biāo)志著 LLM 剽竊和反剽竊檢查器之間的競賽已經(jīng)開始。

該方法的出現(xiàn)，也讓網(wǎng)友替學(xué)生們捏了一把汗，直呼「振作起來，高中生們！」

在方法介紹部分，首先該研究介紹了一種簡單的水印方法（hard blacklist watermark），該水印易于分析、易于檢測且難以刪除。該方法通過生成禁止出現(xiàn)的 token 黑名單來工作。在檢測水印中，生成水印文本需要訪問語言模型，而檢測水印則不需要。擁有哈希函數(shù)和隨機(jī)數(shù)生成器知識的第三方可以為每個 token 重新生成黑名單，并計(jì)算違反黑名單規(guī)則的次數(shù)。

除此以外，該研究還使用了一種稱為 soft 水印的檢測方法，該算法并沒有嚴(yán)格禁止黑名單 token，而是在白名單 token 的對數(shù)上增加了一個常數(shù) δ，算法如下：

上述水印算法被設(shè)計(jì)為公開的，其實(shí)該算法也可以在私有模式下運(yùn)行，使用一個隨機(jī)密鑰，該密鑰用來保密并托管在 API 上。如果攻擊者不知道用于生成黑名單的密鑰，那么攻擊者就難以刪除水印，因?yàn)楣粽卟恢滥男?token 被列入黑名單。

研究者表示，該水印檢測算法可以公開，使第三方（例如社交媒體平臺）能夠自行運(yùn)行，也可以保持私有并在 API 后面運(yùn)行。

實(shí)驗(yàn)

實(shí)驗(yàn)使用 OPT-1.3B 模型探索了水印效果。為了模擬各種語言建模場景，該研究從 C4 數(shù)據(jù)集的子集中隨機(jī)選擇文本進(jìn)行切片和切塊。

圖 2（左）顯示了各種水印參數(shù)組合的水印強(qiáng)度（z 分?jǐn)?shù)）和文本質(zhì)量（困惑度）之間的權(quán)衡。

該研究在表 2 中提供了各種水印參數(shù)的錯誤率表，此外，該研究還在圖 4 中的 ROC 圖表中掃描了一系列閾值。

更多技術(shù)細(xì)節(jié)請參閱原論文。

關(guān)鍵詞：用ChatGPT作弊小心被抓反剽竊水印技術(shù)讓學(xué)生噩夢提前到來