明敏 Alex 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI生成文本,又遇新對(duì)手!
(資料圖)
憑借識(shí)別AI生成文本中的“水印”,一種新算法能夠準(zhǔn)確判斷文本到底是誰寫的。
無需訪問模型參數(shù)、API,結(jié)果置信度高達(dá)99.999999999994%。
方法一經(jīng)發(fā)布就引來大量網(wǎng)友圍觀。這回拿ChatGPT“作弊”,怕不是要更難了?
要知道,最近一段時(shí)間,ChatGPT先是成為美國(guó)高中生的寫作業(yè)利器,后面幫專業(yè)媒體寫稿子,引發(fā)巨大恐慌。如Nature、紐約教育部等,都針對(duì)ChatGPT發(fā)布禁令。
馬里蘭大學(xué)學(xué)者們提出的這一新方法,為解決這些麻煩提出了個(gè)新思路。
不少網(wǎng)友都覺得,這個(gè)方法提出的正是時(shí)候,而且效果看著也不錯(cuò)。
有學(xué)者還和美國(guó)高中生喊話,你們要做好準(zhǔn)備了!
作者表示,方法代碼將在2月15日免費(fèi)開源。
計(jì)算文本由AI生成的概率
所謂模型水印,人類無法看到,但是計(jì)算機(jī)可以。
這是一種現(xiàn)在被常用于大規(guī)模語言模型(LLM)中的方法,能讓AI生成的文本帶有“特殊標(biāo)記”。即把信號(hào)嵌入到生成的文本中,讓算法能從一小段token中檢測(cè)出來。
最近,OpenAI方面也表示,考慮在ChatGPT中添加水印,以降低模型被濫用帶來的負(fù)面影響。
這篇最新論文的作者,就想驗(yàn)證下這個(gè)想法到底靠不靠譜。他們通過給LLM中嵌入水印,然后再進(jìn)行檢測(cè)。其中水印的嵌入不會(huì)影響文本生成質(zhì)量。
具體來說,大規(guī)模語言模型每次生成一個(gè)token,每個(gè)token將從包含大約5萬個(gè)詞匯的詞匯表中進(jìn)行選擇。
在新token生成之前,該方法會(huì)從基于最近已生成的token為隨機(jī)數(shù)生成器(RNG)提供“種子”,以此來壓一個(gè)水印。
然后使用RNG,能將詞匯表分為黑名單和白名單,并要求LLM接下來只能從白名單中選擇詞匯。
如果整段文本中,白名單中的詞匯越多,就意味著越有可能是AI生成的。
黑白名單的區(qū)分,基于一個(gè)原則:
人類使用詞匯的隨機(jī)性更強(qiáng)。
舉例來說,如果在“美麗的”后面生成詞匯,水印算法會(huì)將“花”列入白名單,將“蘭花”列入黑名單。
論文作者認(rèn)為,AI更可能使用“花”這個(gè)詞匯,而不是“蘭花”。
然后,就能通過計(jì)算整段文本中白名單token出現(xiàn)的情況,來檢測(cè)水印。
如果一共有生成了N個(gè)token,所有的token都使用了白名單詞匯,那么這段文字只有2的N次方分之一概率是人類寫的。
即便這段文字只有25個(gè)詞組成,那么水印算法也能判斷出它到底是不是AI生成的。
但作者也表示,水印有時(shí)候也不一定完全靠譜。
比如模型輸出了“SpongeBob Square”,下一個(gè)單詞一定會(huì)是“Pants”吧?但是Pants會(huì)被標(biāo)記到黑名單里,即認(rèn)為是只有人才會(huì)寫的詞。
(注:SpongeBob SquarePants是《海綿寶寶》動(dòng)畫片的英文,可理解為一個(gè)專有名詞)
這種情況會(huì)嚴(yán)重影響算法的準(zhǔn)確性,因此作者將其定義為低熵token,因?yàn)槟P蛶缀醪粫?huì)有更好的選擇。
對(duì)應(yīng)來看,也會(huì)有高熵token,比如“海綿寶寶感覺____”這個(gè)句式里,能填入的詞匯太多了。
對(duì)于這一情況,作者選擇針對(duì)高熵token制定更強(qiáng)的規(guī)則,同時(shí)保留低熵token,確保水印質(zhì)量更好。
與此同時(shí),他們還添加了波束搜索(Beam search),允許LLM能夠排布一整個(gè)token序列,以避免黑名單詞匯。
這么做,他們能確保LLM使用白名單詞匯的概率在大約80%左右,而且不影響文本生成質(zhì)量。
舉例來看,對(duì)于下面這段文字,水印算法認(rèn)為它有99.999999999994%的可能是由AI生成的。
因?yàn)樵谶@段文字中,包含36個(gè)token。如果是人類寫的,那么文本中應(yīng)該包含9±2.6個(gè)白名單詞匯(白名單詞匯的概率約為25%)。
但這段文字中,包含了28個(gè)白名單詞匯。
計(jì)算來看,這段文字由人類寫出的概率,僅有0.0000000000006%?(6乘以10的-15次方)。
如下標(biāo)注的是文本中的黑名單token。
需要注意的是,如果想要水印正常發(fā)揮作用,并不受到攻擊,就必須對(duì)文本進(jìn)行一些標(biāo)準(zhǔn)化處理,并且需要檢測(cè)某些類型的對(duì)抗性提示。
這一方法是對(duì)外公開的,將在2月15日開源代碼。
加一個(gè)隨機(jī)秘鑰,也能變成保密模式并且托管到API上,這能保證水印不會(huì)被篡改。
論文中使用的模型是Meta開源的OPT-1.3B模型。
由于不用訪問底層模型,所以該檢測(cè)方法的速度很快,成本也不會(huì)很高。
而且可以使用標(biāo)準(zhǔn)語言模型生成帶水印的文本,不用再重新訓(xùn)練。
網(wǎng)友:似乎很容易繞過?
巴特,不少網(wǎng)友覺得,這個(gè)方法的具體實(shí)踐效果可能遠(yuǎn)不及理想,質(zhì)疑之聲迭起。
有人提出:
如果我在AI生成的文字基礎(chǔ)上,修改幾個(gè)詞,還能被查出來嗎?那在替換成近義詞后,檢測(cè)準(zhǔn)確率會(huì)下降多少?
畢竟大家往往不會(huì)一字不改、直接用AI生成的內(nèi)容。
對(duì)此,論文通訊作者、馬里蘭大學(xué)副教授Tom Goldstein回答稱:
對(duì)于一段自帶水印的文字,至少得修改40%-75%的token,才可能成功去除水印。
(如果用其他程序修改內(nèi)容話),為發(fā)生同義詞攻擊,導(dǎo)致生成內(nèi)容的質(zhì)量很低。
簡(jiǎn)而言之,想要通過換近義詞來消除水印,得大篇幅修改,而且若不是人親自手動(dòng)修改的話,效果會(huì)很拉胯。
還有人提出:
對(duì)于專門設(shè)計(jì)過的低熵token序列,應(yīng)該能檢測(cè)出水印。但是,長(zhǎng)度和檢測(cè)率之間(存在一些矛盾),它們的優(yōu)先級(jí)應(yīng)該如何權(quán)衡?
對(duì)此,Tom教授表示:
根據(jù)設(shè)定,使用波束搜索時(shí),絕大多數(shù)(通常是90%)的token在白名單上,即使是低熵token,也會(huì)被列入白名單。
所以,至少得修改一半以上的token,才能刪除水印,而這需要一個(gè)超級(jí)強(qiáng)大的LLM模型才行,一般人很難接觸到。
不過,研究者們也在論文中承認(rèn),這種方法確實(shí)存在一些局限性。
比如,檢測(cè)水印的z統(tǒng)計(jì)量,只取決于白名單大小參數(shù)γ和生成白名單的哈希函數(shù),和其他不少重要的參數(shù)并沒有什么相關(guān)性。
這就讓他人可以在下游水印檢測(cè)器上做手腳,可以改變水印采樣算法,重新部署水印,最終讓原本生成的水印失效。
就連OpenAI CEO Sam Altman也表示:
創(chuàng)造完美檢測(cè)AI抄襲的工具,從根本上來說是不可能的。
(盡管他說OpenAI打算啟用水印大法)
但話說回來,人們?yōu)榱讼拗艫I生成文字的負(fù)面影響,還是煞費(fèi)苦心——
之前就有人搞出了一個(gè)檢測(cè)ChatGPT的網(wǎng)站,名曰GPTZero,只需要把相應(yīng)的內(nèi)容粘進(jìn)去,幾秒內(nèi)就能分析出結(jié)果。
論文地址:
https://arxiv.org/abs/2301.10226
參考鏈接:
[1]https://twitter.com/tomgoldsteincs/status/1618287665006403585
[2]https://twitter.com/goodside/status/1610552172038737920
[3]https://www.technologyreview.com/2023/01/27/1067338/a-watermark-for-chatbots-can-spot-text-written-by-an-ai/
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)
關(guān)鍵詞: 再也不能用ChatGPT寫作業(yè)了新算法給AI生成文本加水印