AI所生成文本最權(quán)威評(píng)估者并非人類(lèi) 機(jī)器判斷角度更加多維

發(fā)布時(shí)間:2021-08-18 10:48:47  |  來(lái)源:量子位  

AI 生成的文本好不好,最權(quán)威的評(píng)估者竟然不是人類(lèi)自己?

最近,華盛頓大學(xué)和艾倫人工智能研究院的學(xué)者們?cè)谘芯恐邪l(fā)現(xiàn):

未經(jīng)過(guò)訓(xùn)練的人類(lèi)評(píng)估文本時(shí),往往過(guò)分關(guān)注生成文本像不像人話,而忽略了生成文本更重要的問(wèn)題,即它的內(nèi)容是否正確、合乎邏輯。

研究人員就給出了一個(gè)例子:

他們分別讓未經(jīng)訓(xùn)練的人類(lèi)和機(jī)器來(lái)評(píng)價(jià)一段 GPT-3 生成的文字。

這段文字翻譯過(guò)來(lái)為:

從前,有一個(gè)海盜。他是那種寧愿把時(shí)間花在驅(qū)趕在船周?chē)斡镜孽忯~(yú)上,也不愿駛向外國(guó)港口尋找戰(zhàn)利品的海盜。他是個(gè)好海盜,高尚的海盜,誠(chéng)實(shí)的海盜。他是個(gè)寧愿和妻兒呆在家里也不愿出海的海盜。

人類(lèi)評(píng)估員認(rèn)為這段文字除了有些啰嗦外,沒(méi)什么大毛病。

這可能就是一個(gè)海盜想回家陪老婆孩子吧,AI 可能沒(méi)理解,但是這也沒(méi)什么稀奇的。

機(jī)器評(píng)估也認(rèn)為這段文字很啰嗦,不過(guò)它對(duì)文段的內(nèi)容提出了質(zhì)疑:

海盜會(huì)有老婆孩子?還不和他一起在船上生活?

對(duì)比兩種判斷,人類(lèi)評(píng)估更看重這段話像不像人話,在檢驗(yàn)過(guò)它的確非常流暢后,就會(huì)默認(rèn)這段文本沒(méi)什么大問(wèn)題了。

而機(jī)器的判斷角度則更加多維,會(huì)考慮到文字傳達(dá)的意思是否正確。

很難分辨出 GPT-3 生成的文本

為了驗(yàn)證自己的觀點(diǎn),研究人員讓未經(jīng)訓(xùn)練的評(píng)估人員來(lái)區(qū)分人類(lèi)寫(xiě)的文本和 AI 生成的文本。

他們選擇了故事、新聞、菜譜三種不同的文體進(jìn)行測(cè)試。

具體測(cè)試中,受試人員不僅要判斷給出的文本是否人類(lèi)創(chuàng)作的,還要填寫(xiě)相應(yīng)的理由。

結(jié)果顯示,在區(qū)分人類(lèi)和 GPT-2 創(chuàng)作的文本時(shí),被測(cè)試群體的正確率為 57.9%。

但是在區(qū)分 GPT-3 生成的文本上,正確率就下降到了 49.9%。

而二選一問(wèn)題的隨機(jī)概率就有 50%……

顯然,普通人已經(jīng)很難識(shí)別出當(dāng)下最先進(jìn)的 NLG 模型所生成的文本。

為了更進(jìn)一步了解受試人員是如何做出判斷的,研究人員對(duì) 150 個(gè)回答進(jìn)行了分析。

結(jié)果發(fā)現(xiàn),受試人員在做出判斷后,更加傾向于從文本的格式、風(fēng)格、語(yǔ)法角度上給出理由。

150 個(gè)回答中,基于文本形式的判斷幾乎是基于內(nèi)容判斷的 2 倍。

但是,GPT-3 在文本流暢度方面的表現(xiàn)其實(shí)已經(jīng)非常出色,這或許也是為什么人類(lèi)很難分辨 GPT-3 生成文本。

而且研究人員發(fā)現(xiàn),受試人員給出判斷的理由都不盡相同,這也表明人類(lèi)評(píng)估文本沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)。

既然 NLG 模型訓(xùn)練后可以變強(qiáng),那培訓(xùn)一下評(píng)估人員呢?

研究人員決定對(duì)一些受試人員進(jìn)行了培訓(xùn),提高他們?cè)u(píng)估文字的能力和速度。

他們準(zhǔn)備了 3 種不同的培訓(xùn):

第一種是給出明確的判斷標(biāo)準(zhǔn),讓受試人員學(xué)習(xí)后來(lái)判斷;

第二種是通過(guò)大量的實(shí)例訓(xùn)練,也就是題海戰(zhàn)術(shù);

第三種是通過(guò)不斷對(duì)比來(lái)完成訓(xùn)練。

然而結(jié)果表明,這好像并沒(méi)有什么用。

三種培訓(xùn)后的判斷正確率分別為 52%、55%、53%,相較于未受訓(xùn)時(shí)的表現(xiàn),沒(méi)有顯著提高。

不過(guò)從受試人員的回答中可以看到,更多人現(xiàn)在會(huì)多維度判斷文本了,還是有進(jìn)步的。

基于這樣的實(shí)驗(yàn)結(jié)果,研究人員認(rèn)為在評(píng)估最先進(jìn)的 NLG 模型方面,人類(lèi)可能真的不太靠譜了。

這實(shí)驗(yàn)不太靠譜

對(duì)于這樣的結(jié)論,網(wǎng)友們提出了一些不同的看法:

判斷文本質(zhì)量其實(shí)是一件非常艱巨的任務(wù),需要專(zhuān)家來(lái)進(jìn)行評(píng)估。

或許是這項(xiàng)研究中的受試人員不太行?

有人就指出了問(wèn)題所在:他們用的 Amazon Mechanical Turk 的評(píng)估員。

是受試人員不太行。

AMTurk 作為一個(gè)眾包平臺(tái),近年來(lái)實(shí)在是飽受詬病。

此前 BBC 報(bào)道稱(chēng),由于招募到的志愿者所在的地區(qū)存在一些觀念偏見(jiàn),導(dǎo)致最后研究出的算法也存在偏見(jiàn)。

而且招募到的人員水平也常常參差不齊。

不過(guò)有人也表示:這些人可能也是最適合的,因?yàn)樗麄冏罱咏胀ù蟊娝?,?zhuān)家認(rèn)為好的文字,普通人未必也這么認(rèn)為。

這要取決于生成文本的目標(biāo)人群是誰(shuí)。

實(shí)驗(yàn)中的志愿者對(duì)喬伊斯(后現(xiàn)代文學(xué)作家)的欣賞程度肯定和英文系教授不同。

盡管頂級(jí)文學(xué)評(píng)論家將其描述為“20 世紀(jì)實(shí)驗(yàn)文學(xué)的偉大紀(jì)念碑之一”和“英語(yǔ)中最美麗的散文詩(shī)之一”,但對(duì)于大多數(shù)普通讀者而言,它非常晦澀難懂。

此外,也有人就對(duì)這項(xiàng)研究提出了改進(jìn)建議:

我認(rèn)為他們可以用更簡(jiǎn)單的 NLG 算法 (基于規(guī)則,n-gram, rnn) 進(jìn)行更精細(xì)的分析,并對(duì)“非專(zhuān)家”評(píng)估者進(jìn)行排名,而不是將他們作為一個(gè)群體來(lái)處理。

而關(guān)于 NLG 模型生成文本的評(píng)估問(wèn)題,谷歌曾給出過(guò)一個(gè)方案。

2020 年,它們提出了一個(gè)可量化評(píng)估 NLG 模型性能的指標(biāo) ——BLEURT。

這是一個(gè)基于 BERT 的學(xué)習(xí)評(píng)價(jià)指標(biāo),在學(xué)習(xí)了幾千個(gè)人類(lèi)評(píng)估案例后,它可以對(duì)不同模型生成的文本進(jìn)行打分。

其最大的優(yōu)勢(shì)就是,評(píng)估速度更快。

谷歌研究人員認(rèn)為這個(gè)指標(biāo)有助于 NLG 模型的研究和開(kāi)發(fā),而且可以為開(kāi)發(fā)人員提供更加多維的評(píng)判標(biāo)準(zhǔn)。

關(guān)鍵詞: AI 文本 評(píng)估者 權(quán)威 人類(lèi)

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com