AI 生成的文本好不好,最權(quán)威的評(píng)估者竟然不是人類(lèi)自己?
最近,華盛頓大學(xué)和艾倫人工智能研究院的學(xué)者們?cè)谘芯恐邪l(fā)現(xiàn):
未經(jīng)過(guò)訓(xùn)練的人類(lèi)評(píng)估文本時(shí),往往過(guò)分關(guān)注生成文本像不像人話,而忽略了生成文本更重要的問(wèn)題,即它的內(nèi)容是否正確、合乎邏輯。
研究人員就給出了一個(gè)例子:
他們分別讓未經(jīng)訓(xùn)練的人類(lèi)和機(jī)器來(lái)評(píng)價(jià)一段 GPT-3 生成的文字。
這段文字翻譯過(guò)來(lái)為:
從前,有一個(gè)海盜。他是那種寧愿把時(shí)間花在驅(qū)趕在船周?chē)斡镜孽忯~(yú)上,也不愿駛向外國(guó)港口尋找戰(zhàn)利品的海盜。他是個(gè)好海盜,高尚的海盜,誠(chéng)實(shí)的海盜。他是個(gè)寧愿和妻兒呆在家里也不愿出海的海盜。
人類(lèi)評(píng)估員認(rèn)為這段文字除了有些啰嗦外,沒(méi)什么大毛病。
這可能就是一個(gè)海盜想回家陪老婆孩子吧,AI 可能沒(méi)理解,但是這也沒(méi)什么稀奇的。
機(jī)器評(píng)估也認(rèn)為這段文字很啰嗦,不過(guò)它對(duì)文段的內(nèi)容提出了質(zhì)疑:
海盜會(huì)有老婆孩子?還不和他一起在船上生活?
對(duì)比兩種判斷,人類(lèi)評(píng)估更看重這段話像不像人話,在檢驗(yàn)過(guò)它的確非常流暢后,就會(huì)默認(rèn)這段文本沒(méi)什么大問(wèn)題了。
而機(jī)器的判斷角度則更加多維,會(huì)考慮到文字傳達(dá)的意思是否正確。
很難分辨出 GPT-3 生成的文本
為了驗(yàn)證自己的觀點(diǎn),研究人員讓未經(jīng)訓(xùn)練的評(píng)估人員來(lái)區(qū)分人類(lèi)寫(xiě)的文本和 AI 生成的文本。
他們選擇了故事、新聞、菜譜三種不同的文體進(jìn)行測(cè)試。
具體測(cè)試中,受試人員不僅要判斷給出的文本是否人類(lèi)創(chuàng)作的,還要填寫(xiě)相應(yīng)的理由。
結(jié)果顯示,在區(qū)分人類(lèi)和 GPT-2 創(chuàng)作的文本時(shí),被測(cè)試群體的正確率為 57.9%。
但是在區(qū)分 GPT-3 生成的文本上,正確率就下降到了 49.9%。
而二選一問(wèn)題的隨機(jī)概率就有 50%……
顯然,普通人已經(jīng)很難識(shí)別出當(dāng)下最先進(jìn)的 NLG 模型所生成的文本。
為了更進(jìn)一步了解受試人員是如何做出判斷的,研究人員對(duì) 150 個(gè)回答進(jìn)行了分析。
結(jié)果發(fā)現(xiàn),受試人員在做出判斷后,更加傾向于從文本的格式、風(fēng)格、語(yǔ)法角度上給出理由。
150 個(gè)回答中,基于文本形式的判斷幾乎是基于內(nèi)容判斷的 2 倍。
但是,GPT-3 在文本流暢度方面的表現(xiàn)其實(shí)已經(jīng)非常出色,這或許也是為什么人類(lèi)很難分辨 GPT-3 生成文本。
而且研究人員發(fā)現(xiàn),受試人員給出判斷的理由都不盡相同,這也表明人類(lèi)評(píng)估文本沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)。
既然 NLG 模型訓(xùn)練后可以變強(qiáng),那培訓(xùn)一下評(píng)估人員呢?
研究人員決定對(duì)一些受試人員進(jìn)行了培訓(xùn),提高他們?cè)u(píng)估文字的能力和速度。
他們準(zhǔn)備了 3 種不同的培訓(xùn):
第一種是給出明確的判斷標(biāo)準(zhǔn),讓受試人員學(xué)習(xí)后來(lái)判斷;
第二種是通過(guò)大量的實(shí)例訓(xùn)練,也就是題海戰(zhàn)術(shù);
第三種是通過(guò)不斷對(duì)比來(lái)完成訓(xùn)練。
然而結(jié)果表明,這好像并沒(méi)有什么用。
三種培訓(xùn)后的判斷正確率分別為 52%、55%、53%,相較于未受訓(xùn)時(shí)的表現(xiàn),沒(méi)有顯著提高。
不過(guò)從受試人員的回答中可以看到,更多人現(xiàn)在會(huì)多維度判斷文本了,還是有進(jìn)步的。
基于這樣的實(shí)驗(yàn)結(jié)果,研究人員認(rèn)為在評(píng)估最先進(jìn)的 NLG 模型方面,人類(lèi)可能真的不太靠譜了。
這實(shí)驗(yàn)不太靠譜
對(duì)于這樣的結(jié)論,網(wǎng)友們提出了一些不同的看法:
判斷文本質(zhì)量其實(shí)是一件非常艱巨的任務(wù),需要專(zhuān)家來(lái)進(jìn)行評(píng)估。
或許是這項(xiàng)研究中的受試人員不太行?
有人就指出了問(wèn)題所在:他們用的 Amazon Mechanical Turk 的評(píng)估員。
是受試人員不太行。
AMTurk 作為一個(gè)眾包平臺(tái),近年來(lái)實(shí)在是飽受詬病。
此前 BBC 報(bào)道稱(chēng),由于招募到的志愿者所在的地區(qū)存在一些觀念偏見(jiàn),導(dǎo)致最后研究出的算法也存在偏見(jiàn)。
而且招募到的人員水平也常常參差不齊。
不過(guò)有人也表示:這些人可能也是最適合的,因?yàn)樗麄冏罱咏胀ù蟊娝?,?zhuān)家認(rèn)為好的文字,普通人未必也這么認(rèn)為。
這要取決于生成文本的目標(biāo)人群是誰(shuí)。
實(shí)驗(yàn)中的志愿者對(duì)喬伊斯(后現(xiàn)代文學(xué)作家)的欣賞程度肯定和英文系教授不同。
盡管頂級(jí)文學(xué)評(píng)論家將其描述為“20 世紀(jì)實(shí)驗(yàn)文學(xué)的偉大紀(jì)念碑之一”和“英語(yǔ)中最美麗的散文詩(shī)之一”,但對(duì)于大多數(shù)普通讀者而言,它非常晦澀難懂。
此外,也有人就對(duì)這項(xiàng)研究提出了改進(jìn)建議:
我認(rèn)為他們可以用更簡(jiǎn)單的 NLG 算法 (基于規(guī)則,n-gram, rnn) 進(jìn)行更精細(xì)的分析,并對(duì)“非專(zhuān)家”評(píng)估者進(jìn)行排名,而不是將他們作為一個(gè)群體來(lái)處理。
而關(guān)于 NLG 模型生成文本的評(píng)估問(wèn)題,谷歌曾給出過(guò)一個(gè)方案。
2020 年,它們提出了一個(gè)可量化評(píng)估 NLG 模型性能的指標(biāo) ——BLEURT。
這是一個(gè)基于 BERT 的學(xué)習(xí)評(píng)價(jià)指標(biāo),在學(xué)習(xí)了幾千個(gè)人類(lèi)評(píng)估案例后,它可以對(duì)不同模型生成的文本進(jìn)行打分。
其最大的優(yōu)勢(shì)就是,評(píng)估速度更快。
谷歌研究人員認(rèn)為這個(gè)指標(biāo)有助于 NLG 模型的研究和開(kāi)發(fā),而且可以為開(kāi)發(fā)人員提供更加多維的評(píng)判標(biāo)準(zhǔn)。