機器之心報道
編輯:蛋醬
隨著研究人員不斷涌入先進的 AI 聊天機器人的「新世界」,像《Nature》這樣的出版商需要承認它們的合法用途,并制定明確的指導(dǎo)方針以避免濫用。
(資料圖)
幾年來,人工智能正在獲得生成流暢語言的能力,開始大量制造越來越難以與人類生成文本區(qū)分的句子。一些科學家很早就在使用聊天機器人作為研究助手,幫助組織自己的思維,生成對自身工作的反饋,協(xié)助編寫代碼以及對研究文獻進行摘要。
但在 2022 年 11 月發(fā)布的 AI 聊天機器人 ChatGPT,正式將這種被稱為大型語言模型的工具能力帶給了大眾。其研發(fā)機構(gòu) —— 位于舊金山的初創(chuàng)公司 OpenAI 提供了這款聊天機器人的免費使用權(quán)限,即使不具備技術(shù)專長的人也能輕松使用。
數(shù)以百萬計的人正在使用它,生成結(jié)果有時是有趣的、有時是可怕的。「AI 寫作實驗」的爆炸性增長,讓人們對這些工具越來越感到興奮和不安。
ChatGPT 超能力的喜與憂
ChatGPT 可以寫出漂亮的學生作文、總結(jié)研究論文、回答問題、生成可用的計算機代碼,甚至足以通過醫(yī)學考試、MBA 考試、司法考試等。
前段時間,ChatGPT 在一項實驗中已經(jīng)「接近」通過美國醫(yī)學執(zhí)照考試(USMLE)。一般來說,這需要四年的醫(yī)學院學習和兩年以上的臨床經(jīng)歷才能通過。
Step 1 是在醫(yī)學院學習 2 年后進行,包括基礎(chǔ)科學、藥理學和病理生理學。學生平均學習 300 多個小時才能通過。
Step 2 是在醫(yī)學院 4 年 + 1.5-2 年的臨床經(jīng)歷后進行的,包括臨床推斷和醫(yī)療管理。
Step 3 是由完成了 0.5-1 年的研究生醫(yī)學教育的醫(yī)生參加。
ChatGPT 還成功通過了沃頓商學院的 MBA 運營管理期末考試。當然,這種考試并不是最難的問題,但在 1 秒鐘內(nèi)完成必須算是「突破性」的。
在司法考試這件事上,ChatGPT 仍然展現(xiàn)出了非凡的能力。在美國,要想?yún)⒓勇蓭煂I(yè)執(zhí)照考試,大多數(shù)司法管轄區(qū)要求申請人完成至少七年高等教育,包括在經(jīng)認可的法學院學習三年。此外,大多數(shù)應(yīng)試者還需要經(jīng)過數(shù)周至數(shù)月的考試準備。盡管投入了大量的時間和資金,大約 20% 的應(yīng)試者在第一次考試中的得分仍然低于通過考試的要求。
但在最近的一項研究中,研究者發(fā)現(xiàn),對于最佳 prompt 和參數(shù),ChatGPT 在完整的 NCBE MBE 練習考試中實現(xiàn)了 50.3% 的平均正確率,大大超過了 25% 的基線猜測率,并且在證據(jù)和侵權(quán)行為方面都達到了平均合格率。ChatGPT 的答案排名也與正確率高度相關(guān);其 Top 2 和 Top 3 的選擇分別有 71% 和 88% 的正確率。作者認為,這些結(jié)果強烈表明大型語言模型將在不久的將來通過律師資格考試的 MBE 部分。
ChatGPT 編寫的研究摘要水平也很高,以至于科學家們發(fā)現(xiàn)很難發(fā)現(xiàn)這些摘要是由計算機編寫的。反過來說,對整個社會來說,ChatGPT 也可能使垃圾郵件、勒索軟件和其他惡意輸出更容易產(chǎn)生。
目前為止,語言模型生成的內(nèi)容還不能完全保證其正確性,甚至在一些專業(yè)領(lǐng)域的錯誤率是很高的。如果無法區(qū)分人工編寫內(nèi)容和 AI 模型生成內(nèi)容,那么人類將面臨被 AI 誤導(dǎo)的嚴重問題。盡管 OpenAI 試圖為這款聊天機器人的行為設(shè)限,但用戶已經(jīng)找到了繞過限制的方法。
學術(shù)界的擔心
學術(shù)研究界最大的擔憂是,學生和科學家可以欺騙性地把大模型寫的文本當作自己寫的文本,或者以簡單化的方式使用大模型(比如進行不完整的文獻綜述),生成一些不可靠的工作。
在近期西北大學 Catherine Gao 等人的一項研究中,研究者選取一些發(fā)表在美國醫(yī)學會雜志(JAMA)、新英格蘭醫(yī)學雜志(NEJM)、英國醫(yī)學期刊(BMJ)、《柳葉刀》和《Nature Medicine》上的人工研究論文,使用 ChatGPT 為論文生成摘要,然后測試審稿人是否可以發(fā)現(xiàn)這些摘要是 AI 生成的。
實驗結(jié)果表明,審稿人僅正確識別了 68% 的生成摘要和 86% 的原始摘要。他們錯誤地將 32% 的生成摘要識別為原始摘要,將 14% 的原始摘要識別為 AI 生成的。審稿人表示:「要區(qū)分兩者出奇地困難,生成的摘要比較模糊,給人一種公式化的感覺。」
甚至還有一些預(yù)印本和已發(fā)表的文章已經(jīng)將正式的作者身份賦予 ChatGPT。一些學術(shù)會議率先公開反對,比如機器學習會議 ICML 就表示過:「ChatGPT 接受公共數(shù)據(jù)的訓(xùn)練,這些數(shù)據(jù)通常是在未經(jīng)同意的情況下收集的,這會帶來一系列的責任歸屬問題?!?/p>
因此,現(xiàn)在或許是研究人員和出版商制定以道德方式使用大型語言模型的基本規(guī)則的時候了?!蹲匀弧冯s志公開表示,已經(jīng)與所有 Springer Nature 期刊共同制定了兩條原則,并且這些原則已被添加到現(xiàn)有的作者指南中:
首先,任何大型語言模型工具都不會被接受作為研究論文的署名作者。這是因為任何作者的歸屬權(quán)都伴隨著對工作的責任,而 AI 工具不能承擔這種責任。
第二,使用大型語言模型工具的研究人員應(yīng)該在方法或致謝部分記錄這種使用。如果論文不包括這些部分,可以用引言或其他適當?shù)牟糠謥碛涗泴Υ笮驼Z言模型的使用。
作者指南:https://www.nature.com/nature/for-authors/initial-submission
通訊作者應(yīng)以星號標明。大型語言模型(LLM),如 ChatGPT,目前不符合我們的作者資格標準。值得注意的是,作者的歸屬帶有對工作的責任,這不能有效地適用于 LLM。LLM 的使用應(yīng)該在稿件的方法部分(如果沒有方法部分,則在合適的替代部分)進行適當記錄。
據(jù)了解,其他科學出版商也可能采取類似的立場。「我們不允許 AI 被列為我們發(fā)表的論文的作者,并且在沒有適當引用的情況下使用 AI 生成的文本可能被視為剽竊,」《Science》系列期刊的主編 Holden Thorp 說。
為什么要制定這些規(guī)則?
編輯和出版商可以檢測由大型語言模型生成的文本嗎?現(xiàn)在,答案是「或許可以」。如果仔細檢查的話,ChatGPT 的原始輸出是可以被識別出來的,特別是當涉及的段落超過幾段并且主題涉及科學工作時。這是因為,大型語言模型是根據(jù)它們的訓(xùn)練數(shù)據(jù)和它們所看到的 prompt 中的統(tǒng)計學關(guān)聯(lián)來生成詞匯模式的,這意味著它們的輸出可能看起來非常平淡,或者包含簡單的錯誤。此外,它們還不能引用資料來記錄他們的輸出。
但在未來,人工智能研究人員也許能夠解決這些問題 —— 例如,已經(jīng)有一些實驗將聊天機器人與引用資源的工具聯(lián)系起來,還有一些實驗用專門的科學文本訓(xùn)練聊天機器人。
一些工具聲稱可以檢測出大型語言模型生成的輸出,《自然》雜志的出版商 Springer Nature 就是開發(fā)這項技術(shù)的團隊之一。但是大型語言模型將會迅速改進。這些模型的創(chuàng)建者希望能夠以某種方式為其工具的輸出添加水印,盡管這在技術(shù)上可能不是萬無一失的。
近期較火的一篇為大型語言模型輸出添加「水印」的論文。論文地址:https://arxiv.org/pdf/2301.10226v1.pdf
從最早的時候起,「科學」就主張對方法和證據(jù)公開透明,無論當時流行的是哪種技術(shù)。研究人員應(yīng)該捫心自問,如果他們或他們的同事使用的軟件以一種根本不透明的方式工作,那么產(chǎn)生知識的過程所依賴的透明度和可信度如何保持。
這就是為什么《自然》雜志制定了這些原則:最終,研究方法必須透明,作者必須誠實、真實。畢竟,這是科學賴以發(fā)展的基礎(chǔ)。
參考鏈接:
關(guān)鍵詞: Nature給學術(shù)界立規(guī)矩ChatGPT等大模型不可以成為作者 人工智能