百位學者署名的大模型綜述研究被質(zhì)疑“抄襲”,智源研究院官方發(fā)布致歉信

發(fā)布時間:2022-04-14 19:15:01  |  來源:騰訊網(wǎng)  

機器之心報道

機器之心編輯部

智源研究院表示:「對這一情況,研究院立即組織內(nèi)部調(diào)查,確認部分文章存在問題后,已啟動邀請第三方專家開展獨立審查,并進行相關(guān)追責?!?/p>

昨天,一則有關(guān)綜述研究涉嫌「抄襲」的消息引發(fā)了海內(nèi)外學術(shù)圈的熱議:

賓夕法尼亞大學博士生、谷歌學生研究員 Daphne Ippolito 在推特上表示,智源研究院一篇擁有 100 位作者署名的綜述研究《A Roadmap for Big Model》涉嫌抄襲了多篇論文內(nèi)容,其中就包括自己團隊的一項研究《Deduplicating Training Data Makes Language Models Better》,后者此前已被 ACL 2022 接收。

該事件迅速發(fā)酵,引起了社區(qū)廣泛關(guān)注與討論。

針對質(zhì)疑,4 月 13 日,北京智源人工智能研究院發(fā)布了《關(guān)于 “A Roadmap for Big Model” 綜述報告問題的致歉信》,并表示:「對這一情況,研究院立即組織內(nèi)部調(diào)查,確認部分文章存在問題后,已啟動邀請第三方專家開展獨立審查,并進行相關(guān)追責?!?/p>

智源研究院內(nèi)部調(diào)查的初步結(jié)果如下:

1. 該報告是一篇大模型領域的綜述,希望盡可能涵蓋國內(nèi)外該領域的所有重要文獻,由智源研究院牽頭,負責框架設計和稿件匯總,并邀請國內(nèi)外 100 位科研人員分別撰寫了 16 篇獨立的專題文章,每篇文章分別邀請了一組作者撰寫并單獨署名,共 200 頁。報告發(fā)布后,根據(jù)反饋持續(xù)進行修改完善,到 4 月 2 日在 arXiv 網(wǎng)站上已經(jīng)更新到第三版。

2. 4 月 13 日,我們獲悉谷歌研究員 Nicholas Carlini 在個人博客上指出該報告抄襲了他們論文的數(shù)個段落,同時還有其他段落和語句抄襲其他論文。我們對此進行了逐項核查,經(jīng)查重確認第 2 篇文章的第 3.1 節(jié) 179 個詞,第 8 篇文章的第 3.1 節(jié) 74 個詞、第 12 篇文章的第 2.3 節(jié) 55 個詞、第 14 篇文章的第 2 節(jié) 159 個詞、第 16 篇文章的第 1 節(jié) 146 個詞與其他論文重復,應屬抄襲。我們決定立即從報告中刪除相應內(nèi)容,報告修訂版今天將提交 arXiv 進行更新。目前已通知所有文章的作者對所有內(nèi)容進行全面審查,后續(xù)經(jīng)嚴格審核后再發(fā)布新版本。

3. 智源作為該報告的組織者,理應對各篇文章的所有內(nèi)容進行嚴格審核,出現(xiàn)這樣的問題難辭其咎。對此我們深感自責,特別感謝學術(shù)界和媒體的朋友們幫助我們發(fā)現(xiàn)問題。我們將深刻吸取教訓,整改科研管理和論文發(fā)表流程,希望各界朋友監(jiān)督我們工作。

涉嫌抄襲的細節(jié)

涉嫌被抄襲論文的作者之一 Nicholas Carlini 表示:「我的一位合著者正在閱讀 Big Models 論文,并注意到其中一些文本似乎很熟悉,在快速查看后,我們發(fā)現(xiàn)實際上有一堆文本是直接從我們的論文中復制而來的?!?/p>

目前,在「Big Model」這篇論文的 arXiv 頁面,管理員已經(jīng)標注了兩篇文章具有較高的文本重合度。

在博客中,聲稱被抄襲的作者也做出了舉證:「Big Models」抄襲了 Carlini 論文的參考和相關(guān)工作部分。如下所示,左側(cè)是「Big Models」論文中的文本,右側(cè)是原始論文中的相應文本。被「復制」的文本以綠色高亮顯示:

事件引起多方討論之后,Nicholas Carlini 本人在博客的更新中表示:

這篇文章受到的關(guān)注比我想象的要多得多。(每小時訪問這個頁面的人數(shù)比上周訪問我整個網(wǎng)站的人數(shù)還要多。)…… 在不清楚幕后情況的時候,我想避免做出判斷。也許一些初級作者的本意是好的,認為有一條引文就可以復制文本。也許是來自上面的壓力,讓一些學生覺得他們唯一的選擇就是按時交稿。對于資深作者來說,他們可能已經(jīng)閱讀了文本,認為它看起來非常合理,只是在不知道文本來自何處的情況下對文本做了一些調(diào)整。

我希望這篇文章能夠引起人們對此類事情的注意。例如,大約有 1% 的已發(fā)表和被接收的論文比這篇報告有更高的數(shù)據(jù)復制比例。我應該在最初寫博客的時候就給出這個背景。所以,再一次,請大家不要特別嚴厲地批評這篇論文。

最后想說一句,相信這件事也足以為大家敲響警鐘,社區(qū)要嚴格維護學術(shù)規(guī)范。正如 UC 伯克利教授馬毅在微博上的觀點:「嚴格維護學術(shù)規(guī)范的地方,反而會因此受到同行尊重的。國內(nèi)學術(shù)風氣比較浮躁,學術(shù)規(guī)范意識薄弱,希望其他單位能夠以此為例,共同改善我們的學術(shù)環(huán)境?!?/p>

參考鏈接:https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html

關(guān)鍵詞: 百位學者署名的大模型綜述研究被質(zhì)疑抄襲 智源研究院

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com