ChatGPT背后的標(biāo)注人:在非洲只管“鑒黃”,時(shí)薪不到兩美元-世界百事通

發(fā)布時(shí)間:2023-01-22 16:39:25  |  來源:騰訊網(wǎng)  

機(jī)器之心編譯

選自《TIME》


(相關(guān)資料圖)

最先進(jìn)的 AI 技術(shù),背后還是原始的勞動(dòng)。

ChatGPT 是去年熱度最高的科技創(chuàng)新之一,這種強(qiáng)大的人工智能幾乎可以生成任何主題的文本,既可以與人對(duì)話聊天,也會(huì)編程、參與考試、寫詩搞藝術(shù),在上線一周的時(shí)間內(nèi)就擁有了上百萬用戶。

在 ChatGPT 一炮而紅之后,OpenAI 現(xiàn)在正在與投資者談判估值 290 億美元的融資,其中微軟要投 100 億美元。如果這次融資成功,OpenAI 將成為世界上最有價(jià)值的人工智能公司之一。

然而成功的故事不止有技術(shù)天才和資金,美國《時(shí)代》雜志最近的一項(xiàng)調(diào)查發(fā)現(xiàn),為訓(xùn)練 ChatGPT,OpenAI 使用了每小時(shí)收入不到兩美元的肯尼亞外包勞工。

在 AI 模型訓(xùn)練過程中使用人工標(biāo)注非常重要,特別是對(duì)于 ChatGPT 這樣的語言模型,如果不加規(guī)制,AI 經(jīng)常會(huì)出口成臟,性別歧視或者發(fā)表種族主義言論。這是因?yàn)槿斯ぶ悄芙邮艿氖菑幕ヂ?lián)網(wǎng)上收集的數(shù)千億個(gè)單詞的訓(xùn)練。

龐大的訓(xùn)練數(shù)據(jù)集是 GPT-3 擁有強(qiáng)大語言能力的原因,但也可能是它背負(fù)的最大詛咒。互聯(lián)網(wǎng)在擁有知識(shí)的同時(shí)也存在惡意和偏見的內(nèi)容,沒有什么清除訓(xùn)練數(shù)據(jù)負(fù)面部分的簡(jiǎn)單方法,即使是一個(gè)由數(shù)百人組成的團(tuán)隊(duì)也需要數(shù)十年的時(shí)間才能手動(dòng)瀏覽龐大的數(shù)據(jù)集。只有通過建立一個(gè)額外的人工智能驅(qū)動(dòng)的安全機(jī)制,OpenAI 才能控制這種危害,生產(chǎn)出適合日常使用的聊天機(jī)器人。

為了構(gòu)建這樣的系統(tǒng),OpenAI 借鑒了 Facebook 等社交媒體公司的做法,思路很簡(jiǎn)單:構(gòu)建一個(gè)額外的 AI 模型,向它提供帶有暴力、仇恨言論等標(biāo)簽的示例,讓它學(xué)會(huì)識(shí)別有害內(nèi)容。該檢測(cè)器會(huì)被內(nèi)置到 ChatGPT 中,以檢測(cè)輸出內(nèi)容是否反映了其訓(xùn)練數(shù)據(jù)的問題,并在它到達(dá)用戶之前將其過濾掉。它還可以幫助人們給未來 AI 模型的訓(xùn)練數(shù)據(jù)集中清除有毒文本。

為了獲得這些標(biāo)簽,OpenAI 在 2021 年 11 月開始向肯尼亞的一家外包公司發(fā)送了數(shù)萬個(gè)文本片段。其中大部分文本似乎是從互聯(lián)網(wǎng)最黑暗的角落提取的。其中一些以生動(dòng)的細(xì)節(jié)描述了各種情況。OpenAI 在肯尼亞的外包合作伙伴是 Sama,這是一家總部位于舊金山的公司,在肯尼亞、烏干達(dá)和印度雇用員工為谷歌、Meta 和微軟等硅谷客戶標(biāo)記數(shù)據(jù)。

Sama 將自己定位為一家「有道德的」AI 公司,并聲稱已幫助超過五萬人擺脫了貧困。

根據(jù)資歷和表現(xiàn),Sama 代表 OpenAI 雇用的數(shù)據(jù)標(biāo)注員的實(shí)得工資約為每小時(shí) 1.32 美元至 2 美元。對(duì)于這個(gè)故事,時(shí)代周刊審查了數(shù)百頁 Sama 和 OpenAI 的內(nèi)部文件,包括員工的工資單,并采訪了參與該項(xiàng)目的四名 Sama 員工。出于對(duì)生計(jì)的擔(dān)憂,所有人都不愿透露姓名。

為 AI 做標(biāo)注是個(gè)體力活,此前這種工作時(shí)而會(huì)被媒體報(bào)道,在模型體量不斷膨脹的當(dāng)前,為 ChatGPT 進(jìn)行標(biāo)注的故事讓我們得以感受到 AI 領(lǐng)域另一面的現(xiàn)狀,它在使 AI 技術(shù)能為公眾使用的過程中發(fā)揮了至關(guān)重要的作用。

「盡管這些數(shù)據(jù)人員發(fā)揮了基礎(chǔ)性作用,但越來越多的研究揭示了這些工人面臨的不穩(wěn)定工作條件,」OpenAI 所屬的 AI 組織聯(lián)盟 the Partnership on AI 表示。「這可能是在慶祝技術(shù)效率提升時(shí)試圖隱藏 AI 對(duì)龐大勞動(dòng)力的依賴的結(jié)果?!?/p>

OpenAI 沒有透露與它合作的外包商的名字,我們也不清楚除 Sama 之外,OpenAI 是否與其他數(shù)據(jù)公司在此項(xiàng)目上合作過。

在一份聲明中,OpenAI 的一位發(fā)言人證實(shí)了肯尼亞的 Sama 員工為其正在構(gòu)建的一種檢測(cè)有害內(nèi)容的工具做出了貢獻(xiàn),且該工具最終被內(nèi)置到 ChatGPT 中。該聲明還表示,這項(xiàng)工作有助于從 ChatGPT 等工具的訓(xùn)練數(shù)據(jù)集中刪除有害數(shù)據(jù)?!肝覀兊氖姑谴_保通用人工智能造福全人類,我們努力構(gòu)建安全可用的人工智能系統(tǒng),限制偏見和有害內(nèi)容,」發(fā)言人表示。「對(duì)有害『文本和圖像』進(jìn)行分類和過濾,是減少訓(xùn)練數(shù)據(jù)中包含暴力和色情內(nèi)容數(shù)量以及創(chuàng)建可檢測(cè)有害內(nèi)容的工具的必要步驟。」

雖然目前科技領(lǐng)域因?yàn)榻?jīng)濟(jì)低迷預(yù)期增長(zhǎng)速度有所放緩,但投資者仍在競(jìng)相向 AIGC(智能內(nèi)容生產(chǎn))投入大量資金和精力,OpenAI 是科技行業(yè)中無可爭(zhēng)議的領(lǐng)導(dǎo)者。人們樂觀地估計(jì)認(rèn)為,計(jì)算機(jī)生成的文本、圖像、視頻和音頻將改變無數(shù)行業(yè)的運(yùn)行方式,從而提高從創(chuàng)意藝術(shù)、法律到計(jì)算機(jī)編程等各個(gè)領(lǐng)域的效率。?

然而,數(shù)據(jù)標(biāo)注員的工作條件揭示了這幅未來圖景的陰暗面:盡管 AI 實(shí)現(xiàn)了突破,但它往往依賴于低價(jià)的人力勞動(dòng),而這些勞動(dòng)往往具有破壞性和剝削性。即使他們的工作為價(jià)值數(shù)十億美元的行業(yè)做出貢獻(xiàn),這些隱形工人仍然處于邊緣地位。

一位負(fù)責(zé)為 OpenAI 閱讀和標(biāo)記文本的 Sama 工作人員表示,他在閱讀了一些需要標(biāo)注的負(fù)面內(nèi)容后反復(fù)出現(xiàn)幻覺?!改鞘且环N折磨,」他說?!刚麄€(gè)星期你都會(huì)讀到很多這樣的內(nèi)容。到周五的時(shí)候,你會(huì)因?yàn)橄肽菑堈掌械讲话?。」這項(xiàng)工作的創(chuàng)傷性最終導(dǎo)致 Sama 在 2022 年 2 月取消了其為 OpenAI 所做的所有工作,比計(jì)劃提前了八個(gè)月。

Sama 簽約的合同

媒體調(diào)查顯示,OpenAI 在 2021 年底與 Sama 簽署了三份總價(jià)值約 20 萬美元的合同,為性虐待、仇恨言論和暴力的文本描述添加標(biāo)簽。三十余名工人被分成三個(gè)小組專注于每個(gè)主題。三名員工告訴時(shí)代周刊,他們預(yù)計(jì)每 9 小時(shí)輪班閱讀和標(biāo)記 150 至 250 段文字。這些片段的范圍從大約 100 個(gè)單詞到 1000 詞不等。四名被采訪者均描述了這項(xiàng)工作在精神上留下的傷痕。雖然他們有權(quán)參加「健康」顧問的會(huì)議,但所有人都表示,由于工作效率的高要求,這些會(huì)議沒有幫助而且很少見。

Sama 發(fā)言人在一份聲明中表示,員工只能參加小組會(huì)議的說法是「不正確的」。發(fā)言人說,員工有權(quán)與「受過專業(yè)培訓(xùn)并獲得許可的心理健康治療師」進(jìn)行個(gè)人和小組會(huì)議。發(fā)言人補(bǔ)充說,這些治療師隨時(shí)都可以聯(lián)系到。

合同規(guī)定,OpenAI 將向 Sama 支付 12.50 美元的小時(shí)費(fèi)率,這是該項(xiàng)目的 Sama 員工每小時(shí)帶回家的工資的六到九倍。據(jù) Sama 三名員工稱,代理人是最初級(jí)的數(shù)據(jù)標(biāo)記員,占三個(gè)團(tuán)隊(duì)的大部分,他們的基本工資為每月 2.1 萬肯尼亞先令(約 170 美元)。由于工作的明確性,他們每月還會(huì)收到價(jià)值約 70 美元的獎(jiǎng)金,并會(huì)因達(dá)到準(zhǔn)確性和速度等關(guān)鍵績(jī)效指標(biāo)而獲得傭金。?

一名工作 9 小時(shí)輪班的代理人預(yù)計(jì)稅后每小時(shí)總收入至少為 1.32 美元,如果超過所有目標(biāo),則最高可達(dá)每小時(shí) 1.44 美元。質(zhì)量分析師 —— 更高級(jí)的標(biāo)簽員,他們的工作是檢查代理人的工作 —— 如果他們達(dá)到所有目標(biāo),他們每小時(shí)最多可以賺 2 美元。(肯尼亞沒有普遍的最低工資標(biāo)準(zhǔn),但當(dāng)時(shí)這些工人受雇在內(nèi)羅畢,最低工資是每小時(shí) 1.52 美元。)

在一份聲明中,Sama 的一位發(fā)言人表示,工人被要求每 9 小時(shí)輪班標(biāo)記 70 篇文本段落,而不是最多 250 篇,而且工人稅后每小時(shí)的收入在 1.46 美元到 3.74 美元之間。該發(fā)言人拒絕透露哪些職位的薪水會(huì)達(dá)到該范圍的最高水平。該發(fā)言人補(bǔ)充說:「該項(xiàng)目 12.50 美元的費(fèi)率涵蓋了所有成本,例如基礎(chǔ)設(shè)施費(fèi)用,以及員工及其全職質(zhì)量保證分析師和團(tuán)隊(duì)負(fù)責(zé)人的工資和福利。

OpenAI 發(fā)言人則在一份聲明中表示,該公司沒有發(fā)布任何生產(chǎn)力目標(biāo),Sama 負(fù)責(zé)管理員工的薪酬和心理健康規(guī)定。該發(fā)言人補(bǔ)充說:「我們非常重視員工和承包商的心理健康。我們之前的理解是 Sama 提供健康計(jì)劃和一對(duì)一的心理咨詢,員工可以選擇退出任何工作而不會(huì)受到懲罰,暴露露骨內(nèi)容是有限制的,敏感信息將由經(jīng)過專門培訓(xùn)的員工處理。」

在日常數(shù)據(jù)標(biāo)記工作中,有時(shí)會(huì)出現(xiàn)邊緣案例,這表明教機(jī)器理解細(xì)微差別的難度很大。

OpenAI 與 Sama 的關(guān)系是如何破裂的?

2022 年 2 月,Sama 和 OpenAI 開展了一項(xiàng)合作,但合作過程并不愉快。起初,Sama 為 OpenAI 的一個(gè)單獨(dú)項(xiàng)目進(jìn)行試點(diǎn)工作:收集色情和暴力圖像(其中一些根據(jù)美國法律是非法的)提供給 OpenAI。其中,標(biāo)記圖像的工作似乎與 ChatGPT 無關(guān)。

OpenAI 發(fā)言人沒有具體說明該公司從 Sama 尋求這些圖像的目的,但 OpenAI 在一份聲明中表示標(biāo)記有害圖像是讓其 AI 工具更安全的「必要步驟」。?

根據(jù)《時(shí)代周刊》報(bào)道,一份賬單文件顯示 2 月 Sama 給 OpenAI 交付了一批 1400 張圖像的樣本,OpenAI 共向 Sama 支付了 787.50 美元。

但很快,Sama 就取消了為 OpenAI 所做的所有工作 —— 比合同約定的時(shí)間提前了八個(gè)月。Sama 在一份聲明中表示,其為 OpenAI 收集圖像的協(xié)議中沒有提及任何非法內(nèi)容,而且是在工作開始后,OpenAI 才向 Sama 發(fā)送了「附加說明」,其中提及「一些非法類別」。Sama 公司決定立即結(jié)束這項(xiàng)「圖像分類」合作,并取消所有剩余的 OpenAI 項(xiàng)目。

今年 1 月 10 日,Sama 宣布將取消所有涉及敏感內(nèi)容的剩余工作。此外,該公司還表示不會(huì)與 Facebook 續(xù)簽價(jià)值 390 萬美元的內(nèi)容審核合同,這將導(dǎo)致內(nèi)羅畢大約有 200 個(gè)工作崗位流失。?

Sama 公司在一份聲明中表示:「在與我們的全球團(tuán)隊(duì)進(jìn)行多次討論后,Sama 決定退出『自然語言處理』及其內(nèi)容審核工作,專注于構(gòu)建計(jì)算機(jī)視覺數(shù)據(jù)標(biāo)注解決方案。過去一年,我們一直在與客戶合作過渡這些業(yè)務(wù),并將于 2023 年 3 月完成所有變更。」

然而,人工智能系統(tǒng)仍然需要人工標(biāo)記數(shù)據(jù),至少目前是這樣。就像人工智能倫理學(xué)家 Andrew Strait 最近在推特上說的:「ChatGPT 等生成模型并不神奇,它們依賴于大量的人力供應(yīng)鏈和搜集數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)是未經(jīng)授權(quán)和未經(jīng)同意使用的。而 OpenAI 并沒有解決這些嚴(yán)重的基礎(chǔ)問題?!?/p>

參考內(nèi)容:

https://www.reddit.com/r/MachineLearning/comments/10gtruu/n_openai_used_kenyan_workers_on_less_than_2_per/

https://time.com/6247678/openai-chatgpt-kenya-workers/

關(guān)鍵詞: ChatGPT背后的標(biāo)注人在非洲只管鑒黃 時(shí)薪不到兩美元 人工智能 非洲_科技

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com