·
為了獲得有關暴力、仇恨言論和性虐待的例子以訓練AI,OpenAI從2021年11月開始向肯尼亞的一家外包公司發(fā)送了數(shù)萬條文本。其中大部分文字似乎都是從互聯(lián)網(wǎng)最黑暗的角落里挖出來的,一些詳細描述了性虐待、謀殺、異常性行為等情況。
·
(資料圖)
一名參與文本標簽項目的員工表示:“對我們來說,這是一種養(yǎng)家糊口的方式。不看有害內(nèi)容就無法養(yǎng)家糊口?!?/p>
人工智能(AI)文本生成工具ChatGPT已經(jīng)引發(fā)全球熱烈討論,除了這個工具本身的準確性和偏見問題之外,其背后的道德問題也引起關注。1月18日,美國《時代》雜志發(fā)布調(diào)查報道稱,為了降低ChatGPT的危害性,其開發(fā)公司OpenAI以每小時不到2美元的價格雇傭肯尼亞工人打標簽。
這項工作對OpenAI至關重要。ChatGPT所依賴的GPT大型語言模型雖然已展示出令人印象深刻的文本能力,但目前的GPT-3還存在很多問題,總是脫口而出暴力、性別歧視和種族主義言論。這是因為AI接受了從互聯(lián)網(wǎng)上抓取的數(shù)千億個單詞的訓練,而龐大的訓練數(shù)據(jù)集包含有害言論,會被人工智能學習。為了建立安全系統(tǒng)以控制這種危害,OpenAI借鑒了Facebook等社交媒體的做法。
實現(xiàn)這種檢測的方式很簡單:給人工智能提供有關暴力、仇恨言論和性虐待的例子,檢測器就可以學會檢測言論危害。將檢測器內(nèi)置到ChatGPT中,就可以在仇恨言論到達用戶之前將其過濾掉,還可以幫助從人工智能的訓練數(shù)據(jù)集中清除有害文本。這一切,是通過肯尼亞工人閱讀大量仇恨言論并打上數(shù)據(jù)標簽實現(xiàn)的,其中一些員工表示自己已經(jīng)出現(xiàn)心理問題。
這些數(shù)據(jù)標簽工人的工作條件揭示了科技圖景中的黑暗部分:雖然人工智能很有魅力,但它往往依賴于隱藏的人力勞動,具有破壞性和剝削性。
OpenAI的人工智能Dall-E 2生成的一幅畫,主題是:“電腦前,非洲工人無窮無盡的工作。”
互聯(lián)網(wǎng)最黑暗的角落
ChatGPT聊天機器人于去年11月發(fā)布,被譽為2022年最令人印象深刻的技術(shù)創(chuàng)新之一。這個強大的AI聊天機器人幾乎可以生成任何主題的文本,從重寫莎士比亞十四行詩,到用5歲孩子都能理解的語言描述復雜數(shù)學定理。一周之內(nèi),它的用戶就超過了100萬。今年年初,有媒體報道OpenAI正與投資者進行談判,以籌集290億美元的投資,其中包括微軟的100億美元潛在投資。這將使OpenAI成為世界上最有價值的人工智能公司之一。
《時代》的調(diào)查報道稱,為了獲得有關暴力、仇恨言論和性虐待的例子以訓練AI,OpenAI從2021年11月開始向肯尼亞的一家外包公司發(fā)送了數(shù)萬條文本。其中大部分文字似乎都是從互聯(lián)網(wǎng)最黑暗的角落里挖出來的,一些詳細描述了性虐待、謀殺、異常性行為等情況。
OpenAI在肯尼亞的外包合作伙伴是Sama公司,這家總部位于舊金山的公司雇傭了肯尼亞、烏干達和印度的工人,為谷歌、Meta和微軟等硅谷客戶標注數(shù)據(jù)。Sama標榜自己是一家“有道德的人工智能公司”,并聲稱已經(jīng)幫助5萬多人擺脫了貧困。
OpenAI的發(fā)言人表示:“我們的使命是確保通用人工智能造福全人類,我們努力建立安全有用的人工智能系統(tǒng),限制偏見和有害內(nèi)容。分類和過濾有害文本和圖像是必要的一步,可以最大限度地減少訓練數(shù)據(jù)中包含的暴力和性內(nèi)容,并創(chuàng)建可以檢測有害內(nèi)容的工具?!?/p>
但Sama公司的肯尼亞工人,讓我們得以一窺人工智能行業(yè)中這一鮮為人知的狀況。該公司代表OpenAI雇傭的數(shù)據(jù)標簽員的實際工資在每小時1.32美元到2美元之間,具體取決于資歷和表現(xiàn)。這些工人處于邊緣地帶,盡管他們的工作為數(shù)十億美元的產(chǎn)業(yè)做出了貢獻。
OpenAI與Sama簽署了3份總價值約20萬美元的合同。大約30多名工作人員被分成3個小組,每個小組專注于一個主題。他們每9個小時要閱讀和標注150到250段文字。這些片段的范圍從100個單詞到1000多個單詞不等。許多員工表示,這份工作給他們留下了心理創(chuàng)傷。
一位Sama的工作人員表示,在閱讀了大量仇恨言論后,他經(jīng)常出現(xiàn)幻覺?!澳鞘且环N折磨?!彼f。
Sama的發(fā)言人在一份聲明中表示,員工有權(quán)與“經(jīng)過專業(yè)培訓和持有執(zhí)照的心理健康治療師”進行個人和團體治療。這些治療師隨時都可以聯(lián)系到。
雖然工人有權(quán)參加“健康”咨詢師的課程,但由于對工作效率的要求很高,部分員工表示這些課程毫無幫助。還有一位員工表示,他要求以一對一的方式與咨詢師會面的請求被Sama管理層一再拒絕。
合同規(guī)定,OpenAI將為這項工作向Sama支付每小時12.5美元的報酬,這是該項目Sama員工每小時收入的6到9倍。據(jù)3名Sama員工透露,最初級的數(shù)據(jù)標簽人員基本工資為每月2.1萬肯尼亞先令(合170美元)。
由于工作性質(zhì)明確,如果達到準確性和速度等關鍵績效指標,他們還能獲得70美元的獎金。
質(zhì)量分析師是更資深的標簽師,他們的工作是檢查代理商的工作,如果他們達到了所有的目標,每小時可以拿2美元。
但對于員工的言論,Sama的發(fā)言人在一份聲明中反駁道,工人們被要求在每9小時的工作中標注70段文字,而不是250段,工人們的稅后工資為每小時1.46美元到3.74美元。該發(fā)言人補充說:“12.5美元的項目費率涵蓋了所有成本,如基礎設施費用,以及員工、專職質(zhì)量保證分析師和團隊負責人的工資和福利?!?/p>
OpenAI的發(fā)言人在一份聲明中也表示:“我們非常重視員工和承包商的心理健康。員工可以選擇不做任何工作而不受懲罰,接觸露骨的內(nèi)容是有限制的,敏感信息將由經(jīng)過專門培訓的員工處理?!?/p>
Sama公司在肯尼亞內(nèi)羅畢的辦公室。
“不看有害內(nèi)容就無法養(yǎng)家糊口”
2022年2月,Sama和OpenAI的關系曾短暫加深,而后卻分道揚鑣。2月,Sama開始為OpenAI的另一個項目進行試點工作:收集性和暴力圖像并交付給OpenAI。OpenAI發(fā)言人在一份聲明中沒有具體說明該公司向Sama尋求圖像的目的,但表示標記有害圖像是使其人工智能更安全的“必要步驟”。
但在后來的幾周內(nèi),Sama取消了OpenAI的所有工作,比合同中約定的時間提前了8個月。這家外包公司在一份聲明中表示,其為OpenAI收集圖像的協(xié)議中不包括任何涉及非法內(nèi)容的內(nèi)容,直到相關工作開始后,OpenAI才發(fā)來“附加指示”,提到了“一些非法類別”。
“東非團隊立即向我們的高管提出了擔憂?!盨ama表示,于是他們立即結(jié)束了圖像分類試點,并取消了與OpenAI的所有剩余項目。
Sama終止與OpenAI合作的決定意味著Sama員工不再需要處理令人不安的文字和圖像,但這也對他們的生計產(chǎn)生了重大影響。Sama的工作人員表示,在2022年2月底,他們被叫去與公司人力資源團隊成員開會,在那里他們被告知Sama不想讓員工再次接觸這樣的危險內(nèi)容。
但Sama一名參與文本標簽項目的員工表示:“對我們來說,這是一種養(yǎng)家糊口的方式。不看有害內(nèi)容就無法養(yǎng)家糊口?!?/p>
在大約30多名員工中,大多數(shù)人被轉(zhuǎn)移到其他工資較低的工作崗位,每月沒有70美元的獎金,還有一些人甚至失去了工作。Sama在3月向OpenAI交付了最后一批標記數(shù)據(jù),當時距離合同到期還有8個月。
Sama的員工表示,他們的經(jīng)理給了他們另一個取消合同的理由。2月14日,《時代》發(fā)表了一篇題為《Facebook在非洲的血汗工廠內(nèi)幕》的文章,調(diào)查詳細說明了Sama如何為Facebook雇用內(nèi)容審查員,他們的工作包括查看有關性虐待、暴力、謀殺的圖像和視頻,且時薪只有1.5美元。4名Sama員工表示,他們被告知,調(diào)查促使Sama公司決定結(jié)束與OpenAI的合作。
今年1月10日,Sama更進一步,宣布取消所有涉及敏感內(nèi)容的剩余工作。該公司表示,將不再與Facebook續(xù)簽價值390萬美元的內(nèi)容審核合同,這將導致內(nèi)羅畢約200個工作崗位的流失。
該公司在一份聲明中表示:“在與我們的全球團隊進行了多次討論后,Sama做出了戰(zhàn)略決定,退出所有自然語言處理和內(nèi)容審核工作,專注于計算機視覺數(shù)據(jù)注釋解決方案。在過去的一年里,我們一直在與客戶合作,過渡這些業(yè)務,并將于2023年3月完成退出。”
人工智能目前仍需要大量人工來標記數(shù)據(jù)。人工智能倫理學家安德魯·斯特雷特(Andrew Strait)最近在推特上寫道:“ChatGPT和其他人工智能并不神奇,它們依賴于大規(guī)模的人力供應鏈和數(shù)據(jù)抓取,其中大部分是未經(jīng)同意就被使用的。這些都是嚴重的基礎性問題,但我認為OpenAI不會解決這些問題?!?/p>