新智元報道??
(資料圖)
編輯:好困 David
【新智元導(dǎo)讀】在家里美美上個廁所,結(jié)果時隔兩年,偷拍照竟然流到了網(wǎng)上......這么離譜的事是怎么發(fā)生的?
你絕對想不到,自己在家上廁所的「實時動態(tài)」,不僅被拿去給AI做了訓(xùn)練數(shù)據(jù),而且還被發(fā)到了網(wǎng)上!
最近,《麻省理工科技評論》在一篇萬字長文調(diào)查中,就曝光了這樣觸目驚心的一幕——
圖中,一位女士穿著淡紫色T恤的年輕女子正坐在自家的馬桶上,而她的短褲已經(jīng)脫到了大腿中部。
萌萌的TA竟然是個偷窺狂?
時間回到2020年秋天,一系列從低角度拍攝的照片突然出現(xiàn)在了網(wǎng)絡(luò)論壇上。
其內(nèi)容全是家庭生活中場景——家具的陳列,電視播放的節(jié)目內(nèi)容,甚至連家庭成員的臉都看得一清二楚。
比如在下面這張圖中,一個八九歲的男孩,正趴在走廊的地板上,并很高興地注視著面前的這個物體。
根據(jù)爆料,這些圖片全部由iRobot開發(fā)的Roomba J7系列掃地機器人拍攝,之后則會被發(fā)給Scale AI進行處理,也就是那個大名鼎鼎的人工智能數(shù)據(jù)標(biāo)注公司。
Scale AI成立于2016年,在其專有的眾包平臺Remotasks上,公司會以十分低廉廉的費用與較不富裕國家的遠程工人簽訂合同,并由此建立了一個非常成功商業(yè)模式。
而這家公司的創(chuàng)始人Alexandr Wang,曾經(jīng)從MIT輟學(xué)并白手起家,并在今年也就是25歲時,成為了全球最年輕億萬富翁。
值得注意的是,人臉信息在原圖中其實是清晰可見的。
我們看到的灰框框,是《麻省理工科技評論》為了保護隱私特地手動打上去的。
那么問題來了,這些信息理論上應(yīng)該是在嚴格的存儲和訪問控制之下的。然而,實際情況卻是,它們被負責(zé)標(biāo)注的工人分享到了網(wǎng)上。
這些由機器人拍攝的畫面展示了世界各地的家庭房間,有些是人住的,有些是狗住的。家具、裝飾品和位于墻壁和天花板上的物體被矩形框勾勒出來,并附有「電視」、「植物或花」和「天花板燈」等標(biāo)注。
對此,世界上最大的掃地機器人供應(yīng)商iRobot證實,這些圖像是由自家的Roombas在2020年拍攝的。
公司在一份聲明中表示,所有這些圖像都來自 「經(jīng)過硬件和軟件修改的特殊開發(fā)機器人,這些機器人現(xiàn)在和將來都不會出現(xiàn)在iRobot的消費者產(chǎn)品上」。
此外,iRobot還表示,他們已經(jīng)與Scale AI分享了超過200萬張圖片,并與其他數(shù)據(jù)標(biāo)注平臺分享了數(shù)量不詳?shù)膱D片。
機器學(xué)習(xí)革命帶來了什么?
今天,越來越多的掃地機器人已經(jīng)轉(zhuǎn)向計算機視覺,通過訓(xùn)練算法從圖像和視頻中提取信息來接近人類的視覺,甚至配備激光雷達,該技術(shù)被廣泛認為是當(dāng)今市場上最精確但最昂貴的導(dǎo)航技術(shù)。
計算機視覺依賴于高清攝像頭,越來越多的公司在其機器人真空吸塵器中安裝了前置攝像頭,用于導(dǎo)航和物體識別,以及越來越多的家庭監(jiān)控。
為了使掃地機器人中的計算機視覺真正按預(yù)期工作,需要在高質(zhì)量、多樣化的數(shù)據(jù)集上對其進行訓(xùn)練,以反映它們可能看到的巨大范圍。與自動駕駛汽車相比,掃地機器人面臨的家庭環(huán)境更難以標(biāo)準(zhǔn)化,訓(xùn)練難度可想而知。
這時候,訓(xùn)練數(shù)據(jù)往往需要是更加個性化、私密化的,而且需要以大量的用戶基數(shù)為支撐,收集這樣的數(shù)據(jù),需要用戶的同意。
以本文iRobot為例,其95%以上的圖像數(shù)據(jù)集來自真實的家庭,這些家庭成員要么是iRobot的員工,要么是由第三方數(shù)據(jù)供應(yīng)商招募的志愿者。
根據(jù)iRobot的一份聲明,使用開發(fā)設(shè)備的人同意讓iRobot在設(shè)備運行時收集數(shù)據(jù),包括視頻流,并可由此換取「獎勵」。
但公司拒絕說明這些激勵措施是什么,只說它們「根據(jù)數(shù)據(jù)收集的長度和復(fù)雜性」而有所不同。
《麻省理工科技評論》采訪的大多數(shù)掃地機器人公司明確表示,他們不使用客戶數(shù)據(jù)來訓(xùn)練他們的機器學(xué)習(xí)算法。
然而,在東北大學(xué)研究物聯(lián)網(wǎng)設(shè)備安全漏洞的博士生Dennis Giese在對這些機器人進行逆向工程之后發(fā)現(xiàn),它們的管理軟件中有一個名為「AI服務(wù)器」的文件夾,并有圖像上傳功能。
這么看來,這些公司所謂的「攝像頭數(shù)據(jù)永遠不會被發(fā)送到云端」,其實很難成立。
但即便如此,如果這些公司自己不說,或者沒有遭到黑客攻擊的話,沒有人能夠驗證他們以「訓(xùn)練模型」為由從客戶那里具體收集了什么。
我們的數(shù)據(jù)是怎么泄露的?
眾所周知,機器學(xué)習(xí)算法的訓(xùn)練,需要投喂大量的數(shù)據(jù)。過程中所依賴的標(biāo)注數(shù)據(jù),則需要消耗非常多的人力資源才能完成。
作為一個新興但不斷增長的行業(yè),數(shù)據(jù)標(biāo)注預(yù)計到2030年將達到133億美元的市場價值。
目前來說,負責(zé)對數(shù)據(jù)進行標(biāo)注的,通常是發(fā)展中國家的低薪合同工。
他們通過轉(zhuǎn)錄低質(zhì)量的音頻改善語音識別軟件,并通過標(biāo)記照片和視頻幫助掃地機器人識別環(huán)境中的物體。
2020年,Scale AI發(fā)布了一項全新的任務(wù)——Project IO。
其特點是,視角從地面以大約45度向上,圖像內(nèi)容為世界各地的墻壁、天花板和地板,以及上面的各種東西,當(dāng)然也包括人。
通常來說,這些負責(zé)標(biāo)注的工人會在Facebook、Discord和其他社交平臺上建群,然后在其中討論和工作有關(guān)的各種問題,比如分享處理延遲付款的建議,談?wù)搱蟪曜詈玫娜蝿?wù),或請其他人幫忙等等。
對此,iRobot表示,在社交媒體群組中分享圖片違反了Scale與它的協(xié)議;Scale AI也表示,合同工分享這些圖片違反了他們自己的協(xié)議。
但現(xiàn)實情況是,這種行為在眾包平臺上是幾乎不可能被監(jiān)管到的。
驚喜:你可能已經(jīng)同意了!
掃地機器人制造商自己也認識到設(shè)備上的攝像頭帶來的更大的隱私風(fēng)險。
對于攝像頭帶來的隱私風(fēng)險,iRobot表示,公司已經(jīng)對此采取很多保護措施,包括使用加密,定期修補安全漏洞,限制和監(jiān)控內(nèi)部員工對信息的訪問,并向客戶提供有關(guān)其收集的數(shù)據(jù)的詳細信息。
但是,公司談?wù)撾[私的方式和消費者理解隱私的方式之間存在很大差距。
Mozilla的隱私安全項目的研究員Jen Caltrider表示,在企業(yè)看來,數(shù)據(jù)安全指的是產(chǎn)品的物理和網(wǎng)絡(luò)安全,或者它對黑客或入侵的脆弱性。而數(shù)據(jù)隱私是關(guān)于透明度:知道并能夠控制公司擁有的數(shù)據(jù),如何使用,為什么分享,是否保留、以及保留多久等等。
他們有時會使用微妙的措辭差異,比如使用「共享」數(shù)據(jù),而不是出售數(shù)據(jù),這使得如何處理隱私對于非專業(yè)人士來說特別難以解析。
只不過,當(dāng)一家公司說它永遠不會出售你的數(shù)據(jù)時,它很可能會使用或與他人分享這些數(shù)據(jù)。
根據(jù)公司措辭含糊的隱私政策,這些廣泛的數(shù)據(jù)收集定義往往是合乎規(guī)定的,幾乎所有的隱私政策都包含一些條款,允許將數(shù)據(jù)用于「改善產(chǎn)品和服務(wù)」,用語非常廣泛,基本上拿來干什么都行。
事實上,《麻省理工科技評論》審查了12個掃地機器人的隱私政策,所有這些政策,包括iRobot的,都包含類似的表述。
此外,大部分公司也都沒有回應(yīng)關(guān)于所謂「產(chǎn)品改進」是否包括機器學(xué)習(xí)算法的問題。
在隱私條款中列明的「不公平」或「欺騙性」的做法,基本上都是狹義的,也就是說,除非隱私政策明確規(guī)定 「嘿,我們不會讓承包商看你的數(shù)據(jù)」,然后還是分享了數(shù)據(jù),否則公司方面在法律上就是沒問題的。
掃地機器人,只是個開始
對數(shù)據(jù)的渴求在未來幾年只會增加。掃地機器人只是在我們生活中大量出現(xiàn)的聯(lián)網(wǎng)設(shè)備中的一小部分,而掃地機器人領(lǐng)域的大公司,包括iRobot、三星、Roborock和戴森等,都表示出了比「掃地」更宏大的野心。
機器人技術(shù),包括家用機器人技術(shù),長期以來一直是真正的香餑餑。而且,真正的重點不在于掃地,而在于機器人。
2018年,時任iRobot技術(shù)高級副總裁的Mario Munich就在一次演講中解釋過這個問題。
在關(guān)于該公司第一臺計算機視覺掃地機器人Roomba 980的演示中,他展示了來自該設(shè)備有利位置的圖像:包括一個有桌子、椅子和凳子的廚房,旁邊是機器人算法對它們的標(biāo)記和感知。
實際上的挑戰(zhàn)不在于吸塵,而在于機器人,他解釋說。如果我們能夠更充分了解環(huán)境,就能夠改變機器人的操作。
制造掃地機器人的公司已經(jīng)在投資其他功能和設(shè)備,使我們更接近機器人的未來。
可想而知的是,這樣的業(yè)務(wù)多樣化大潮,帶來的是對數(shù)據(jù)標(biāo)注在深度和廣度上巨大需求的雙重增長,一旦這種需求沒有有效監(jiān)督,或者超出了監(jiān)管的能力,對隱私的侵犯就變得幾乎不可避免。
而很多時候,這種侵犯是以一種便捷、易用、智能的方式進行的。
參考資料:
https://www.technologyreview.com/2022/12/19/1065306/roomba-irobot-robot-vacuums-artificial-intelligence-training-data-privacy/
關(guān)鍵詞: 離譜女生在自家?guī)馔蹬?/a> 照片全網(wǎng)泄露 罪魁禍?zhǔn)拙故荰