人工智能需要大量數(shù)據(jù),而大數(shù)據(jù)項目對存儲基礎(chǔ)架構(gòu)有極高的要求。因此,存儲AI數(shù)據(jù)對比其他數(shù)據(jù)存儲,有更多需要特別注意的點,如海量數(shù)據(jù)集需要一個體量更大的存儲平臺、讀多寫少意味著對讀取速度的要求更高、小文件數(shù)量眾多因此需要一個更完善的檢索體系等等。
構(gòu)建有用且具有包容性的AI工具最需要考慮的因素之一,是它們所依賴的數(shù)據(jù)集。今天,許多AI模型的建立都需要依賴由政府、企業(yè)和學(xué)術(shù)機構(gòu)收集的大型機器學(xué)習(xí)數(shù)據(jù)集。隨著這些數(shù)據(jù)集的增長和演變,人工智能的輸出也會發(fā)生變化。
Austin Carson是SeedAI的創(chuàng)始人,這是一個非營利、無黨派的倡導(dǎo)組織,旨在幫助全國社區(qū)開發(fā)AI資源。他和團隊的工作主要是將公共和私人服務(wù)聚集在一起,以開發(fā)AI模型計劃、推動政策并促進投資,同樣,他們還會對服務(wù)不足的社區(qū)進行特別關(guān)注。
隨著人工智能行業(yè)的發(fā)展,Austin一直在思考如何為后代保留數(shù)據(jù)集,這與Filecoin的愿景不謀而合。接下來,我們一起了解一下去中心化存儲AI數(shù)據(jù)集的相關(guān)知識。
規(guī)模奠定基礎(chǔ)
機器學(xué)習(xí)應(yīng)用程序需要多少數(shù)據(jù)才能成功?
人工智能的成功需要依賴大型數(shù)據(jù)集。盡管有一些正在努力減少人工智能的數(shù)據(jù)需求的例外情況,但總的來說,輸入這些系統(tǒng)的數(shù)據(jù)越真實可靠,輸出就越值得信賴。
在數(shù)據(jù)類型和訓(xùn)練成本方面,用于訓(xùn)練機器學(xué)習(xí)模型的數(shù)據(jù)集差異很大,這主要具體取決于團隊正在構(gòu)建的系統(tǒng)類型,及其適用的范圍。
數(shù)據(jù)集的類型五花八門,其大小也有千差萬別。可以簡單了解一下這兩個公開可用的數(shù)據(jù)集:它們分別為ImageNet及The Pile,前者有1400萬張圖像和共計150GB的數(shù)據(jù)集大小,可用于創(chuàng)建通用圖像識別系統(tǒng);The Pile則是一個大小為825G的語言示例集,可用于制作通用自然語言處理系統(tǒng)。
當(dāng)今最復(fù)雜的AI系統(tǒng)之一是OpenAI的GPT3,它在45T的私有數(shù)據(jù)集上進行訓(xùn)練——訓(xùn)練成本為1200萬美元。
除此之外,還有許多應(yīng)用程序可以在10或100兆字節(jié)的數(shù)據(jù)上進行訓(xùn)練,以完成更小型的任務(wù),例如檢測特定類型的視覺數(shù)據(jù)(如一個對象、一個異常)。迷你數(shù)據(jù)集也被用來微調(diào)像GPT3這樣的系統(tǒng),利用GPT3的一般語言能力并為特定任務(wù)(例如營銷、講故事等)添加更專業(yè)化的內(nèi)容。
這些數(shù)據(jù)集掌握在誰手上?
它們通常如何存儲在當(dāng)今的網(wǎng)絡(luò)上?
簡單來說,數(shù)據(jù)集可以由政府、學(xué)術(shù)機構(gòu)、私人組織和個人管理、擁有。
地方、州和聯(lián)邦政府收集了大量數(shù)據(jù),但這些數(shù)據(jù)集通常不是通用的機器可讀格式,或者可能包含選民的個人隱私數(shù)據(jù)。因此,政府幾乎不可能將這些數(shù)據(jù)發(fā)布給公眾或研究界。由于數(shù)據(jù)量非常龐大,近年來,聯(lián)邦政府在該領(lǐng)域取得了重大進展。
學(xué)術(shù)機構(gòu)通常會編譯或生成數(shù)據(jù)集,其中許多成為公共資源,例如Berkeley DeepDrive數(shù)據(jù),這個數(shù)據(jù)集包含超過十萬段駕駛視頻,海量真實街景等。
此外,私營企業(yè)也會從他們的業(yè)務(wù)運營中收集數(shù)據(jù)并編譯其他數(shù)據(jù)集,雖然大部分是私有的,但他們也會經(jīng)常向公眾或他們認為有益于社區(qū)的研究人員選擇性地公開部分數(shù)據(jù)集。
Kaggle、GitHub和Google數(shù)據(jù)庫搜索是搜索數(shù)據(jù)集的良好起點。其他大型云存儲提供商 (cloud storage providers,簡稱CSP)、學(xué)術(shù)機構(gòu)和政府機構(gòu)(例如 NASA)也會提供公開數(shù)據(jù)集用于AI培訓(xùn)。
在存儲方面,數(shù)據(jù)集過去通常托管在亞馬遜AWS或微軟Azure等傳統(tǒng)的大型CSP上。但現(xiàn)在有了改善——一些公共數(shù)據(jù)集(例如NYC Open Data)被加載到Filecoin網(wǎng)絡(luò)上,使這些數(shù)據(jù)得以被冗余且分布的存儲起來,它們的安全性也得到了更好的保障。
為什么歸檔這些大型數(shù)據(jù)集很重要?
數(shù)據(jù)集直接作用于人工智能系統(tǒng),因此數(shù)據(jù)集的演變,將導(dǎo)致人工智能模型的演變。新技術(shù)也被應(yīng)用于現(xiàn)有數(shù)據(jù)集,但革命性的新技術(shù)自身也需要建立在海量且通常是專有數(shù)據(jù)集之上。
這些大模型在其他數(shù)據(jù)集上針對更專業(yè)的任務(wù)進行了調(diào)整,隨著模型的進一步調(diào)整,這些模型很可能在未來得到更廣泛的使用,而無需記錄數(shù)據(jù)集/數(shù)據(jù)集。
按常理來說,隨著AI更容易被普通人使用,開源工具也會變得更加廣泛可用,出現(xiàn)的系統(tǒng)依賴項的數(shù)量將會增加。但對于目前的AI而言,現(xiàn)實確是這樣的:
漫畫解釋:技術(shù)架構(gòu)通常由堆棧圖說明,其中較高級別的矩形表示依賴于較低級別組件的組件。這幅漫畫中的堆疊與物理砌塊塔有著驚人的相似之處,這表明當(dāng)移除關(guān)鍵部分(即靠近底部的小塊),塔將失去平衡的危險。
當(dāng)前的圖書館和開源開發(fā)模式在很大程度上依賴于無償愛好者的免費和持續(xù)奉獻,許多較小的項目又被較大的項目重用,這些小項目可能只能由一個人維護,要么是創(chuàng)始人,要么是接手火炬的人。
維護這些數(shù)據(jù)集的記錄很重要的另一個原因,是關(guān)于州和地方AI審計要求。這些審計要求在許多地方已經(jīng)被加入法律,例如紐約市去年12月通過的一項關(guān)于雇主如何在招聘、面試和招聘過程中使用人工智能的要求。
這些新法律通常要求對數(shù)據(jù)集和算法進行審計,目的是發(fā)現(xiàn)偏見和負面影響。在這之前,消除偏見這類工作往往只會在項目啟動前進行,但近來越來越多人工智能專家指出,審計雖然不必持續(xù),但必須定期進行,因為潛在的危害及負面影響會隨著數(shù)據(jù)和技術(shù)環(huán)境的變化而變化。
出于這個原因,從邏輯上講,負責(zé)任的政府和私營部門的人工智能用戶將越來越需要保留和保存這些數(shù)據(jù)集。
Filecoin如何來保存這些數(shù)據(jù)集
Filecoin Slingshot計劃是Web3社區(qū)團結(jié)起來保護和訪問大型數(shù)據(jù)集的一個很好的例子。團隊越鼓勵維護,并負責(zé)任地公開AI數(shù)據(jù)集,其效果就越好——尤其是現(xiàn)在模型和數(shù)據(jù)集的數(shù)量正在加速增長的現(xiàn)在。
Slingshot是面向存儲客戶和開發(fā)人員安排的社區(qū)競賽,它鼓勵人們向Filecoin網(wǎng)絡(luò)添加真實、有價值和可用的數(shù)據(jù)。當(dāng)然,更重要的是,在Slingshot中競爭的團體都支持嵌入Filecoin社區(qū)的總體理念,即“保護人類在Filecoin網(wǎng)絡(luò)上最重要的數(shù)據(jù)集”。
此類項目有助于使世界上任何人都可以訪問和探索重要的數(shù)據(jù)集——用于研究、教育和發(fā)現(xiàn)。SEED AI團隊也希望未來有更多的人工智能研究人員轉(zhuǎn)向像Slingshot這樣的項目,以幫助他們開展機器學(xué)習(xí)工作。
關(guān)鍵詞: Filecoin如何去中心化地存儲AI數(shù)據(jù)集一文科普它為何如