微軟宣布開源一個簡單、多語言的、大規(guī)模并行的機(jī)器學(xué)習(xí)庫 SynapseML(以前稱為 MMLSpark),以幫助開發(fā)人員簡化機(jī)器學(xué)習(xí)開發(fā)與部署。
即使對于最有經(jīng)驗的開發(fā)人員來說,構(gòu)建機(jī)器學(xué)習(xí)管道也會很困難。對于初學(xué)者來說,組合來自不同生態(tài)系統(tǒng)的工具需要大量代碼,而且許多框架在設(shè)計時并沒有考慮到服務(wù)器集群。數(shù)據(jù)科學(xué)團(tuán)隊在使用更多機(jī)器學(xué)習(xí)模型方面也面臨越來越大的壓力。
微軟表示,借助 SynapseML,開發(fā)人員可以構(gòu)建可擴(kuò)展的智能系統(tǒng)來解決跨領(lǐng)域的挑戰(zhàn),包括文本分析、翻譯和語音處理。
SynapseML 使開發(fā)人員能夠?qū)⒊^ 45 種不同的最先進(jìn)機(jī)器學(xué)習(xí)服務(wù)直接嵌入到他們的系統(tǒng)和數(shù)據(jù)庫中。
其最新版本增加了對分布式表單識別、對話轉(zhuǎn)錄和翻譯的支持,這些即用型算法可以解析各種文檔、實時轉(zhuǎn)錄多個對話者的聲音和翻譯 100 多種不同的語言。
一、五年沉淀,SynapseML 直擊 AI 落地痛點
SynapseML 的構(gòu)建基于微軟強(qiáng)大的 Spark(計算引擎)生態(tài)系統(tǒng),包括工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”計算引擎 Apache Spark、SparkML 等。
SynapseML 為 Spark 生態(tài)系統(tǒng)添加了許多深度學(xué)習(xí)和數(shù)據(jù)科學(xué)工具,包括 Spark 機(jī)器學(xué)習(xí)構(gòu)建流程以及其他深度學(xué)習(xí)工具的無縫集成。這些工具可為各種數(shù)據(jù)源提供強(qiáng)大且高度可擴(kuò)展的預(yù)測和分析模型。
SynapseML 庫可用于 Azure Synapse Analytics 工具上,該工具能夠按照算法運行需求或根據(jù)開發(fā)人員提前配置的資源,為 AI 模型收集、處理數(shù)據(jù)。
“在過去的五年中,我們一直致力于改進(jìn)和穩(wěn)定用于生產(chǎn)工作負(fù)載的 SynapseML 庫。使用 Azure Synapse Analytics 的開發(fā)人員將很高興得知 SynapseML 現(xiàn)在在這項服務(wù)上普遍可用,并提供企業(yè)服務(wù)。”微軟軟件工程師 Mark Hamilton 在一篇博客文章中寫道。
AI 技術(shù)的使用和分析能力逐漸增強(qiáng),但大約 87% 的數(shù)據(jù)科學(xué)項目仍未產(chǎn)業(yè)化落地。根據(jù)美國 AI 算法交易服務(wù)平臺 Algorithmia 最近的調(diào)查,22% 的公司需要一到三個月的時間來部署模型以實現(xiàn)業(yè)務(wù)價值,而 18% 的公司需要三個月以上的時間。
SynapseML 將現(xiàn)有的機(jī)器學(xué)習(xí)框架和微軟開發(fā)的算法打包,統(tǒng)一放到一個 API 中,以此來解決數(shù)據(jù)項目無法落地的挑戰(zhàn),該 API 可用在 Python、R、Scala 和 Java 中。SynapseML 使開發(fā)人員能夠幫助需要多個框架的使用案例實現(xiàn)組合,例如創(chuàng)建搜索引擎,同時在可調(diào)整大小的計算機(jī)集群上訓(xùn)練和評估模型。
二、無監(jiān)督學(xué)習(xí)功能,可填補(bǔ)研究空白
正如微軟在該項目的網(wǎng)站上所解釋的那樣:“SynapseML 中的工具允許用戶制作跨越多個機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的強(qiáng)大且高度可擴(kuò)展的模型。SynapseML 還為 Spark 生態(tài)系統(tǒng)帶來了新的網(wǎng)絡(luò)功能。通過 HTTP on Spark 項目,用戶可以將任何 Web 服務(wù)嵌入到他們的 SparkML 模型中,并使用他們的 Spark 集群進(jìn)行大規(guī)模的工作。”
SynapseML 還集成了開放神經(jīng)網(wǎng)絡(luò)交換 (ONNX),這是一個由微軟和 Meta(原 Facebook)共同開發(fā)的框架,可以在運行時使用來自不同機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的模型。通過集成,開發(fā)人員只需幾行代碼即可執(zhí)行各種經(jīng)典機(jī)器學(xué)習(xí)模型。
該 API 具有“無監(jiān)督學(xué)習(xí) AI”的功能,包括用于理解數(shù)據(jù)集不平衡的功能,例如種族或性別等敏感數(shù)據(jù)集特征是否被過度解讀或無法識別,而無需標(biāo)記訓(xùn)練數(shù)據(jù)和模型的可解釋性,也就是說明為什么模型會做出某些預(yù)測以及如何改進(jìn)訓(xùn)練數(shù)據(jù)集。
SynapseML 引入可以用于個性化推薦的 Vowpal Wabbit 框架,以及強(qiáng)化學(xué)習(xí)的新算法模型 contextual bandit,幫助開發(fā)人員訓(xùn)練 AI 模型。
在不需要標(biāo)記數(shù)據(jù)集的情況下,無監(jiān)督學(xué)習(xí)可以幫助填補(bǔ)某些領(lǐng)域知識的空白。例如,F(xiàn)acebook 最近發(fā)布的無監(jiān)督模型 SEER,可以在 10 億張圖像上進(jìn)行訓(xùn)練,并能在一系列計算機(jī)視覺基準(zhǔn)測試中取得較優(yōu)秀的結(jié)果。
然而,無監(jiān)督學(xué)習(xí)并不能消除系統(tǒng)預(yù)測中存在偏差或缺陷的可能性。一些專家認(rèn)為,消除這些偏差可能需要對無監(jiān)督模型進(jìn)行專門培訓(xùn),并使用額外的、較小的數(shù)據(jù)集來消除偏差。
“我們的目標(biāo)是讓開發(fā)人員免于擔(dān)心分布式實現(xiàn)細(xì)節(jié)的麻煩,并能夠?qū)⑺鼈儾渴鸬礁鞣N數(shù)據(jù)庫、集群和編程語言中,而無需更改開發(fā)人員的代碼。”Hamilton 補(bǔ)充道。
結(jié)語:開源引擎庫,促進(jìn)算法落地
伴隨著科技發(fā)展突飛猛進(jìn),AI 所引發(fā)的技術(shù)革命也在飛速發(fā)展,包括機(jī)器學(xué)習(xí)等領(lǐng)域的 AI 研究在性能、效率上不斷升級的同時,其算法落地仍面臨困境,無法大規(guī)模投入使用。
微軟此次開源 SynapseML 庫,不斷改進(jìn)機(jī)器學(xué)習(xí)算法,將現(xiàn)有的機(jī)器學(xué)習(xí)框架和微軟開發(fā)的算法統(tǒng)一,提高 AI 的數(shù)據(jù)處理和分析能力,進(jìn)一步促進(jìn) AI 技術(shù)發(fā)展。
關(guān)鍵詞: 智東西 開源 機(jī)器學(xué)習(xí) 開發(fā)