明敏 金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
(相關(guān)資料圖)
就在剛剛,UC伯克利博士、新加坡國立大學(xué)校長青年教授尤洋發(fā)布最新消息——
斬獲AAAI 2023杰出論文獎(jiǎng)(Distinguished Paper)!
研究成果一次性將模型的訓(xùn)練速度,提升72倍。
甚至網(wǎng)友在拜讀完論文之后發(fā)出感慨:
從12小時(shí)到10分鐘,嫩牛(你們牛)?。?/p>
尤洋博士曾在求學(xué)期間刷新ImageNet以及BERT訓(xùn)練速度的世界紀(jì)錄。
他所設(shè)計(jì)的算法也是廣泛應(yīng)用于谷歌,微軟,英特爾,英偉達(dá)等科技巨頭。
現(xiàn)如今,已經(jīng)回國創(chuàng)業(yè)潞晨科技一年半的他,帶著團(tuán)隊(duì)又做出了怎樣的算法,斬獲AI頂會(huì)如此殊榮呢?
訓(xùn)練時(shí)長從12小時(shí)到10分鐘
在這項(xiàng)研究中,尤洋團(tuán)隊(duì)提出了一種優(yōu)化策略CowClip,能夠加速CTR預(yù)測模型的大批量訓(xùn)練。
CTR(click-through rate)預(yù)測模型是個(gè)性化推薦場景下的一種常用算法。
它通常需要學(xué)習(xí)用戶的反饋(點(diǎn)擊、收藏、購買等),而每天在線產(chǎn)生的數(shù)據(jù)量又是空前龐大的。
因此,加快CTR預(yù)估模型的訓(xùn)練速度至關(guān)重要。
一般來說,提高訓(xùn)練速度會(huì)使用批量訓(xùn)練,不過批量太大會(huì)導(dǎo)致模型的準(zhǔn)確度有所降低。
通過數(shù)學(xué)分析,團(tuán)隊(duì)證明了在擴(kuò)大批次時(shí),對于不常見特征的學(xué)習(xí)率(learning rate for infrequent features)不應(yīng)該進(jìn)行縮放。
通過他們提出的CowClip,可以簡單有效擴(kuò)展批大小。
通過在4個(gè)CTR預(yù)估模型和2個(gè)數(shù)據(jù)集上進(jìn)行測試,團(tuán)隊(duì)成功將原始批大小擴(kuò)大了128倍,并沒有造成精度損失。
特別是在DeepFM上,通過將批大小從1K擴(kuò)大到128K,CowClip實(shí)現(xiàn)了AUC超過0.1%的改進(jìn)。
并在單塊V100 GPU上,將訓(xùn)練時(shí)長從原本的12小時(shí),縮短至只需10分鐘,訓(xùn)練提速72倍。
目前,項(xiàng)目代碼已開源。團(tuán)隊(duì)表示該算法也適用于NLP等任務(wù)。
團(tuán)隊(duì)介紹
本文的一作是尤洋的博士生鄭奘巍,本科畢業(yè)于南京大學(xué)計(jì)算機(jī)精英班,博士畢業(yè)于新加坡國立大學(xué)。
其研究方向包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和高性能計(jì)算。
尤洋在這項(xiàng)研究擔(dān)任通訊作者,了解更多個(gè)人信息可戳UC伯克利博士尤洋回國創(chuàng)業(yè),求學(xué)期間破ImageNet紀(jì)錄!已獲超千萬種子輪融資。
參考鏈接:
[1] https://weibo.com/2082348875/MrJb5kHPt#comment
[2] https://arxiv.org/abs/2204.06240
[3]https://github.com/bytedance/LargeBatchCTR
關(guān)鍵詞: 模型訓(xùn)練一次提速72倍尤洋團(tuán)隊(duì)新成果獲AAAI 2023杰出論文獎(jiǎng) 深度學(xué)習(xí) 人工智能