微軟亞洲研究院計算機(jī)視覺大牛王井東已離職,或?qū)⒓尤氚俣取?/p>
視覺計算組作為微軟亞研的靈魂團(tuán)隊,陸續(xù)培養(yǎng)出了沈向洋、湯曉鷗、馬毅、孫劍、何愷明等老中青三代計算機(jī)視覺引領(lǐng)者,只可惜這些人都已遠(yuǎn)去。
王井東原為微軟亞洲研究院視覺計算組的首席研究員,研究領(lǐng)域包括神經(jīng)架構(gòu)設(shè)計、人體姿態(tài)估計、語義分割、圖像分類、目標(biāo)檢測、大規(guī)模索引和顯著目標(biāo)檢測。
他是 ACM 杰出會員和 IAPR Fellow,曾任 IEEE TPAMI、IEEE TMM、IEEE TCSVT 副主編,以及 CVPR、ICCV、ECCV、ACM MM、IJCAI、AAAI 等視覺、多媒體、AI 領(lǐng)域頂級會議的區(qū)域主席。谷歌學(xué)術(shù)顯示,他目前論文總引用量為 23950,h 指數(shù)為 69。
王井東本科就讀于清華大學(xué)自動化系,是個學(xué)霸,成績?nèi)昙壍谝?。?2001 年和 2004 年在清華大學(xué)自動化系先后獲得學(xué)士學(xué)位和碩士學(xué)位,碩士期間也曾獲得優(yōu)秀碩士學(xué)位論文獎。2007 年,他在香港科技大學(xué)計算科學(xué)與工程系獲得博士學(xué)位,同年進(jìn)入微軟亞洲研究院。
他的碩士導(dǎo)師是清華大學(xué)教授張長水,在碩士期間他曾去微軟亞研實習(xí),接受沈向洋的指導(dǎo),那是他與微軟亞研的初次結(jié)緣。攻讀博士學(xué)位階段,他成為了香港科技大學(xué)教授權(quán)龍的學(xué)生。
除此之外,在整個學(xué)術(shù)生涯中,王井東亦合作過多位知名 AI 學(xué)者,包括華先勝、田奇、梅濤、李世鵬等。
加入微軟亞研后,王井東從研究員一步步上升為高級首席研究經(jīng)理,并秉承微軟亞研一貫的高產(chǎn)傳統(tǒng),發(fā)表了兩百多篇論文。
王井東加入百度后,具體去向如何?
因其過硬的實力,王井東或許可以成為百度研究院在視覺研究的“一把手”。
AI 工業(yè)界有句老話:得視覺者得天下。
百度研究院歷來的掌舵人,從余凱、林元慶到王海峰,以及副院長張潼、集團(tuán)首席科學(xué)家吳恩達(dá)等人,除了林元慶外,其他均為機(jī)器學(xué)習(xí)和 NLP 領(lǐng)域的學(xué)者,視覺領(lǐng)頭人屬實稀缺。
更是從未有過 Fellow 級的計算機(jī)視覺專家。
反觀這些年的騰訊(張正友、賈佳亞)、阿里(華先勝、張磊)、華為(田奇)、京東(梅濤),長期都有 Fellow 級知名計算機(jī)視覺學(xué)者坐鎮(zhèn)。
這也難怪,百度的業(yè)務(wù)支柱是搜索和廣告,主要涉及文本信息檢索和推薦,自然和 NLP、機(jī)器學(xué)習(xí)等技術(shù)更加契合,而在圖像領(lǐng)域,除了自動駕駛外,百度天然缺少線下物理世界的視圖場景,而線上圖像的數(shù)據(jù)識別和處理,本身并不具備太大難度,且實用價值不足,這對知名的計算機(jī)視覺專家來說,吸引力著實有限。
業(yè)內(nèi)人告訴雷鋒網(wǎng),王井東加入百度自動駕駛部門也不無可能。
其一,百度前機(jī)器人、自動駕駛實驗室主任及首席 3D 視覺科學(xué)家楊睿剛教授已在去年初加入嬴徹科技擔(dān)任 CTO,這一職位一直空缺。
其次,他的同門師弟 AutoX 創(chuàng)始人肖健雄,在自動駕駛方向頗為成功,這為王井東破圈進(jìn)入自動駕駛領(lǐng)域有不少借鑒意義。
王井東在計算機(jī)視覺領(lǐng)域特別是視覺感知方面的研究非常廣泛,比如人體姿態(tài)估計、語義分割、圖像分類、目標(biāo)檢測等技術(shù),對于自動駕駛來說都是很重要的感知功能。
他還曾開發(fā)出 HRNet 模型,其通用性很強(qiáng),不但可勝任人體姿態(tài)、分割、人臉關(guān)鍵點檢測、目標(biāo)檢測等任務(wù),體現(xiàn)了高分辨率表征的優(yōu)點,并且從參數(shù)量、計算量以及最終結(jié)果看,都很有優(yōu)勢。在 CCF-GAIR 2020 上,王井東詳細(xì)介紹了這一模型。在報告中,王井東表示:
這個方法自從在 CVPR 發(fā)表以來,已經(jīng)成為在人體姿態(tài)構(gòu)建里一個標(biāo)準(zhǔn)的網(wǎng)絡(luò),一些文章或者比賽都會采用 HRNet 架構(gòu)。
而另外一聲音則預(yù)判,王井東深厚的三維視覺背景,有可能會去百度研究院,成為元宇宙、AR/VR 等創(chuàng)新項目的支撐力量。
可以預(yù)見,三維重建在未來必定會成為元宇宙最重要的基礎(chǔ)技術(shù)之一,玩家長期在虛擬空間中進(jìn)行交互,離不開大量的重建和識別。
王井東的導(dǎo)師權(quán)龍教授也曾告訴雷鋒網(wǎng),三維重建包含三大問題:一、定位置。假如我給出一張照片,計算機(jī)視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素并進(jìn)行匹配,進(jìn)行三維重建。三、語義識別。完成幾何三維重建后,要對這個三維信息進(jìn)行語義識別,這是重建的最終目的。三維重建不是最終的目的,最終的應(yīng)用肯定要把三維重建和識別融為一體。