丹棱君有話說:在計算機領域,研究與產(chǎn)品的關系往往十分微妙。一方面,二者相輔相成、互相推動;另一方面,它們追求的目標又不盡相同——產(chǎn)品需要精確的 KPI 及短期落地目標,研究則更注重宏觀的、長期的影響力。我們今天的主人公是微軟亞洲研究院首席研究員,在產(chǎn)品與研究領域深耕多年的白靜博士,她希望自己的研究能成為這兩個領域之間融會貫通的紐帶。在她看來,讓研究成果與產(chǎn)品產(chǎn)生共振,進而推動彼此進化,是研究的價值所在。
從蒙特利爾大學博士期間從事信息檢索(IR)和自然語言處理(NLP)的研究,到加入微軟硅谷研發(fā)中心推動多個重要產(chǎn)品落地,再到微軟亞洲研究院帶領系統(tǒng)和算法等新領域的研究,微軟亞洲研究院首席研究員白靜的職業(yè)經(jīng)歷看似是“研究-產(chǎn)品-研究”的輪回,但實際上卻是她在計算機科學領域的不斷“螺旋上升”。每一次轉(zhuǎn)型,她都將自己的工作惠及更多產(chǎn)品和用戶——無論是將創(chuàng)新研究轉(zhuǎn)化為用戶最滿意的產(chǎn)品,還是以產(chǎn)品需求為驅(qū)動力投身于研究,都是如此。
微軟亞洲研究院首席研究員白靜
從全局和長遠視角做研究,創(chuàng)造全新機會不斷激發(fā)產(chǎn)品潛力
2019 年,白靜從微軟 Azure AI 團隊加入了微軟亞洲研究院。盡管此前她在 Azure AI 和微軟必應(Bing)團隊潛心研究機器學習和自然語言處理,但這次她希望挑戰(zhàn)業(yè)界還未深入涉足并且能在微軟產(chǎn)品中獲得充分應用的領域——圖深度學習(Graph Learning)。對于一直喜歡挑戰(zhàn)未知的白靜來說,這是一個足夠“新”,且成果值得期待的領域。
“當時深度學習技術已經(jīng)很流行了,但大多被應用于自然語言處理、計算機視覺等領域,在圖學習領域還沒有被廣泛使用。微軟的許多產(chǎn)品都與圖相關,該如何將機器學習的熱門技術應用到圖領域,進而提高微軟產(chǎn)品的性能和效率?”這是白靜初入微軟亞洲研究院時就在思考的問題。
在白靜看來,圖(Graph)作為一種通用數(shù)據(jù)結構,可以清晰地表現(xiàn)出多個元素之間的有機關聯(lián)。在微軟的很多產(chǎn)品中,圖有著豐富的應用場景,例如 Office 的企業(yè)圖譜中,用戶與繁多的會議、文檔、郵件之間的關聯(lián);領英(LinkedIn)的社交網(wǎng)絡中,復雜的社交關系和給求職者的職位推薦;Ads 廣告業(yè)務中,廣告主與受眾需求、點擊預測、關鍵詞之間的關系,以及大規(guī)模知識圖譜等,這些隱藏在眾多產(chǎn)品中的有機關聯(lián),在廣義上都是圖結構。
2019 年底,在微軟亞洲研究院院長周禮棟的協(xié)助下,白靜團隊主導并在微軟公司內(nèi)部成立了圖神經(jīng)網(wǎng)絡工作組,為公司提供了一個從研究到產(chǎn)品的全局視野平臺,以及和圖學習相關的工具、算法,便于研究、產(chǎn)品、工程團隊的跨部門協(xié)作、溝通和知識共享,從而提升圖學習效率,促進系統(tǒng)和算法的研究創(chuàng)新。這一工作組的構建結束了各部門圖深度學習研究和應用“各自為戰(zhàn)”的局面,將“百花齊放”的算法統(tǒng)一在一個高效的平臺上,不僅有利于激蕩新思路,找到正確的研究方向,推動大規(guī)模的圖學習應用和技術進步,還能將圖學習算法上的創(chuàng)新成果快速迭代應用在相關的產(chǎn)品中。
兩年來,白靜與公司多個部門合作創(chuàng)新圖深度學習算法,探索適合的應用場景。她帶領團隊與微軟廣告、Office、Azure 及 LinkedIn 等多個團隊展開積極的合作,并將圖學習算法應用到不同的產(chǎn)品中,提高了多個產(chǎn)品的運營效率,給公司業(yè)務帶來了直接的商業(yè)效益。她說,“我們希望通過這些合作來帶動核心研究,進一步提升平臺和算法的性能和效率,繼而推動全公司更大規(guī)模的產(chǎn)品和應用,而不只是某個單一產(chǎn)品。
圖深度學習及其應用的全局展示
雖然研究創(chuàng)新的最終目標之一是服務于產(chǎn)品,但是在“研究—產(chǎn)品—研究”的迭代中,白靜認為,相比于產(chǎn)品快速落地的訴求,研究需要有長遠和全局視角。她說,“每個產(chǎn)品的需求不盡相同,而我們做研究是希望盡可能把全公司的產(chǎn)品都推動起來,建立一個系統(tǒng)性的長期規(guī)劃,這正是做研究和做產(chǎn)品的區(qū)別。”而這也是白靜選擇加入微軟亞洲研究院的主要原因,“我希望可以從更廣闊和長遠的視角來思考研究問題,從個性化的產(chǎn)品需求中抽象出共性問題,從更底層賦能眾多產(chǎn)品的研發(fā)和最終成果?!?/p>
深入一線的科研人員如何理解研究與產(chǎn)品之間的聯(lián)系
白靜對于研究與產(chǎn)品間相輔相成關系的深刻認識,來自于她多年在這兩方角色轉(zhuǎn)換的切身體會和經(jīng)驗積累。如何跳脫固有的思維框架,站在更加全局的角度思考問題并非易事。
在蒙特利爾大學獲得計算機科學博士學位后,白靜被硅谷多元開放的文化和創(chuàng)新熱情所吸引,同時她也希望可以將自己的研究成果轉(zhuǎn)化到產(chǎn)品中,服務千萬用戶。懷揣這樣的理想,白靜在 2010 年加入了微軟硅谷研發(fā)中心,任職高級研究科學家。彼時微軟正布局拓展搜索引擎業(yè)務,而白靜的研究方向正好是信息檢索,這讓她的研究有了用武之地。
也是在這一時期,白靜與微軟中國團隊“結緣”。2012 年她受邀參與了新一代搜索引擎系統(tǒng)的研發(fā)工作,新系統(tǒng)采用了全新的網(wǎng)頁索引結構和系統(tǒng)設計。作為微軟必應搜索相關性的主要貢獻者之一,白靜敏銳地發(fā)現(xiàn)學術界前沿的諸多語義檢索方法可以賦能新系統(tǒng),從而給搜索相關性帶來突破性創(chuàng)新,而這正是傳統(tǒng)搜索引擎所不具備的。由此,她為微軟必應開創(chuàng)了全新的語法語義搜索算法框架(Semantic Ranking Framework),并研發(fā)出了基于 PDI(Per Document Index)正排前瞻索引的一系列大規(guī)模語義模型,實現(xiàn)了全文語義檢索,進而顯著提高了必應搜索結果的相關性。此后多年,這項成果一直都是提升搜索相關性的最有效技術之一,許多相關模型應運而生。該項目也受到當時多位微軟公司高管的高度評價,并通過微軟的產(chǎn)品服務于上億用戶,同時還獲得了多項國際專利。
語義搜索算法框架
在實現(xiàn)了全文語義檢索的基礎上,白靜進一步思考能否通過更精確的用戶意圖分析,讓搜索引擎直接給用戶提供想要的答案,而不僅是列出相關網(wǎng)頁鏈接。為了實現(xiàn)這一目標,她提出了深度搜索的構想,利用互聯(lián)網(wǎng)動態(tài)信息和人工智能算法直接生成用戶滿意的答案。這個想法得到了當時微軟全球執(zhí)行副總裁陸奇的支持,一個新項目由此誕生。由于原算法的搜索結果包含的網(wǎng)頁數(shù)量巨大,再去檢索網(wǎng)頁中相關度更高的信息,搜索空間會呈指數(shù)級增長。為了解決如何從海量的網(wǎng)頁中匹配出用戶需求這一問題,白靜和團隊首創(chuàng)了基于全網(wǎng)的大規(guī)模段落檢索系統(tǒng)(Web-scale Passage Retrieval System),大膽地引入和改進了學術界前沿的研究成果,實現(xiàn)了從網(wǎng)絡內(nèi)容中直接生成搜索答案的目標,并推動了該系統(tǒng)在微軟必應中的成功運用。該系統(tǒng)的上線開創(chuàng)了微軟搜索引擎智能化的新方向,這項成果也成為了必應 AI 計劃的第一個重要里程碑。
基于全網(wǎng)的大規(guī)模段落檢索系統(tǒng)
隨著計算機技術的不斷發(fā)展,云計算和 AI 時代的到來吸引白靜加入了微軟 Azure AI 團隊,迎接一個新的挑戰(zhàn)——如何利用 AI 技術自動設計出更高效的深度學習模型。她帶領團隊與微軟雷德蒙研究院合作,研發(fā)了 Azure 第一個適用于機器學習模型的自動化超參調(diào)優(yōu)產(chǎn)品“HyperDrive”。該系統(tǒng)可以將用戶從手工調(diào)參的繁瑣工作中解放出來。正式上線僅半年,“HyperDrive”就成為了當時 Azure ML 中流量最大的產(chǎn)品,服務于第一方和第三方用戶,在智能性和通用性上都處于業(yè)界領先地位。
在這幾個重要產(chǎn)品的研發(fā)過程中,白靜的工作都聚焦在產(chǎn)品與研究的有機結合,這讓她更加深刻地理解到研究與產(chǎn)品之間的關聯(lián)和差異。她認為產(chǎn)品和研究各有樂趣,“好比蓋房子,產(chǎn)品開發(fā)可以聚焦在房子的具體建造,不同的產(chǎn)品部門分工合作,各自將某個房間或局部打造到極致,確保其準確和穩(wěn)定,卻往往沒有很多機會跳出來思考;而研究工作則可以從全局視角思考整個房子的設計和構建,實現(xiàn)不同布局之間的融會貫通,甚至可以開創(chuàng)超越傳統(tǒng)的設計,這樣才能提供超出用戶想象的最佳體驗?!?/p>
“其實,從研究到產(chǎn)品不只是簡單的產(chǎn)品落地,更多的時候需要從產(chǎn)品的角度重新審視研究成果,看它們能否給產(chǎn)品帶來預期的效果。這需要我們結合研究和產(chǎn)品開發(fā)的雙重洞察力,從多個不同視角和維度去思考問題,并不斷積極主動地尋求解決問題的方案,”白靜說。正是這種研究和產(chǎn)品有機結合所產(chǎn)生的獨特價值激發(fā)了白靜的熱情,使她在工作中保持著極大的好奇心。她相信研究和產(chǎn)品應該相互推動彼此進化,只有將它們很好地融合在一起才能使效益最大化。
計算機科學的常態(tài)是變化,這是它最具吸引力的所在
如今,在微軟亞洲研究院包容、開放、多元的研究氛圍中,白靜有了更大的施展空間,雖然工作重點從產(chǎn)品開發(fā)變成了科研創(chuàng)新,但對如何讓研究產(chǎn)生更大價值的追求始終如一。她想讓自己變成研究與產(chǎn)品之間的紐帶,既可以沉浸于抽象、共性課題的研究,也可以與不同產(chǎn)品組合作進行成果轉(zhuǎn)化。
過往項目的成功經(jīng)驗讓白靜深切體會到了跨團隊、跨領域合作的優(yōu)勢,她清楚地看到,“團隊合作的本質(zhì)就是優(yōu)勢互補,創(chuàng)造雙贏局面,從而達到事半功倍,1+1>2 的效果。只有集思廣益,突破傳統(tǒng)的思維和認識,才能不斷地實現(xiàn)跨界創(chuàng)新。”現(xiàn)在以研究員的視角與產(chǎn)品組合作,白靜會更多地鼓勵團隊做核心技術的研究,用開創(chuàng)性思維拓展技術的邊界,be bold and be creative(大膽創(chuàng)新),從不同的角度提供新鮮的靈感,給產(chǎn)品帶來本質(zhì)的提升,從而更好地激發(fā)產(chǎn)品組合作的積極性。
從搜索引擎到 AI,再到圖深度學習,每一次的崗位變換都是在尋求新的挑戰(zhàn)并不斷超越自己,但白靜并沒有感到走出“舒適圈”的迷茫與困惑,反而更多地增加了探索新領域的新鮮感與好奇心。對此她表示,“不要抵觸對新領域的陌生感,因為過往沉淀的方法與經(jīng)驗,可以讓你快速適應變化。就像計算機知識會過時,但其核心和本質(zhì)卻萬變不離其宗,比如過去我們研究了多年的 NLP,盡管現(xiàn)在有了 BERT、GPT 等新技術,但是我們之前積累起來的研究方法依然有效。”
在白靜看來,計算機科學的常態(tài)就是變化,而這也是它最具吸引力的地方。就像業(yè)余時間,她喜歡通過旅行見識不同的文化和風景,新的變化帶給白靜的是新的景觀和由此而激發(fā)出來的新的熱情和動力?!霸谟嬎銠C科學領域,你永遠不用擔心一直重復做同樣的事情。因為這里永遠不乏新鮮感,而且能深切體會到你是真的在改變?nèi)藗兊纳?,”白靜說。