文/小豪
來源:腦極體(ID:unity007)
有點常識的人都知道,戒毒這件事兒,生理依賴容易擺脫,心癮卻很難除。
一般的戒毒機構,往往只以戒毒者避免接觸毒品的期限為參照,三個月或六個月,或者一兩年,在此期間戒毒者如果表現(xiàn)正常,便被視為戒毒成功。由于心癮未除,有許多人不久之后又會重新沾染上毒癮而不得不再次戒毒,甚至多次反復。
只依賴生理診斷而缺乏一套心理毒癮的診斷方式,顯然是導致毒癮久戒不除根的重要原因。
而現(xiàn)在,能判斷戒毒者是否心理戒毒成功的診斷方法出現(xiàn)了。
根據(jù)香港《星島日報》的報道,香港教育大學于近日首次在戒毒研究上應用了“眼動追蹤”技術。通過對戒毒者注視毒品的時間和位置的判斷分析,便可確定其是否已經(jīng)完全戒除“心癮”,而且正確率高達90%以上。
姑且不說這一新聞背后的技術能力究竟如何,單單“眼動追蹤”四個字,就足以讓人們“眼動”,令其又重新回到了大家的視野中。那么,“眼動追蹤”在今天到底是一個什么樣的狀況?它主要用在哪些方面?前景又如何呢?
針對這些問題,我們來嘗試著做一些解答。
VR:眼動追蹤的最佳拍檔
眼動追蹤技術,顧名思義,就是通過圖像采集設備對眼球運動的信息進行捕捉,實現(xiàn)對眼球的跟蹤和分析,從而服務于具體的場景當中,如心理分析、電子設備屏幕切換甚至是對設備進行控制等。不難看出,眼動追蹤包括三個步驟:一,攝像頭、紅外線等采集設備對眼球運動進行捕捉;二,終端對眼球運動軌跡等信息進行綜合分析和判斷;三,發(fā)出指令,做出符合主體意愿的決策或提示。
由此我們很容易想到用這種技術來實現(xiàn)屏幕或電子書翻頁,而且這也是筆者曾經(jīng)年少時最渴望的事情。其實放到如今,這充其量算是眼動追蹤技術比較低級別的應用。早在2017年微軟也將這項技術內(nèi)置到了Windows10中。
但Windows10似乎比較雞肋,當年看演示打字的時候的確很科幻,但實用性太差,遠不及人手的打字效率,再加上其他應用的缺乏,眼動追蹤最終還是淪為了微軟買產(chǎn)品的噱頭而已。
但從這個已經(jīng)可以被看做失敗的案例中我們可以略微窺出:眼動追蹤固然好,沒有應用也不行。而遍觀如今的種種科技,能令眼動追蹤技術大放異彩的,或許就是VR。Tobii也將VR視作其眼動追蹤技術落地的最佳載體,并推出了適配VR頭盔的設備Pro Glasses 2,但一支鋼筆大小東西,用在VR頭盔之類的設備上實在是有點占空間。
另一個問題是,目前的VR產(chǎn)品在呈現(xiàn)游戲或其他應用的圖像時,往往是對所有的場景統(tǒng)統(tǒng)渲染,眼睛看到的地方清晰無比,看不到的地方也毫不含糊。
我們顯然可以從中看出三個弊端:容易造成眩暈感;對眼球觀察之外的場景渲染造成計算浪費的同時也給設備計算帶來負擔;算力增加,設備的體積自然小不到哪兒去。難道把硬件再做大一點?那頭盔就更不方便了。
而眼動追蹤,則正可以用來解決這個問題。
Tobii對此開發(fā)了視網(wǎng)膜中心渲染技術,通過對眼球的追蹤,將人眼注視的區(qū)域進行高清渲染,而對眼球之外的區(qū)域進行模糊化處理,這符合人在看物體時的一般特點。
Tobii的思路正確無比,但實際效果卻很有限。畢竟是圖像處理,Tobii顯然不太擅長——等等,說到圖像處理,難道還有比AI更適合的方法嗎?
AI:技術行進的明白方向
自從2014年收購Oculus以來,facebook在VR上下的工夫一直都沒有減少,砸錢砸得不計成本。這些投入也被外界稱為“為未來買單”,facebook扔進大海的石子并沒有沉沒了事兒,也是激起了幾多浪花的。比如基于眼動追蹤技術的VR圖像渲染上。
去年5月份,facebook推出了Half Dome原型機,其集成了眼動追蹤相機、寬視場光學系統(tǒng)和可獨立變焦顯示器,就是為了取得和人眼觀察事物一致的效果:對視線之外的區(qū)域進行模糊處理,以達到沉浸式體驗。同樣,這款原型機發(fā)布的時候和Tobii水平差不多,由于硬件和算法的限制,渲染的逼真程度很難讓人評價為體驗良好。而去年12月,facebook就為其匹配了人工智能渲染系統(tǒng)Deep Focus。
那么,Deep Focus加持的圖像渲染和Tobii以及Half Dome原型機的區(qū)別在哪里呢?一個詞來回答就是:自然模糊。
對注視點之外的畫面進行模糊處理是方向,但這其中的問題也有很多:清晰區(qū)域和模糊區(qū)域的過渡是否平滑自然?注視點移動過程中圖像由模糊到清晰的轉(zhuǎn)化是否自然?
不自然的過渡是這樣的:
自然的過渡則是這樣的:
顯然下圖要比上圖有更自然的注視點邊緣模糊處理。這也成為了Deep Focus努力的方向。而如果純粹是用算力來解決問題,那對本身體積就存在限制的VR頭顯又提出了要求。因此facebook reality lab的研究者選擇了另外一個方向:利用深度學習來實現(xiàn)自然模糊。為此,研究團隊需要大量的數(shù)據(jù)來對人工智能系統(tǒng)進行訓練。但問題是上哪兒去找這么多數(shù)據(jù)呢?
于是他們隨機生成了由大量對象組成的場景,然后交由Deep Focus來對這些對象的紋理等特征進行學習訓練,從而生成逼真的渲染模糊效果。經(jīng)過接近一年的訓練,Deep Focus已經(jīng)可以做出相當出色的渲染表現(xiàn)。
利用最新的人工智能技術來追蹤研究并做出實時的圖像處理,看起來是一個非常不錯的主意。對facebook而言,或許它只是一種增強VR沉浸式體驗的措施;而對整個眼動追蹤技術應用層面而言,人工智能更大的意義則在于提供了一條行之有效的研究方向。
爆發(fā):沖破障礙與應用補完的未來之景
我們再回到眼球跟蹤技術本身來。進入2019年,以5G網(wǎng)絡商用為標志,越來越多的聲音認為5G的大帶寬、低延遲的特性將助推VR的復興,乃至產(chǎn)業(yè)的爆發(fā)。能不能用“爆發(fā)”來修飾一番,似乎已經(jīng)成為衡量某個技術或產(chǎn)業(yè)應用價值的標志之一。那么,對眼動追蹤技術而言,無論是傳統(tǒng)的硬件廠商Tobii還是以facebook為代表的人工智能公司,似乎也都一刻也沒有停止對它的技術演進。我們也套用一下:當AI入場之后,眼動追蹤技術的應用是否也面臨爆發(fā)呢?
以下這些,或許將成為所謂“爆發(fā)”前夜必須要考慮的問題。
·支撐即時反饋的終端計算性能。對眼動的跟蹤、信息捕捉、分析處理和判斷需要在極端的時間內(nèi)完成,F(xiàn)acebook的Deep Focus雖然用AI實現(xiàn)了自然模糊的高級別應用,但這是建立在擁有四顆高性能GPU電腦的基礎上,如果想要順利搭載在VR頭盔甚至是手機、手表等電子設備上,則必須要兼顧體積和計算的性能?;蛘?,開發(fā)出更強大的算法。
·“無效”眼動的精確排除。人的眼球運動并非都是有意而為,如何排除無意識的眼球運動干擾,則需要下一步進行重點研究。
·應用生態(tài)的大面積擴展。今天看來,一件新技術要想獲得大規(guī)模的推廣應用,除了硬件層面的匹配之外,還要有相應數(shù)量級的應用支撐,尤其是能夠產(chǎn)生剛需或制造剛需的應用。VR確實很有代表性,但只有VR顯然是不夠的,更何況VR自身也處于技術演進的過程中。那么,為眼動追蹤技術打開更多的應用可能,也應該同步于對它的技術研究。
比如將眼動追蹤與腦機接口結(jié)合起來,通過對無形腦電波的捕捉和外在眼球的跟蹤,來判斷大腦的意圖傾向;為言語障礙、行動不便等人士提供醫(yī)療幫助,比如打字、呼救等;又或者用在汽車中的駕駛員疲勞監(jiān)測、車機交互,成為手指、語音之外的第三種交互方式,增進人機交互的親密度等等。
可見,在解決方案日漸成熟的前提下,眼動追蹤其實是具備了成為科技“爆款”的潛質(zhì)的:擁有廣闊無比的應用場景。只不過硬性的需求尚未形成,而技術的支撐仍然孱弱,眼動追蹤技術在未來一段時期可能仍然會處于不溫不火的狀態(tài)。
但技術的發(fā)展趨勢有時候總會超乎我們的想象,AI概念提出60年后才迎來真正的爆發(fā),也許掌管人類技術進化的神不小心打個盹,眼動追蹤就會跳出慢吞吞的軌道,從捷徑瞬時擁抱人間。