安羿閣 萬(wàn)博 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
機(jī)器人能否像《超能陸戰(zhàn)隊(duì)》中的“大白”一樣,理解人類(lèi)情感和價(jià)值觀,統(tǒng)一目標(biāo)齊心協(xié)力解決問(wèn)題?
【資料圖】
現(xiàn)在,這個(gè)問(wèn)題有了答案:
北京大學(xué)人工智能研究院朱松純團(tuán)隊(duì)最新研究,提出一個(gè)可解釋人工智能(XAI)系統(tǒng),證明了機(jī)器人與人類(lèi)真的能做到“推心置腹”,在工作中能像人類(lèi)伙伴一樣統(tǒng)一OKR。
也就是朱松純團(tuán)提出的實(shí)時(shí)雙向人機(jī)價(jià)值對(duì)齊。
目前,朱松純團(tuán)隊(duì)的這項(xiàng)研究成果,已經(jīng)在頂級(jí)學(xué)術(shù)期刊 Science,及其子刊 Science Robotics上發(fā)表,而且都是頭條位置。
人類(lèi)與機(jī)器人,價(jià)值如何對(duì)齊?
為了驗(yàn)證人類(lèi)和機(jī)器人的價(jià)值能否對(duì)齊,朱松純團(tuán)隊(duì)設(shè)計(jì)了一個(gè)需要人類(lèi)和機(jī)器人共同協(xié)作完成任務(wù)的小游戲,由人類(lèi)擔(dān)任指揮官,率領(lǐng)3個(gè)機(jī)器人伙伴進(jìn)行。
具體任務(wù),就是在一個(gè)未知的20×20網(wǎng)格地圖中,尋找一條從基地(位于地圖的右下角)到目的地(位于地圖的左上角)的安全路徑。
需要注意的是,這張地圖上的不同網(wǎng)格中,安放有不同裝置,比如爆炸物,或者物資等等,只有當(dāng)機(jī)器人靠近時(shí)才能顯示。
除了尋找安全路徑,在游戲開(kāi)始之前,人類(lèi)指揮官還會(huì)接到4個(gè)額外任務(wù)目標(biāo),指揮官需要4選1,任務(wù)包括:
盡快到達(dá)目的地;
調(diào)查地圖上的可疑裝置;
探索更大的區(qū)域;
收集資源。
這4個(gè)任務(wù)目標(biāo),代表的是人類(lèi)指揮官的價(jià)值取向,而機(jī)器人需要人類(lèi)指揮官不斷進(jìn)行任務(wù)反饋,進(jìn)而理解指揮官的價(jià)值取向,自主行動(dòng)。
具體過(guò)程,就是人類(lèi)和機(jī)器人關(guān)于價(jià)值目標(biāo)一輪一輪的反饋和解釋?zhuān)罱K趨向一致:
整個(gè)游戲分為3組,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),機(jī)器人單方面接受人類(lèi)指令,也就是單純的作為傾聽(tīng)者時(shí),在游戲進(jìn)度達(dá)到25%時(shí),通過(guò)對(duì)至少60%的目標(biāo)重要性進(jìn)行正確排序,快速與用戶的價(jià)值進(jìn)行對(duì)齊。
而作為表達(dá)者時(shí),機(jī)器人向人類(lèi)進(jìn)行反饋,對(duì)遇到的狀況提供完整解釋時(shí),在游戲進(jìn)度50%的時(shí)候,實(shí)現(xiàn)了人類(lèi)指揮官和機(jī)器人價(jià)值的統(tǒng)一。
機(jī)器人對(duì)遇到的狀況僅僅是簡(jiǎn)要解釋的話,需要在游戲進(jìn)度達(dá)到75%的時(shí)候二者價(jià)值才能完成統(tǒng)一。
上面的實(shí)驗(yàn)結(jié)果,說(shuō)明了人類(lèi)與機(jī)器人協(xié)作過(guò)程中,雙向價(jià)值對(duì)齊的過(guò)程:
首先,機(jī)器人通過(guò)接受人類(lèi)的反饋,機(jī)器人可以逐漸更新自己的價(jià)值函數(shù)與人類(lèi)的價(jià)值保持一致。
其次,在與機(jī)器人在不斷的交互中,人類(lèi)也逐漸形成對(duì)機(jī)器人能力和意圖的感知,雖然二者的價(jià)值在游戲上半場(chǎng)沒(méi)有實(shí)現(xiàn)統(tǒng)一,但從下半場(chǎng)的情況來(lái)看,人類(lèi)對(duì)機(jī)器人價(jià)值評(píng)估能力的感知仍然可以提高。
最后,當(dāng)機(jī)器人的價(jià)值選擇變得穩(wěn)定,用戶對(duì)機(jī)器人的評(píng)估也穩(wěn)定下來(lái),從機(jī)器人對(duì)人類(lèi)價(jià)值的評(píng)估到人類(lèi)價(jià)值的真實(shí)值,以及從人類(lèi)對(duì)機(jī)器人價(jià)值的評(píng)估到機(jī)器人當(dāng)前價(jià)值的收斂配對(duì),形成了基于人類(lèi)真實(shí)價(jià)值取向的雙向價(jià)值對(duì)齊。
結(jié)果擺在上面,而證明人類(lèi)與機(jī)器人之間的價(jià)值雙向?qū)R,需要一個(gè)理論,也是一切研究成果背后的原理:
可解釋人工智能*(XAI)*,一種基于靜態(tài)機(jī)器-動(dòng)態(tài)人類(lèi)的交流方式,解釋人工智能每項(xiàng)決策背后邏輯的理論,學(xué)界此前多有研究。
朱松純團(tuán)隊(duì)在實(shí)驗(yàn)游戲中的機(jī)器人系統(tǒng),也是基于XAI,但不同之處在于,人類(lèi)和機(jī)器人的交流方式發(fā)生了改變。
為了能使人與機(jī)器協(xié)作完成目標(biāo),需要一種人類(lèi)價(jià)值主導(dǎo)的、動(dòng)態(tài)機(jī)器-動(dòng)態(tài)用戶的交流模式。
在這種模式中,機(jī)器人除了向人類(lèi)展示自己的決策過(guò)程外,還將根據(jù)用戶的價(jià)值目標(biāo)即時(shí)調(diào)整行為。
同時(shí)為了即時(shí)掌握用戶信息,研究團(tuán)隊(duì)采用通訊學(xué)習(xí)取代了傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,機(jī)器將根據(jù)所推斷出的用戶的價(jià)值目標(biāo)進(jìn)行合理解釋。
這種合作導(dǎo)向的人機(jī)協(xié)作要求機(jī)器具有心智理論(ToM),即理解他人的心理狀態(tài)(包括情緒、信仰、意圖、欲望、假裝與知識(shí)等)的能力。
這一點(diǎn)在多智能體和人機(jī)交互環(huán)境中尤為重要,因?yàn)闄C(jī)器只有在理解人類(lèi)的狀態(tài)和意圖后才能更好地執(zhí)行任務(wù),其決策行為又會(huì)影響人類(lèi)做出判斷,從而形成一個(gè)以人類(lèi)為中心、人機(jī)兼容的協(xié)作過(guò)程。
簡(jiǎn)單來(lái)說(shuō),采用上述方法進(jìn)行人類(lèi)和機(jī)器人的協(xié)同作業(yè),可以同時(shí)賦予雙方兩個(gè)身份,傾聽(tīng)者&表達(dá)者。
這也就意味著,機(jī)器人至少在理論上,可以像你的人類(lèi)團(tuán)隊(duì)伙伴一樣,理解你的心思和價(jià)值取向,統(tǒng)一目標(biāo)進(jìn)行高效協(xié)同了。
論文作者介紹
朱松純團(tuán)隊(duì)由UCLA袁路遙、高曉豐、北京通用人工智能研究院鄭子隆、北京大學(xué)人工智能研究院朱毅鑫等人組成。
該團(tuán)隊(duì)長(zhǎng)期從事可解釋人工智能相關(guān)工作。此文是團(tuán)隊(duì)第二篇發(fā)表在 Science Robotics 的關(guān)于可解釋人工智能的論文。
這項(xiàng)研究涵蓋了認(rèn)知推理、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、機(jī)器人學(xué)等多學(xué)科領(lǐng)域,是朱松純教授團(tuán)隊(duì)交叉研究成果的集中體現(xiàn)。
朱松純教授本人是人工智能領(lǐng)域全球著名的學(xué)者,曾任UCLA統(tǒng)計(jì)學(xué)系與計(jì)算機(jī)系教授,UCLA計(jì)算機(jī)視覺(jué)、認(rèn)知、學(xué)習(xí)與自主機(jī)器人中心主任。
目前,朱松純同時(shí)在清華大學(xué)和北京大學(xué)任講席教授并擔(dān)任管理職務(wù)。他主持的北京通用人工智能研究院(BIGAI)也是由清華大學(xué)、北京大學(xué)等單位合作支撐。
One More Thing
最后回到開(kāi)頭的那個(gè)問(wèn)題,《超能陸戰(zhàn)隊(duì)》中的“大白”,真的能在現(xiàn)實(shí)中存在嗎?
事實(shí)上,朱松純團(tuán)隊(duì)已經(jīng)在著手研究了。
據(jù)悉,目前朱松純團(tuán)隊(duì)所在的北京通用人工智能研究院,聯(lián)合北京大學(xué)人工智能研究院等單位,正在就人工智能的統(tǒng)一理論和認(rèn)知架構(gòu)進(jìn)行研究。
未來(lái)的方向,就是打造具有自主感知、認(rèn)知、決策、學(xué)習(xí)、執(zhí)行和社會(huì)協(xié)作能力,符合人類(lèi)情感、倫理與道德觀念的通用智能體。
怎么樣,你開(kāi)心的時(shí)候能陪你開(kāi)心,你悲傷的時(shí)候能為你拭去淚水,這樣的機(jī)器人,要不要來(lái)一個(gè)?
關(guān)鍵詞: 朱松純團(tuán)隊(duì)最新研究機(jī)器人可與人類(lèi)推心置腹還說(shuō)要造A