機(jī)器之心報(bào)道
機(jī)器之心編輯部
通過(guò)你用手機(jī)的方式看你的財(cái)力,扶貧準(zhǔn)確率最高能提升 21%。
新冠大流行摧毀了許多低收入和中等收入國(guó)家,導(dǎo)致廣泛的糧食不安全以及生活水平的急劇下降。為了應(yīng)對(duì)這場(chǎng)危機(jī),世界各國(guó)政府和人道主義組織已向超過(guò) 15 億人分發(fā)了社會(huì)援助。但是,他們正面臨著一個(gè)關(guān)鍵的挑戰(zhàn):在現(xiàn)有數(shù)據(jù)的情況下,快速確定最需要援助的目標(biāo)人群仍是一項(xiàng)艱巨的任務(wù)。
在近日發(fā)表在 Nature 上的論文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》中,來(lái)自加州大學(xué)伯克利分校、德國(guó)曼海姆大學(xué)、美國(guó)西北大學(xué)的研究者展示了利用手機(jī)網(wǎng)絡(luò)的數(shù)據(jù)可以提升人道主義救援的針對(duì)性。
他們使用傳統(tǒng)調(diào)研數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)算法,以識(shí)別用戶(hù)手機(jī)數(shù)據(jù)中的貧困狀況。然后,經(jīng)過(guò)訓(xùn)練的算法可以?xún)?yōu)先向那些最貧困的手機(jī)用戶(hù)提供援助。
研究者通過(guò)研究西非國(guó)家多哥(Togo)的一個(gè)旗艦緊急現(xiàn)金轉(zhuǎn)移項(xiàng)目(Novissi)對(duì)方法進(jìn)行了評(píng)估,這項(xiàng)計(jì)劃使用算法分配了價(jià)值數(shù)百萬(wàn)美元的新冠救濟(jì)援助金。他們?cè)诜治鲋斜容^了不同目標(biāo)確定機(jī)制下的結(jié)果,包括排除誤差(exclusion errors,真正的窮人被錯(cuò)誤地認(rèn)為沒(méi)有資格)、總體社會(huì)福利和公平性衡量。
相較于多哥政府采用的地理位置目標(biāo)確定方法,研究者使用機(jī)器學(xué)習(xí)方法將排除誤差減少了 4–21%。而相較于需要全面社會(huì)登記(一種假設(shè),多哥并不存在這種登記)的方法,機(jī)器學(xué)習(xí)方法將排除誤差增加了 9–35%。這些結(jié)果強(qiáng)調(diào)了新數(shù)據(jù)源在確定人道援助方面能夠?qū)鹘y(tǒng)方法做出補(bǔ)充,尤其是在傳統(tǒng)數(shù)據(jù)缺失或過(guò)時(shí)的危機(jī)環(huán)境中。
研究背景
我們先來(lái)了解一下多哥的旗艦緊急現(xiàn)金轉(zhuǎn)移項(xiàng)目 Novissi。2020 年 4 月,在首批新冠病例出現(xiàn)不久,多哥政府推出了這一項(xiàng)目。由于經(jīng)濟(jì)限制命令導(dǎo)致很多多哥人停工,并引發(fā)了廣泛的糧食安全問(wèn)題。Novissi 項(xiàng)目旨在為受影響最重的人提供生存現(xiàn)金援助。
項(xiàng)目地址:https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472
但是,當(dāng)多哥政府剛開(kāi)始推出 Novissi 項(xiàng)目時(shí),沒(méi)有可用來(lái)評(píng)估獲援資格的傳統(tǒng)社會(huì)登記系統(tǒng),也抽不出時(shí)間或資源在新冠流行期間構(gòu)建這類(lèi)登記系統(tǒng)。最近的一次人口普查完成于 2011 年,沒(méi)有包含家庭富裕或貧困信息。最近的國(guó)家生活水平調(diào)查僅僅涵蓋了一部分家庭。
在這種情況下,Novissi 項(xiàng)目的援助資格根據(jù) 2019 年末更新的國(guó)家選民登記系統(tǒng)中包含的數(shù)據(jù)來(lái)確定。但遺憾的是,這種方法無(wú)法將多哥最貧困家庭納入 Novissi 項(xiàng)目的援助范圍。
該研究旨在幫助多哥政府將 Novissi 項(xiàng)目的援助范圍從首都洛美的非正式工作者擴(kuò)展到鄉(xiāng)村地區(qū)的更貧困人群,在實(shí)現(xiàn)過(guò)程中還要滿足多哥政府的兩個(gè)既定政策目標(biāo):將援助引向該國(guó)最貧困的地理區(qū)域;優(yōu)先向這些地理區(qū)域的最貧困手機(jī)用戶(hù)分配援助。
基于此,研究者使用機(jī)器學(xué)習(xí)算法分析了從衛(wèi)星到手機(jī)網(wǎng)絡(luò)上的非傳統(tǒng)數(shù)據(jù),并最終提升了最貧困手機(jī)用戶(hù)人群的目標(biāo)確定。
對(duì)手機(jī)用戶(hù)進(jìn)行調(diào)查,確定用戶(hù)財(cái)富和消費(fèi)水平
第一步將機(jī)器學(xué)習(xí)算法用于高分辨率衛(wèi)星圖像,以獲得多哥每 2.4 公里 × 2.4 公里區(qū)域財(cái)富微觀估計(jì)。這些估計(jì)提供了每個(gè)小網(wǎng)格單元中所有家庭相對(duì)財(cái)富,之后對(duì)這些網(wǎng)格單元進(jìn)行人口加權(quán)平均,從而得出多哥最小行政單元財(cái)富估計(jì)。
第二步通過(guò)機(jī)器學(xué)習(xí)算法對(duì)多哥兩家移動(dòng)電話運(yùn)營(yíng)商提供的移動(dòng)電話元數(shù)據(jù)進(jìn)行處理,以估計(jì)每個(gè)移動(dòng)電話用戶(hù)的平均日消費(fèi)。
具體而言,該研究從多哥兩家移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商那里獲得了 2018-2021 年特定時(shí)間段的手機(jī)元數(shù)據(jù)(呼叫詳細(xì)記錄 (CDR))。該研究重點(diǎn)關(guān)注移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的三個(gè)分段片:2018 年 10 月至 12 月、2019 年 4 月至 6 月和 2020 年 3 月至 9 月。CDR 數(shù)據(jù)包含以下信息。通話:來(lái)電者電話號(hào)碼、接收者電話號(hào)碼、通話日期和時(shí)間、通話時(shí)長(zhǎng)、撥打電話的基站 ID;SMS 消息:發(fā)送方電話號(hào)碼、接收方電話號(hào)碼、消息的日期和時(shí)間、發(fā)送消息的天線 ID;移動(dòng)數(shù)據(jù)使用:電話號(hào)碼、交易日期和時(shí)間、數(shù)據(jù)消耗量(上傳和下載相結(jié)合);移動(dòng)貨幣交易:發(fā)送方電話號(hào)碼、接收方電話號(hào)碼(如果是點(diǎn)對(duì)點(diǎn))、交易日期和時(shí)間、交易金額以及交易類(lèi)型的廣泛類(lèi)別(現(xiàn)金、現(xiàn)金、點(diǎn)對(duì)點(diǎn)或 賬單支付)。
該研究對(duì)具有代表性的手機(jī)用戶(hù)進(jìn)行了調(diào)查,并用這些調(diào)查來(lái)衡量每個(gè)用戶(hù)的財(cái)富或消費(fèi),然后將基于調(diào)查的估計(jì)與每個(gè)用戶(hù)使用手機(jī)歷史的詳細(xì)元數(shù)據(jù)相匹配,采用有監(jiān)督機(jī)器學(xué)習(xí)算法對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)手機(jī)使用來(lái)預(yù)測(cè)用戶(hù)財(cái)富和消費(fèi)水平。這第二步與傳統(tǒng)的代理生活狀況調(diào)查 ( proxy means test,PMT) 類(lèi)似,但有兩個(gè)主要區(qū)別:該研究使用手機(jī)特征的高維向量而不是資產(chǎn)的低維向量來(lái)估計(jì)財(cái)富;該研究使用旨在最大化樣本外預(yù)測(cè)能力的機(jī)器學(xué)習(xí)算法,而不是最大化樣本內(nèi)擬合優(yōu)度的傳統(tǒng)線性回歸。
大家比較關(guān)心數(shù)據(jù)隱私問(wèn)題,為了保護(hù)獲取到的數(shù)據(jù)機(jī)密性,該研究在分析之前通過(guò)將每個(gè)電話號(hào)碼哈希編碼為唯一 ID 來(lái)對(duì) CDR 進(jìn)行化名。這些數(shù)據(jù)存儲(chǔ)在大學(xué)服務(wù)器上,設(shè)置了訪問(wèn)權(quán)限。在將 CDR 記錄與調(diào)查回復(fù)進(jìn)行匹配之前,該研究在電話調(diào)查中獲得了所有研究對(duì)象的知情同意。
精準(zhǔn)評(píng)估
該研究對(duì)這種將機(jī)器學(xué)習(xí)和手機(jī)數(shù)據(jù)相結(jié)合方法稱(chēng)為基于手機(jī)的方法。通過(guò)比較該方法與反事實(shí)方法下的定位誤差:政府在 2020 年夏天試行的一種地理定位方法(多哥 admin-2 極,即多哥各縣的貧困地圖,40 個(gè)縣),貧困州(多哥 admin-3 級(jí),397 個(gè)州);基于職業(yè)的定位(包括 Novissi 針對(duì)非正式工人的最初定位方法,以及針對(duì)該國(guó)最貧窮職業(yè)類(lèi)別的最佳方法)。
該研究想要實(shí)現(xiàn)幫助 100 個(gè)最窮州的最窮的人,研究發(fā)現(xiàn),相對(duì)于多哥政府的其他可行目標(biāo)定位方法,基于電話的目標(biāo)定位方法大大減少了排除誤差和包容錯(cuò)誤(errors of inclusion)(非窮人被錯(cuò)誤地認(rèn)為有資格),如圖 1a 和表 1 所示。
使用 PMT 作為真實(shí)貧困狀況的衡量標(biāo)準(zhǔn),基于電話的定位(曲線下面積 (AUC) = 0.70)優(yōu)于針對(duì)農(nóng)村 Novissi 援助的其他可行方法(例如,地域范圍定位的 AUC = 0.59-0.64)。
圖 1:Novissi 目標(biāo)與替代目標(biāo)的比較
表 1。
更多細(xì)節(jié)內(nèi)容請(qǐng)閱讀原論文。