核酸報告核查太繁瑣?復(fù)旦博士生寫130行代碼搞定

發(fā)布時間:2022-04-08 08:43:55  |  來源:騰訊網(wǎng)  

李小康正在做志愿者 本文圖均為 復(fù)旦大學(xué)供圖

三月初以來,復(fù)旦大學(xué)啟動常態(tài)化核酸篩查工作,要求輔導(dǎo)員必須核查學(xué)生“健康云”核酸完成截圖,確?!安宦┮蝗恕?。

人工核查費時費力又易出錯,為此,信息科學(xué)與工程學(xué)院生物醫(yī)學(xué)工程專業(yè)博士生李小康快速開發(fā)一項小程序,幾分鐘就能快速核查數(shù)百人的核酸完成截圖。

李小康是信息科學(xué)與工程學(xué)院的一名輔導(dǎo)員,他表示,核查截圖這件事單調(diào)枯燥又費時,重復(fù)性很強,正符合計算機程序的特點。于是,他有了想法,寫一個代碼程序來自動核查。

李小康最初寫程序時和學(xué)工同事的聊天

程序一寫好,李小康就在自己班級的核酸截圖數(shù)據(jù)上驗證,準(zhǔn)確率果然很高,甚至檢測出了之前人工核查沒有發(fā)現(xiàn)的問題。程序運行時間很短,80多張圖只需要20多秒。

該學(xué)院研工組需要核查學(xué)院所有研究生的核酸截圖,原來要幾個人核對一個多小時。用了李小康的程序后,800幅截圖,現(xiàn)在只需等2分鐘就拿到結(jié)果,程序目前已在該學(xué)院服務(wù)2周。

說起原理,李小康認(rèn)為并不復(fù)雜。作為生物醫(yī)學(xué)工程專業(yè)博士生,研究方向是醫(yī)學(xué)影像與人工智能,他平常會接觸很多圖像處理方法。得益于長期的科研習(xí)慣和代碼敏感性,面對自動核查核酸截圖這件事情,李小康第一時間想到以前學(xué)到過的OCR (Optical Character Recognition,光學(xué)字符識別)技術(shù)。

“OCR可以把圖像中的文字識別出來,轉(zhuǎn)換為文本信息,就方便用來核查了。而且因為核酸截圖是打印字體,識別率非常高,幾乎可以做到100%準(zhǔn)確。”李小康說。

程序?qū)嶋H運行過程

一張截圖中的文本信息很多,包括脫敏處理的姓名、證件類型、證件號碼、采樣時間、組織機構(gòu)等內(nèi)容,但不是所有信息都有用。其中,姓名、采樣時間、是否已采樣最為關(guān)鍵,是需要檢索篩選出的內(nèi)容。為此,他想到了Python語言中的正則表達(dá)式——可以搜索到字符串中的特定模式內(nèi)容。

“使用正則表達(dá)式就可以把想要的信息從OCR識別的文本中篩選出來。最后,確認(rèn)好每張截圖里的姓名、檢測時間和是否已采樣等信息后,再把所有人的結(jié)果輸出到Excel文件中,方便人工確認(rèn)?!苯?jīng)過思考,李小康的程序思路就基本確定為OCR文字識別+正則表達(dá)式篩選。

3月15日晚,他花了一個多小時就寫出了初始代碼,共130行,發(fā)現(xiàn)確實能夠跑通,且運行效率很高。

當(dāng)然,當(dāng)中也遇到了幾個技術(shù)問題——OCR技術(shù)的實現(xiàn)、學(xué)生提交截圖類型不統(tǒng)一、截圖數(shù)量多時的程序等待焦慮等。李小康逐一嘗試工具、分析圖像特點,尋找到了最佳解決方案。

“雖然原理也很簡單,只要是會寫代碼的人第一時間就會明白是怎么回事,但是不做相關(guān)工作的感受不到這件事情的費時費力,自然也不會想出辦法。我只是用我學(xué)到的知識解決實際工作中的困難?!彼f。

為了方便不會編程的老師使用,李小康把程序進(jìn)行了封裝?!按蠹倚枰玫臅r候,只要在命令行輸入一行代碼就可以運行,非常簡單。”

復(fù)旦大學(xué)信息辦已與李小康對接,正在收集學(xué)校各二級單位管理需求,研究制定相關(guān)方案,開發(fā)全新小程序納入學(xué)校“一網(wǎng)通辦”平臺。

關(guān)鍵詞: 核酸報告核查太繁瑣復(fù)旦博士生寫130行代碼搞定

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com