合成數(shù)據(jù)帶來的多樣性問題

發(fā)布時間:2022-03-31 05:43:36  |  來源:騰訊網(wǎng)  

眾所周知,人工智能非常依賴訓練數(shù)據(jù)的完整性和準確性。然而當數(shù)據(jù)不足時,人工智能開發(fā)者會使用一定的合成數(shù)據(jù)以加快部署進度。例如,在我們以往采訪過的AI視覺識別公司就因為拿不到足夠的真實圖片數(shù)據(jù),自己拍攝合成用于訓練算法的照片。

用于診斷皮膚狀況的人工智能開發(fā)者也遇到類似問題。圖像數(shù)據(jù)庫偏向于較淺的皮膚。一組研究人員正在開發(fā)一個人工智能程序,以生成深色皮膚上疾病的合成圖像,并利用這些圖像作為一種工具,幫助診斷皮膚癌。而不是等待收集更多深色皮膚上癌癥或炎癥等疾病的圖像的緩慢過程。

加拿大麥克馬斯特大學(McMaster University)的機器學習專家艾曼 雷茲克(Eman Rezk)表示:“獲得深膚色的真實圖像是最終的解決方案。在獲得這些數(shù)據(jù)之前,我們需要找到縮小差距的方法?!?/p>

但其他在該領域工作的專家擔心,使用合成圖像可能會帶來其他的問題。斯坦福大學皮膚學臨床學者Roxana Daneshjou說,研究的重點應該是在現(xiàn)有的數(shù)據(jù)庫中添加更多不同的真實圖像。

在皮膚病學中使用人工智能的項目努力有幾十個。研究人員開發(fā)了一種工具,可以掃描皮疹和痣的圖像,以找出最可能的問題類型。皮膚科醫(yī)生可以利用這些結(jié)果來幫助他們進行診斷。但大多數(shù)工具都是建立在圖像數(shù)據(jù)庫之上的,這些數(shù)據(jù)庫要么沒有包含很多深膚色的例子,要么沒有關于它們包含的膚色范圍的良好信息。這使得大家很難相信一種工具能準確地用于深膚色的皮膚。

這就是為什么Rezk和他的團隊轉(zhuǎn)向合成圖像。該項目有四個主要階段。該團隊已經(jīng)分析了可用的圖像集,以了解在開始時,深膚色是如何被低估的。該公司還開發(fā)了一個人工智能程序,該程序利用膚色較淺的人的皮膚狀況圖像,生成膚色較深的人的皮膚狀況圖像,并驗證模型給出的圖像?!岸嗵澚巳斯ぶ悄芎蜕疃葘W習的進步,我們能夠使用可用的淺色掃描圖像生成不同膚色的高質(zhì)量合成圖像,”Rezk說。

接下來,該團隊將把深膚色的合成圖像與淺膚色的真實圖像結(jié)合起來,創(chuàng)建一個可以檢測皮膚癌的程序。Rezk說,它將不斷檢查圖像數(shù)據(jù)庫,找到任何新的、真實的皮膚狀況的深膚色的照片,然后添加到未來的模型中。

該團隊并不是第一個創(chuàng)建合成皮膚圖像的團隊——包括谷歌健康研究人員在內(nèi)的一個團隊在2019年發(fā)表了一篇論文,描述了一種生成合成皮膚圖像的方法,它可以創(chuàng)建不同膚色的圖像。(谷歌對皮膚AI很感興趣,去年春天發(fā)布了一款可以識別皮膚狀況的工具。)

Rezk說合成圖像只是一種權宜之計,直到有更多關于深色皮膚狀況的真實照片出現(xiàn)。然而,Daneshjou擔心使用合成圖像,即使是作為一個臨時的解決方案也會影響人工智能項目的效果。研究團隊必須仔細檢查人工智能生成的圖像是否有人們?nèi)庋蹮o法看到的常見問題,這些問題理論上可能會影響人工智能程序的結(jié)果。要確認合成圖像在模型中和真實圖像一樣有效,唯一的方法是將它們與真實圖像進行比較,而真實圖像是供不應求的。

“然后回到事實,好吧,為什么不努力獲得更多真實的圖像呢?”Daneshjou說,如果一個診斷模型是基于來自一組的合成圖像和來自另一組的真實圖像——即使是暫時的——這是一個問題。這可能會導致模型在不同膚色下表現(xiàn)不同。

她說,依靠合成數(shù)據(jù)還可能使人們變得不太追求真實的、多樣化的圖像。希望看到更多的人致力于獲取真實的、多樣化的數(shù)據(jù),而不是試圖利用人工智能做這種有風險的變通。

關鍵詞: 合成數(shù)據(jù)帶來的多樣性問題 合成數(shù)據(jù) 人工智能 eman rezk

 

網(wǎng)站介紹  |  版權說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權所有 郵箱聯(lián)系:920 891 263@qq.com