給人像「P」上濃密的胡須,需要多久?
這個 AI 只需要一秒,而且效果逼真,看不出一點破綻。
最近,一則馬斯克的惡搞視頻在 YouTube 上火了。
一位油管博主用 AI【P】出了多個版本的馬斯克,重點是效果驚人。比如,這個中年光頭版。
恐怕連馬斯克本人見了都會相信吧?
還有長發(fā)飄飄的馬斯克。不得不說,女版馬斯克也散發(fā)著一股女強人的氣質(zhì)。
這個 AI 是來自 Adobe Research 和阿卜杜拉國王科技大學(xué)(KAUST)的一項最新研發(fā)成果—StyleFlow 算法。
它非常更擅長在合成圖像或真實圖像的基礎(chǔ)上重新編輯面部屬性。除了上述馬斯克的面部毛發(fā)、年齡、性別處理外,它還可以改變拍照角度、光照、人物表情等等。
值得一提的是,StyleFlow 不僅可以用于人像處理,也可以修改汽車等其他圖像屬性。
比如這款【特斯拉】圖像可以一秒切換車身顏色。
接下來,我們來看看這個硬核 AI 是如何做到的?
比 StyleGAN 還溜的 AI
提到 Style 系列不免讓人想到 StyleGAN,經(jīng)常關(guān)注雷鋒網(wǎng)的小伙伴可能會了解,StyleGAN 是 GAN 的變種,它通過生成器和鑒別器的相互 battle,也可以達到令人驚嘆的面部合成效果。
而 StyleFlow 可以說是 StyleGAN 圖像合成的進階版。
研究人員在論文中稱,GANs(如 StyleGAN)在保證高質(zhì)量輸出的條件下,使用(語義)屬性控制生成過程的選項有限。同時,由于 GAN 潛在空間的糾纏性質(zhì),沿著一個屬性執(zhí)行編輯很容易導(dǎo)致沿著其他屬性的改變。
因此,他們提出了基于屬性條件采樣(Attribute-Conditioned Sampling)和屬性控制編輯(Attribute-Controlled editing)的 StyleFlow。
其中,屬性條件采樣,是對具有目標屬性的高質(zhì)量真實圖像進行采樣;屬性控制編輯,是指編輯給定圖像,并使其具有目標屬性,同時最好地保留源圖像的特性。
從源圖像開始,通過使用反向推理和一系列 CNF(Continuous Normalizing Flow)功能模塊的正向推理來支持屬性條件編輯。
另外,需要注意的是,反向推理和正向推理是由 ODE 解算器通過計算時間變量上的 CNF 函數(shù)來解決的。
CNF(連續(xù)歸一流)功能塊可以作為神經(jīng)網(wǎng)絡(luò)塊來實現(xiàn)。其中,以屬性向量 at 為條件的學(xué)習(xí)函數(shù),既可以可用于正向推理,也可以用于反向推理。
實驗結(jié)果
基于以上原理,研究人員通過使用 StyleFlow 對給定圖像進行了屬性條件采樣。論文中展示了固定目標姿勢下戴眼鏡女性的圖像(上);面部有毛發(fā)的 50 歲男性圖像(中);固定姿勢下 5 歲男孩的微笑圖像(下)三類屬性的抽樣結(jié)果。
可以注意到采樣的質(zhì)量非常高,未編輯的屬性在很大程度上保持不變,它驗證了網(wǎng)絡(luò)能夠?qū)W習(xí)底層的語義表示,并進一步用于對圖像進行語義編輯。
接下來,研究人員使用 StyleGAN 生成的人臉和汽車的潛在空間對 StyleFlow 進行了評估,并展示了對各類屬性進行細粒度分離編輯的結(jié)果。
他們采用了兩個評估數(shù)據(jù)集 FFHQ 和 LSUN Car。前者是 1024×1024 高分辨率人臉圖像數(shù)據(jù)集,由 70000 張圖像組成,這些圖像在種族、年齡和配件方面都是不同的。LSUN-Car 是一個 512×384 分辨率的汽車圖像數(shù)據(jù)集,由 16185 幅圖像組成,這些圖像在汽車姿態(tài)、顏色和類型方面有很大的差別。
在定性比較上,StyleFlow 對人像角度、光照、表情、性別和年齡的處理,與現(xiàn)有 Image2StyleGAN 、 InterfaceGAN 、 GANSpace 方法相比均表現(xiàn)出了一定的優(yōu)越性。
在定量比較上也同樣如此。下圖展示了 StyleFlow 與其他方法在人臉分類器(Geitgey 2020)評估下得出的 SOTA 結(jié)果。StyleFlow 在燈光、姿勢、表情等屬性上基本達到了最高值。
以下是在循環(huán)編輯一致性方面,StyleFlow 的編輯方法在不同排列下基本保持一致(各個屬性中使用了平均誤差)。