狂徒AI對(duì)羅翔老師下手了-環(huán)球觀速訊

發(fā)布時(shí)間:2022-12-21 19:40:15  |  來源:騰訊網(wǎng)  

金磊 發(fā)自 凹非寺


(資料圖)

量子位 | 公眾號(hào) QbitAI

朋友,有沒有想過自己在二次元里長(zhǎng)什么樣?

最近就有這么樣的一個(gè)生成器在國(guó)內(nèi)外火了。

瞧,輸一張羅翔老師的照片,“啪的一下”就能生成二次元漫畫風(fēng):

一鍵秒變霸道總裁有木有,引得網(wǎng)友紛紛前來圍觀。

甚至就連KFC(肯德基)官方賬號(hào)都來湊起了熱鬧,親自打破自家老爺子的次元壁:

各類梗圖更是層出不窮:

在二次元濾鏡下,就連這張經(jīng)典的“女人吼貓”都透露出一絲溫馨,“竟然都有點(diǎn)可愛了呢”。

這就是QQ小世界在近期推出的二次元形象生成器——“異次元的我”

那么這層次元壁,又是如何打破的呢?

只需上傳一張照片

據(jù)了解,在QQ小世界“異次元的我”相關(guān)話題之下,已經(jīng)有突破100萬的投稿量,瀏覽量更是上億。

甚至一度還把QQ服務(wù)器給擠爆了:

而之所以會(huì)呈現(xiàn)如此“全民參與”的態(tài)勢(shì),離不開打破次元壁的簡(jiǎn)單操作。

只需要搜索一句“免費(fèi)畫畫”,便可以看到入口了:

然后僅需現(xiàn)場(chǎng)拍照,或上傳圖片即可:

而且為了能讓二次元風(fēng)格圖能夠hold住各式各樣的圖片,“異次元的我”還設(shè)置了不同的使用場(chǎng)景,讓適配度變得更高:

不得不說,打破次元壁這件事,現(xiàn)在真心變得好easy。

那么接下來的一個(gè)問題便是:

什么原理?

近年來,擴(kuò)散模型(Diffusion Model)在圖像生成領(lǐng)域中蓬勃發(fā)展。

例如OpenAI的GLIDE和Google的Imagen,都采用了基于擴(kuò)散模型的pipeline來獲得高質(zhì)量的圖像生成結(jié)果。

擴(kuò)散模型分為兩個(gè)過程。如下圖所示,右邊是一張正常的圖片。

從右到左的Forward Diffusion是一個(gè)逐步地將正態(tài)分布的噪聲疊加到圖片上的過程,最終得到一張看起來完全是噪聲的圖片。

可以不嚴(yán)謹(jǐn)?shù)叵胂蟪赏粔K牛排上不斷撒椒鹽,直到它看起來完全被椒鹽覆蓋,看不清原來的紋路。

從左到右的Reverse Diffusion則是一步步去除噪聲,試圖還原圖片,這就是擴(kuò)散的生成數(shù)據(jù)過程。

而擴(kuò)散模型的訓(xùn)練就是在學(xué)習(xí)預(yù)測(cè)疊加在xt上的噪聲,從而得到去噪后xt-1的圖片,經(jīng)過一輪又一輪的去噪,得到最終無噪聲的輸出圖X0。

最新的Stable Diffusion模型,則是在此基礎(chǔ)上結(jié)合了一個(gè)訓(xùn)練好的VAE模型。

VAE模型可以對(duì)任意圖片進(jìn)行壓縮再解壓,將圖片使用VAE的編碼器壓縮后能得到比原圖小很多的特征編碼,再基于特征編碼訓(xùn)練擴(kuò)散模型,最終生成的特征編碼再使用VAE的解碼器還原回原始尺寸的大圖,這就是Stable Diffision的做法。

這一改進(jìn)大大減少了圖像生成的時(shí)長(zhǎng)和占用的GPU資源,使得落地成為可能。

為了能夠使用文字控制模型生成的內(nèi)容,Stable Diffusion模型使用了預(yù)訓(xùn)練的CLIP模型來引導(dǎo)生成結(jié)果。

CLIP模型使用了大量的文字和圖片對(duì)訓(xùn)練,能夠衡量任意圖片和文本之間的相關(guān)性,即CLIP-score。

在前向生成圖片的過程中,模型除了要去噪以外,還需要讓去噪后的圖片和引導(dǎo)詞的CLIP-score盡量大。

這樣在不斷生成過程中,輸出結(jié)果就會(huì)越來越接近我們給定的文字描述。

在上圖中,左下角的小朋友的臉先被疊加了一定程度的噪聲。

之后在去噪過程中,會(huì)不斷拉近生成結(jié)果圖和“a woman wearing glasses”的距離,從而使得生成結(jié)果逐漸變成了戴眼鏡的成年女性。

生成圖片依然能夠保留原始圖片的大致結(jié)構(gòu),但是細(xì)節(jié)卻在文字的引導(dǎo)下發(fā)生了變化。

Stable Diffusion技術(shù)在AI畫畫尤其是二次元領(lǐng)域中展現(xiàn)出非常高的觀賞性和娛樂性,各家紛紛推出基于Stable Diffusion的AI畫畫平臺(tái),如draft.art、意間AI等。

但當(dāng)時(shí)現(xiàn)有的平臺(tái)在使用上非常不便捷,如果直接生成,大概率生成的質(zhì)量不會(huì)很高,還容易遇到翻車現(xiàn)場(chǎng):

如果用戶想要生成比較好的結(jié)果,就需要對(duì)圖片內(nèi)容進(jìn)行詳盡的描述,并增加很多提升效果和強(qiáng)化風(fēng)格的詞,才能得到一個(gè)比較理想的效果。

而且界面可調(diào)的參數(shù)非常多,用戶使用門檻很高;另一方面,對(duì)于資源的消耗導(dǎo)致這些平臺(tái)通常需要排隊(duì)非常久才能拿到一張結(jié)果。

因此,QQ小世界團(tuán)隊(duì)針對(duì)這些痛點(diǎn)進(jìn)行了優(yōu)化改造,用戶只需要上傳一張圖片,即可得到好看穩(wěn)定的生成效果,降低了使用門檻的同時(shí)也保證了生成質(zhì)量。

在技術(shù)上,研究人員主要進(jìn)行了以下幾點(diǎn)優(yōu)化:

準(zhǔn)確的內(nèi)容生成:通過自研diffusion模型對(duì)生成語(yǔ)義進(jìn)行強(qiáng)化,并輔助圖片內(nèi)容分析提升生成內(nèi)容對(duì)應(yīng)性;

更快的生成速度:利用超分模型減少difussion模型的生成分辨率,并針對(duì)圖像inference過程進(jìn)行加速,提升生成速度,節(jié)約GPU資源;

多樣的風(fēng)格選擇:針對(duì)不同的場(chǎng)景設(shè)計(jì)了豐富且美觀的風(fēng)格化效果。

另外,在設(shè)計(jì)玩法時(shí)簡(jiǎn)化了用戶的使用流程,為了讓用戶使用門檻更低、體驗(yàn)更好,研究團(tuán)隊(duì)通過口碑積累達(dá)到了峰值1000%的二次傳播率。

之前的一些AI畫畫平臺(tái),如意間AI,draft art等,除了上傳圖片,還需要使用一系列的描述主體和風(fēng)格的引導(dǎo)詞(prompt),有時(shí)候還需要調(diào)整不同參數(shù),來得到一個(gè)理想的結(jié)果。

為了降低用戶的使用門檻,“異次元的我”對(duì)pipeline進(jìn)行了改進(jìn):

將輸入模型的提示詞分為兩個(gè)部分——圖片主體內(nèi)容描述和風(fēng)格描述。

內(nèi)容描述:為了得到圖片的內(nèi)容描述,對(duì)輸入圖中的信息進(jìn)行人物性別、年齡、姿勢(shì)等屬性的檢測(cè),得到最終盡可能準(zhǔn)確詳盡的內(nèi)容描述詞。

風(fēng)格描述:為了讓結(jié)果更接近二次元,為各種不同場(chǎng)景設(shè)計(jì)了非常鮮明的二次元風(fēng)格。根據(jù)第一步對(duì)圖片內(nèi)容進(jìn)行分析后,進(jìn)一步細(xì)分為單人男性、單人女性、多人等不同場(chǎng)景。

結(jié)合內(nèi)容描述和風(fēng)格描述,研究人員通過對(duì)原圖的分析得到最終完整的提示詞輸入網(wǎng)絡(luò),從而能夠穩(wěn)定生成畫面精致、風(fēng)格突出的結(jié)果。既保證了生成內(nèi)容和原圖的對(duì)應(yīng)性,又增添了很多“異次元”要素,讓用戶更有穿越到二次元的感覺,同時(shí)也保證了較高的生成質(zhì)量。

另一方面,自研diffusion模型針對(duì)語(yǔ)義理解進(jìn)行了強(qiáng)化,能夠更準(zhǔn)確理解和生成圖片的主體內(nèi)容,在語(yǔ)義信息理解和圖像生成質(zhì)量上均有明顯提升。

和近期推出相似玩法的其它平臺(tái)對(duì)比,“異次元的我”在內(nèi)容準(zhǔn)確度上會(huì)更好,風(fēng)格也更加二次元化、更美觀:

據(jù)了解,原始的Stable Diffusion由于需要通過多次迭代生成圖片,在默認(rèn)配置A100機(jī)器上生成一張720p的圖像耗時(shí)約12s。

如果需要通過提升分辨率和增大迭代步數(shù)來提升效果,耗時(shí)更是需要多達(dá)一分鐘。

而“異次元的我”針對(duì)自研模型采取了一系列的模型壓縮和工程加速的方案,最終一張圖片的生成速度是1.6s,提升了7倍。

……

那么對(duì)于這種“快、好、省”地變二次元的玩法,你心動(dòng)了嗎?

按照下面的方法快去試玩吧:

在QQ搜索“免費(fèi)畫畫”即可參與。

One More Thing

QQ小世界團(tuán)隊(duì)最初只是想著在國(guó)內(nèi)搞“異次元的我”,但不知為何被傳到了外網(wǎng)并火了起來,不過期間也是鬧出了一些小烏龍。

而QQ小世界團(tuán)隊(duì)得知此消息后,火速優(yōu)化了算法。現(xiàn)在“異次元的我”可以兼容各種膚色,生成多元圖片。

對(duì)此,海外用戶也對(duì)團(tuán)隊(duì)的優(yōu)化表示了肯定:

看來,不僅是人類需要不斷學(xué)習(xí)進(jìn)步,AI亦是如此。

關(guān)鍵詞: 狂徒AI對(duì)羅翔老師下手了 qq小世界

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com