国产精品亚洲av综合成久久,国产成人激情视频在线观看,久久久久久精品免费免费4K

金磊發(fā)自凹非寺

(資料圖)

量子位 | 公眾號(hào) QbitAI

朋友，有沒有想過自己在二次元里長(zhǎng)什么樣？

最近就有這么樣的一個(gè)生成器在國(guó)內(nèi)外火了。

瞧，輸一張羅翔老師的照片，“啪的一下”就能生成二次元漫畫風(fēng)：

一鍵秒變霸道總裁有木有，引得網(wǎng)友紛紛前來圍觀。

甚至就連KFC（肯德基）官方賬號(hào)都來湊起了熱鬧，親自打破自家老爺子的次元壁：

各類梗圖更是層出不窮：

在二次元濾鏡下，就連這張經(jīng)典的“女人吼貓”都透露出一絲溫馨，“竟然都有點(diǎn)可愛了呢”。

這就是QQ小世界在近期推出的二次元形象生成器——“異次元的我”。

那么這層次元壁，又是如何打破的呢？

只需上傳一張照片

據(jù)了解，在QQ小世界“異次元的我”相關(guān)話題之下，已經(jīng)有突破100萬的投稿量，瀏覽量更是上億。

甚至一度還把QQ服務(wù)器給擠爆了：

而之所以會(huì)呈現(xiàn)如此“全民參與”的態(tài)勢(shì)，離不開打破次元壁的簡(jiǎn)單操作。

只需要搜索一句“免費(fèi)畫畫”，便可以看到入口了：

然后僅需現(xiàn)場(chǎng)拍照，或上傳圖片即可：

而且為了能讓二次元風(fēng)格圖能夠hold住各式各樣的圖片，“異次元的我”還設(shè)置了不同的使用場(chǎng)景，讓適配度變得更高：

不得不說，打破次元壁這件事，現(xiàn)在真心變得好easy。

那么接下來的一個(gè)問題便是：

什么原理？

近年來，擴(kuò)散模型（Diffusion Model）在圖像生成領(lǐng)域中蓬勃發(fā)展。

例如OpenAI的GLIDE和Google的Imagen，都采用了基于擴(kuò)散模型的pipeline來獲得高質(zhì)量的圖像生成結(jié)果。

擴(kuò)散模型分為兩個(gè)過程。如下圖所示，右邊是一張正常的圖片。

從右到左的Forward Diffusion是一個(gè)逐步地將正態(tài)分布的噪聲疊加到圖片上的過程，最終得到一張看起來完全是噪聲的圖片。

可以不嚴(yán)謹(jǐn)?shù)叵胂蟪赏粔K牛排上不斷撒椒鹽，直到它看起來完全被椒鹽覆蓋，看不清原來的紋路。

從左到右的Reverse Diffusion則是一步步去除噪聲，試圖還原圖片，這就是擴(kuò)散的生成數(shù)據(jù)過程。

而擴(kuò)散模型的訓(xùn)練就是在學(xué)習(xí)預(yù)測(cè)疊加在xt上的噪聲，從而得到去噪后xt-1的圖片，經(jīng)過一輪又一輪的去噪，得到最終無噪聲的輸出圖X0。

最新的Stable Diffusion模型，則是在此基礎(chǔ)上結(jié)合了一個(gè)訓(xùn)練好的VAE模型。

VAE模型可以對(duì)任意圖片進(jìn)行壓縮再解壓，將圖片使用VAE的編碼器壓縮后能得到比原圖小很多的特征編碼，再基于特征編碼訓(xùn)練擴(kuò)散模型，最終生成的特征編碼再使用VAE的解碼器還原回原始尺寸的大圖，這就是Stable Diffision的做法。

這一改進(jìn)大大減少了圖像生成的時(shí)長(zhǎng)和占用的GPU資源，使得落地成為可能。

為了能夠使用文字控制模型生成的內(nèi)容，Stable Diffusion模型使用了預(yù)訓(xùn)練的CLIP模型來引導(dǎo)生成結(jié)果。

CLIP模型使用了大量的文字和圖片對(duì)訓(xùn)練，能夠衡量任意圖片和文本之間的相關(guān)性，即CLIP-score。

在前向生成圖片的過程中，模型除了要去噪以外，還需要讓去噪后的圖片和引導(dǎo)詞的CLIP-score盡量大。

這樣在不斷生成過程中，輸出結(jié)果就會(huì)越來越接近我們給定的文字描述。

在上圖中，左下角的小朋友的臉先被疊加了一定程度的噪聲。

之后在去噪過程中，會(huì)不斷拉近生成結(jié)果圖和“a woman wearing glasses”的距離，從而使得生成結(jié)果逐漸變成了戴眼鏡的成年女性。

生成圖片依然能夠保留原始圖片的大致結(jié)構(gòu)，但是細(xì)節(jié)卻在文字的引導(dǎo)下發(fā)生了變化。

Stable Diffusion技術(shù)在AI畫畫尤其是二次元領(lǐng)域中展現(xiàn)出非常高的觀賞性和娛樂性，各家紛紛推出基于Stable Diffusion的AI畫畫平臺(tái)，如draft.art、意間AI等。

但當(dāng)時(shí)現(xiàn)有的平臺(tái)在使用上非常不便捷，如果直接生成，大概率生成的質(zhì)量不會(huì)很高，還容易遇到翻車現(xiàn)場(chǎng)：

如果用戶想要生成比較好的結(jié)果，就需要對(duì)圖片內(nèi)容進(jìn)行詳盡的描述，并增加很多提升效果和強(qiáng)化風(fēng)格的詞，才能得到一個(gè)比較理想的效果。

而且界面可調(diào)的參數(shù)非常多，用戶使用門檻很高；另一方面，對(duì)于資源的消耗導(dǎo)致這些平臺(tái)通常需要排隊(duì)非常久才能拿到一張結(jié)果。

因此，QQ小世界團(tuán)隊(duì)針對(duì)這些痛點(diǎn)進(jìn)行了優(yōu)化改造，用戶只需要上傳一張圖片，即可得到好看穩(wěn)定的生成效果，降低了使用門檻的同時(shí)也保證了生成質(zhì)量。

在技術(shù)上，研究人員主要進(jìn)行了以下幾點(diǎn)優(yōu)化：

準(zhǔn)確的內(nèi)容生成：通過自研diffusion模型對(duì)生成語(yǔ)義進(jìn)行強(qiáng)化，并輔助圖片內(nèi)容分析提升生成內(nèi)容對(duì)應(yīng)性；

更快的生成速度：利用超分模型減少difussion模型的生成分辨率，并針對(duì)圖像inference過程進(jìn)行加速，提升生成速度，節(jié)約GPU資源；

多樣的風(fēng)格選擇：針對(duì)不同的場(chǎng)景設(shè)計(jì)了豐富且美觀的風(fēng)格化效果。

另外，在設(shè)計(jì)玩法時(shí)簡(jiǎn)化了用戶的使用流程，為了讓用戶使用門檻更低、體驗(yàn)更好，研究團(tuán)隊(duì)通過口碑積累達(dá)到了峰值1000%的二次傳播率。

之前的一些AI畫畫平臺(tái)，如意間AI，draft art等，除了上傳圖片，還需要使用一系列的描述主體和風(fēng)格的引導(dǎo)詞（prompt），有時(shí)候還需要調(diào)整不同參數(shù)，來得到一個(gè)理想的結(jié)果。

為了降低用戶的使用門檻，“異次元的我”對(duì)pipeline進(jìn)行了改進(jìn)：

將輸入模型的提示詞分為兩個(gè)部分——圖片主體內(nèi)容描述和風(fēng)格描述。

內(nèi)容描述：為了得到圖片的內(nèi)容描述，對(duì)輸入圖中的信息進(jìn)行人物性別、年齡、姿勢(shì)等屬性的檢測(cè)，得到最終盡可能準(zhǔn)確詳盡的內(nèi)容描述詞。

風(fēng)格描述：為了讓結(jié)果更接近二次元，為各種不同場(chǎng)景設(shè)計(jì)了非常鮮明的二次元風(fēng)格。根據(jù)第一步對(duì)圖片內(nèi)容進(jìn)行分析后，進(jìn)一步細(xì)分為單人男性、單人女性、多人等不同場(chǎng)景。

結(jié)合內(nèi)容描述和風(fēng)格描述，研究人員通過對(duì)原圖的分析得到最終完整的提示詞輸入網(wǎng)絡(luò)，從而能夠穩(wěn)定生成畫面精致、風(fēng)格突出的結(jié)果。既保證了生成內(nèi)容和原圖的對(duì)應(yīng)性，又增添了很多“異次元”要素，讓用戶更有穿越到二次元的感覺，同時(shí)也保證了較高的生成質(zhì)量。

另一方面，自研diffusion模型針對(duì)語(yǔ)義理解進(jìn)行了強(qiáng)化，能夠更準(zhǔn)確理解和生成圖片的主體內(nèi)容，在語(yǔ)義信息理解和圖像生成質(zhì)量上均有明顯提升。

和近期推出相似玩法的其它平臺(tái)對(duì)比，“異次元的我”在內(nèi)容準(zhǔn)確度上會(huì)更好，風(fēng)格也更加二次元化、更美觀：

據(jù)了解，原始的Stable Diffusion由于需要通過多次迭代生成圖片，在默認(rèn)配置A100機(jī)器上生成一張720p的圖像耗時(shí)約12s。

如果需要通過提升分辨率和增大迭代步數(shù)來提升效果，耗時(shí)更是需要多達(dá)一分鐘。

而“異次元的我”針對(duì)自研模型采取了一系列的模型壓縮和工程加速的方案，最終一張圖片的生成速度是1.6s，提升了7倍。

……

那么對(duì)于這種“快、好、省”地變二次元的玩法，你心動(dòng)了嗎？

按照下面的方法快去試玩吧：

在QQ搜索“免費(fèi)畫畫”即可參與。

One More Thing

QQ小世界團(tuán)隊(duì)最初只是想著在國(guó)內(nèi)搞“異次元的我”，但不知為何被傳到了外網(wǎng)并火了起來，不過期間也是鬧出了一些小烏龍。

而QQ小世界團(tuán)隊(duì)得知此消息后，火速優(yōu)化了算法。現(xiàn)在“異次元的我”可以兼容各種膚色，生成多元圖片。