《科創(chuàng)板日報(bào)》9月30日訊Meta近期拋出了一個(gè)文字轉(zhuǎn)視頻(T2V)的AI模型——Make-A-Video(做個(gè)視頻),輸入幾句話就能生成一段原創(chuàng)視頻,該模型還可以把圖片變成視頻、從原視頻得到多個(gè)衍生視頻。
(相關(guān)資料圖)
文字描述為:一艘登陸火星的宇宙飛船
文字描述為:機(jī)器人在時(shí)代廣場跳舞
把圖片變成視頻
根據(jù)原視頻生成新視頻
該模型建立在文字轉(zhuǎn)圖像(T2I)模型的基礎(chǔ)上,即Meta的Make-A-Scene。研究人員通過對Make-A-Scene進(jìn)行調(diào)整和訓(xùn)練,然后把它應(yīng)用于視頻生成模型,省去了文本-視頻對訓(xùn)練這一環(huán)節(jié),節(jié)省了大量的成本。
其實(shí),在Make-A-Video之前,已經(jīng)出現(xiàn)了多個(gè)T2V模型,其中就包括清華大學(xué)和智源研究院研發(fā)的CogVideo,它也是目前唯一一個(gè)開源的T2V模型。更早之前,GODIVA和微軟的“女媧”也都實(shí)現(xiàn)過根據(jù)文字描述生成視頻。
Meta的研究人員采取了數(shù)據(jù)測試和人類打分兩種方法對模型進(jìn)行評估,與“前輩們”相比,Make-A-Video生成的視頻質(zhì)量更高,與文本更貼切。
值得注意的是,CogVideo與Make-A-Video的發(fā)布時(shí)間僅相差三個(gè)月。與此同時(shí),一度爆紅的T2I模型“Stable Diffusion”的母公司Stability AI已經(jīng)躍躍欲試,其創(chuàng)始人Emad表示將很快發(fā)布一個(gè)比Make-A-Video更好的模型。
T2V 模型,為什么讓大家趨之若鶩?
由文本生成影像,展示了自然語言處理技術(shù)與計(jì)算機(jī)視覺技術(shù)結(jié)合的潛力,可以理解為多項(xiàng)熱門AI技術(shù)的交匯點(diǎn)。
其最直接的應(yīng)用場景在于藝術(shù)、影視行業(yè),如電影劇本編寫、創(chuàng)意營銷、教學(xué)視頻,以及公共安全等眾多領(lǐng)域。
對于曾“改名明志”的Meta來說,與文字轉(zhuǎn)圖像/視頻有關(guān)的AI技術(shù)還連接著元宇宙,Meta已將AI團(tuán)隊(duì)并入AR/VR部門。
正如Meta所說,“我們在這個(gè)領(lǐng)域取得了進(jìn)展,但這僅僅是開始。我們將繼續(xù)使用這類新的生成創(chuàng)意工具來突破可能的界限,以構(gòu)建在2D/3D中更豐富、更具表現(xiàn)力的消息傳遞以及混合現(xiàn)實(shí)和虛擬世界中人們之間的通信方式。”
值得注意的是,在T2V模型方面,盡管已有多家科技公司展現(xiàn)雄心,但它們依然面臨不小的技術(shù)、倫理問題。
從Meta公布的作品來看,Make-A-Video生成的視頻多少存在失真、掉幀的問題;因AI技術(shù)引發(fā)的爭論性話題可謂層出不窮,前有Deepfake換臉術(shù)制造假新聞,后有AI繪畫工具M(jìn)idjourney生成畫作獲獎(jiǎng)遭傳統(tǒng)藝術(shù)家批評。
Meta甚至提前打起了預(yù)防針,在Make-A-Video的發(fā)布頁面,這家公司聲明:由于該模型可以創(chuàng)建看起來逼真的內(nèi)容,因此我們?yōu)樗幸曨l添加了水印,這將有助于確保觀眾認(rèn)識到視頻是假的。
關(guān)鍵詞: AI創(chuàng)作更進(jìn)一步 圖片之后視頻也被拿捏 匯集多項(xiàng)熱門