或许是最有商业价值的AI,谷歌发布VideoPoet,可从0直接生成视频
時間:2025-08-02 20:05:44 出處:百科閱讀(143)
今年無疑是生成式AI最火爆的一年,文字對話有ChatGPT、Gemini等,圖片生成有midjourney、DALL-E等,在這之后不少廠商將目光投入到了生成式AI的最后一個關(guān)卡——視頻生成。如今看來,這一領(lǐng)域也出現(xiàn)了突破,那就是這款名為VideoPoet的大語言模型。
據(jù)了解,這款名為VideoPoet的大語言模型之所以被認(rèn)為是從0生成視頻的革命性視頻生成工具,主要就在于它不僅可以以文生視頻、以圖像生成視頻,還能根據(jù)需要進(jìn)行風(fēng)格遷移也就是將一種風(fēng)格的視頻轉(zhuǎn)換到另外一種風(fēng)格,根據(jù)文本指令的提示進(jìn)行交互式視頻編輯,可能會給視頻剪輯工作帶來非常大的變革。
不僅如此,VideoPoet還能生成音頻,并能通過調(diào)節(jié)視頻的最后一秒預(yù)測并生成之后的一秒,并且能夠通過重復(fù)這一過程來生成任意時長的視頻,至于擴(kuò)展視頻就更不在話下,而這在視頻修復(fù)、視頻視頻擴(kuò)展方面有著非常重要的意義。
更令人眼前一亮的是,為了展示 VideoPoet 的功能,谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本由接入了Gemini的Bard編寫,整體式一個關(guān)于關(guān)于一只旅行浣熊的短篇故事,并附有逐個場景的分解和附帶的提示列表。然后,谷歌為每個提示生成視頻剪輯,并將所有生成的剪輯拼接在一起以生成下面的最終視頻。
VideoPoet生成視頻的部分截圖
相關(guān)研究團(tuán)隊將VideoPoet與其他視頻生成模型進(jìn)行了對比,用各種參數(shù)來評估VideoPoet在文本生成視頻方面的表現(xiàn),受訪者認(rèn)為VideoPoet中約24-35%的示例比競爭模型更好,而競爭模型的這一比例為8-11%。由于VideoPoet生成視頻的動作更有趣,評分者對VideoPoet提供示例41-54%表示了喜歡,而其他模型的這一比例則只有11-21%。
不難看出,VideoPoet不僅性能不錯,還在視頻制作、剪輯、修復(fù)等多個方面具有非常實際的作用,或許會成為補(bǔ)全生成式AI的最后一環(huán)。
不過如果以后在視頻平臺上看到的都是AI生成的視頻,恐怕還是有點驚悚。
下一篇: 英超利物浦前鋒若塔車禍身亡