當(dāng)前位置：

或许是最有商业价值的AI，谷歌发布VideoPoet，可从0直接生成视频

時間:2025-08-02 20:05:44 出處:百科閱讀（143）

今年無疑是生成式AI最火爆的一年，文字對話有ChatGPT、Gemini等，圖片生成有midjourney、DALL-E等，在這之后不少廠商將目光投入到了生成式AI的最后一個關(guān)卡——視頻生成。如今看來，這一領(lǐng)域也出現(xiàn)了突破，那就是這款名為VideoPoet的大語言模型。

據(jù)了解，這款名為VideoPoet的大語言模型之所以被認(rèn)為是從0生成視頻的革命性視頻生成工具，主要就在于它不僅可以以文生視頻、以圖像生成視頻，還能根據(jù)需要進(jìn)行風(fēng)格遷移也就是將一種風(fēng)格的視頻轉(zhuǎn)換到另外一種風(fēng)格，根據(jù)文本指令的提示進(jìn)行交互式視頻編輯，可能會給視頻剪輯工作帶來非常大的變革。

不僅如此，VideoPoet還能生成音頻，并能通過調(diào)節(jié)視頻的最后一秒預(yù)測并生成之后的一秒，并且能夠通過重復(fù)這一過程來生成任意時長的視頻，至于擴(kuò)展視頻就更不在話下，而這在視頻修復(fù)、視頻視頻擴(kuò)展方面有著非常重要的意義。

更令人眼前一亮的是，為了展示 VideoPoet 的功能，谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本由接入了Gemini的Bard編寫，整體式一個關(guān)于關(guān)于一只旅行浣熊的短篇故事，并附有逐個場景的分解和附帶的提示列表。然后，谷歌為每個提示生成視頻剪輯，并將所有生成的剪輯拼接在一起以生成下面的最終視頻。

VideoPoet生成視頻的部分截圖

相關(guān)研究團(tuán)隊將VideoPoet與其他視頻生成模型進(jìn)行了對比，用各種參數(shù)來評估VideoPoet在文本生成視頻方面的表現(xiàn)，受訪者認(rèn)為VideoPoet中約24-35%的示例比競爭模型更好，而競爭模型的這一比例為8-11%。由于VideoPoet生成視頻的動作更有趣，評分者對VideoPoet提供示例41-54%表示了喜歡，而其他模型的這一比例則只有11-21%。