清華大學(xué)聯(lián)合生數(shù)科技正式發(fā)布了中國首個高一致性、高動態(tài)性視頻大模型Vidu。從放出的視頻來看,Vidu生成的視頻效果非常驚艷,在一致性、運(yùn)動幅度等方面已經(jīng)達(dá)到了Sora的水準(zhǔn),雖然比不上Sora的時(shí)長,但整體上已經(jīng)可以對標(biāo)Sora。
Vidu:“畫室里的一艘船駛向鏡頭”
Sora:“逼真的特寫視頻,展示兩艘海盜船在一杯咖啡內(nèi)航行時(shí)互相爭斗的場景。”
不過,無論是Sora還是Vidu,目前都還沒有正式發(fā)布,而且除了視頻生成的時(shí)長以外,成功率、質(zhì)量對于視頻生成大模型而言也是非常重要,所以真實(shí)差距或許還有待日后仔細(xì)比較。但無論Sora還是Vidu,其更大的意義還是在于采用了新的技術(shù)。
據(jù)了解,目前市面上很多視頻生成工具增加視頻長度的思路是采用插幀技術(shù),這種方法通過在原始視頻幀之間插入額外的幀來提升視頻的流暢度和長度,還有一些工具則主要通過組合不同的模型和技術(shù)來生成較長的視頻,在一些較為簡單的視頻動畫制作中,已經(jīng)呈現(xiàn)出了非常不錯的效果。
此前央視制作的文生視頻AI動畫《千秋詩頌》
但與此同時(shí),這兩種方式都可能會在內(nèi)容的流暢性和視覺表現(xiàn)上顯得不夠連貫,缺乏自然的過渡效果,還會出現(xiàn)畫質(zhì)下降,尤其是在快速運(yùn)動或陰影處理上的扭曲和模糊等一系列問題。
而Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架構(gòu),底層基于生數(shù)自研的U-ViT架構(gòu),是第一個融合了Diffusion和Transformer的架構(gòu),據(jù)稱比Sora的DiT架構(gòu)早了一年。生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝表示,生數(shù)科技在3月份就實(shí)現(xiàn)了8秒的視頻生成,在4月突破16秒,未來還將繼續(xù)加速迭代。
公開數(shù)據(jù)顯示,生數(shù)科技成立于2023年3月,核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院,還有來自北京大學(xué)、阿里巴巴、騰訊、字節(jié)跳動的多位技術(shù)人才。公司員工總數(shù)近90% 為研發(fā)人員。
去年6月,生數(shù)科技獲得螞蟻集團(tuán)、BV百度風(fēng)投、卓源資本的近億元天使輪融資;8月,完成了數(shù)千萬元天使+輪融資;今年3月,生數(shù)科技完成新一輪數(shù)億元融資,由啟明創(chuàng)投領(lǐng)投,達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲繼續(xù)跟投。在三輪融資總計(jì)數(shù)億元人民幣的資本加持下,生數(shù)科技已成為目前國內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。
頂: 25864踩: 95798
清华团队“国产Sora”效果惊艳,背后创业公司已融资数亿元
人參與 | 時(shí)間:2025-08-02 02:21:37
評論專區(qū)
相關(guān)文章
- 華裔青少年四川尋根:大熊貓故鄉(xiāng)續(xù)寫文化鄉(xiāng)愁
- 英偉達(dá)RTX 50系顯卡功耗曝光:旗艦暴增50W,中端不再甜品
- 為ACG用戶展現(xiàn)黑科技魅力 索尼將Sony Expo搬進(jìn)BW2024
- 為ACG用戶展現(xiàn)黑科技魅力 索尼將Sony Expo搬進(jìn)BW2024
- 長三角氣溫繼續(xù)攀升 多地紀(jì)錄刷新
- 佰維存儲產(chǎn)品齊聚BW2024:涵蓋內(nèi)存、SSD和移動存儲,高性能與顏值兼具
- 雷軍:小米MIX Fold 4 / Flip即將發(fā)布,請叫我“雷廠長”
- 不藏了!華為解除線下宣傳麒麟芯片的禁令
- 中新健康丨專家:需多方合力構(gòu)建慢病科普生態(tài)
- 繼續(xù)加碼無人駕駛,深圳宣布年內(nèi)推廣20臺自動駕駛公交車