清華大學(xué)聯(lián)合生數(shù)科技正式發(fā)布了中國首個高一致性、高動態(tài)性視頻大模型Vidu。從放出的視頻來看,Vidu生成的視頻效果非常驚艷,在一致性、運(yùn)動幅度等方面已經(jīng)達(dá)到了Sora的水準(zhǔn),雖然比不上Sora的時長,但整體上已經(jīng)可以對標(biāo)Sora。
Vidu:“畫室里的一艘船駛向鏡頭”
Sora:“逼真的特寫視頻,展示兩艘海盜船在一杯咖啡內(nèi)航行時互相爭斗的場景。”
不過,無論是Sora還是Vidu,目前都還沒有正式發(fā)布,而且除了視頻生成的時長以外,成功率、質(zhì)量對于視頻生成大模型而言也是非常重要,所以真實(shí)差距或許還有待日后仔細(xì)比較。但無論Sora還是Vidu,其更大的意義還是在于采用了新的技術(shù)。
據(jù)了解,目前市面上很多視頻生成工具增加視頻長度的思路是采用插幀技術(shù),這種方法通過在原始視頻幀之間插入額外的幀來提升視頻的流暢度和長度,還有一些工具則主要通過組合不同的模型和技術(shù)來生成較長的視頻,在一些較為簡單的視頻動畫制作中,已經(jīng)呈現(xiàn)出了非常不錯的效果。
此前央視制作的文生視頻AI動畫《千秋詩頌》
但與此同時,這兩種方式都可能會在內(nèi)容的流暢性和視覺表現(xiàn)上顯得不夠連貫,缺乏自然的過渡效果,還會出現(xiàn)畫質(zhì)下降,尤其是在快速運(yùn)動或陰影處理上的扭曲和模糊等一系列問題。
而Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架構(gòu),底層基于生數(shù)自研的U-ViT架構(gòu),是第一個融合了Diffusion和Transformer的架構(gòu),據(jù)稱比Sora的DiT架構(gòu)早了一年。生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝表示,生數(shù)科技在3月份就實(shí)現(xiàn)了8秒的視頻生成,在4月突破16秒,未來還將繼續(xù)加速迭代。
公開數(shù)據(jù)顯示,生數(shù)科技成立于2023年3月,核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院,還有來自北京大學(xué)、阿里巴巴、騰訊、字節(jié)跳動的多位技術(shù)人才。公司員工總數(shù)近90% 為研發(fā)人員。
去年6月,生數(shù)科技獲得螞蟻集團(tuán)、BV百度風(fēng)投、卓源資本的近億元天使輪融資;8月,完成了數(shù)千萬元天使+輪融資;今年3月,生數(shù)科技完成新一輪數(shù)億元融資,由啟明創(chuàng)投領(lǐng)投,達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲繼續(xù)跟投。在三輪融資總計數(shù)億元人民幣的資本加持下,生數(shù)科技已成為目前國內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。
頂: 983踩: 6456
清华团队“国产Sora”效果惊艳,背后创业公司已融资数亿元
人參與 | 時間:2025-08-02 02:09:51
評論專區(qū)
相關(guān)文章
- 浙江稠州職業(yè)籃球俱樂部簽約美籍球員布蘭登·蘭道夫
- 索尼與富士注冊新相機(jī) 或?yàn)锳7C Mark II和X
- 換裝插混動力 全新AMG E63明年亮相
- 疑似驍龍8cx Gen 4規(guī)格泄漏:臺積電N4工藝,峰值頻率3.4GHz
- 外媒記者訪青海“問”綠色發(fā)展
- 奇瑞或?qū)⒔邮执?自由家NV有望卷土重來
- 蘋果或在2024年推出無接口iPhone,庫克:價格更高但消費(fèi)者愿意花錢
- 一加Pad海外發(fā)布,搭載天璣9000處理器,配備9510mAh電池
- 東西問|齊延平:回望古典思想雙峰 開啟人權(quán)新敘事
- 輪到谷歌慌了?微軟推出采用ChatGPT的必應(yīng)搜索和Edge瀏覽器