【AI】中國「Sora級」影片大模型 Vidu 製作具中國特色影片
Unwire
日前中國中關村人工智能論壇中,清華大學聯合生數科技宣布推出Vidu--中國首個 Sora 級的影片製作人工智能模型,標誌著中國國產自研人工智能在影片技術領域取得了重大突破。


該模型展示了其在時空一致性、多鏡頭生成能力方面的優勢,能夠根據文字描述,直接生成高達 1080P 解像度長達 16 秒的影片。
Vidu 採用了由清華大學聯合生數科技團隊自研的 U-ViT 架構,此架構融合了 Diffusion 技術與 Transformer 技術。生數科技首席科學家朱軍教授指,這一架構能夠支援影片內容的快速生成,並強調這是全球首個此類融合架構,完全由團隊自主研發。


Vidu 能夠模擬真實物理世界,同時展示豐富的想象力,例如生成具有特定中國文化標誌的影片,如熊貓、龍等。朱軍指出,Vidu的命名寓意著「Video」和「We do」,強調團隊的創新和實際執行力。他還提到,自Sora發佈以來,團隊在影片長度和處理技術方面進一步突破,大幅提升影片的連貫性和動態性。
朱軍教授表示,Vidu的推出是一個多維度、跨領域的綜合成果,期待通過與產業鏈各方面的深入合作,共同推動影片製作大模型技術的進一步發展。
日前中國中關村人工智能論壇中,清華大學聯合生數科技宣布推出Vidu--中國首個 Sora 級的影片製作人工智能模型,標誌著中國國產自研人工智能在影片技術領域取得了重大突破。


該模型展示了其在時空一致性、多鏡頭生成能力方面的優勢,能夠根據文字描述,直接生成高達 1080P 解像度長達 16 秒的影片。
Vidu 採用了由清華大學聯合生數科技團隊自研的 U-ViT 架構,此架構融合了 Diffusion 技術與 Transformer 技術。生數科技首席科學家朱軍教授指,這一架構能夠支援影片內容的快速生成,並強調這是全球首個此類融合架構,完全由團隊自主研發。


Vidu 能夠模擬真實物理世界,同時展示豐富的想象力,例如生成具有特定中國文化標誌的影片,如熊貓、龍等。朱軍指出,Vidu的命名寓意著「Video」和「We do」,強調團隊的創新和實際執行力。他還提到,自Sora發佈以來,團隊在影片長度和處理技術方面進一步突破,大幅提升影片的連貫性和動態性。
朱軍教授表示,Vidu的推出是一個多維度、跨領域的綜合成果,期待通過與產業鏈各方面的深入合作,共同推動影片製作大模型技術的進一步發展。
6 个评论
Vidu 採用了由清華大學聯合生數科技團隊自研的 U-ViT 架構,此架構融合了 Diffusion 技術與 Transformer 技術
先不說畫面比較粗糙,比不上Sora以假亂真的程度。
但Diffusion和Transformer已經是開源的技術,的確將相關技術融合都是要能力,但那都不是真的可以用作炫耀的事。
又是用外國開源的技術來自主研發?拿著外國開源的技術,外國的晶片來用作運算然後大吹特吹遙遙領先?
>>又是用外國開源的技術來自主研發?拿著外國開源的技術,外國的晶片來用作運算然後大吹特吹遙遙領先?
自己都說『融合了 Diffusion 技術與 Transformer 技術』都是外國開源的模組,勉強應付到領導算。
但對比還未公開的Sora,真是開個世界。
中国龙都变成外国恶龙了
別人一開源
立馬就自研
立馬就自研
中国制造的秘诀就在于别人开源,怎么制造的不用我说了吧(笑)。