绿茶通用站群绿茶通用站群

中国版Sora来了!清华打造!背后创业公司已融资数亿 元

中国版Sora来了!清华打造!背后创业公司已融资数亿 元

时隔两个(gè)月,清华(huá)团(tuán)队打造(zào)了一(yī)个中国版的Sora视频大模型。

4月(yuè)27日,在中关村论(lùn)坛未(wèi)来人(rén)工智能先锋(fēng)论坛上,中国首个长(zhǎng)时(shí)长、高一致性、高动态性视(shì)频大(dà)模型Vidu正(zhèng)式发布。这(zhè)一模型由清华大学和大(dà)模型创业公司生数科技联合发布,可以一(yī)键生成长度达16秒、分辨(biàn)率为1080P的高清视频内容。

证券时报记者独家获(huò)悉,清华大学人工智能研究院副院长、生数科技首席科(kē)学(xué)家朱军(jūn)在Vidu发布后(hòu)发声(shēng)表示:“Vidu,we do, we did, we do together!感谢小(xiǎo)伙伴们日以继夜的坚持,在(zài)实验室(shì)架构上开花结果。”据介绍,这也是自OpenAI发布Sora以后,全球率先取得(dé)重大突破的视频大(dà)模型。

Sora发布后,行业内一直有团队(duì)宣称要追赶和复现Sora,而Vidu团队用两个月的时间(jiān)率先 跑出(chū)来。记者梳理发(fā)现,生数科技 在多模态大(dà)模型领域 已经有较深的积累,也是(shì)目前多模态大模型赛道估值最高的初创公司之一(yī)。目前公司已完成三轮(lún)融(róng)资,融资额达数亿元人民币,投资方包括启明创投、智谱AI、BV百(bǎi)度风投、锦秋(qiū)基金等(děng)一众机构(gòu)。

对标Sora,生成视频连贯高清

“画室里的(de)一艘(sōu)船驶向(xiàng)镜头”,只需(xū)要输入这样一句简单的指令,即可以生成效(xiào)果逼真、镜(jìng)头连贯的一段视频。在 生数科技发布的Vidu模型(xíng)生成视频(pín)样片中,视频的整体质感几乎可与Sora相(xiāng)媲美。

据生数科技介绍,Vidu模型采用团队原(yuán)创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长(zhǎng)达16秒、分辨率(lǜ)高达1080P的高清视频内容。“U-ViT架构早(zǎo)在2022年9月就由团(tuán)队提(tí)出,早于Sora采用(yòng)的DiT架构,是全球首个Diffusion与Transformer融合的架构。”生数科技表示。

记者注意到,今(jīn)年3月生数科技完(wán)成新一轮融资(zī)后,公司就公开表示,虽然Sora的出(chū)现表明美国在多模态大模型领(lǐng)域(yù)具有领(lǐng)先性,“但中(zhōng)国(guó)也并(bìng)非完全从零开始(shǐ)的阶段”。据(jù)介绍,朱军在2023年(nián)1月就(jiù)提(tí)出(chū)了基于Transformer的多模(mó)态扩散(sàn)大模型UniDiffuser,采用了U-ViT,该架(jià)构与Sora的架构路线完全一(yī)致,区别(bié)在于UniDiffuser主要应用于图(tú)像生成任(rèn)务(wù),但也可以以此为基础进 行视(shì)频(pín)任务的拓展(zhǎn)。

正是基于在机(jī)器学习(xí)和多模态大模型的长期积累,团队才能够在短短的(de)两个(gè)月时间里(lǐ)突(tū)破(pò)了长视频表示与处理的多项 关键技术,成功研(yán)发推出Vidu视频大(dà)模型。朱军在Vidu模型(xíng)发(fā)布现场表示,Vidu主要有以下方面的特点与优势:

一是模拟真实物理世界,可以生成复杂、细节丰富的场景,光(guāng)影效果与人物表情都能够符合真实的物理规律。

二是富有 想象力,可以虚构场(chǎng)景(jǐng)以及想象(xiàng)超现实主义的画面。

三是具有多镜头语言,不(bù)再局限于固定镜头,能够在遵(zūn)循(xún)主体一(yī)致(zhì)性的(de)情况下实现远(yuǎn)景、近景、中景、特写等不同镜头的动态切换,还可以实现长镜头、追焦等效果。

四是有出色的视频时长,能支持16秒长度的视(shì)频生成,保持镜头和(hé)主 体的连贯一致。

五是能理解中国元素,可(kě)以更(gèng)好地理解生成熊猫、龙等富有中国文化特色的形(xíng)象(xiàng)。

Vidu生(shēng)成的龙、熊猫等中国文化元(yuán)素视频

背后团队来自清华,已融 资数 亿元

Vidu的背后,是一(yī)家来自清华的明(míng)星创业公司生数科(kē)技。

公开资(zī)料显示,生数科技成(chéng)立于2023年3月,核心成(chéng)员来自清华大学人(rén)工智能研究院,致力于自(zì)主研发世界领先的可控多模态通用大模型。公司的CEO本硕就读于清华大学计算机系的唐家渝,首席科(kē)学家由清华人工智能研究院副院长朱(zhū)军担任,CTO鲍 凡则是清华大学计算(suàn)机系(xì)博(bó)士生、朱军教授的课(kè)题组(zǔ)成员,长期关注扩散模型(xíng)领域研究。

记者注意到,今年3月,唐家渝曾(céng)在沟通(tōng)会上向媒体表示,今年内公司的大模(mó)型一(yī)定能达到Sora目前版本的效果,“但很难说是三个月还是半年”。然而,Vidu却提前交出(chū)了一份(fèn)令(lìng)人惊艳的考卷,这主要得益(yì)于团(tuán)队是国内最早布局多模态(tài)大模型的团队 之一,多年以来在这一领域形成了深厚的积累。

据唐家渝介绍,生数科技 目前采取模型(xíng)层和应(yīng)用层两条路(lù)走(zǒu)路的模式。一方面,构建(jiàn)覆盖文本(běn)、图像、视(shì)频、3D 模型等 多模态能力的底层通用大(dà)模(mó)型,面向B端提供模型服务能力;另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应(yīng)用方向(xiàng)主要是游戏制(zhì)作、影视后期等(děng)内容创作场景。

记者梳理发(fā)现,生数(shù)科技自成立以来(lái)就备受资本关注。天眼查数据显示,生 数科(kē)技目 前共完(wán)成3轮融资。2023年6月,完成近亿元人民币天使轮融资,投资(zī)方包括蚂蚁集团、BV百度风(fēng)投、卓源亚洲、卓源资(zī)本;2023年8月,完成数千万人民币天(tiān)使+轮(lún)融资,投资(zī)方为锦秋基金(jīn);2024年3月,完成数亿元人民币A轮融资,投资方除(chú)了启明创投、达(dá)泰资本、智谱AI等新机构以外,还有BV百度风投、卓源亚洲两个老股东。

在(zài)三轮融资总计数(shù)亿元人民币(bì)的(de)资本加(jiā)持 下,生数(shù)科技已成为目前国(guó)内多模态(tài)大(dà)模型中估值最高的初创公(gōng)司之一。生数科技(jì)表示,Vidu的问世不仅是(shì)U-ViT融合架构在大规模视觉任务中的(de)又一次(cì)成功(gōng)验证,也代表了生数科技在(zài)多(duō)模态原生大模型领域的持续创新能力(lì)和领(lǐng)先(xiān)性。

责编:朱雨蒙

校对:冉(rǎn)燕青(qīng)


时(shí)隔两个月,清华团队打造了一个中国(guó)版(bǎn)的Sora视频大 模型(xíng)。

4月27日,在中关村论坛未来人工智能先锋论坛上(shàng),中国首个(gè)长时长、高一 致性、高动态性视频大模型Vidu正式发布。这一(yī)模型由清华大学和(hé)大(dà)模型创业公司(sī)生数科技(jì)联合发布(bù),可以 一键生成长度达16秒、分辨率为1080P的高清(qīng)视频内容(róng)。

证券时报记 者独家获悉,清 华(huá)大学人工智能研究院副院长、生数(shù)科(kē)技首席科学家朱(zhū)军在Vidu发布后发(fā)声表示:“Vidu,we do, we did, we do together!感(gǎn)谢小伙伴们日以继夜的坚持,在实验室架构上开花结果(guǒ)。”据介绍(shào),这(zhè)也是自OpenAI发布Sora以后,全球率先取得重大突破的视频大模型。

Sora发布后,行(xíng)业内一直有团(tuán)队宣称要追赶和复现(xiàn)Sora,而Vidu团队用两个月的时间率先跑出来。记者梳理发(fā)现(xiàn),生数科技在多模态大模型领(lǐng)域 已经(jīng)有较深的积累,也是目前(qián)多模态大模型赛道估值最高的初创(chuàng)公司之一。目前公司已(yǐ)完成三轮融(róng)资,融资额(é)达数亿元人民币,投资方包括启明创投、智谱AI、BV百(bǎi)度风投、锦秋(qiū)基金(jīn)等一众机构。

对 标Sora,生成视频连贯高清

“画室里的一艘船驶向镜头”,只需(xū)要输(shū)入这样一句简单的指令,即可以生成效果逼真(zhēn)、镜头连(lián)贯的一段视频。在生数科技发布的(de)Vidu模(mó)型生成视频(pín)样片(piàn)中,视频(pín)的整体质(zhì)感几乎可与Sora相媲美。

据生数科技介绍(shào),Vidu模型(xíng)采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持(chí)一键生成长(zhǎng)达16秒、分辨率高达1080P的高清视频内容。“U-ViT架构早在2022年9月就由团队(duì)提出,早于Sora采用的(de)DiT架构,是全球首个(gè)Diffusion与Transformer融合的架构(gòu)。”生数科技表示。

记者注意到,今年3月生数科技完成新(xīn)一轮融资后,公司就公开(kāi)表示,虽然Sora的出现表(biǎo)明美国在多(duō)模 态大模型领域具有领先(xiān)性(xìng),“但中国也并非完(wán)全(quán)从零开始的 阶段”。据介绍(shào),朱军在(zài)2023年1月就(jiù)提出了基于Transformer的多模态扩散大模型UniDiffuser,采用了(le)U-ViT,该架构与Sora的架构(gòu)路线 完全(quán)一致(zhì),区别在于UniDiffuser主要(yào)应用于图像生成任务,但也可以以此(cǐ)为基础进行视频任(rèn)务的(de)拓展。

正(zhèng)是基于在机器学习和多模态(tài)大模型的长期积累,团(tuán)队才能 够在短短的两个月时间里突破(pò)了长视频表示与处理的多(duō)项关键技术,成功研发推出Vidu视频大模型 。朱军在Vidu模型发布现场表示,Vidu主要有以下方面的特(tè)点与 优势:

一是模拟真实物理世界,可以生(shēng)成复(fù)杂、细节丰富的场景,光影(yǐng)效(xiào)果与(yǔ)人物表(biǎo)情都能(néng)够符合真实的物理规律。

二是富有想象力,可以(yǐ)虚构场(chǎng)景以及想象超现实主义的画(huà)面(miàn)。

三是(shì)具有多镜(jìng)头语(yǔ)言,不再局限于固定镜头(tóu),能够在遵循主体一致性的情况下实现远景、近景、中景、特(tè)写等不同镜头的动态切换,还可以实现长镜头、追焦等效果。

四是有出色(sè)的视频时长 ,能支持16秒长度(dù)的视频生成,保持镜(jìng)头和主体的连贯一致。

五(wǔ)是能理解中国元(yuán)素,可以更好(hǎo)地理解(jiě)生成熊猫(māo)、龙等富有中国文化特色的形(xíng)象。

Vidu生成的龙、熊猫等中国文化元素(sù)视频

背(bèi)后团队(duì)来自清华,已融(róng)资(zī)数亿元

Vidu的背后,是一家来自清华的明星创业公司生数科技。

公开资料显(xiǎn)示,生数科技(jì)成立于2023年3月,核(hé)心成员来(lái)自清(qīng)华大(dà)学人工智能(néng)研究院,致力于自主研发世界领(lǐng)先的可控(kòng)多模态通用大模型。公司的CEO本硕就读于清华(huá)大学计算(suàn)机系的唐家渝,首席科(kē)学家由清华人工智能研究院副院长朱军担任,CTO鲍凡则是(shì)清华大学计(jì)算机系博士生、朱军教授的(de)课题组成员(yuán),长(zhǎng)期关注(zhù)扩散模型领域研究。

记(jì)者注意(yì)到,今年3月,唐(táng)家渝曾 在沟通会上向媒体表示,今年内公司的大模型一定 能达到Sora目前版本的(de)效果,“但很难说是(shì)三(sān)个月还是半年”。然而,Vidu却提前交出了一份令人惊艳的考(kǎo)卷,这主要得益(yì)于团队(duì)是国内最(zuì)早布局多模态大模型的团队之一,多年以来(lái)在(zài)这一(yī)领域(yù)形成了深厚的积累。

据唐家渝介绍 ,生数(shù)科技目前采取模型层和应(yīng)用层两条路走路的模式。一方面(miàn),构建覆盖(gài)文本、图像(xiàng)、视频(pín)、3D 模型等多模态能力的(de)底 层通用大(dà)模型,面向 B端提供模型服(fú)务能力;另一方面,面向图像(xiàng)生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应 用方向主要是游戏(xì)制作(zuò)、影视后(hòu)期 等内容创(chuàng)作场景。

记者梳理(lǐ)发现,生数科技自成立以来就备(bèi)受资本(běn)关注。天眼查数据显示(shì),生数科技目前共完成3轮融资(zī)。2023年6月,完成近亿元人民(mín)币天使轮融(róng)资,投资方(fāng)包(bāo)括蚂蚁集团、BV百度风投、卓源亚洲、卓源资(zī)本;2023年8月,完成数千万(wàn)人民币天使+轮(lún)融资,投资方为锦秋基金;2024年3月,完成数亿(yì)元(yuán)人民币A轮融资,投资方除(chú)了启明(míng)创投、达泰资(zī)本、智谱AI等新机构以外,还有BV百度(dù)风投 、卓源亚(yà)洲两个老股东。

在三轮融资总 计数亿元人民币的资本加(jiā)持下,生数科技已成(chéng)为目前国内(nèi)多模态(tài)大模型中估值最高(gāo)的初(chū)创公(gōng)司之一。生数科技表示,Vidu的(de)问世不仅是U-ViT融合(hé)架(jià)构在 大规模视觉任务中的(de)又一次成功(gōng)验证,也(yě)代(dài)表了生数科技在多模态(tài)原(yuán)生大模型领域的持续(xù)创新能力和领先(xiān)性。

责(zé)编:朱雨蒙

校对(duì):冉燕(yàn)青

多家北交所公司一季度业绩大增!公募基金频现加仓


2024证券时报“寻(xún)找创投‘金鹰(yīng)’、发(fā)现企(qǐ)业‘新苗’”计划隆重启(qǐ)幕,点亮时代梦想、绽放时代光芒(máng)。

点(diǎn)击海报即可报名,速(sù)戳↓↓↓

版权(quán)声明

证券时报各平 台所有原创内容,未经书 面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责(zé)任的权利。

转载与合作可 联系证券时报小助理,微信ID:SecuritiesTimes

END

点击关键字可查看(kàn)

潜望系列深度报道丨股事会专栏投资小红书e公司调查时(shí)报会客厅(tīng)十大明星私募访谈丨百亿私募最新持仓(cāng)揭晓(xiǎo)丨(gǔn)国常会重磅丨 重磅!吴清带队调研(yán),连开5场(chǎng)座谈会!丨 事关A股 !财政部、税务总局发布(bù)!丨巨头锁定退市!从包工队起家(jiā),年销售额曾超2000亿元A股、港(gǎng)股爆(bào)发!“牛市旗手”大涨最(zuì)新!央行在《人民日报》发文(wén)丨(gǔn)超(chāo)级并(bìng)购!澳(ào)洲矿业巨头鲸吞英美资源集团,报价超2800亿又一A股锁定退市!女老板曾伙同私募,操(cāo)纵交易800亿(yì)元(yuán),却倒亏2.38亿

未经允许不得转载:绿茶通用站群 多家北交所公司一季度业绩大增!公募基金频现加仓

评论

5+2=