今年春节,清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授被OpenAI推出的视频模型Sora所惊扰。他表示,之所以说“惊扰”,一方面是惊叹于Sora所表现的突出性能,另一方面是对OpenAI未开放的技术及不确定性未来突破的担忧。当时很多人问:什么时候会有类似Sora这样的长视频生成机制诞生?
近日在中关村论坛上,朱军代表清华大学与生数科技发布中国首个长时长、高一致性、高动态性视频大模型Vidu。朱军表示,Vidu的联合攻关可以被称为全栈自主创新的最新成果,在各个维度上实现了技术突破。包括可以模拟真实物理世界、具有想象力、理解多镜头语言,不再是简单的镜头推拉,可以一键生成长达16秒的视频。
此前,行业一度讨论“视频生成领域只有两种模型:OpenAI Sora模型,以及其他不是Sora的模型”,如今,该话题被Vidu打破。在多位行业人士看来,视频模型领域尚未形成先行者垄断局面,后发者在足够熟悉算法原理、积累丰富的工程化经验后,完全有可能追赶上Sora。
Vidu诞生历程
Sora之前,文生视频领域已有Runway、Pika、谷歌、Meta等企业推出相关产品,此次Vidu的面世也面临着相关产品的对比。
在朱军的演示中,除了Sora目前无法在线测验,Vidu与在线较为流行的Pika、RunwayGen-2等对比演示,后两者系统最高生成4秒短视频,对比来看,Vidu可生成16秒的视频,朱军认为Vidu对语义理解方面的表现更为突出。
朱军称,此前团队在扩散模型、贝叶斯深度学习等方面做了大量研究工作。Sora出来之后,团队刚好发现自己的技术路线和Sora高度一致,所以坚定推进进一步研究。2022年9月,团队推出首个Diffusion和Transformer融合架构U-ViT,而Sora团队是在三个月后发布的DiT架构。
在该路线上,朱军表示团队一直在进行大规模训练。2023年3月,团队开源了全球第一个基于融合的大模型UniDiffuser,首个验证了大规模训练和扩展的规律。其后Sora的出现刺激了团队的速度,第一时间紧急启动攻关,也向海淀区领导进行了汇报,当时得到了很多支持。两个月之后,Vidu得以展现。
朱军在现场表示,可能有人问,为什么能够在Sora发布后两个月的时间内实现突破?是不是技术层面比Sora简单?是不是就做了一个便宜的山寨货?
“通过梳理时间线,可以看出Vidu与Sora关键时间节点是错开的。”朱军表示,做Vidu过程中也遇到了很多困难,比如算力层面,2023年因受到算力局限,团队重点投入文生图,文生3D方面相对聚焦在计算量小一些的大模型开发工作上,侧重验证模型在规模变大之后的行为表现是什么。
朱军表示,Sora的技术路线与大语言模型不一样,主要以Diffusion Model为主,Transformer只是其中一部分,现在有很多误解说它是Transformer的一个分支,但实际上并不是,所以团队需要充分认识到算法原理的不同。另外,如何掌握模型架构规律,也有很多经验和见解在里面,包括大规模工程的实现等。
“当时训练UniDiffuser第一个版本时,用到的算力是去年年中训练同样模型的近40倍,团队半年时间将算力需求降低40倍。换句话说,团队用同样的算力可以训练40倍大的模型。另外长视频对计算的消耗,对分布式系统网络带宽的传输等都带来了新的挑战,这些都需要一点点攻关。同时还需要算力的支持,以及高质量数据的治理。”朱军表示,团队过去在图像、短视频方面积累的经验,诸多因素叠加在一起,才促成了最终的效果。
今年1月,团队实现4秒视频的生成,可以达到Pika、Runway的效果。3月底突破到8秒。虽然只有几秒的提升,但这在朱军看来是一个巨大的进步,验证了技术路线是正确的。4月,团队进一步加大力度。如今,Vidu对外展示的是16秒的成果,但朱军认为,在不远的将来,Vidu会以更快的速度迭代。
此外,之所以叫Vidu,一方面是Video的简称,代表视频,即视频大模型,另一方面它的谐音是We do,让外界看到要做的决心。“现在的进展还是初步的,希望与国内优质单位一起合作,共同推进技术的进步。”朱军表示。
Vidu估值已达1亿美元
Vidu背后的研发团队生数科技正式成立于2023年3月,由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化,前瑞莱智慧副总裁唐家渝出任首席执行官。2023年6月,公司完成近亿元人民币天使轮融资,由蚂蚁集团领投,BV百度风投、卓源资本跟投,投后估值达1亿美元。
启明创投合伙人周志峰表示,如今的大模型已从原来的纯语言模态逐步走向多模态的探索。生数科技从成立之初就选择多模态赛道,是国内这个领域起步最早、积累最深的团队,大量工作被OpenAI、Stable Diffusion团队引用。
生数科技创业团队核心成员来自清华大学人工智能研究院,其中首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组(清华大学计算机系自然语言处理与社会人文计算实验室)成员;CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成。
2023年完成融资后,唐家渝在接受媒体采访时表示,全球范围内来看,多模态大模型的研究仍处于起步阶段,技术成熟度还不高。这一点不同于火热的语言模型,国外已经领先了一个时代。因此,相比于在语言模型上“卷”,唐家渝认为多模态更是国内团队抢占大模型赛道的一个重要机会。
具体到对OpenAI的追赶,唐家渝称,目前国内追赶Sora较去年追赶ChatGPT相对来说容易一些,Sora相当于GPT-2阶段,并没有形成明显的先发或垄断优势。且底层架构生数团队非常熟悉。所以一旦团队积累够工程化经验,肯定有可能追赶上Sora。
至于将生数科技分拆运营,唐家渝表示主要有两方面的考虑:一是从业务的角度,瑞莱智慧的业务方向聚焦于安全可控的人工智能解决方案,如提升AI技术及应用的安全性、可靠性等,服务于B端客户,而生数聚焦在多模态大模型和应用开发,主要涉及C端产品,业务定位上有不同;二是大模型创业前期对资源投入需求是巨大的,独立分拆运营更加合适。
2024年1月,生数科技在旗下视觉创意设计平台PixWeaver上线短视频生成功能,支持4秒高美学性的短视频内容。2月Sora 推出后,生数科技内部成立了正式的攻坚小组,加快原本视频方向的研发进度,3月,内部实现8秒的视频生成,4月突破 16 秒生成,在生成质量与时长全方面取得突破。
技术路线上,Vidu采用与Sora 完全一致的Diffusion和Transformer融合架构。同时不同于采用插帧的多步骤处理方式来达到长视频的生成,Vidu采用的是和Sora一致的路线,即通过单一步骤直接生成高质量的视频。从底层来看,基于单一模型完全端到端生成,可实现一步到位,不涉及中间的插帧和其他多步骤的处理,文本到视频的转换是直接且连续的。
竞速AI长赛道
今年2月,OpenAI发布的视频模型Sora一经推出便引发市场震惊,中关村论坛上,北京智源人工智能研究院理事长黄铁军表示,这两个月大家都被Sora刷屏,但这个现象存在问题,几十段视频就让大家像追星一样一哄而上、铺天盖地,并非好现象。任何一个科技成功的产生都是长期积累的结果,即便是人工智能发展得这么快,没有之前的积累也很难做出优秀的成果。
抛去喧嚣表象,目前Sora在视频模型领域成为ChatGPT之后新的追赶标的。尽管Sora显示出远超同行的能力,但它并没有选择像Pika、Runway一样,开放给大众使用,而是采取与Google、Meta类似的保守策略,先官宣,慢慢内测,等待一个合适的时机再向大众开放。
易观分析研究合伙人陈晨表示,Sora没有对外开放主要基于几方面原因:一是考虑到文生视频技术是否会被滥用以及由此引发的安全性问题,OpenAI也许还需要进行一系列的安全性测试与优化调整;二是出于商业策略的考量,之前GPT在逐步开放之前也经过了4-6个月的内测,这可能都是由于OpenAI需要对模型实际运行的成本问题做前期评估。目前ChatGPT的运营成本已经非常高了,如果再加上Sora,成本恐怕会提升一个量级,所以OpenAI需要在产品开放前制定好相应的商业化路线。
目前国内很多企业都在相继布局视频大模型,据陈晨观察,主要分为三类:第一类是传统大厂,如字节跳动在视频领域布局已久,此前发布了高清文生视频模型MagicVideo-V2,此外像阿里云、腾讯、百度、讯飞等,除了在通用技术上继续向多模态大模型发力之外,也在面向行业开发一些应用于垂直领域的大模型。第二类是专门做视觉分析的厂商,比如海康威视等,已经开始投入到视频大模型的研发中。第三类包括一些专注内容开发、创意营销的厂商,比如昆仑万维、万兴科技等也研发了自己的视频大模型。
陈晨对记者表示,“从生成效果看,Vidu对语义的理解,视频的时长、质量、一致性等方面在国内文生视频领域已经做到了领先,另外Vidu在技术路线上和Sora类似,都采用单一模型端到端的生成方式,这也是视频流畅度和视觉表现看起来比较好的原因。”
但需注意的是,陈晨表示,与Sora相比,目前Vidu的时长、画面元素的丰富度、细节表现方面仍然有差距。不过,Vidu是一个阶段性的产物,模型能力的突破只是时间问题。至少Sora到现在还没有开放,原因可能是对实际任务的处理能力仍需要融合,以及资源、商业模式等多方面的问题。从这个角度上看,比起大语言模型,国内做视觉模型的起步是比较早的,技术和经验都有较深的积累,需要的是发挥国内产业链协同方面的优势,能够将多模态的能力落到B端和C端丰富的应用场景当中去。
对于国内AI企业寄希望于通过多模态实现弯道超车的问题,陈晨对记者表示,视频大模型在技术上的突破必定加速了AGI的进程,但AGI的关键还在于是否能自发地处理无限多任务,以及是否具备与人类一致的认知架构。此外,最近针对Sora也出现了不同的声音,有一部分专家并不认为Sora是真正可以通往AGI的道路。不过现在相对独立的技术路线在未来未必不会出现融合的情况,创造出真正智能且灵活可控的AGI模型。
至于到底谁先谁后,陈晨表示,以现在的模型迭代速度来看,谈谁超越谁其实都是暂时性的,AI的发展不是此消彼长,一定会是共同进步的结果。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者吕倩
相关阅读 智源评测了100多个大模型:头部模型接近国际一流,但还存在“偏科”在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但仍存在着能力发展不均衡的情况。
昨天 20:22 OpenAI重磅发布最新大模型 多模态能力有望融入更多应用场景北京时间5月14日凌晨,OpenAI发布最新多模态大模型“GPT-4o”,支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。
05-14 19:18 微软亚洲研究院副院长邱锂力:无线通信和感知与AI大模型正双向赋能可以预见的是大模型在无线通信领域的应用将越发广泛,而无线通信的发展也将为大模型的应用带来更多可能。
05-11 13:19 无需注册!OpenAI宣布放开ChatGPT使用限制全球185个国家超过1亿人每周使用ChatGPT。
04-02 07:27 热市追踪丨低空经济概念火热 艾艾精工13连板Sora概念持续活跃股票配资合法吗?,Kimi横空出世点燃AI板块;低空经济概念股永悦科技8连板。
03-21 16:29 一财最热 点击关闭