继年初AIGC软件A股上市公司万兴科技发布万兴天幕音视频多媒体大模型(以下简称“天幕”大模型)仅仅过去不到一个月,OpenAI推出了文生视频大模型Sora,将视频生成大模型的议论引入高潮。
仅需输入一段文本,Sora就能自动生成长达一分钟的高清视频。特别之处在于,Sora不仅可以准确理解文本需求,还能据此展示连贯、逼真、遵循物理规律的画面,例如海盗船在液体中的运动状态、霓虹环境中的光线和阴影变化,动物身上流畅的毛发纹理等等,一镜到底的效果和分镜的切换也十分自然。
Sora官网功能
发布后的一周,Sora不仅牢牢占据着各大科技媒体平台头条,马斯克、Runway CEO瓦伦祖拉、Stability CEO莫斯塔克、Meta首席AI科学家杨立昆等业界大咖也纷纷加入讨论,360董事长周鸿祎更是直言“Sora的诞生意味着AGI的实现可能从十年缩短至一两年。”
总体而言,Sora之所以能引发全球范围的讨论和关注,主要在于其展示了两大颠覆性潜力:一是极大降低视频制作门槛,让普通人能够借助自然语言轻松完成复杂视频的创作;二是OpenAI特别指出Sora是AI可以“理解和模拟真实世界的基础”,有望发展为“世界的模拟器”。
洪水般的讨论声中,业界对于Sora是否具备成为“世界模拟器”的能力议论纷纷,相较之下,当人们将其看作一种内容生产工具时,Sora大幅提升视频创作效率的能力却很少遭到驳斥。
Sora 究竟是不是“世界模拟器”仍未可知。不过,在全球目光的注视下,Sora已然带领AI视频生成能力实现了一次重要跃迁,正如万兴“天幕”大模型发布会上,万兴科技董事长吴太兵断言,“大模型正在从图文时代1.0加速进入以音视频多媒体为载体的2.0时代。”
视频生成领域迎来“GPT时刻”
实际上,正如ChatGPT不是史上第一个AI对话程序,Sora也并非业界首个文生视频大模型,但这并不影响Sora在视频时长、画面精细度、场景真实性、动作连贯性等方面拥有“断层式”优势,从而将视频生成领域推向“GPT时刻”。
这一时刻的到来,意味着视频生成技术实现了质变与平权化,进而直接为视频内容创作以及游戏、教育、娱乐、广告营销等行业带来革命性变化。
首先,业界的一个普遍观点是,Sora将首先对短视频行业产生冲击,一方面淘汰同质化的短视频创作者,一方面利好优质内容创作。
从技术门槛的降低来看,每个人都能够轻松制作一个60秒的高质量短视频,将导致那些凭借简单拍摄和视频剪辑获取关注的创作者不再具备竞争力,而当这类短视频将因激增走向过剩,以创意、个性化、深度为优势的内容价值将再次突显。从内容生产成本来看,优质创作者也能突破以往在资源与资金方面的限制,获得想象力的解放,同时将更多精力聚焦在优质内容的构思上,打造丰富多元的高品质内容。
与短视频行业相似的是,电影行业也有望因AI视频生成技术的质变而更加多彩。
从首支AIGC动画短片《犬与少年》到使用Runway的《瞬息全宇宙》,再到全球首部AI动画电影《愚公移山》,电影行业应用AI技术早已不是新鲜事。正如CGI永远改变了好莱坞,Sora所代表的AI视频生成技术也将作为强大的效率工具,帮助影视制作公司缩减制作人力物力成本与制作周期,为电影艺术扩展新的空间。
《犬与少年》
与此同时,视频创作效率的提升,还将直接对游戏行业、教育行业、泛娱乐营销等行业的内容生产环节产生影响。例如,AI视频生成技术能够节省在游戏风格探索、人物原型化与可视化阶段的试错时间和成本,可以通过将文本信息与视觉内容相结合帮助教育工作者用更生动的方式教授更复杂的知识概念,品牌与广告商也能更高效地制作更具视觉吸引力的广告,让更多天马行空的创意视频在营销活动中落地。
不过,Sora即将掀起的这场效率革命也引发了一系列关于视频信息伪造、版权保护、个人隐私与数据安全的争议和担忧。就在Sora发布前不久,香港媒体就报道了一起规模庞大的AI“深伪”诈骗案,该案件正是通过AI技术实现“多人变脸”,加大了普通人辨别视频真实性的难度,从而让不法分子有机可乘。因此,当我们回归现实,从应用监管、风险把控、道德伦理等层面来看,Sora其实都还有很长一段路要走。
“中国版Sora”还有多远?
Sora问世后,中国科技圈又掀起了一阵“AI焦虑”:中美在AI领域的差距究竟有多大?为什么最先做出Sora的不是中国?某大厂AI算法工程师更在知乎上写下一句流传甚广的悲观论调:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。”
不过,正如万兴科技副总裁朱伟所指出,“Sora带来的机会是大于挑战的。”Sora也许是疾驶而过的火车,但也可能是为全球视频生成模型发展开路的“火车头”。
客观来看,中国科技公司(或者说除OpenAI以外的所有科技公司)与OpenAI确实存在较大差距,但并非完全没有追赶的机会。就底层技术而言,算法、数据、算力,将成为中国视频生成大模型蓄力追赶的三大板块。
朱伟表示,“首先是大模型算法开发,即便他人推出的是开源大模型,但很多细节算法仍需要我们自己去深入研究才能补上;其次是数据,当前围绕中国本土的数据还不算太多,中文大数据还需要很长时间的清洗和积累,考虑到目前Sora对于中国元素和对中文的理解仍比较缺乏,这或许可以成为国产视频大模型一个弯道超车的重要机会;第三是算力,对于视频来说,需要几亿甚至几十亿数量级的训练,在美国对于中国算力特别是训练算力的封杀下,算力本土化应该会对整个国内大模型研发的快速发展会有很好的帮助。”
此外,从应用层面来看,Sora仍未正式深入到真正的垂类应用领域,中国公司仍然有机会凭借对本土用户需求的深刻理解,在垂类市场做出爆款应用。
以聚焦“应用”的AIGC软件A股上市公司万兴科技(300624.SZ)为例。今年1月底,万兴科技依托超15亿用户行为及100亿本土化高质量音视频数据沉淀,推出了国内首个音视频多媒体大模型万兴“天幕”。与基于视觉数据的底层通用模型Sora不同,万兴天幕是音视频多媒体创作垂类大模型,天生自带“应用”使命,面向泛知识、泛营销、泛娱乐等更细分垂直的市场,其能力一经上线,便迅速在海外展开规模化商用。
万兴“天幕”大模型原子能力展示
“Sora让我们(万兴科技)对自己业务的发展更有信心,”朱伟表示,“因为最早我们的文生视频的质量和长度上还需要一定的打磨,现在Sora出来以后,可以加速这一进程,无论是对它技术方案的借鉴,还是对它训练方案的借鉴,都会让我们的大模型发展速度更快,进而更好解决我们垂类用户的问题,为用户实现更大的价值。”
单就从AI视频生成效果的突破而言,Sora确实构筑了短期内难以逾越的技术鸿沟。然而,如果以真正应用落地的视角来审视,Sora仍然存在语义理解偏差、应用稳定性、生成内容不符合物理规律等不成熟的问题,如果再将算力、数据量与能源消耗等实际应用要素纳入考虑,Sora的规模化应用进程,或许比我们想象中来得还要再晚一些。
站在技术发展历史的缝隙,我们可以更理性地看待Sora。相对应的,抱持AI长期主义的中国公司们,或许也能在技术与商业的接轨中,寻找到仍未被占领的发展先机。