切换到宽版
  • 9阅读
  • 2回复

[智能应用]AI视频进入蒸汽机时代 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
156563
金币
384117
道行
20030
原创
764
奖券
263
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 18684(小时)
注册时间: 2012-06-21
最后登录: 2025-09-27
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 11:02



机器之心报道

机器之心编辑部

AI 视频生成行业天花板再次被拉高。

百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。
7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8 月底,百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0,实现生成视频中人物口型、表情、动作的毫秒级同步。
而现在,距离上次发布仅短短一个月,百度蒸汽机 2.0 又迎来重磅升级,推出了行业首个通用 AI 长视频生成功能
此次升级,百度蒸汽机不仅突破了 5 秒和 10 秒的生成时长限制,理论上可生成任意长度的长视频,还引入交互式需求表达功能,允许在生成过程中实时更新提示词。这意味着创作者可以随时调整视频内容,创作体验更为灵活高效。


长视频生成对 AI 模型提出了更高要求,模型需要具备对时间、空间的深度理解能力,同时要能精确控制信息密度和视觉连贯性,这一直是该领域的技术难点。
为延长视频时长,业内普遍采用「首尾帧续写」技术,或者视频延长的简单续写能力,虽然能勉强填补时长空白,但容易导致视频缺乏连贯性,画质和细节呈现不稳定,难以承载复杂的创作需求。同时首尾帧续写需要用户每个镜头上传图片以及提示词,一个镜头普遍 1-6 秒,生成几十秒成片可能需要 10 组以上图片和提示词描述,操作门槛非常高,且很难实现无限时生成。
与这一浅层技术方案不同,百度蒸汽机采用流式生成技术,用户只需输入图像和提示词,就能生成任意时长的视频,并可以在生成过程中随时调整提示词,实时续写内容或指定任意帧继续生成,用户无需复杂操作,只需要一张图 + 提示词,即可完成无限时视频生成。如果对于前面的内容不满意,可以马上暂停调整,不需要完整推理过程结束,区别于行业其他长视频技术能力,百度蒸汽机的长视频生成能力不仅仅大幅度提升了创作效率,还可以实现灵活、流畅的创作体验。


首尾帧续写长视频能力


百度蒸汽机流式生成长视频能力
百度蒸汽机的这次迭代升级,不仅是技术上的一次革新,也在商业应用层面带来新的可能性。创作者可以在短时间内完成高质量长视频制作,降低了创作成本,提高内容产出效率,为各行业内容创作提供了新的工具和商业价值。
在下面这段蒸汽机长视频生成的视频中,小鸭子划水、上岸等动作连贯流畅,没有出现卡顿或不自然的现象,水面的涟漪、小鸭子的羽毛等细节也都处理得细腻逼真。


提示词:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着小翅膀,往前边的草地上走去。
再比如,蒸汽机长视频模型还成功生成了一段西部牛仔风格视频,效果堪比电影大片。
该模型能够精准执行复杂的镜头运动与人物动作,在提示词的指引下,以一镜到底的方式呈现出牛仔走向马车、推门而入等场景转换。
镜头跟随、人物动作以及视角切换的衔接都很丝滑,尤其是在人物向前走和镜头右摇的场景中,模型能够精确控制镜头的角度与人物的位置变化,保持画面的自然过渡。


提示词:1-5s 镜头跟随,牛仔走向右方马车。6-10s 人物向前走,镜头跟随。11-15s 人物向前走,镜头跟随,右摇 16-20s 镜头跟随,牛仔推开门进去。
在另一段长视频中,蒸汽机 2.0 真实还原了水流的动态变化以及小纸船在水面上漂动的轨迹,画面没有任何破绽或失真的情况,细节把控也很到位。提示词:小纸船在小河里漂流。


本次百度蒸汽机还发布了首尾帧功能,支持用户提供首尾帧2张图片和提示词可完成图片的理解和5S视频生成,为创作者提供更便利的视频片段生成能力。


提示词:黄色折纸在工作台上逐步折叠,变形为彩色折纸猴,定格动画逐帧展现折纸过程,固定镜头。
我们只需上传首尾帧图片并输入提示词,蒸汽机 2.0 便能「脑补」出中间的剧情,实现完整的画面衔接。
比如一段电影风格的镜头中,平静的水面突然冒出三个全副武装、手持冲锋枪的士兵,生成的画面几乎可以以假乱真:


提示词:固定镜头,平静的水面荡起波纹,三个士兵慢慢露出水面,他警惕的看着四周。
还有这个动漫风格的镜头,即使二次元小姐姐转个圈也能保持前后人物一致性,角色面部不会崩坏:
提示词:镜头环绕着人物


首尾帧功能特别适用于延时摄影。蒸汽机生成了一段树木从秋季黄叶到冬季积雪的自然变化,季节过渡平滑自然,树叶飘落与雪花覆盖的细节也处理得很细腻。


提示词:固定镜头大延时摄影,天⽓变化到冬天,背景云雾变化。
在商业化场景中,百度蒸汽机还能制作各类广告大片。在下面的案例中,只见镜头慢慢拉远,光泽感十足的耳机被拿在手中,流线型的反射效果显得极具质感,生成的手部非常自然,手指与物体的衔接部分也毫无违和感。


提示词:耳机合上盖子,伸出一只手拿着耳机。
此外,百度蒸汽机在 8 月还率先推出「多人对话音视频一体化生成」能力,也是全球首个中文音视频一体化生成模型,该模型基于多模态信息的精准同步与自然交互,支持多角色自然对话,并保持高画质输出、大师级运镜。依托海量中文语料深度训练,中文语音细节还原度超 98%。


现在,所有用户都可以通过百度搜索、百度 APP 或访问「绘想」平台进行体验。
体验链接:https://huixiang.baidu.com
可交互长视频生成的难点在哪?
现阶段,AI 视频生成虽然发展迅猛,目前行业内视频生成均集中在 5s/10s,且由于视频生成多采用基于 transformer 的扩散模型,在生成时长和实时性方面仍然存在很大的局限(生成时间长,且生成成本随生成时长呈平长级膨胀,不支持实时生成也无法交互)。较短的视频在应用上主要在工具层面,集中在视频片段、视频素材制作上,而互动视频、直播场景对视频时长和实时性都提出了更高的要求。同时,可交互的长视频生成技术可能重塑人类与媒介的互动方式,从「被动消费」转向「共同创作」,甚至催生全新的艺术形式与商业模式。
挑战 1 :时长
长视频生成中存在长上下文记忆难题,模型需在长时间范围内有效保留和检索关键事件,同时避免信息崩溃或漂移。
遗忘的问题:模型在生成长视频时,难以长期记忆早期帧的内容,导致时间维度上存在不一致
漂移的问题:生成过程中误差逐帧累积,导致生成的视觉质量逐渐下降。随着生成时长的增加,简单续写的方式,累积误差问题逐渐加剧,生成视频质量不断衰减,主体一致性逐渐下降。
挑战 2 :成本
由于视频生成模型中 Transformer 的二次复杂度,导致计算成本随着视频生成时长呈平方级增长。直接训练或推理更长视频,对 GPU 显存和计算效率提出更高要求,成本膨胀严重。
蒸汽机的解法与思考:
从分治到全局,引入自回归扩散模型
结合自回归长序列能力和扩散一致性强的优点
1.引入长时间一致性建模技术,解决长的问题:连续性 + 一致性

  • 从全局整体生成到局部生成

动态缓冲区管理:通过「移动缓冲区」机制实时管理多帧画面,允许模型同时处理模糊草图、半完成帧与高精度画面,实现「边生成边调整」的实时交互。

  • 阶梯独立噪声构造

独立噪声:基于时间步采样,为视频扩散模型的每一帧添加不同强度的噪声。根据噪声调度器曲线,每一个预测 chunk 被分配不同的噪声级别(与推理期间使用的噪声调度保持一致)
2.引入历史参考帧,保障片段生成与前序内容的连续性,让动作像「接力赛」一样流畅

  • 引入 History 序列的训练

「零」噪声片引入:Diffusion Forcing 给了我们启发,基于 noise as masking 的思路。训练过程中可直接将历史参考帧引入与生成目标帧一起训练,提升生成的连续性。



  • History 增强策略,历史帧越来越多,如何选择好的是核心优化点

多样性与鲁棒性:进行历史帧的概率扰动,提升模型的自我纠错能力,缓解自回归模型的累积误差问题。
历史帧压缩:a) 按时间临近性、帧重要度进行采样,提升全局 history 对当前视频生成的有效控制。b) 注意力门控机制:模型根据当前帧内容动态选择相关历史帧进行参考,避免无关信息的干扰,提升记忆效率。



  • 训练中引入指导帧,引导模型不跑偏,缓解视频遗忘的问题

抗偏移的方法:在生成中同时生成首尾的部分帧,后续一起用来预测后续帧,逐步往后生成。
以上技术的突破让蒸汽机长视频生成能力变得更大,正如百度商业体系商业研发总经理刘林所表示的:长时一致性和实时性问题的解决,使得用户可以随时进行交互,并且在交互过程中,用户可以不断调整输入 prompt,直到生成自己满意的视频为止。
在中文场景适配层面,如前文所述,百度蒸汽机 2.0 在语音还原度上超过 98%,这对用户而言意味着可以获得更自然、更沉浸的交互体验。无论是在长视频配音、虚拟角色对白,还是个性化讲解,用户都能听到几乎与真人无异的中文表达。同时,高精度的语音还原也让情绪(如喜悦、惊讶)传递更加细腻。对于内容创作者而言,这不仅降低了后期配音和剪辑的门槛,还大幅提升了成品的质量与效率。
值得一提的是,百度蒸汽机 2.0 在画质和运镜上也不输专业团队。通过多条件协同建模,端到端人物生成,以及百万级专业运镜数据微调,从而实现电影级画质、大师级复杂运镜。这也意味着过去需要庞大团队与昂贵设备才能实现的镜头效果,如今只需一段提示即可完成。毫不夸张地说,百度蒸汽机 2.0 让人人都能拍电影成为可能。
可以看出,百度蒸汽机 2.0 此次升级,并不是单点突破,而是在多个维度优化与创新的结果,它不仅解决了传统视频生成中短时长、不连贯、缺乏叙事的痛点,还将专业团队级别的影像表现力带到普通创作者手中。
结语
前段时间,香港老牌电视台 TVB 掀起了一场「AI 风暴」。
他们推出了香港电视界首部全 AI 生成的青春爱情短剧《在我心中,你是独一无二》,从男女主角到剧情,再到场景,100% 由 AI 生成。由此可见,AI 技术在影视制作中有着巨大潜力和经济价值。
百度蒸汽机长视频能力的升级推出,则进一步推动了这一趋势。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
156563
金币
384117
道行
20030
原创
764
奖券
263
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 18684(小时)
注册时间: 2012-06-21
最后登录: 2025-09-27
只看该作者 沙发  发表于: 昨天 11:03
百度蒸汽机模型引领AI视频生成技术革新
2025年,AI视频生成行业迎来重大突破,百度推出的“蒸汽机”系列模型凭借技术迭代与成本优化,被行业称为“AI视频进入蒸汽机时代”。该系列模型从1.0到2.0的快速升级,不仅实现了音视频一体化生成能力的跃升,更通过算力架构优化将制作成本大幅降低,推动AIGC视频向普惠化应用迈进12。

蒸汽机2.0:技术突破与产品矩阵升级
核心技术创新:多模态协同与端到端生成
音视频一体化生成:全球首个中文音视频一体化模型,支持多角色语音、表情、动作自然协同互动,实现语音与唇形、动作精准对齐,复杂场景下稳定性显著提升23。
端到端生成路径:采用统一潜在空间规划技术,模型自主决定多角色对话逻辑与互动情绪,避免传统分段式生成的合成痕迹,接近真实拍摄效果2。
中文场景深度适配:针对中文语音细节与情感表达的还原度超98%,同时支持环境音效与电影级运镜控制,响应文本指令生成专业镜头语言3。
产品矩阵与功能拓展
蒸汽机2.0同步推出Turbo、Lite、Pro及有声版,覆盖不同创作需求:

效率优先:Turbo版侧重快速生成,适用于短视频创作;Pro版支持40+镜头复杂短片制作,如国际视效指导姚骐使用该模型完成灾难片特效素材生成24。
成本可控:Lite版通过轻量化模型设计降低使用门槛,新用户注册可获“想象力值”,每周参与活动最高可获18888点,实现低成本视频生成3。
成本下探七成:技术积累支撑普惠化定价
降本逻辑:算力架构与工程优化双驱动
百度副总裁陈一凡透露,蒸汽机2.0刊例价降至行业同类产品的70%,核心得益于长期技术积累:

底层算力支撑:依托百度智能云“百舸”平台与自研昆仑芯片,结合GPU算力架构优化,推理效率与算力利用率大幅提升2。
工程化经验:自2016年起在搜索广告场景应用GPU技术,形成软硬件结合的技术路径,本次迭代进一步通过策略工程架构优化降低边际成本2。
商业价值:从百万级到百元级的成本革命
企业级应用:传统好莱坞百万级特效成本降至百元,一汽-大众揽境七夕广告通过蒸汽机生成,制作周期从数周缩短至一周,成本压缩至千元以内2。
中小企业与创作者赋能:中小企业可低成本制作产品宣传视频,直接对接百度搜索与信息流分发;个人创作者通过梯度会员服务实现“视频生成自由”23。
行业影响:重塑视频创作生态与商业模式
应用场景与案例实践
商业营销:伊利倍畅使用蒸汽机制作品牌宣传片《漂“羊”过海来看你》,周期压缩至数日,成本显著降低,实现创意与效率双赢23。
内容生态整合:百度搜索中开放免费视频生成功能,用户可直接从脚本生成视频;云生态与商业生态联动,推动多模态内容创作效率提升3。
行业竞争格局
在国内外厂商加速布局视频生成赛道的背景下,百度通过“技术突破+价格下行”策略抢占市场:

技术壁垒:五大核心技术突破(多人有声生成、多模态规划、中文适配等)形成差异化竞争力3。
生态反哺:模型迭代由应用需求驱动,已服务搜索、内容、商业等百度多业务场景,同时通过特效赛事、创作活动吸引创作者生态入驻3。
未来趋势:长视频生成与交互性拓展
最新升级显示,蒸汽机模型已突破5秒和10秒时长限制,支持任意长度长视频生成,并引入交互式需求表达功能,用户可实时调整提示词续写内容。例如,生成的“小鸭子嬉戏”视频中,动作连贯流畅,水面涟漪、羽毛细节逼真,西部牛仔风格视频效果堪比电影大片4。这一进展预示AI视频生成正从“片段化素材”向“完整叙事内容”跨越,进一步拓宽商业与创作边界。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
189067
金币
437154
道行
2004
原创
2428
奖券
3015
斑龄
38
道券
1101
获奖
0
座驾
设备
摄影级
在线时间: 42241(小时)
注册时间: 2008-10-01
最后登录: 2025-09-27
只看该作者 板凳  发表于: 昨天 11:57
百度蒸汽机2.0:AI视频生成的新里程碑

百度蒸汽机2.0的推出标志着AI视频生成领域迈上了新的台阶。从最初的蒸汽机1.0模型到现在的2.0版本,百度在AI视频生成技术上不断突破,不仅在技术层面实现了多项创新,还在商业应用上展现了巨大的潜力。

技术革新

流式生成技术
百度蒸汽机2.0采用了流式生成技术,这是其与市场上其他长视频生成技术的主要区别之一。传统的“首尾帧续写”方法虽然可以延长视频时长,但容易导致视频缺乏连贯性,画质和细节呈现不稳定。而流式生成技术则允许用户只需输入图像和提示词,就能生成任意时长的视频,并在生成过程中随时调整提示词,实现内容的实时更新。这种技术不仅提高了创作效率,还提供了更为灵活和流畅的创作体验。

长时间一致性建模
为了克服长视频生成中的长上下文记忆难题,百度蒸汽机2.0引入了长时间一致性建模技术。通过动态缓冲区管理和阶梯独立噪声构造等方法,模型能够在长时间范围内有效保留和检索关键事件,避免信息崩溃或漂移。此外,引入历史参考帧和历史帧压缩等策略,进一步保障了片段生成与前序内容的连续性,使动作像“接力赛”一样流畅。

自回归扩散模型
结合自回归长序列能力和扩散一致性强的优点,百度蒸汽机2.0通过自回归扩散模型实现了更好的长视频生成效果。这种方法不仅解决了长时一致性和实时性问题,还允许用户在交互过程中不断调整输入提示词,直到生成满意的结果。

商业应用前景

内容创作
百度蒸汽机2.0的推出为内容创作者提供了强大的工具。无论是短视频制作、广告生成还是电影剪辑,创作者都可以在短时间内完成高质量的长视频制作,降低了创作成本,提高了内容产出效率。例如,在广告制作中,模型能够生成具有高画质和大师级运镜效果的视频,极大地提升了广告的吸引力和传播效果。

影视制作
近期,香港老牌电视台TVB推出了首部全AI生成的青春爱情短剧《在我心中,你是独一无二》,展示了AI技术在影视制作中的巨大潜力和经济价值。百度蒸汽机2.0的长视频生成能力将进一步推动这一趋势,使更多影视作品能够借助AI技术实现高效制作和创新表达。

教育培训
在教育培训领域,百度蒸汽机2.0可以用于制作教学视频、模拟实验等教育内容。通过高质量的视频生成和实时交互功能,学生可以获得更加生动和直观的学习体验,教师也可以节省大量时间和精力。

结语

百度蒸汽机2.0的推出不仅是技术上的一次革新,也在商业应用层面带来了新的可能性。从内容创作到影视制作,再到教育培训,AI视频生成技术正逐渐渗透到各个领域,改变着我们的生产和生活方式。随着技术的不断进步和完善,未来AI视频生成将会有更广泛的应用和发展空间。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个