切换到宽版
  • 14阅读
  • 2回复

[数码讨论]OpenAI、谷歌竞相发新模型,技术打法出现分歧,谁是AGI的未来?[12P] [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
175064
金币
330528
道行
2004
原创
2411
奖券
2855
斑龄
36
道券
1035
获奖
0
座驾
设备
摄影级
在线时间: 39520(小时)
注册时间: 2008-10-01
最后登录: 2025-08-07
只看楼主 正序阅读 使用道具 楼主  发表于: 5小时前

图片由AI生成

出品|搜狐科技

作者|常博硕、郑松毅

OpenAI与Google,这对“技术宿敌”,在同一日端出了他们的大招。

8月6日凌晨,OpenAI时隔6年发布新开源模型GPT-oss,并首次无保留地开源百亿参数级推理模型;而 Google 则推出了通用智能体生成框架Genie 3,主打“多模态+具身智能”的开源协作平台。

一个深耕语言与推理,一个布局世界模型和行为控制,看似方向不同,实则指向同一场趋势的爆发,谁将真正引领未来的 AI 应用范式?

OpenAI重回开源,推理模型追平o4-mini

今天凌晨,OpenAI官宣了他们的开源模型GPT-oss。这也是OpenAI自GPT-2以来,首次开放完整模型权重。这场由Deepseek引领的大模型开源竞赛,又迎来了一位新的玩家。

据OpenAI创始人兼首席执行官山姆·奥特曼本人表示:“GPT-oss的性能达到o4-mini级别且能在高端笔记本电脑上运行,还有一个更小的模型可以在手机上运行,我为团队感到无比自豪,这是技术上的一大胜利。”

这不仅是OpenAI策略上的重大转变,更是将高性能AI技术带入千家万户的里程碑。简单来说,就是过去只有顶尖科技公司才能玩转的千亿级大模型,现在普通开发者、创业公司乃至个人电脑用户,都有机会亲手体验和使用了。

不过,360创始人周鸿祎今日在会上对搜狐科技等媒体表示,OpenAI并没有从闭源走向开源,发布新的开源模型,是为了应对来自中国公司的挑战压力。

GPT-oss模型采用预训练和后期训练技术进行,特别注重推理能力、效率以及在各种部署环境中的实际应用性。得益于MoE架构,GPT-oss系列实现了性能与效率的完美平衡。此次共发布两款开源模型,分别是GPT-oss-120b和GPT-oss-20b。

GPT-oss-20B的总参数超过200亿,但推理时只激活36亿参数。这意味着,一台配备16GB显存的普通消费级显卡,像4060 Ti都能流畅运行。

而GPT-oss-120B的总参数量高达1170亿,推理时只激活51亿参数。这款模型在基准测试中的表现,甚至可以与OpenAI自家的闭源小模型相媲美,但却能在单张80GB的专业级GPU上部署。

此外,两款模型都原生支持128k的超长上下文窗口,能轻松处理和理解长篇文档、整本小说或海量代码。除此之外,模型还针对智能体工作流进行了特别优化,具备强大的工具调用和逻辑推理能力,能够自主完成更复杂的任务,而不仅仅是简单的聊天。

GPT-oss的训练数据规模达万亿token 级别,以高质量英文为主,覆盖广泛的知识领域和编程语料。虽然英语占比最高,但模型在多语言任务中也表现出色,尤其适合通过轻量化微调强化中文、法语、德语等语言的表现。

为保证安全,OpenAI在训练前进行了生物安全、化学、网络攻击类语料的清洗与过滤,并使用 GPT-4o的内容检测能力进行二次把关。这意味着,GPT-oss在安全性方面也设置了高标准。

GPT-oss系列采用的是最宽松的Apache 2.0开源许可证,允许开发者自由地进行商业使用、修改和分发,无疑是对整个开源AI社区的一次巨大赋能。

在训练侧,GPT-OSS 的训练由OpenAI自研的训练栈支持,在H100 集群上运行,使用了FlashAttention、混合精度计算(fp16/bf16)、大规模并行等一系列前沿技术。训练成本方面,GPT-OSS-120B 总耗时约 210 万 GPU 小时;GPT-OSS-20B 则为其十分之一左右。

同时,模型可根据用户的具体用例和延迟需求,轻松调整推理投入。用户还支持访问完整访问模型的推理过程,从而简化调试并提升输出结果的可信度。同时支持参数级微调,可根据用户的特定用例对模型进行完全定制。在训练时,模型的混合专家(MoE)层便采用了原生的MXFP4精度,使得GPT-oss-120b在单张H100 GPU上即可运行,而GPT-oss-20b仅需16GB内存。

在性能方面,据OpenAI官方数据显示,GPT-oss-120b 在竞赛编程(Codeforces)、通用问题解决(MMLU和HLE)以及工具调用(TauBench)方面表现优于OpenAI o3mini,并与 OpenAI o4-mini 持平或超越性能。

此外,它在相关健康查询(HealthBench )和竞赛数学(AIME 2024 和 2025)方面表现得比 o4-mini 更好。

虽然GPT-oss-20b 的规模较小,但在这些相同的评估中,它与 OpenAI o3‑mini 持平,甚至在竞赛数学和医疗方面表现得更好。

在AIME数学测试中,GPT-oss-120b和GPT-oss-20b随着推理token的增加,准确率折线逐渐逼近。在博士级知识问答基准中,GPT-oss-120b的性能始终领先于GPT-oss-20b。

谷歌展示通往AGI的关键世界模型,支持实时交互

反观谷歌,DeepMind正式发布新一代通用世界模型——Genie 3,支持生成前所未有的多样化交互式环境,可谓是当前全球最强“世界AI模拟器”。

一句话(提示文本键入),Genie 3即可生成一个接近真实效果的动态世界。

值得关注的是,Genie 3这次能以每秒24帧的速度,实时生成720p分辨率画面,且首次支持世界模型实时交互,再次推高AI生成领域的天花板。

无论是想改变天气,还是想在世界画面中增加新的角色或物体,通通一句文本命令搞定,将沉浸式体验拉满。

去年,谷歌DeepMind首次放出基础世界模型Genie 1和Genie 2,AI生成世界带来的感官震撼,一时间成为圈内热议的话题。

与前代模型相比,Genie 3对真实物理世界有了更深刻的理解,包括水流、光照等自然现象,以及理解充满生命力的自然系统。

相较于Genie 2,画面一致性和真实感也有了明显提升。

可以说,从Genie到Veo,每一代世界模型的迭代更新,都可以在不同维度看出其能力的进步,不断推动视频生成领域的发展。

谷歌DeepMind研究总监Ali Eslami直言,“这是自ChatGPT以来最令人印象深刻的演示。”

马斯克的评论更为直接,“这就是视频游戏的未来。”

一直以来,“世界模型”被称作是AI的下一个奇点,也被认为是通往AGI终极目标的必经之路。

当大语言模型把“对话”做到极致,下一步比拼的就是谁能先让 AI 真正“理解”世界。也正因此,“世界模型”从学术概念跃升为产业界的“兵家必争之地”。

多年来,谷歌DeepMind坚持在模拟环境领域深耕,引领前沿研究。要真正实现Genie 3的震撼表现,技术团队攻克了诸多难题。

例如为让生成的世界更具真实感,画面没有物理穿模等幻觉现象,就必须让模型在长时间内保持物理上的一致性,考验其物理理解、记忆、延迟等能力。

而良好的实时交互体验来源于语言、图像、控制信号在同一潜空间对齐,任何模态错位都会立即表现为“鬼影”。

尽管如此,Genie 3仍存在一定的局限性:

l 多智能体交互能力不足

在共享环境中准确模拟多个独立智能体之间的复杂交互仍然是一个挑战,目前 Genie 3 难以精确地建模多个智能体之间的互动。

l 地理精度不足

Genie 3生成的环境虽然具有高度的真实感,但仍然是非确定性的,无法精确复现现实中的地理位置。

l 文本渲染效果差

除非在初始提示中明确指定文本内容,否则 Genie 3 生成的文本通常模糊不清。

l 交互时长有限

目前 Genie 3 支持的连续交互时长仅为数分钟,而理想状态下应该能够支持数小时的持续交互。

据谷歌介绍,Genie 3除了为游戏打开新世界大门,现已正式与SIMA平台融合,为机器人和自主系统等 AI 智能体提供广阔的训练空间。

可见,Genie 3的问世,为人类通往AGI的终极目标按下了加速器。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
148882
金币
309789
道行
20030
原创
757
奖券
194
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17506(小时)
注册时间: 2012-06-21
最后登录: 2025-08-07
只看该作者 板凳  发表于: 4小时前
AI巨头技术路线分化:开源、交互与商业博弈下的AGI竞赛
近期,OpenAI、谷歌等科技巨头相继发布新一代AI模型,技术路径与战略布局呈现显著差异。OpenAI以开源策略推动模型普及,谷歌聚焦世界模型交互能力突破,而Anthropic则通过渐进式迭代强化智能体性能。这些技术分化背后,不仅是技术路线的竞争,更涉及商业利益、合作关系与AGI定义权的博弈,共同塑造着通用人工智能的未来图景。

OpenAI:开源策略与端侧部署的技术普惠
开源模型释放技术潜力
OpenAI时隔六年重启开源策略,推出gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两款模型,均采用MoE架构以实现高效推理。其中,gpt-oss-120b在基准测试中接近闭源的o4-mini,而gpt-oss-20b性能优于o3-mini,且可在16GB内存设备上本地部署1。这一举措被视为推动AI技术民主化的关键一步,首席执行官山姆·奥尔特曼强调其代表“数十亿美元研发投入”,旨在降低技术门槛1。

端侧部署拓展应用场景
两款模型支持个人电脑、智能手机等消费级设备运行,例如gpt-oss-120b仅需单张80GB GPU即可启动,演示中可生成射击游戏并自定义图标,展现出在创意设计、实时交互等场景的潜力1。这种“轻量化+高性能”的组合,可能加速AI从云端向端侧渗透,重塑行业生态。

谷歌与Anthropic:交互能力与智能体的渐进式突破
谷歌Genie3:世界模型的实时交互革命
谷歌发布第三代世界模型Genie3,首次实现实时交互功能,能够模拟自然现象、生态系统及动画角色等复杂场景。尽管存在动作空间有限、多智能体交互困难等局限,但其被视为向AGI迈进的重要尝试,标志着世界模型从静态模拟向动态响应升级1。

Anthropic ClaudeOpus4.1:智能体能力的精细化迭代
Anthropic采取渐进式更新策略,ClaudeOpus4.1在代理任务、数据分析及搜索能力上全面优化,SWE-benchVerify测试得分达74.5%(高于前代72.5%),代码修改精准度和调试效率显著提升1。这种聚焦垂直领域深度优化的路径,与OpenAI的普惠化路线形成鲜明对比。

AGI定义权之争:商业博弈与技术标准的角力
OpenAI与微软的合作裂痕
双方2019年协议中“AGI达成即终止合作”条款引发争议。微软将AGI与财务指标挂钩(需创造1000亿美元收益),而OpenAI试图通过“超越人类程序员的编码工具”宣称AGI,以触发协议终止并摆脱IP限制23。此外,微软退出数据中心投资、OpenAI转向谷歌云服务等矛盾,进一步加剧合作不确定性23。

AGI标准的行业分歧
OpenAI将AGI定义为“多领域解决人类级复杂问题的系统”,而微软以“世界经济年增长10%”为基准,认为2030年前无法实现3。这种定义差异不仅关乎商业利益分配(如微软对OpenAI技术的访问权至2030年),更可能影响AGI技术的发展方向——是追求通用能力的“一步到位”,还是以经济价值为核心的渐进落地3。

AGI未来的可能路径:开源普及与垂直深化的融合
当前技术分化揭示AGI发展的多元可能性:OpenAI通过开源与端侧部署推动技术普惠,谷歌探索世界模型的交互边界,Anthropic深耕智能体的场景化能力。而AGI定义权的争夺(如OpenAI与微软的博弈)则凸显商业利益对技术路线的深刻影响。未来,AGI的突破或需兼顾“通用能力”与“行业落地”,开源生态的协作创新与垂直领域的技术深耕可能形成互补,共同推动人工智能向更智能、更普惠的方向演进。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
175064
金币
330528
道行
2004
原创
2411
奖券
2855
斑龄
36
道券
1035
获奖
0
座驾
设备
摄影级
在线时间: 39520(小时)
注册时间: 2008-10-01
最后登录: 2025-08-07
只看该作者 沙发  发表于: 5小时前
OpenAI与Google的新一轮AI竞赛

在2025年8月6日,OpenAI和Google几乎同时发布了他们最新的AI技术成果,这标志着新一轮AI竞赛的开始。两家公司在各自的领域展示了强大的技术实力,同时也揭示了未来AI发展的两大重要方向:语言与推理,以及世界模型和行为控制。

OpenAI的GPT-oss:开源与高性能的结合

OpenAI发布的GPT-oss模型是其自GPT-2以来首次完全开源的模型。这一举动不仅代表了OpenAI策略的重大转变,也为广大开发者提供了接触高性能AI技术的机会。GPT-oss系列包括两个版本:GPT-oss-120b和GPT-oss-20b,分别适用于不同的应用场景。

- GPT-oss-120b:拥有1170亿参数,推理时激活51亿参数,能够在单张80GB的专业级GPU上部署。其性能可以与OpenAI自家的闭源小模型相媲美。
- GPT-oss-20b:拥有200亿参数,推理时激活36亿参数,可以在配备16GB显存的普通消费级显卡上运行。

这两个模型都支持128k的超长上下文窗口,能够处理长篇文档、整本小说或海量代码。此外,它们还具备强大的工具调用和逻辑推理能力,能够自主完成更复杂的任务。

Google的Genie 3:通往AGI的关键一步

Google DeepMind发布的Genie 3则是新一代通用世界模型,能够生成前所未有的多样化交互式环境。Genie 3能够以每秒24帧的速度实时生成720p分辨率的画面,并支持实时交互。

- 实时交互:用户可以通过文本命令改变天气、增加新的角色或物体,极大地增强了沉浸式体验。
- 物理一致性:Genie 3对真实物理世界有了更深刻的理解,包括水流、光照等自然现象,以及充满生命力的自然系统。
- 多模态对齐:语言、图像、控制信号在同一潜空间对齐,确保了良好的实时交互体验。

尽管Genie 3在许多方面取得了显著进展,但仍存在一些局限性:
- 多智能体交互能力不足
- 地理精度不足
- 文本渲染效果差
- 交互时长有限

技术对比与未来展望

OpenAI和Google的新技术各有侧重,但都指向了一个共同的趋势:AI技术正在变得更加开放、高效和实用。OpenAI通过开源GPT-oss模型,让更多开发者能够接触到高性能的AI技术,推动了AI技术的普及和创新。而Google通过发布Genie 3,展示了其在世界模型和行为控制方面的强大实力,为未来的AGI发展奠定了坚实的基础。

未来,随着这两条技术路线的不断发展和完善,我们有望看到更多令人惊叹的AI应用出现。无论是通过语言与推理实现更智能的对话系统,还是通过世界模型和行为控制实现更真实的虚拟环境,AI技术都将为我们的生活带来更多的便利和惊喜。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个