切换到宽版
  • 9阅读
  • 2回复

[智能应用]密度法则和智能的分布式未来 [复制链接]

上一主题 下一主题
在线天人地

UID: 1627269

精华: 2
级别: 上清仙尊
 

发帖
296000
金币
26807
道行
40006
原创
108
奖券
147
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 36658(小时)
注册时间: 2012-09-03
最后登录: 2025-12-12
只看楼主 正序阅读 使用道具 楼主  发表于: 昨天 09:24



“2023 年初,有巨头说全世界只会有几个大模型,这就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机。”

文丨程曼祺
今年 11 月,清华大学、开源组织 OpenBMB 与面壁智能的联合研究登上《自然·机器学习》封面——Densing Laws of LLMS(《大模型的密度法则》:每 3.5 个月,模型的能力密度翻一倍。



此图描述了 2023 年 4 月之后,主要开源模型的能力密度的变化。能力密度是衡量单位参数 / 算力下,模型能力的指标。目前版本的密度法则总结了预训练大语言模型的密度变化,o1、R1 等后训练强化学习对能力密度的提升尚未体现在指标里。




ChatGPT 出现之后(图中 2023 年 1 月的时间线),能力密度上升的斜率变陡。

过去几年,大模型演进的明线是 “规模法则”(Scaling Law)带来的能力跃迁。大模型在编程、生图、设计等能力上,达到甚至超越了人类水平。另一方面,模型性能竞赛也带来巨大的资源消耗,连 OpenAI 也因资源不足出现分歧。
密度法则,就是关注如何用更少计算和数据资源,更高效地得到更多智能。对密度目标的追求,会加速手机、汽车、机器人等端侧智能发展,促进分布式智能和每个人的 “专属大模型”。
本期《晚点聊》,我们和密度法则的研究者,清华大学计算机系副教授、面壁智能首席科学家刘知远,以及清华博士后、面壁智能 MiniCPM 系列文本模型负责人肖朝军讨论了:
- 密度法则的背景和核心洞察;
- 提升模型能力密度的具体方法;
- 强化学习还没有出现 Scaling Law,由此引起的两个探索方向;
- 自主学习与分布式端侧智能的未来。
2023 年全国端侧算力(主要是手机)是数据中心算力的 12 倍。过去几十年的信息化,本质上是一个分布式算力和分布式信息的结构。
刘知远认为,智能未来也会分布式存在。这个过程中,密度法则指引的效率提升尤为重要。
2023 年初有巨头说 “全球只需要几个大模型”,这和 1943 年 IBM 董事长说 “世界只需要五台计算机” 如出一辙。
但未来的智能大概率是分布式存在的,每个人都有一个属于自己的智能体。如果模型具备自主学习能力,那么终端上的模型就能基于用户的个人数据持续成长,最终形成一个 “个人大模型”,成为你最懂你的那个助手。
大模型时代的 “摩尔定律”
晚点:最近赶上中美新模型密集发布,尤其 Gemini 3 热度很高;从这些新进展里,你们看到了哪些亮点?
肖朝军:我感受到两个明显趋势。第一,所有大模型都在强化 “智能体” 能力,直观表现是,每次模型发布后,大家都会测代码任务,模型在 agent 任务上的表现显著提升。
第二,从 Nano Banana Pro 中可以看到,Google 的多模态模型的文字生成准确度非常高,这在此前的 diffusion(扩散)模型里很难看到,只在 OpenAI 的 GPT-4o 中有一点苗头。这让我看到一种新的 Scaling 方向:过去我们一直说更多数据、更大模型、更强能力,但多模态数据一直没有真正带来 “智能跃迁”,而现在这种 “统一的自回归式” 的视觉-语言生成可能带来突破。当然,Gemini 3 的模型细节未公开,还不能完全判断,现在的能力更多来自产品优化,还是架构上的真正整合,可能要再看看后续版本。
刘知远:现在几乎每周的进展,都相当于我读研时一年的进展,总结下来有两条主线:
一是能力变强,它对应 “规模法则”:从 2018 年预训练模型出现后,每隔几年模型能力就会跳一次:
- 2022 年底 ChatGPT 通过指令微调(instruction tuning)让模型 “听懂人话”;
- 2024 年底到 2025 年初,大规模强化学习后训练让模型具备更深的思考能力。
模型正变得更通用,甚至开始接近或超越人类在某些领域的能力。
第二是能效更高,我们这次提出的 “密度法则”,本质上就是对 “如何让能力与成本之比不断提高” 的定量描述。任何想真正改变世界的技术,都必须追求更高效率,大模型也会在能力 + 成本两个方向上同时进化。
晚点:一般大家更关注的是能力变强,在第二条主线 “能效更高” 上,近期有哪些进展?
肖朝军:核心的 AI Lab 也都在追求效率提升。在开源侧,Qwen 3、DeepSeek V3.2、Llama 3,以及面壁自己的 MiniCPM 系列都在做 MoE(混合专家系统)、 Sparse Attention(稀疏注意力)、Efficient Attention(更有效率的注意力机制)等架构优化。在闭源侧,OpenAI 推出了 Mini 系列;Google 也在 Gemini 3 之前发布了 Gemini Diffusion,宣称它的文本生成速度比其他模型快了很多很多倍,
所以无论开源还是闭源,大家都在追求 “效率”,因为资源永远不够——连 OpenAI 都是如此,甚至会因此有重大分歧,比如 Ilya 离职时提到的 “资源不足”。
刘知远:规模法则和密度法则就像大模型演进的明线和暗线,之前信息革命也是如此:明线是,设备越来越小,大型机→小型机→个人电脑→手机→其它智能终端;暗线是芯片行业的高效进化,也就是摩尔定律。我们提出密度法则,就是想寻找大模型时代的 “摩尔定律”。
晚点:模型的训练和推理效率越来越高,这不是不言自明的吗?为什么要特别来做这个研究?
刘知远:我们是在 2023 年底开始着手这个研究的。回到那一年,包括后面的 2024 年,全球主导的话语体系都是规模法则,一些国际机构甚至宣称:只有拥有十万张 GPU 的组织才有资格训练大模型。
这种叙事下,很多人,包括政策决策层也会误以为规模法则是唯一的第一性原理,这有误导性。密度法则就是希望纠正行业叙事,让大家看到效率同样是主线。
当时,大部分团队的目标都是复现 ChatGPT。国内一线团队大概在 2023 年 9~10 月完成了复现,80B 级别的模型就能做到 ChatGPT 的效果。
接下来一个自然的选择是追 GPT-4,我们测算,这需要把模型做到 140B 左右,训练成本得上千万元。但以当时的节奏,24 年上半年,国内至少会有五家团队做到 GPT-4 水平,那我们怎么收回投入?
所以我们把重点转向了 “模型风洞”——系统性评估架构、数据、训练策略对效率的提升。它带来的第一个成果,是 2024 年 1 月的 MiniCPM-1:以 2.4B 参数做到了当时 LLaMA-2-13B、Mistral-7B 的效果。2.4B 是手机可跑的规模,这让我们意识到,技术创新可以大幅提升模型的效率,也因此我们开始坚定投入 “端侧大模型”。
我们也在追问:这种效率跃迁背后有没有更底层的规律?受摩尔定律启发,我们提出了 “知识密度”,并在 2024 年围绕训练各环节的创新如何提升能力密度做了系统研究。至少在面壁内部,“密度法则” 已是一个明确的目标指引。
晚点:从 2023 年秋天之后,面壁就一直追求高效的大模型,但为什么并没有形成 25 年 1 月 DeepSeek R1 那样的影响力?
刘知远: 公众关注的是谁家模型能力更强,那往往意味着训练几千亿、上万亿参数的超大模型。但大部分公司还是要考虑商业后果。AGI 在未来五到十年一定会到来,你当然可以像互联网时代的 Google 一样,在云端做公开服务,但 AGI 也会发生在端侧。既然端侧有这么大的潜力,而关注它的人又不多,我们提前布局,反而更适合初创公司的禀赋和节奏。最近看到一句话很好:“别人得到的,不一定是你失去的。”
提升能力密度的四个环节,强化学习还未出现 Scaling Law
晚点:密度法则的核心洞察是什么?
肖朝军:核心观点不是我们观察到的模型能力密度 “每 3.5 个月翻倍” 这个数字本身,而是提出一个目标:我们应追求单位计算带来的智能最大化,而不是盲目追求模型规模。
规模法则与密度法则也并不对立。前者是 “算力与能力之间的对应关系”;后者是 “单位算力到智能的转化率”,是追求更高的斜率。
晚点:有哪些提升模型能力密度的具体方法?
刘知远:分四个部分——模型架构、数据、学习算法、软硬一体的协同优化。密度法则提出后,我们正在尝试定量描述这些维度的影响,已经有一些经验性结果。
肖朝军:第一就是模型架构。Transformer 核心就两块:FFN(Feed-Forward Network,前馈网络) 和 attention(注意力机制)。
现在基本的共识是,FNN 要做稀疏化的 MoE 架构——就是把 FNN 这块很大的 “稠密矩阵变换” 切成很多 “专家”,每次前向计算只激活其中一小部分专家,这比激活全局的算力消耗更少,效率更高。DeepSeek 的一个重要贡献,就是证明了 MoE 在大规模模型上也能有很好的效果。
而在注意力机制上,今年开源、闭源都在做各种效率改进:比如 Gemini 系列里滑动窗口注意力 + 稠密注意力的混合架构,Qwen3-Next 和 Kimi Linear 用了 DeltaNet(一种线性注意力)混合稠密注意力的架构,还有 DeepSeek 近期发布的 DSA 等等。这些改进都是为了顺应大模型从 “短模型” 变成 “长模型” 的趋势,而这又来自 Agent 化和深思考的需求,Agent 既需要长输入,也需要长输出。
长文本未来一定会面向深思考和 Agent 场景,它会有更多长输出。而现在面向长输出的线性注意力的验证是远远不够的。
所以,MiniMax 为什么从 M1 的 lightning attention(注:lighting attention 采用了线性注意力混合 full attention 的架构),到现在 M2 全部用 full attention?我猜测一个很重要的原因是,M2 想主打 agent,但是直接用 lighting attention 在一些更复杂的 agent 任务上有性能缺失。
晚点:年初我们聊注意力改进时,你就提到过 Agent 任务下,要更多关注长输出。这在现在也不是共识吗?
肖朝军:我观察到,大家还是习惯把长文本等同于长输入,而思维链和多步推理其实对长输出有更多需求。比如一个 agent 规划了 5 个步骤:你不能做到第五步时忘掉第一步,然后再倒回去重做,模型需要记住自己之前输出了什么。这是长文本的新挑战。
我们今年 6 月开源的 InfLLM 2,就有针对这个问题的改进。核心变化是做了 “原生稀疏”:在预训练阶段就引入稀疏注意力变,而不是像第一版那样在推理阶段才做。这带来两个好处:一是训练明显加速;二是稀疏度显著降低——InfLLM 1 在推理阶段,大概有 50% 的注意力开销(相比 full attention 的 50%),而 InfLLM 2 在训练阶段的稀疏度只有不到 5%,即在 128K 上下文长度下,只需要关注 4–6K token。
我们这个算子也同时支持长输出。在 Agent 和深度思考场景,这个方法都比较实用。
晚点:架构之后,在数据维度,业界在如何提高模型的能力密度?
肖朝军:数据上,接下来两个点非常关键:一是合成数据,二是更高质量的数据清洗与治理。现在几乎所有顶级团队都在投入这两件事,因为它们直接决定模型能力的上限,也决定下一阶段能否继续把密度做上去。
刘知远:我们内部其实有一套分层的 pipeline(流程),从 L0 到 L4,对应不同的处理阶段。
L0 收集,通过抓取、采买获得原料;
L1 过滤,清理掉重复数据和垃圾数据;
L2 精选,进一步挑出我们认定的高质量数据;
L3 合成,不只是对现有数据加工,而是生成这个世界上原本不存在的内容,比如改写、扩写、任务化等;
L4 验证,通过形式化或人工方式,确认这一层的数据达到了高质量。
比如最近我们用这套 pipeline ,精炼了很有名的预训练数据集 FineWeb,得到一个容量不到原始数据 1/10 的版本,叫 Ultra-FineWeb。结果用 Ultra-FineWeb 训练出的模型效果反而比直接用 FineWeb 更好,训练成本自然也能降到十分之一,这只是预训练阶段的数据治理带来的效果。
后训练同样如此——无论是 SFT(监督微调)还是强化学习,数据的合成质量都强烈影响模型的能力上限和效率。比如交大刘鹏飞老师最近做的 “Less is More” 系列,就是用更少、更精的数据获得更强效果的例子。
我们接下来也会开源这套比较完整的数据治理体系,包括数据样例和整个 pipeline 的结构。一个更根本的问题是:达到某个能力水平的 “最小的数据集” 究竟长什么样?这个问题也能帮我们追问智能的本质。
晚点:接下来是算法的改进,今年的重点明显转向了 RL。
肖朝军:是的,但强化学习做到现在,仍然没有出现清晰的 scaling law。
预训练的 scaling law 非常清晰:几十万亿 tokens、几十万步训练,有稳定的 scaling law 可循。而现在做 RL,大多数团队也就训到几千步;OpenAI o1 的技术报告里,一些任务不到一万步就停了,效果不错,但离跑通 RL scaling 还差得很远。换句话说,如何让强化学习持续稳定地训下去?这仍是整个行业在探索的方向。
晚点:你说 “RL 还没有 scaling”,具体是指什么?
肖朝军:行业说 “RL 的 scaling” 主要指两块:环境能否扩展,reward(激励)是否可验证。
前 OpenAI 研究员 Jason Wei 认为,RL 关键在于构建一个 “unhackable environment”——一个模型不能投机取巧,能持续学习的环境。但 Ilya 则认为这种环境几乎不存在,人类学习本身也不是在这样的环境里完成的,这也关系到我们如何定义下一阶段的 AGI。
在 reward 上,目前真正可验证的 reward 基本只有数学和代码。但代码领域的 RL 目前主要是在竞赛题上很强,真正的软件开发要复杂得多,reward 很难构建,这是 RL scaling 的核心瓶颈。
不过 RL 至少已经证明:只要有足够的数据和反馈,它能在任何任务上做到人类前 0.1% 甚至 0.01% 的水平。很多团队已经实现数学竞赛、编程竞赛的国际金牌水平。所以完全可以想象,未来一个公司如果能在某个垂直场景积累足够的数据,就能用 RL 打造出该领域的 “超级专家模型”。
晚点:现在就有 RL to B 的趋势——针对某个真实商业环境去做强化学习,比如 Thinking Machines Lab 可能在探索这个方向。
肖朝军:所以我们之前叫 prompt engineering,现在是 reward engineering 或 environment engineering,这都是 RL 带来的新产物。
不过只到这一步,还不是我们真正想要的 AGI。因为人类的学习非常高效,在一个新任务下,只需要少量反馈、少量尝试就能学会。现在 RL 离这种学习效率还有巨大差距。
接下来可能有两条路:
一是继续把 RL 做 scaling:不停扩大环境规模、增加可验证的 reward,看能不能像预训练那样,随着规模扩展自然出现更强的泛化能力。
我们正在研究更高效的 RL scaling 框架,让模型在 RL 训练时把算力吃满,把训练步数拉到足够大,比如做到几万步,让模型真正经历更长的思考。
更往前走是开放域的强化学习——不仅是数学、代码,而是像 “写一篇论文什么算好”“计划一个复杂任务什么算完成” 这种 reward。这个方向还没有成熟范式,大家都还在摸索开放域的 reward 怎么定义,怎么稳定训练?
二是寻找更高效的新的学习方式:提高 sample efficiency(样本效率)——让模型能更像人那样,在少量反馈下就能学会新任务,而不是依赖大量人工标注和大量环境交互。
晚点:我们不能构造一个很复杂的、包含多种激励的环境吗?人所处的真实环境就是如此,我们面临的任务很多样,在不同情境和场景里,我们也会自己切换目标和激励。
肖朝军:这很难。人能在现实世界中高效学习,是因为我们能从各种微弱而连续的信号里获得反馈。比如聊天时,我见你表情变严肃,自然会意识到可能哪里不太对——这是一种细腻的反馈。
但在强化学习里,反馈必须被离散成 “+1 或 -1” 这种形式化的 reward。如何把现实世界这种丰富、连续、多维的反馈压缩成一个 reward?本身就极其困难。
这对应到 Ilya 说的 value function(价值函数)——要给模型一个描述 “什么是好、什么是坏” 的价值函数。但构造这样的 value function 和构造一个完整的世界模型一样难。
甚至这是一个 “鸡生蛋、蛋生鸡” 的悖论:如果我真能对世界建模得那么好,能有一个足够强的 reward model 去评估所有行为,那这个 reward model 本身就已经是 AGI 级别的难度了。相当于你先有一个 AGI,才能用它去训练 AGI。
从大模型上车、上手机,到随身携带的 “个人 NAS”
晚点:密度法则在业界的更多反馈和影响是什么?
刘知远:DeepSeek-3 发布后,“成本、能效” 已经变成全行业核心词。其中一个有意思的现象是,很多具身智能(embodied AI)领域的朋友特别喜欢引用我们的研究成果,因为端侧设备对延迟与能耗极度敏感。
在《自然·机器学习子刊》的这篇论文之前,我们还有一篇发在《自然通讯》上的论文,是关于 MiniCPM-V(注:指论文 Efficient GPT-4V level multimodal large language model for deployment on edge devices),其中有张经典的图,就是描述密度法则结合硬件演进,能让端侧设备承载原来云端服务器上跑的模型才有的能力;具身智能团队最关心的就是,端侧的大脑什么时候可行。



达到 GPT-4V 水平的模型参数规模随时间增长迅速缩减,而端侧算力快速增强,当芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线交汇,端侧设备将能运行以往只能在云端运行的大模型。

晚点: 你们看到的具体时间表是?
刘知远:结合模型能力密度的提升速度,和全球一线芯片厂的制程路线图,推估端侧芯片的算力、缓存等规格,我们预测:2030 年左右,端侧可部署 60B+ 参数的模型,激活大小可到达 8B+。这是基于现在发展的线性推测,未来也可能有非线性突破。5 年内,端侧很可能能承载 GPT-4〜GPT-5 能力的模型。
晚点:不同终端设备的进展速度是怎样的?目前来看,车、手机、电脑应该是第一批,也是各家布局端侧 AI 的公司的重点。
刘知远:对,今年车端模型量产速度非常快,车的空间大,本身对算力、功耗的限制相对小。我们已经在和长安马自达、吉利的一些车型合作,明年会有 6 款以上车型接入我们的模型。
晚点:现在大语言模型和多模态模型在车上具体能做什么?相比之前的语音助手,新增体验是什么?
刘知远:主要是智能座舱的多模态交互,包括感知车内、车外环境,对坐在不同位置的多乘客的识别和理解等等。不同车企的功能定义其实差别挺大的,有的高端座舱的功能点会超过 100 个。
晚点:之前的 AI 技术在用到车等终端时需要做定制开发,这关系到这种服务的商业效率和规模化能力,大模型现在要去适配这么多功能点,需要做哪些额外的开发?
刘知远:主要是做一些微调,我们自己来做。我们本身很强调标准化,有一套 SFT 工具链和数据合成规范,所以效率挺高的。
晚点:那么接下来在手机,乃至眼镜这种更小的硬件上,AI 和端侧模型会怎么发展?
刘知远:我们认为 2027 年是关键节点,这时可以做到,在手机上实现大规模的强化学习。这就意味着,每个人能用自己的数据来给这个模型提供学习环境,让它能逐渐成为个人的 “专属大模型助理”。而眼镜,它不需要自己跑大模型,它更像是手机的外设。
或者说,未来的入口不也不是手机,而是一个随身的个人计算终端,类似能随身携带的的家庭 NAS(一种计算与存储服务器);眼镜、耳机、手表或各种新的传感设备,会通过各种方式获得数据,再给到个人计算终端,支持模型持续学习。
智能会分布式存在,AGI 的雏形是 “AI 造 AI”
晚点:目前的密度法则是描述现有预训练范式的效率提升,现在业界也都在讨论,预训练 +RL 后训练之后,下一个大的方法改进是什么?你们会重点探索哪个方向?
肖朝军:我认为是自主学习(self-learning),也可以说是自我进化、持续学习,现在的名词很多。背景还是我们前面聊到的——强化学习已能在单一任务上做到很强,但它还不够泛化。
未来的模型,首先应该是一个很好的学习者:它放在你的终端或其它设备上,可以根据你的需求持续学习你擅长或需要的任务。就像带一个实习生——你教它写代码、写稿或做研究,它会逐渐掌握这些能力。
而目前的预训练和强化学习都做不到这一点,因此才会出现世界模型,想给模型提供一个足够好的反馈环境;才会强化学习之父 Rich Sutton 说当前大模型无法通向 AGI 。核心还是,海量数据驱动的这种学习方式可能会阻碍更高效地习得新技能。
接下来,是有了自我学习能力的模型之间的协作。比如有的人培养出了 AI Researcher 专家模型,有的培养出了 Infra 专家模型,他们怎么合作,让模型发展得更快。
再往后,最高阶的就是创造能力,比如真的像爱因斯坦等科学家那样,不仅在人已经定义好的符号里学习,也有能力创造新的符号间的关系,乃至新的符号系统。
所以总结一下,就是自主学习→能自主学习的 AI 之间的协作→创新。
刘知远:这是明线,背后也有一条暗线,是智能在设备上的分布方式。
按中国信通院的统计,2023 年全国端侧算力,主要是手机的加总,是数据中心算力的 12 倍。云上算力看起来很大,但架不住全国十几亿台设备同时在跑。所以过去几十年的信息化,本质上是一个分布式算力和分布式信息的结构。
我认为智能化也会如此。2023 年初有巨头说 “全球只需要几个大模型”,这和 1943 年 IBM 董事长说 “世界只需要五台计算机” 如出一辙。但未来的智能大概率是分布式存在的,每个人都有一个属于自己的智能体。
如果模型具备自主学习能力,那么终端上的模型就能基于用户的个人数据持续成长,最终形成一个 “个人大模型”,成为你最懂你的那个助手。云端则会存在一系列 “专家大模型”:懂外卖的美团模型、懂出行的是滴滴模型、懂内容的是抖音模型……
端侧和云端模型的协同工作,就会形成 “智能体的互联网”。在这个分布式智能体系里,密度法则会非常关键,它能让端侧模型能以极低成本运行,用户几乎无感,让智能属于每个人。
晚点:未来一年:你们最想观察、验证的问题是什么?
肖朝军:强化学习到底能走多远?自主学习以什么形式存在?还有,最早出现的 “AGI 形态” 会是什么样?这其实是这样一个问题:自主学习、协作和创造这些能力,会先落在一个什么样的模型或产品形态上?
我的直觉是,AGI 的形态可能不是面向用户的 to C 产品,而是面向生产的 to B 系统。比如说,你让它 “做一个自动驾驶模型”,它就能生产数据、构建环境、训练模型、优化架构,最终把模型在目标算力上部署起来。也就是说,最早的 AGI 不需要什么都会,而是先会 “自己生产 AI”。
刘知远: 从历史来看,第一次工业革命的标志是 “机器生产机器”。智能时代的本质也是 “AI 造 AI”。自主学习,就是最早的 “AI 造 AI” 的雏形:模型能在环境中自己成长。我非常期待明年或后年出现真正具备这种能力的系统。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
天人地
在线jjybzxw

UID: 551814


发帖
210394
金币
599833
道行
2005
原创
2438
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 46216(小时)
注册时间: 2008-10-01
最后登录: 2025-12-13
只看该作者 板凳  发表于: 昨天 10:56
大模型密度法则:从规模到效率的范式转变

密度法则的核心内涵与历史背景

从“规模法则”到“密度法则”的演进
大模型的发展最初遵循规模法则(Scaling Law),即模型参数量、训练数据量与智能能力之间存在正相关关系。2018年后,随着GPT、BERT等模型的出现,参数规模从亿级跃升至万亿级,模型能力在自然语言理解、编程、生图等任务上不断突破。然而,这种“唯规模论”带来了巨大的资源消耗,OpenAI前首席科学家Ilya Sutskever曾指出,互联网公开语料即将枯竭,传统预训练模式难以为继。

2023年11月,清华大学、OpenBMB与面壁智能联合研究在《自然·机器学习》封面发表《大模型的密度法则》(Densing Laws of LLMs),提出能力密度每3.5个月翻一倍的全新规律。能力密度定义为单位参数/算力下模型能力的指标,标志着大模型发展从“规模竞赛”转向“效率革命”。

历史类比:从“五台计算机”到“分布式智能”
2023年初,某巨头曾预言“全球只需几个大模型”,这与1943年IBM董事长托马斯·沃森“世界只需要五台计算机”的论断如出一辙。正如个人计算机颠覆了大型机垄断,大模型的未来也将走向分布式。2023年全国端侧算力(主要是手机)已是数据中心算力的12倍,这一算力分布结构为端侧智能奠定了基础。

密度法则的关键洞察与技术路径

密度法则的核心洞察
1. 效率优先:不再单纯追求参数规模,而是关注“单位资源产出的智能”。研究表明,ChatGPT发布后(2023年1月),能力密度上升斜率从4.8个月翻倍缩短至3.2个月,提升速度加快50%。
2. 摩尔定律的AI映射:类比芯片行业通过提升电路密度实现小型化,大模型通过提升能力密度实现高效化。这将推动智能从云端向手机、汽车、机器人等终端设备迁移。

提升能力密度的具体方法
研究者刘知远和肖朝军提出,能力密度的提升可通过四个环节实现:

1. 模型架构优化
   - MoE(混合专家系统):将前馈网络拆分为多个“专家”,每次计算仅激活部分专家,减少冗余计算。DeepSeek、Qwen等模型已广泛应用MoE架构。
   - 高效注意力机制:传统全注意力机制在长文本处理中效率低下。新型架构如滑动窗口注意力、线性注意力(DeltaNet、DSA)等,在长上下文(128K tokens)场景下显著降低计算开销。面壁智能的InfLLM 2通过“原生稀疏注意力”,在128K上下文下仅需关注4-6K tokens,稀疏度降至5%以下。

2. 数据质量与合成数据
   - 高质量数据清洗与治理:避免噪声数据对模型的干扰,提升训练效率。
   - 合成数据生成:通过AI生成高质量标注数据,补充真实数据的不足,尤其在多模态领域。

3. 学习算法创新
   - 指令微调(Instruction Tuning)与强化学习(RLHF):使模型更好地理解人类意图,提升任务执行效率。
   - 端侧持续学习:终端模型基于用户个人数据自主迭代,形成“个人专属大模型”。

4. 软硬协同优化
   - 模型量化、显存优化等技术,在相同硬件条件下运行更大规模模型。例如GPT-3.5级推理成本在20个月内下降266倍,每2.5个月成本减半。

行业趋势与未来展望

端侧智能的爆发
密度法则直接推动端侧大模型的发展。面壁智能的MiniCPM系列以2.4B参数实现LLaMA-2-13B同等性能,并成功部署于手机、汽车等终端。未来,每个人的手机都将搭载专属智能体,基于个人数据持续成长,成为“最懂你的助手”。

智能体能力的强化
当前大模型呈现两大趋势:
1. Agent能力显著提升:模型在代码任务、多步推理等agent任务上的表现持续进步,体现为“思考深度”而非仅仅是“知识广度”的增强。
2. 多模态融合突破:Google的NanoBananaPro实现了高精度视觉-语言生成,其文字渲染准确度远超传统扩散模型,在图像中嵌入多语言文案的能力达到新高度。这标志着多模态不再是简单的数据叠加,而是统一自回归式的深度融合。

分布式智能的未来
黄铁军教授曾预言大模型将“洗牌”,但密度法则修正了这一观点。未来的智能将是分布式存在的:云端提供通用基础模型,端侧运行个性化轻量化模型。两者通过“云-边-端协同”实现能力互补。正如刘知远所言:“过去几十年的信息化是分布式算力和信息结构,未来智能也会如此。”

结语:大模型时代的“摩尔定律”

密度法则如同大模型时代的“摩尔定律”,为行业提供了清晰的发展指引。它不仅纠正了“唯规模论”的误区,更打开了端侧智能和分布式智能的巨大想象空间。从2023年ChatGPT引发的规模竞赛,到2025年密度法则主导的效率革命,大模型正以每3.5个月能力密度翻倍的速度演进。未来五年,我们或将见证AGI在云端与端侧的双重突破,每个人都能拥有一位专属的智能助手,真正实现“普惠智能”。

正如文中所述:“别人得到的,不一定是你失去的。” 在这场效率革命中,那些率先布局端侧、深耕密度优化的企业和研究者,将占据下一代智能生态的核心位置。而我们每个人,也将亲身体验这场从“少数巨型模型”到“亿万个人智能体”的变革浪潮。
如何不发帖就快速得到金币道行
 
在线天人地

UID: 1627269

精华: 2
级别: 上清仙尊

发帖
296000
金币
26807
道行
40006
原创
108
奖券
147
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 36658(小时)
注册时间: 2012-09-03
最后登录: 2025-12-12
只看该作者 沙发  发表于: 昨天 09:28
从“更大更强”到“更小更强”的转变,标志着人工智能发展范式的深刻变革。这一转变的核心是 “密度法则” 的提出与 分布式智能 的崛起,其本质是通过提升模型效率与降低资源依赖,推动智能技术从集中式算力依赖走向泛在化、个性化。以下是关键分析:

一、范式转变:从规模法则到密度法则
规模法则(Scaling Law)的局限性

过去十年,AI 发展依赖“规模法则”:通过扩大模型参数量、数据量和算力提升性能(如 GPT-3 到 GPT-4)。但伴随而来的是训练成本飙升、资源消耗剧增,甚至引发行业分歧(如 OpenAI 因资源不足的内部矛盾)1。
规模扩张面临瓶颈:硬件摩尔定律放缓,单一模型难以持续指数级增长11。
密度法则(Densing Law)的提出

定义:模型“能力密度”指单位参数/算力下的性能表现。研究表明,能力密度每 3.3 个月翻倍,即同等性能所需算力持续降低11117。
意义:从追求“更大规模”转向追求“更高效率”,推动模型轻量化、低成本化。例如,2024 年 8 月的 Gemini-1.5-Flash 推理成本仅为 2022 年 GPT-3.5 的 1/26611。
二、技术路径:如何实现“更小更强”?
模型架构创新

稀疏化设计:采用混合专家系统(MoE)、稀疏注意力机制,动态分配计算资源,减少无效参数量19。
蒸馏与迁移学习:将大模型知识压缩至小模型(如 MiniCPM 系列仅 2.4B 参数媲美 7B 模型)117。
算法与硬件协同优化

端侧算力提升:手机、汽车等终端设备算力爆发(2023 年端侧算力达数据中心 12 倍),支持本地化模型部署112。
芯片能效革新:国产芯片通过架构优化降低推理能耗,结合密度法则推动端侧智能普及615。
开源生态与工程突破

中国技术路径强调 开源共享(如 DeepSeek、MiniCPM 开源模型),降低研发门槛,加速技术迭代69。
推理技术突破:量化、投机采样等技术减少显存占用,提升响应速度11。
三、分布式智能:未来的核心图景
端侧智能爆发

手机、汽车、机器人成为智能载体,实现“离线智能”。例如:
车载大模型实时处理路况,减少云端依赖19;
手机端个人助手基于本地数据持续学习,保障隐私与实时性112。
个人专属大模型

通过自主学习能力,终端模型可基于用户行为数据进化,形成“最懂你的助手”1。
清华大学刘知远指出:“未来智能是分布式的,每个人拥有专属智能体”1。
多智能体协同网络

智能体(Agent)从单任务向多智能体协作(Agentic AI)演进,通过联邦学习、区块链实现跨域协同1215。
例如:工业场景中,设备智能体自主调度维护资源,提升系统可靠性

四、产业影响与挑战
重塑竞争逻辑

企业从拼算力转向拼效率:模型“高性价比有效期”缩短(如 Google Gemma-2-9B 发布两月后即被性能更强的 4B 模型超越)11。
中小厂商借开源生态切入市场,打破巨头垄断913。
挑战与风险

国产芯片生态薄弱:需突破算力瓶颈与工具链适配6;
安全与伦理:分布式智能需解决数据隐私、责任认定等难题1215;
技术落地鸿沟:行业需从“技术可用”转向“场景实用化”(如工业领域对 AI 准确性的严苛要求)622。
结语:智能的“密度革命”正开启泛在化时代
密度法则不仅是技术指标,更是智能民主化的引擎——通过效率跃迁,让高性能 AI 从云端服务器下沉至每个人的口袋。未来,分布式智能将重构人机关系:“智能如水,随需而现,无处不在”。
如何不发帖就快速得到金币道行
 
天人地
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个