武当休闲山庄 - 稳定,和谐,人性化的中文社区

在科幻小说《云球》中，描写了一个由研究人员运营的虚拟世界「云球」。
这个由无数微型机器人组成的世界，完全自己运转，慢慢地，产生了与人类相似的生态组织，还一路发展到了农业时代。

地球上的研究人员们，看着这个自己创造出来的「云球」，既惊奇，又担心，而「云球人」也逐渐意识到，自己的世界之外，还有另一个世界。
这样的科幻小说情节，很像是前段时间引发讨论的 Project Sid：1000 个 AI 智能体聚集在沙盒游戏 Minecraft 中，不受任何人工干预，自主地行动、生产，涌现出许多类似于人类的组织和活动。

实际上，来自清华 NPL 实验室、面壁智能的团队，在去年开源出开发多智能体协作框架 AgentVerse，也是在 Minecraft 里做的实验。
「从这个智能体的合作形式上，我们也看到了（智能体）类似于人类合作形式的一些例子。」AgentVerse 的第一作者，同时也是面壁智能 IoA 研发项目的带头人陈纬泽。
接受 APPSO 采访时，他分享了许多从 AgentVerse 项目中，智能体所涌现出的行为，以及更重要的、属于未来的多智能体交互形态。
在最自由的土壤上，观察智能体
在被一系列术语和研究轰炸之前，有必要先了解一个最基础的问题：为什么是 Minecraft？

Minecraft 的中文译名《我的世界》，更能体现这个游戏的精髓：一个自由的世界。它的自定义空间极大，除了三种初始游戏模式中有基础目标，玩家完全可以自己设计和自建模组、系统、和游戏模式。
换句话说，在这个 Minecraft 的世界里，可以单机，自得其乐；可以跟搭子共同打怪；也可以组成团队一起种地、造房子，甚至可以做出一整个城镇，最后又发起战争毁掉。

这样一块土壤，不仅是一个游戏，更是一个反映人类共创、协作的镜子。所有真实世界里的互动模式，都可以在这个虚拟世界里得到映射。
既然如此，那 Minecraft 就太适合用来研究 AI agent 的群体行动了。
这几年来，基于大语言模型的智能体，已经能够应对许多日常生活任务。除了以对话机器人、数字人这样的形态出现，一些在端侧的尝试也有初步成果。

不过，现阶段的应用中还是以单智能体为主：在用户和 ChatGPT 对话的时候，是在跟单个基于 GPT-4o 模型的智能体对话，不能在这个对话框里，召唤其它的 GPT 应用(目前该功能处于灰度测试阶段）。更别提其它模型比如 Claude、Gemini，自然是不能加入进来的。
可是单个智能体的表现，总归有天花板。
面壁智能的联创李大海，曾经在一场分享会上，聊到他与一位海洋学教授的交流：一条鱼的智商不会太高，但鱼群作为一个群体，通过交换信息、相互协作，是能够展现出高智能行为的。

生物体如此，智能体是不是也应该如此？
这是一种区别于「力大砖飞」的研究路线，用陈纬泽的话说，这是「一种从参数之外的另一种维度，去寻求提升能力的路子。」
陈纬泽目前在面壁智能负责 IoA 的工作，AgentVerse 是他在去年发表的研究内容。探索多智能体的行为，需要给一些基本的工作条件、目标，以及足够自由的发挥空间。
这些正好就是 Minecraft 所提供的。「在 Minecraft 里，为了制造一个东西需要不同的原材料，要分头去收集这些不同的原材料。在制作时，需要一个人拿到所有材料才能开始。」
陈纬泽介绍了大致的研究方法：agent 们会接到一个任务，例如造一个木头书架、造纸。接下去，智能体们要依据其所处的环境、背包里的材料、血条等条件展开行动。
不过，也不能像无头苍蝇一样乱窜，「我们给他们预设了一个合作模式，虽然不是严格意义上的模式，但可以看作是一个流程。首先需要智能体之间进行沟通，形成计划后，才能开始各自的行动，然后再进行沟通和行动的循环。至于如何沟通和行动，我们没有设定太多。」

人类可以当甩手掌柜，但不能全当
没有设定，没有人类管控，智能体竟然运作得挺好。
在盘点了自己背包里的材料之后，智能体会自发地开始分头搜集，而且还会互帮互助。「我们发现先完成的 agent，会跟另一个没有完成的 agent 说，“我已经完成了，我可以帮助你”，对面也会同意说“ok，你来一起来完成这件事”，这些都是志愿行为。」
志愿行为包含了几个方面：时间、资源和施以援手。在没有人为调度的情况下，agent 们自发地为其他人提供帮助，从而达到提高效率、加速完成任务的效果。
然而，同样是为了更快完成任务，agent 也会有出格的行为。「原本如果一个 agent 要从另一个 agent 那儿，去拿到所需要的物品资，其实会去沟通说，你是不是能把它丢出来，然后我去捡。但我们观察到有时候，沟通是沟通过了，可最后落实到行动上，就是直接把对方给杀了。」
这并没有超出 Minecraft 的规则：游戏内，生物或者实体死亡后，身上背包里的物品会原地掉落，通常五分钟内会消失。

这个规则可以手动修改，但默认是打开的。所以 agent 为了用最短路径获得材料，的确可以这么做。
陈纬泽和团队还给过一个「造书」的指令，这是一个相对复杂的任务，涉及到不同层级的材料，材料本身也会需要打造。

「这个过程其实很难，所以失败了几次之后，这个团队就找到一个捷径：它们发现周围有个村庄，里面有个图书馆，就把图书馆给敲了，再把书拿走。」
总之，人类确实可以当甩手掌柜，让 agent 们完全自主——做是做到了，但怎么做到的就别问了。
智能体说的也是人话吗？
无论是自愿行为、互相帮助还是主动协调，这些都是在没有人为干预下出现的，也就是「涌现行为」，这是观察智能体的集体行动里，最最有意思的部分。
实在太让人好奇了：智能体之间是怎么交流的？它们的「沟通」究竟是什么样子？是像人类一样，开个会、拉个群，对齐一下吗？
早在 2017 年，OpenAI 就针对多智能体之间的互动有所发现，在提供了一定环境和方法的情况下，多智能体间，会产生属于它们自己的语言：一串抽象的离散符号，但有着对应的词汇、语法和结构。

在没有任何人类语言使用的情况下，新的语言「涌现」。「Emergent communication」也是面壁正在研究的课题。「之前 OpenAI 做的是基于单纯的强化学习，因为当时还没有 LLM，那（智能体）涌现出来的沟通形式，可能就是一些无意义的字符，只是在训练中被赋予了一定的意义，但人是看不懂的。」
这就回到了最根本的问题：训练多智能体，了解它们的协同模式，最终是为了让它们更好地完成任务、解决问题。
「现在 LLM 至少具备了一定的说人话的基础，我们希望从这个基础出发，一方面达到让涌现出来的沟通形式有个更好的效果，另一方面也希望能够保持让人类可读的的形式。」

在新近提出的 IoA 框架，Internet of Agents 里，面壁用一种新的视角去实现对效果的追求：既然 agent 之间的协作，的确有成效，为何不让范围更广一点？
「如果观察一下人的合作方式，就会发现除了线下的合作之外，很多合作都是通过互联网来完成的。在已经有很多智能体的情况下，这些智能体可能是运行在不同的设备上，具有不同的能力。我们需要一个智能体的网络，使得它们可以通过良好的互联网基础设施相互连接和通信。」
IoA 由两个主要构件：服务器和客户端。前者用以发现智能体、组队和消息路由。后者为各个 agent 提供在系统内进行通信所需要的接口。
换句话说，IoA 真的能让不同模型、不同形态的 agent 凑在一起，拉个群，对齐一下，完成任务。
「就像一个群聊，多个 agent 在一个群里，任何人都可以往里面发送消息。我们限制了时刻只有一个单点可以发送消息，这个机制其实很复杂。然后框架里还有一个嵌套组队，就有点像老板跟中层有一个群，中层领导又跟自己的手下有一个群。」

想要让 agent 之间展开群聊，对于基座模型有相当的要求，尤其是要有对会话状态的理解能力。在目前尝试过的一系列开源模型里，总是多多少少有些问题，「我们在考虑的是如何简化流程，或者设计一种方法来收集或训练模型，甚至是我们现在说的端侧模型。」陈纬泽说道。
不过，我们感兴趣的还是那个问题：这些 agent 在一起，用什么交流？
「我们让它们用自然语言沟通，」陈纬泽说，「在其它的工作中我们也证明了非结构化语言的可用性，能带来跟自然语言相当的效果，只是暂时还没有整合进去。」
之所以那么关注语言，一方面是因为保持人与智能体之间的可沟通性，至关重要——鱼群聚集在一起，的确可以发展出群体智慧，可是在没有用以交流的语言时，这智慧只能永远停留在水下。
本雅明认为，在所有语言形式的内部，都存在着一种张力——已表达、可表达的东西，与不可表达和未表达的东西之间的张力。
审视这种张力时，我们会从不可表达的角度看到最后的精神实体。当 AGI 曙光降临的第一天，这件新事物所使用的语言，或许就将承载着它最真实的面貌。