Gemini Robotics 1.5系列模型:机器人自主性的新突破
谷歌DeepMind在2025年9月26日推出了Gemini Robotics 1.5系列机器人模型,这一系列模型通过思维链机制和模型协作,显著提升了机器人的自主性。这一突破性进展使得机器人能够更好地感知、计划、思考、使用工具和行动,从而解决复杂的多步骤任务。
一、Gemini Robotics 1.5和Gemini Robotics-ER 1.5:机器人的“小脑”和“大脑”
1. Gemini Robotics 1.5:机器人的“小脑”
- 功能:作为视觉-语言-动作(VLA)模型,Gemini Robotics 1.5能够将视觉信息和文本指令转化为机器人的控制命令。
- 特点:在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。
- 角色:主要充当机器人的“小脑”,负责执行具体的动作。
2. Gemini Robotics-ER 1.5:机器人的“大脑”
- 功能:作为视觉语言模型(VLM),Gemini Robotics-ER 1.5能够对物理世界进行推理,并创建详细的多步骤计划来完成任务。
- 特点:具备调用数字工具的能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判。
- 角色:像机器人的“大脑”,负责高层次的任务规划与决策。
二、训练数据与技术细节
1. 训练数据
- 多模态数据集:训练数据集由图像、文本和机器人传感器与动作数据组成。
- 多本体数据:涵盖了数千个多样化任务,从抓取与操控到双臂协作,再到人形机器人执行日常复杂任务。
- 公开数据集:包括来自互联网的公开文本、图像和视频数据集,以提升模型的泛化能力。
2. 技术细节
- 动作迁移机制:Gemini Robotics 1.5通过动作迁移机制实现跨本体的技能迁移,能够在不同机器人平台上直接执行任务。
- 具身思考能力:在执行动作前,Gemini Robotics 1.5会生成一条自然语言形式的“思考轨迹”,将复杂任务拆解为更细致的步骤。
- 具身推理能力:Gemini Robotics-ER 1.5具备复杂的任务规划、空间推理和任务进度估计能力,确保任务的稳定执行。
三、应用场景与安全性
1. 应用场景
- 复杂任务执行:例如查询当地垃圾分类要求,并将桌面上的物品放到正确的垃圾桶中。
- 人机交互:通过自然语言理解用户的指令,提高机器人的易用性。
- 自主性提升:使机器人能够推理、适应和响应开放式环境中的变化。
2. 安全性
- 安全判断机制:谷歌DeepMind开发了新型的安全和对齐方法,包括顶层的安全判断机制和底层的安全子系统。
- ASIMOV基准测试:发布了机器人安全基准测试ASIMOV的升级版,用于评估和改进语义安全性。
四、行业影响与未来展望
1. 行业影响
- 跨本体化共识:Gemini Robotics 1.5系列模型通过多本体数据和动作迁移机制,扩展了机器人模型的通用性,成为行业的共识与新赛道。
- 技术开放:开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,推动行业创新。
2. 未来展望
- 更广泛的适用性:随着技术的不断进步,Gemini Robotics 1.5系列模型有望在更多领域得到应用,如家庭服务、医疗护理和工业制造等。
- 更高的自主性:未来的研究将进一步提升机器人的自主性和适应能力,使其在复杂环境中表现出更高的智能水平。
总之,Gemini Robotics 1.5系列模型的推出标志着机器人技术的重大突破,为实现更智能、更自主的机器人奠定了坚实的基础。