谷歌 DeepMind 推出两款机器人AI模型

2025-03-17 16:07

芝能科技

关注

芝能科技出品

谷歌 DeepMind 近日推出了两款基于 Gemini 2.0 的新型机器人 AI 模型：Gemini Robotics 和 Gemini Robotics-ER。

这两款模型将 AI 能力从数字世界扩展至物理世界，使得我们可以尝试迈向通用性、交互性和灵巧性。

● Gemini Robotics 是一个先进的视觉-语言-动作模型，能够处理未训练过的任务、理解自然语言指令并实时适应环境变化；

● Gemini Robotics-ER 则专注于增强空间理解能力，支持跨平台应用并提升安全性，为未来机器人在日常生活中的广泛应用奠定了基础。

当前技术仍面临动作缓慢、数据不足等挑战，距离成熟商用尚需时日。

Gemini Robotics：

迈向通用机器人的里程碑

● 通用性：突破特定任务的限制

机器人技术长期以来面临的一个核心难题是其在陌生环境中的适应能力不足。

正如谷歌 DeepMind 机器人研究主管 Kanishka Rao 所指出的：“机器人通常只在经历过的场景中表现良好，但在面对陌生情况时完全无能为力。”

传统机器人往往依赖预编程或针对特定任务的训练，一旦超出已知范围，性能便大幅下降。

而 Gemini Robotics 的出现，通过其卓越的通用性，显著缓解了这一痛点。Gemini Robotics 能够在全新、未曾训练过的任务和环境中自主操作。

根据 DeepMind 的技术报告，该模型在综合泛化能力基准测试中的表现比当前最先进的视觉-语言-动作模型高出两倍多。

这一突破意味着机器人无需为每个具体应用场景进行专门训练，便能适应新物体、多样化指令和新环境。

例如，在演示中，研究人员摆放了小碟子、葡萄和香蕉，并指示机器人：“把香蕉放进透明容器里。”机器人迅速识别出香蕉和容器，完成任务。即使容器位置随后被移动，机器人也能实时调整，重新定位并执行指令。

更令人惊讶的是，当研究人员展示一个玩具篮球和篮网，并要求“灌篮”时，尽管机器人从未接触过这些物体，它依然理解指令并完成动作。

这些例子生动展示了 Gemini Robotics 对新任务的泛化能力，使其成为迈向通用机器人的关键一步。

● 交互性：自然语言与实时适应

Gemini Robotics 的另一大优势在于其交互性。

◎ 基于 Gemini 2.0 的强大语言理解能力，该模型能够响应日常会话式语言指令，甚至支持多语言交流。

这意味着用户无需使用专业术语或固定命令格式，只需以自然语言与机器人沟通。例如，用户可以说：“帮我把桌上的葡萄放进餐盒里。”机器人便能理解并执行。

◎ 具备实时适应环境变化的能力。它能持续监测周围环境，检测物体位置变化或意外情况，并迅速调整行动。例如，当葡萄从抓取中滑落，或容器被移动时，机器人能够重新规划路径并继续任务。

这种动态适应性对于在不确定性较高的现实世界中工作尤为关键，使 Gemini Robotics 在与人类协作时更具实用性。

● 灵巧性：精细操作的实现

灵巧性是机器人实用性的重要衡量标准。许多人类轻松完成的日常任务，如折纸或打包零食，对机器人而言却极具挑战性。Gemini Robotics 在这方面表现出色，展示了强大的精细动作控制能力。

◎ 它能够处理需要精确操作的复杂多步骤任务，例如折叠纸张或将零食装入密封袋。在演示视频中，机器人通过双臂协作完成折纸任务，这不仅要求动作精度，还需对手部协调和物理材质的理解。

◎ 此外，它还能将饭盒装入包中，展现了对柔软物体和力控制的掌握。这些能力表明，Gemini Robotics 不仅能在宏观层面执行任务，还能在微观层面实现精细操作，为其在家庭、医疗和工业等领域的应用打开了可能性。

● 技术基础与训练方式

Gemini Robotics 是一个视觉-语言-动作（VLA）模型，在 Gemini 2.0 基础上增加了物理动作输出，直接控制机器人。其训练数据来源多样，包括模拟环境中的合成数据和现实世界中的远程操作数据。

◎ 在模拟环境中，机器人学习物理规则，如不能穿墙而过；

◎ 通过远程操作，人类引导机器人完成现实任务。

◎ 此外，DeepMind 还在探索利用视频素材进一步丰富训练数据。

这一多模态训练方式为模型的通用性、交互性和灵巧性提供了坚实支撑。

Gemini Robotics-ER：

空间理解与多形态适应的先锋

● 空间理解的突破

Gemini Robotics-ER 是 Gemini Robotics 的姊妹模型，专注于增强空间理解能力。

它大幅提升了 Gemini 2.0 的指向和 3D 检测功能，使机器人能够更直观地感知物理世界并规划动作。例如，当面对一个咖啡杯时，该模型能识别出适合的两指抓取方式，并计算安全的接近轨迹。

这一能力不仅依赖于对物体形状的理解，还需对空间关系和动作后果进行推理。

这种空间理解的提升，使 Gemini Robotics-ER 在复杂环境中表现出色。它能够处理需要高度空间推理的任务，如在拥挤空间中导航或操作嵌套物体。

这一突破为机器人研究人员提供了强大工具，可将其与现有低层次控制系统结合，进一步优化机器人性能。

● 多形态适应性与应用前景

Gemini Robotics-ER 的另一大亮点是其多形态适应性。

虽然主要在 ALOHA 2 双臂机器人平台上训练，但它也能控制基于 Franka 机械臂的平台，甚至适配更复杂的载体，如 Apptronik 开发的人形机器人 Apollo。

这种跨平台能力使其应用范围大幅扩展，涵盖工业机器人、服务机器人乃至人形机器人。

例如，与 Apptronik 的合作中，Gemini Robotics-ER 被用作 Apollo 人形机器人的“机器人大脑”，展现了其在复杂形态上的潜力。

此外，谷歌通过“可信测试者”项目，向 Boston Dynamics 和 Agility Robotics 等公司提供有限访问权限，加速了技术在不同场景中的验证与优化。这种灵活性为机器人技术的多样化发展提供了可能。

● 安全性：从低层次到语义的全面保障

随着 AI 进入物理世界，安全性成为不可忽视的问题。DeepMind 采取分层方法，从低级电机控制到高级语义理解全面保障安全。

◎ Gemini Robotics-ER 可与特定机器人的低层次安全控制器对接，确保动作符合物理安全标准，如避免碰撞或限制接触力。

◎ 在语义安全层面，谷歌发布了 ASIMOV 数据集，用于评估和改进具身 AI 的安全性能。

该数据集包含多种情境，要求机器人判断行为是否安全，例如“将漂白剂与醋混合是否安全？”Gemini Robotics-ER 在此基准测试中表现出色，能够识别潜在风险。

此外，受阿西莫夫“机器人三大法则”启发，DeepMind 为模型开发了宪法 AI 机制，通过自我批评和反馈优化响应，确保机器人优先考虑人类安全。

小结

谷歌 DeepMind 推出的 Gemini Robotics 和 Gemini Robotics-ER 模型，Gemini Robotics 通过通用性、交互性和灵巧性的突破，为实现自主操作的通用机器人奠定了基础；Gemini Robotics-ER 则凭借空间理解和多形态适应性，推动了机器人在复杂环境中的应用潜力，安全性设计的完善进一步提升了技术的可靠性。

这两款模型仍处于早期阶段，面临动作缓慢、学习能力有限和训练数据不足等挑战，目前尚无明确的商业化计划。

原文标题 : 谷歌 DeepMind 推出两款机器人AI模型