人形机器人界的安卓,国家队抢先做了
作者|向欣
在当今的人形机器人界,有一种主流观点是,硬件本体并不是人形机器人应用的阻碍,大脑与小脑才是。
也就是说,人形机器人缺乏能够智能决策的大脑,与精细控制全身关节运动的小脑。
这两者是人形机器人能够执行任务,走入人类生活的关键技术。
为了帮助人形机器人行业解决这个问题,3 月 12 日,人形机器人界的国家队——北京人形机器人创新中心(国家地方共建具身智能机器人创新中心,以下简称「创新中心」)发布了通用具身智能平台「慧思开物」。
这是全球首个「一脑多能」、「一脑多机」的通用具身智能平台,包含负责任务规划的「大脑」与负责执行任务的「小脑」。
它相当于机器人的思考与控制中枢,能够帮助多种不同构型的机器人灵活适应工业、物流、家庭等多种场景,自主完成整理物品、物流打包等复杂任务。
「慧思开物」最大的特点是,它可以让不懂算法、甚至不懂机器人,但想要用机器人干活的人或者企业也能够较为轻松、快速地完成机器人应用开发,实现多种机器人在不同场景、任务中的高效运用。
创新中心首席技术官唐剑称,「慧思开物」是对传统机器人应用开发模式的颠覆,有望显著减少机器人应用开发在人力与时间方面的投入。
适配多种机器人构型,
具备任务泛化能力
传统的工业、服务机器人的应用开发,通常需要一个专业团队在特定场景下采集数据,针对特定任务写一个专用程序,并做各种调试才能完成。
此类应用开发方案不仅耗费较多的时间与人力成本,调试出的机器人也几乎不具备泛化能力,仅适用于固定流程与操作对象。
随之带来的结果是,机器人行业一直以来都无法解决场景、任务、本体泛化能力差的痛点。
而「慧思开物」,是一个可以让市面上各种主流机器人能够针对任意场景、任务进行快速开发的平台。
它的「通用」特性体现于此。
「一脑多能」、「一脑多机」、数据利用率高是「慧思开物」最核心的三个亮点:
「一脑多能」:支持机器人适应从工业制造到家庭服务等多种场景,执行各类复杂任务,如工业分拣、整理桌面、物流打包等等;
「一脑多机」:可适配机械臂、轮式机器人、人形机器人等多种机器人;
数据利用率高:将任务拆解为拿、拧、挑等多项元技能,仅需少量数据即可高效训练并成功执行任务。
在发布会现场,「慧思开物」展示了在工业分拣、积木搭建、桌面清理和物流打包四个场景的真机操作应用。
这是全球首次多场景、多任务、多构型具身智能机器人操作的直播展示。
工作人员仅使用「慧思开物」APP 给机械臂下达指令,或直接告诉人形机器人它要做什么,机器人就能自主分析任务与环境,并完美执行任务,整个过程丝滑流畅。
在积木搭建场景中,「慧思开物」首次实现了复杂任务的智能化拆解与执行。
现场观众随意搭建了一个积木,人形机器人「天工」在接收到语音指令后,利用视觉大模型(VLM)分析积木的构成,规划每一层的搭建顺序,重新搭建了一个一模一样的积木,精度达毫米级,展现了「慧思开物」及人形机器人在教育娱乐、精密制造等领域的应用潜力。
在整理桌面的过程中,面对人类不断移动物品的干扰,机器人也能沉着冷静地应对,具备优秀的自主纠错能力。
「慧思开物」强大的机器人应用开发能力,源于其大脑与小脑:
大脑部署在云端,由 MLLM(多模态大语言模型),VLM(视觉-语言模型)驱动,具备自然交互、空间感知、意图理解、分层规划和错误反思等能力;
小脑部署在端侧,由 VA(视觉-行动)、VLA(视觉-语言-行动)模型和 LLM(大语言模型)驱动,负责端到端执行任务。
在小脑层面,又分为两个子平台:
具身操作平台:拥有元技能库,可实现泛化抓取、技能调用和错误处理等功能;
具身运控平台:负责机器人全身控制、包括双臂协作、稳定行走、移动导航等。
其中,元技能库是指一个包含了机器人完成各种复杂任务所需的基础、通用技能集合的数据库。
「慧思开物」使用了创新中心构建的通用具身智能数据集和 Benchmark——RoboMIND 进行训练。RoboMIND 覆盖工业、家庭、办公等多场景任务,具备高度的通用性和可扩展性。
「慧思开物」的运行过程是,由具身「大脑」进行任务规划,再调用具身「小脑」技能库执行具体动作,并将执行反馈传递给具身「大脑」,形成任务闭环。
比如,当接收到一个打包快递的指令时,机器人大脑会理解指令并规划任务,把任务分解成多个子任务,即拿起扫码枪和物品、进行扫码、放置物品、关上纸盒、贴上快递单。
随后任务指令传入小脑,小脑从元技能库中调用出执行这些任务所需要的技能,比如抓取、放置、扫码、贴标签等。最后由小脑的具身运控平台控制机器人的身体完成动作。
由于应用开发的快捷性与多场景适用性,「慧思开物」目前已用于支持优必选人形机器人,帮助其成功应用优必选创新提出的群脑网络 (BrainNet) 软件架构,从而能够执行整条工业产线的任务。
无论是对关注机器人应用的各行各业的客户,还是投身机器人科研开发的科学家与极客来说,「慧思开物」都是快速缩短机器人应用开发周期的利器。
多项关键技术开源
为具身智能「添柴加薪」
创新中心首席技术官唐剑介绍,「慧思开物」平台技术架构会在今年按照计划陆续开源开放,包括其中的 VLM、VLA 模型以及相关的代码等。
对于仍处于发展初期的具身智能行业,开源意义重大,它能够打破技术壁垒,快速降低行业门槛与研发成本,将前沿技术加速扩散,促进行业快速起步和多元化发展。
创新中心成立于 2023 年 11 月,由京城机电、优必选、亦庄机器人等 10 家行业领军企事业单位出资 4.6 亿元联合组建,彼时名为北京人形机器人创新中心。
2024 年 10 月,在工业和信息化部与北京市人民政府指导下,该创新中心正式升级为「国家地方共建具身智能机器人创新中心」。
这一升级,让它拥有了国家队的属性。
自成立以来,创新中心聚焦具身智能及人形机器人行业的共性技术研发,在取得成果后已开源多项重大技术或资源:
开源机器人本体:开源人形机器人「天工」,包括软件开发文档、软件架构、机器人结构图纸、电气系统等,同时有多家合作伙伴们基于「天工」平台面向应用场景进行二次开发;
开源具身智能数据集:通用具身智能数据集和 Benchmark——RoboMIND 首批开源数据 10 万条,近百家企业、高校和科研机构数千次下载使用。
人形机器人「天工」目前拥有两个不同的版本:天工 Lite、天工 Pro。
天工 Pro 是本次「慧思开物」发布会上进行演示的机器人,身高 163cm,体重 56kg,拥有 42 个自由度。
在运动能力上,「天工」能够在 38°的高温户外环境下应对草地、沙地等多种复杂地形,还能在雪地奔跑,普通路面奔跑速度最高达 12km/h。
今年 2 月份,「天工」还实现了爬上 134 级台阶,成为全球首例可在室外连续攀爬多级阶梯的人形机器人,并在国家电网成功完成电力巡检任务。
此外,在开源社区方面,国地创新中心吸引了超千名开发者参与数据集的数据优化与模型训练工作,推动技术成果在 GitHub、Hugging Face 等平台形成传播,并与中科院软件所联合搭建了 AGIROS 开源社区。
创新中心的发展定位显而易见:
他们希望成为具身智能行业的赋能者,将领先的技术成果共享,为整个行业注入活水。
Deepseek 开源 R1 模型后,直接引发了 AI 普惠化的浪潮,让性能优秀的大模型也能够以低成本的方式广泛应用于能源、金融、电信等行业,从中我们已经看到了开源对行业发展产生的巨大推动力。
国地共建的开放生态,或许正是撬动机器人产业从「实验室特技」迈向「社会生产力」的支点。
随着「慧思开物」平台的开源与应用不断拓展,中小企业无需重复「造轮子」,开发者可聚焦场景创新。
领先技术的不断开源将为技术迭代按下加速键。
未来,机器人有望以更低的成本、更强的适应性走进工业、仓储、物流、家庭甚至灾难救援现场,改变人类生产生活方式。
原文标题 : 人形机器人界的安卓,国家队抢先做了

最新活动更多
-
即日-3.21立即报名 >> 【深圳 IEAE】2025 消费新场景创新与实践论坛
-
即日-3.25立即报名 >>> 【在线会议】医疗设备的无线共存、高速数字与射频测试
-
即日-3.27立即报名>> 【在线直播】解密行业检测流量密码——电子与半导体行业
-
3月27日立即报名>> 【工程师系列】汽车电子技术在线大会
-
即日-3.28立即报名>>> 【在线会议】汽车检测的最佳选择看这里
-
即日-3.31立即报名>>> 【在线会议】AI加速卡中村田元器件产品的技术创新探讨
推荐专题
-
10 机器人必须是「人形」吗?
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论