机器人“会用手”了:银河通用首破手掌任意朝向旋转难题,拧螺丝、砸钉子样样精通
做灵巧手如果不会用工具,跟咸鱼(夹爪)有什么区别?
别急,能拧螺丝、抡锤子,玩“转”各类工具的灵巧手,这就来了。
上面这位拧螺丝的“老师傅”,出自银河通用最新推出的灵巧手神经动力学模型 DexNDM。
在 DexNDM 的加持下,灵巧手实现了从能动到能用的飞跃,通过分布有偏的真实数据训练,无需成功示例,即可精准弥合 Sim2Real 鸿沟,首次让通用灵巧手能够对多类物体实现稳定、多姿态、多轴向的旋转操作。
跨物体精准操控:从微小零件到大书本、长棍、复杂几何体,首次实现跨类别、跨尺寸、跨姿态的稳定旋转。
任意姿态多轴旋转:无论手掌朝上、朝下或侧向,均能沿任意轴向进行稳定、持续的旋转。
高灵巧高鲁棒遥操作:可自如地抓、转、拧各类工具,胜任拧螺丝、家具组装等长程、复杂操作任务。
弥合 Sim2Real 的鸿沟:无需成功操作数据,仅凭分布有偏的真实数据即可完成高精度学习,克服灵巧操作 Sim2Real 的差距,实现了“从 0 到 1”的突破。

这下,离流水线和厨房里的灵巧机器人,真不远了!
手内操作的通用策略
如上所述,DexNDM 的核心突破在于首次在真实世界中突破了手掌任意朝向的物体旋转限制,实现了跨物体、跨姿态的稳定手内旋转(In-Hand Rotation)与工具操作(Tool Use)。
具体来说,DexNDM 能在极具挑战的手腕姿态下(如手掌朝下或侧向),实现长物体沿长边的连续旋转,以及小物体在多种转轴下的稳定旋转。

在操作对象上,DexNDM 能处理从小型到细长、从简单几何到复杂结构的多种物体。

那么,这是怎么做到的呢?

这里的关键在于 DexNDM 的关节级神经动力学模型( JOINT-WISE NEURAL DYNAMICS MODEL)。
不同于以往整手建模的方式,DexNDM 将复杂的手–物交互拆解到关节级,让每个关节独立预测自身的下一状态,完成整手的运动预测。
这种分解不仅显著提升了数据利用效率,还能增强模型在不同物体、姿态下的泛化能力。
为了学习到具有良好泛化性的动力学模型,团队开发了一套全自动数据收集策略。

在任务无关的随机扰动下,机器人能自主生成丰富的接触数据,不用人工重置,也不会频繁“翻车”。
这样,模型可以在廉价、可扩展的数据上学习到足够丰富的交互动力学。
基于此,研究者进一步训练了一个残差策略网络,用于弥合仿真到现实的差距,使仿真中学到的基础策略能够顺利迁移到真实世界。
在策略学习上,DexNDM 采用了“从专家到通才(expert-to-generalist)”的训练流程:
先针对不同长宽比与几何复杂度的物体训练多个专家策略,再将它们融合提炼为一个统一的通用策略,从而实现跨任务、跨形态的稳定操作。
仿真与真实环境的测试表明,DexNDM 的操作灵活性、鲁棒性与泛化能力都得到了显著提升:
不仅首次在手掌朝下的姿态下,实现了 10–16cm 长物体沿长轴的空中完整旋转,还能够稳定泛化到更多、更具挑战性的物体类型。

此外,研究还将这套通用旋转策略作为底层技能接入遥操作系统。
操作者只需通过 VR 控制器给出臂端位姿或旋转轴等高层指令,DexNDM 即可自主完成手指层面的精细控制。
这种方式克服了传统遥操作在精细操作中的根本难题 —— 人手与机械手在自由度、传感和动力学上的不匹配。
借助 DexNDM,机器人不仅能“抓得稳、放得准”,还能完成复杂的、涉及旋转的手 — 物 — 物交互,实现工具使用与长程装配等对系统鲁棒性要求极高的任务,真正迈向“能转能用”的灵巧操作。
从简单抓取到精细操作
值得一提的是,DexNDM 解决的是机器人研究中最具挑战性的手内操作中的关键问题 —— 手内旋转(in-hand rotation)。
这一突破之所以意义重大,是因为它直接推动了机器人从简单能力向精细操作能力的跨越。
整体来看,机器人的能力大致可分为运动能力与操作能力两类。
运动能力,是我们熟悉的“跑”“跳”“翻”—— 以及保持全身稳定的 whole-body control。
如今,机器人不再需要被绳子吊着防摔,甚至在人为干扰下仍能稳住身形,各种翻跟头、跳舞的 demo 展示也是层出不穷。
而站稳之后,想让机器人真正具备生产力,关键还在于 —— 操作(manipulation)。

所谓操作,就是机器人真正“动手干活”的能力,它包括:
抓取:改变物体相对于机器人本体的位置,如拿起 / 放下物体。
环境辅助操作:借助外界完成任务,如桌子,平台等。
柔性物体操作:处理衣物、绳索、液体等。
手内操作:在不借助外部环境或支撑的情况下,仅通过机械手的手指运动和调整抓取姿势来改变物体在手掌中的位置和姿态,如 DexNDM 对应的手内旋转。
工具操作:涉及与环境或另一个物体持续、强烈的物理接触,通常用于完成特定的精细任务。
虽然目前大部分的末端执行器都能很好地完成抓取任务,但简单抓取的应用范围十分有限,主要集中在上下料、分拣等场景,远未触及真正的工业级生产力。
因此,灵巧操作必须从“能抓能放”迈向“能转能用”,以实现更复杂、更精细的动作。
然而,这恰恰是机器人研究中最难啃的骨头。
机器人先驱 Rodney Brooks 曾说:
灵巧操作是通用机器人部署中最艰难的前沿。
原因很简单,灵巧手虽带来了比夹爪更高的自由度,但也带来了成倍的控制难度。
马斯克也曾感叹:
人类的手极其精密复杂…… 它可以挥棒、穿针、弹琴,也能拆车装车。若要造出真正通用的人形机器人,必须先解决手的问题。

可以说,想实现真正通用的灵巧操作,就必须攻克灵巧手的精细操作。
其中,手内旋转和工具使用能力正成为学界研究的焦点,代表了灵巧操作向更高维度发展的趋势。
前者让机器人能灵活调整抓取姿态,使操作更顺手,后者则让机器人真正能“干活”,拧螺丝、砸钉子、切割、组装。
但这两项能力,也正是难度的巅峰。它们涉及复杂且快速变化的手–物接触和手–物–物交互,是灵巧操作皇冠上的明珠。
而 DexNDM 的突破,就在于此。它同时攻克了“旋转”和“使用”这两大难题:既能实现高精度的手内旋转,也能灵活处理多种工具的操作任务。
更重要的是,只有当机器人能可靠地完成这类操作,语言、视觉等高层智能规划,才能真正落地为具体的动作与执行。
这正是通用机器人与具身智能落地的关键瓶颈。
不过,要做到这一点,并不容易。
通用的手内旋转策略
直观地看,在拧螺丝这样的场景中,灵巧手无法像手掌朝上时那样依赖重力来稳定物体。
为了不让螺丝刀滑落,模型必须精确控制更多的自由度,实现对姿态、力和接触的协调控制。
过去的手内操作方法大多只能处理特定物体或固定姿态,依赖昂贵或定制化硬件,难以推广到更通用的场景。
其根源在于灵巧手本身的高自由度(人手有 21 个自由度,加上手腕就有 27 个自由度)与复杂耦合:关节彼此影响,手与物体之间的接触不断变化,建模极其困难。
再加上执行过程中存在自遮挡、传感不完全等问题,模型往往无法准确捕捉这些微妙的动力学细节。
更棘手的是,仿真与现实之间的动力学差距依旧巨大。许多策略在仿真环境下表现完美,一旦进入现实就“翻车”。而想依靠真实数据修正,又要承担高昂的采集成本和失败风险。
例如,CMU 与 Meta 在《Science Robotics》封面论文“NeuralFeels with Neural Fields”中引入视觉-触觉融合模型,以弥补纯视觉感知的不足,但依然难以跨越 Sim-to-Real 的鸿沟。

ICRA 2023 的 BACH (Belt-Augmented Compliant Hand) 则通过皮带增强的柔性机械手实现了手腕向下的旋转操作,但这种特殊结构难以迁移,也带来了额外的硬件成本。

类似地,DexCtrl 在旋转轴通用性上取得进展,却仍受限于物体复杂度。

而 DexGen 虽能执行拧螺丝任务,却缺乏对目标物体运动的精确控制。

在这些方法中,我们可以窥见,当前的手内操作方法往往局限于特定场景(如固定手腕朝向)、只能处理有限集合的常规物体,或依赖昂贵、定制化硬件。即便在单一维度(如旋转轴)上实现了通用性,仍难以在多维操作中保持稳定表现。
在这样的背景下,DexNDM 实现了实质性飞跃 —— 首次构建了能够跨物体类别、跨姿态任务的通用手内操作策略。
它不仅为遥操作系统的数据生成与策略迁移提供了坚实基础,也为灵巧操作的工业化落地奠定了条件:样本效率更高、泛化性更强、能力可复用,为具身智能研究提供了新的底层基础设施。
同时,遥操应用也可进一步扩展至广泛的任务类型,协助获取各类任务所需的操作数据。
生产力即产品
DexNDM 的意义不仅在于一个新的模型,更在于它推动了灵巧操作这一“皇冠上的明珠”从学术研究走向了可复用的生产力基础设施。
从最初的搬箱、上下料,到如今能拧螺丝、砸钉子、装配家具、使用工具,灵巧操作正逐步从机械重复劳动者,进化为真正具备操作智慧的“生产力单元”。
借助这一底层能力,机器人不再局限于演示性的“抓取放置”,而能在工业装配、家具组装、工具使用等多场景中实现可扩展部署,持续提升实际生产力。
在典型的装配任务中,这一“能干活的机器人”的雏形已初现端倪:
第一步,灵巧手使用螺丝刀,将电路板核心部件固定。
它能在手内微调螺丝刀的姿态,使其在最顺手的角度下施力;对准 M2 微小螺丝孔后,精准施压旋入,既不打滑也不损板。
第二步,安装音量旋钮。
五指协同稳握木质旋钮,调整内螺纹与轴心对位后,完成大角度旋转 —— 就像拧紧瓶盖那样流畅。
第三步,安装装饰性部件。
灵巧手先夹持铆钉定位,再旋转调整小锤的握姿,轻敲入位,力量精准、节奏分明。
这三步展示了从手内旋转到多指协调、从静态操作到动态敲击的全链路灵巧控制,也标志着灵巧操作正在从“抓取”走向“使用工具”,从“重复动作”迈向“任务理解”,成为真正的生产力。
正如银河通用机器人创始人、CTO 王鹤所说:
如果大模型提倡的是智能即产品,那么具身智能提倡的就是生产力即产品。
最后,让我们回到开头的问题:灵巧手和夹爪的区别是什么?
—— 生产力。
本文来自微信公众号:量子位(ID:QbitAI),作者:henry,原标题《机器人“会用手”了!银河通用首破手掌任意朝向旋转难题,拧螺丝、砸钉子样样精通》
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社
