VPN会监控电脑吗
该论文由清华大学与北京银河通用机器人股份有限公司合作完成。论文的共同第一作者为银河通用研究团队成员薛晗、梁斯凯和张智楷,其中薛晗和张智楷为清华大学学生,指导老师为清华大学助理教授弋力。
在堆满杂物的客厅里穿梭——需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的窄缝,这对人类来说轻而易举。但对机器人而言,却是融合环境感知、动作规划与碰撞规避的复杂挑战。
传统强化学习(RL)仅在碰撞发生时给予惩罚,机器人需要反复试错才能摸索出安全路径,学习效率极低;而且直接处理激光雷达、摄像头的原始高维数据,机器人难以快速识别“自身与障碍物的空间关系”,比如“头部是否会撞到吊灯”“腿部能否跨过书本”。现有方法多针对单一类型障碍物(如地面凸起、高空遮挡),无法应对“地面有杂物+两侧有阻挡+头顶有吊灯”的全空间约束场景。
清华大学与Galbot团队提出的HumanoidPF(人形势能场),为机器人赋予了“避障直觉”:它将机器人与障碍物的空间关系编码为连续的梯度场,像无形的“力”引导机器人自主选择安全路径,无需复杂计算就能完成弯腰、抬腿、侧身等灵活动作,成功实现复杂室内场景的无碰撞穿梭。
它的核心魅力在于:不再让机器人依赖“碰撞后惩罚”的低效试错,而是通过前瞻性的环境引导,让避障成为一种“本能反应”,大幅提升了人形机器人在真实家居场景的实用性。
HumanoidPF的灵感源自经典的人工势能场(APF),但针对人形机器人的多关节结构进行了重构——它将目标点视为“吸引力”,障碍物视为“排斥力”,形成连续的梯度场,为机器人的每个身体部位提供明确的运动指引。
是机器人身体部位x到目标点g的最短无碰撞路径(测地线距离),确保引导路径避开障碍物,而非直线穿越。
是基于障碍物的带符号距离(signed distance field, sdf)——距离障碍物越近,排斥力越强,避免碰撞。
HumanoidPF示意图:左图为势能场2D示意图(红色为障碍物排斥区,蓝色为目标吸引力区);右图为运动方向分布2D示意图,颜色越深表示该方向越安全,引导机器人自主选择最优路径。
人形机器人有头、躯干、四肢等多个部位,直接应用势能场可能出现运动冲突(如左手要向左躲、右手要向右躲)。为此,HumanoidPF引入优先级加权机制:
•核心部位优先:骨盆等核心部位权重更高,确保整体运动方向稳定;四肢权重较低,灵活适配核心方向。公式如下:
•危险部位加权:根据身体部位与障碍物的距离(d(x_k))和运动速度(v_k),动态提升危险部位的权重,公式如下:
HumanoidPF通过“感知输入+奖励引导”双重方式,融入强化学习训练,大幅提升学习效率:
•作为感知输入:在机器人13个关键身体部位(头、胸、骨盆、四肢关节等)查询梯度场向量,形成紧凑的环境感知特征,让机器人直接“感知”该如何移动身体;
•作为奖励引导:将梯度场引导的运动方向,建模为冯·米塞斯-费舍尔(vMF)分布,鼓励机器人动作与引导方向对齐,提供密集、前瞻性的奖励信号,公式如下:
整体技术 pipeline:左:HumanoidPF构建及在学习中的双重作用(感知输入+奖励引导);右:混合场景生成与真实部署流程,从仿真训练到“点击导航”实际应用。
要应对真实世界的复杂环境VPN会监控电脑吗,机器人需要在多样化场景中训练。为此,研究团队提出混合场景生成策略,大幅提升政策的泛化能力:
1.线m的场景块,保留家具、家电等线.程序化障碍物生成:人工生成“地面凸起、两侧阻挡、高空悬挂”的全空间约束场景,甚至通过旋转、噪声扰动,模拟不规则障碍物(如散落的书本、倾斜的盒子);
3.课程学习:从简单场景(单一障碍物)逐步过渡到复杂场景(多障碍物全空间约束),让机器人循序渐进掌握避障技能。
这种训练方式,让机器人见过“弯腰躲吊灯+抬腿跨杂物+侧身挤窄缝”的复合场景,在真实环境中遇到类似情况时,能快速做出反应。
避障实测场景:(a)8种典型测试场景的避障行为;(b)程序化生成的复杂障碍物场景;(c)真实世界“弯腰-跨障”复合任务;(d)动态干扰下的避障表现,机器人能应对物体移动的突发情况。
其中,在最具挑战性的“侧身-弯腰-跨步”场景(需要同时规避两侧和上方障碍物),HumanoidPF的成功率达到86.6%,远超基线,充分证明其处理全空间约束的能力。
8类场景避障性能对比:HumanoidPF(最后一行)在所有场景中均实现最高成功率(SR%)和最小距离误差(DE(m)),优势显著。
•动态干扰:在机器人穿梭过程中移动障碍物,它能实时更新HumanoidPF,调整运动轨迹,避免碰撞,展现出强鲁棒性。
混合场景生成的泛化性能:加入高难度程序化场景训练后(最后一行),机器人在未知复杂场景的成功率从1.2%提升至66.7%,泛化能力大幅提升。
1.前瞻性引导:不再依赖“碰撞后惩罚”,而是通过梯度场提供实时、密集的运动指引,学习效率提升数倍;
2.低迁移gap:势能场作为连续的空间表示,能平滑传感器噪声和场景细节差异,从仿真到真实世界的迁移几乎无需额外微调;
3.通用适配:不依赖特定障碍物类型或场景结构,无论是规则家具还是不规则杂物,都能通过势能场编码空间关系,泛化性极强。
对比其他工作:S={g,l,o} 表示“地面(ground)有杂物+两侧(lateral)有阻挡+头顶(overhead)有吊灯”的全空间约束。
随着技术完善,人形机器人或许能像人类一样,在堆满杂物的房间里灵活穿梭,自主完成家务、取物等任务,真正走进日常生活。而HumanoidPF的提出,为通用人形机器人的环境适应能力奠定了关键基础。



