导语


机器人操作的通用化仍然是一个关键挑战,特别是对于看不见的场景和新任务。当前的Vision-Language-Action(VLA)模型虽然建立在通用Vision-Language模型(VLM)之上,但由于具体数据集中普遍存在的稀缺性和异质性,仍然无法实现稳健的零样本性能。本次分享从硬件系统,算法和训练框架三个不同角度出发,介绍如何实现低成本,强鲁棒性和泛化性,可实际部署的具身智能应用。
图片





分享简介




在机器人操控领域,实现对未知场景和全新任务的泛化始终是一个重要挑战。尽管现有的视觉-语言-行动(Vision-Language-Action, VLA)模型能够让机器人理解语言指令,并与现实环境交互执行任务,但其零样本泛化到新任务和新场景的表现仍不够理想,同时机器人本体的硬件成本和调试成本高昂,限制了其在现实场景中的进一步落地。本次分享从算法(如何提升VLA在具身场景下的泛化性),硬件系统(满足家庭场景应用需求的低成本机器人)和训练框架(开箱即用的决策扩散模型训练代码库)三个部分来探讨这个问题。


尽管大部分VLA基于通用视觉-语言模型(VLMs)构建,但由于数据匮乏和异质性问题,其在零样本任务中的表现仍不够理想。为了解决这些局限性,我们提出了 FSD(From Seeing to Doing),一种利用层次化空间推理的创新VLM架构,通过生成视觉中间表示,为机器人操控提供细粒度指导。FSD能够在真实环境下的机器人操控中表现出卓越的零样本泛化能力。


针对具身智能硬件系统成本高昂的问题,我们提出了AhaRobot,这是一种低成本、完全开源的双臂移动操作机器人系统,其硬件成本仅为1000美元,不到常见移动机器人成本的1/15。AhaRobot系统由三个部分组成:(1)一种以开箱即用组件为主的创新低成本硬件架构;(2)一种优化的控制解决方案,通过集成双电机背隙控制和静摩擦补偿来提升操作精度;(3)一种简单的远程遥操作方法——RoboPilot,其遥操作过程负担低且易于操作,就像驾驶一样RoboPilot专为具身场景中的远程数据采集而设计。


最后,我们使用CleanDiffuser训练框架串联具身算法训练和实机部署。CleanDiffuser是第一个专为决策算法设计的扩散模型库,能够以简单且灵活的构建模块实现各种决策扩散模型算法,以便为基于扩散模型的具身智能算法提供定制化和高效的开发支持。





分享大纲




1.背景:开放世界低成本通用具身操作

2.现状:视觉-语言-动作模型的发展和痛点

3.算法:使用FSD模型实现通用具身操作

4.硬件系统:低成本开源双臂机器人AhaRobot

5.训练框架:决策扩散模型训练代码库CleanDiffuser





核心概念




具身智能 Embodied AI

扩散模型 Diffusion Models

视觉-语言-动作模型 Vision-Language-Action Model





主讲人简介




袁逸夫,天津大学智能与计算学部的二年级博士生,导师为郝建业教授,专注于强化学习和具身智能相关前沿理论及应用研究。他曾获首届中国电子学会-腾讯博士生科研激励(全国17人),入选首届中国科协青年人才托举工程博士生专项计划,并入选腾讯犀牛鸟精英人才计划,获国家奖学金等荣誉奖项。他在 ICML、NeurIPS、 ICLR、CVPR和WWW 等顶级国际人工智能会议上发表10余篇论文,Github开源累计获得5K+ Stars。多项工作获知名人工智能媒体机器之心,DeepTech等报道。他还担任 ICML,NeurIPS,ICLR,ICCV和TNNLS等多个国际人工智能会议/期刊的程序审稿人。

个人主页: https://yifu-yuan.github.io/


崔海勤,天津大学智能与计算学部一年级硕士生,导师为郝建业教授。他曾在多项国家级机器人竞赛中获奖。他的研究方向集中在强化学习与具身智能的结合,致力于探索智能体在真实环境中进行学习与决策。他也是多个重要开源项目的贡献者,深度参与Google Summer of Code项目。

他的个人主页是https://18kas.com/cv





报名参与




参与时间:

2025年4月2日(周三)晚上19:00-21:00

报名参与读书会:

https://pattern.swarma.org/study_group_issue/884?from=wechat


扫码参与「具身智能」读书会,加入群聊,获取系列读书会回看权限,与社区的一线科研工作者沟通交流,共同探索具身智能这一前沿领域的发展。





涉及到的参考文献




[1]Yuan Y, et al. From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation.

[2]Dong Z*, Yuan Y*, Hao J, et al. Cleandiffuser: An easy-to-use modularized library for diffusion models in decision making. NeurIPS 2024.

[3]Cui H*, Yuan Y*, et al. AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI. arXiv preprint arXiv:2503.10070, 2025.



具身智能读书会启动


集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。


读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。


图片


详情请见:具身智能读书会启动:走向现实世界的下一代AI系统



点击“阅读原文”,报名读书会