开放世界低成本通用具身操作:硬件系统和算法丨周三直播·具身智能读书会

导语

分享简介
分享简介
在机器人操控领域,实现对未知场景和全新任务的泛化始终是一个重要挑战。尽管现有的视觉-语言-行动(Vision-Language-Action, VLA)模型能够让机器人理解语言指令,并与现实环境交互执行任务,但其零样本泛化到新任务和新场景的表现仍不够理想,同时机器人本体的硬件成本和调试成本高昂,限制了其在现实场景中的进一步落地。本次分享从算法(如何提升VLA在具身场景下的泛化性),硬件系统(满足家庭场景应用需求的低成本机器人)和训练框架(开箱即用的决策扩散模型训练代码库)三个部分来探讨这个问题。
尽管大部分VLA基于通用视觉-语言模型(VLMs)构建,但由于数据匮乏和异质性问题,其在零样本任务中的表现仍不够理想。为了解决这些局限性,我们提出了 FSD(From Seeing to Doing),一种利用层次化空间推理的创新VLM架构,通过生成视觉中间表示,为机器人操控提供细粒度指导。FSD能够在真实环境下的机器人操控中表现出卓越的零样本泛化能力。
针对具身智能硬件系统成本高昂的问题,我们提出了AhaRobot,这是一种低成本、完全开源的双臂移动操作机器人系统,其硬件成本仅为1000美元,不到常见移动机器人成本的1/15。AhaRobot系统由三个部分组成:(1)一种以开箱即用组件为主的创新低成本硬件架构;(2)一种优化的控制解决方案,通过集成双电机背隙控制和静摩擦补偿来提升操作精度;(3)一种简单的远程遥操作方法——RoboPilot,其遥操作过程负担低且易于操作,就像驾驶一样RoboPilot专为具身场景中的远程数据采集而设计。
最后,我们使用CleanDiffuser训练框架串联具身算法训练和实机部署。CleanDiffuser是第一个专为决策算法设计的扩散模型库,能够以简单且灵活的构建模块实现各种决策扩散模型算法,以便为基于扩散模型的具身智能算法提供定制化和高效的开发支持。
分享大纲
分享大纲
1.背景:开放世界低成本通用具身操作
2.现状:视觉-语言-动作模型的发展和痛点
3.算法:使用FSD模型实现通用具身操作
4.硬件系统:低成本开源双臂机器人AhaRobot
5.训练框架:决策扩散模型训练代码库CleanDiffuser
核心概念
核心概念
具身智能 Embodied AI
扩散模型 Diffusion Models
视觉-语言-动作模型 Vision-Language-Action Model
主讲人简介
主讲人简介

袁逸夫,天津大学智能与计算学部的二年级博士生,导师为郝建业教授,专注于强化学习和具身智能相关前沿理论及应用研究。他曾获首届中国电子学会-腾讯博士生科研激励(全国17人),入选首届中国科协青年人才托举工程博士生专项计划,并入选腾讯犀牛鸟精英人才计划,获国家奖学金等荣誉奖项。他在 ICML、NeurIPS、 ICLR、CVPR和WWW 等顶级国际人工智能会议上发表10余篇论文,Github开源累计获得5K+ Stars。多项工作获知名人工智能媒体机器之心,DeepTech等报道。他还担任 ICML,NeurIPS,ICLR,ICCV和TNNLS等多个国际人工智能会议/期刊的程序审稿人。
个人主页: https://yifu-yuan.github.io/

崔海勤,天津大学智能与计算学部一年级硕士生,导师为郝建业教授。他曾在多项国家级机器人竞赛中获奖。他的研究方向集中在强化学习与具身智能的结合,致力于探索智能体在真实环境中进行学习与决策。他也是多个重要开源项目的贡献者,深度参与Google Summer of Code项目。
他的个人主页是https://18kas.com/cv
报名参与
报名参与
参与时间:
2025年4月2日(周三)晚上19:00-21:00

https://pattern.swarma.org/study_group_issue/884?from=wechat
扫码参与「具身智能」读书会,加入群聊,获取系列读书会回看权限,与社区的一线科研工作者沟通交流,共同探索具身智能这一前沿领域的发展。
涉及到的参考文献
涉及到的参考文献
[1]Yuan Y, et al. From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation.
[2]Dong Z*, Yuan Y*, Hao J, et al. Cleandiffuser: An easy-to-use modularized library for diffusion models in decision making. NeurIPS 2024.
[3]Cui H*, Yuan Y*, et al. AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI. arXiv preprint arXiv:2503.10070, 2025.
具身智能读书会启动
集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。
读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。
点击“阅读原文”,报名读书会