开放世界低成本通用具身操作：硬件系统和算法丨周三直播·具身智能读书会

2025-03-30 1,006 0

导语

机器人操作的通用化仍然是一个关键挑战，特别是对于看不见的场景和新任务。当前的Vision-Language-Action（VLA）模型虽然建立在通用Vision-Language模型（VLM）之上，但由于具体数据集中普遍存在的稀缺性和异质性，仍然无法实现稳健的零样本性能。本次分享从硬件系统，算法和训练框架三个不同角度出发，介绍如何实现低成本，强鲁棒性和泛化性，可实际部署的具身智能应用。

分享简介

在机器人操控领域，实现对未知场景和全新任务的泛化始终是一个重要挑战。尽管现有的视觉-语言-行动（Vision-Language-Action, VLA）模型能够让机器人理解语言指令，并与现实环境交互执行任务，但其零样本泛化到新任务和新场景的表现仍不够理想，同时机器人本体的硬件成本和调试成本高昂，限制了其在现实场景中的进一步落地。本次分享从算法（如何提升VLA在具身场景下的泛化性），硬件系统（满足家庭场景应用需求的低成本机器人）和训练框架（开箱即用的决策扩散模型训练代码库）三个部分来探讨这个问题。

尽管大部分VLA基于通用视觉-语言模型（VLMs）构建，但由于数据匮乏和异质性问题，其在零样本任务中的表现仍不够理想。为了解决这些局限性，我们提出了 FSD（From Seeing to Doing），一种利用层次化空间推理的创新VLM架构，通过生成视觉中间表示，为机器人操控提供细粒度指导。FSD能够在真实环境下的机器人操控中表现出卓越的零样本泛化能力。

针对具身智能硬件系统成本高昂的问题，我们提出了AhaRobot，这是一种低成本、完全开源的双臂移动操作机器人系统，其硬件成本仅为1000美元，不到常见移动机器人成本的1/15。AhaRobot系统由三个部分组成：（1）一种以开箱即用组件为主的创新低成本硬件架构；（2）一种优化的控制解决方案，通过集成双电机背隙控制和静摩擦补偿来提升操作精度；（3）一种简单的远程遥操作方法——RoboPilot，其遥操作过程负担低且易于操作，就像驾驶一样RoboPilot专为具身场景中的远程数据采集而设计。

最后，我们使用CleanDiffuser训练框架串联具身算法训练和实机部署。CleanDiffuser是第一个专为决策算法设计的扩散模型库，能够以简单且灵活的构建模块实现各种决策扩散模型算法，以便为基于扩散模型的具身智能算法提供定制化和高效的开发支持。

分享大纲

1.背景：开放世界低成本通用具身操作

2.现状：视觉-语言-动作模型的发展和痛点

3.算法：使用FSD模型实现通用具身操作

4.硬件系统：低成本开源双臂机器人AhaRobot

5.训练框架：决策扩散模型训练代码库CleanDiffuser

核心概念

具身智能 Embodied AI

扩散模型 Diffusion Models

视觉-语言-动作模型 Vision-Language-Action Model

主讲人简介

袁逸夫，天津大学智能与计算学部的二年级博士生，导师为郝建业教授，专注于强化学习和具身智能相关前沿理论及应用研究。他曾获首届中国电子学会-腾讯博士生科研激励（全国17人），入选首届中国科协青年人才托举工程博士生专项计划，并入选腾讯犀牛鸟精英人才计划，获国家奖学金等荣誉奖项。他在 ICML、NeurIPS、 ICLR、CVPR和WWW 等顶级国际人工智能会议上发表10余篇论文，Github开源累计获得5K+ Stars。多项工作获知名人工智能媒体机器之心，DeepTech等报道。他还担任 ICML，NeurIPS，ICLR，ICCV和TNNLS等多个国际人工智能会议/期刊的程序审稿人。

个人主页： https://yifu-yuan.github.io/

崔海勤，天津大学智能与计算学部一年级硕士生，导师为郝建业教授。他曾在多项国家级机器人竞赛中获奖。他的研究方向集中在强化学习与具身智能的结合，致力于探索智能体在真实环境中进行学习与决策。他也是多个重要开源项目的贡献者，深度参与Google Summer of Code项目。

他的个人主页是https://18kas.com/cv

报名参与

参与时间：

2025年4月2日（周三）晚上19:00-21:00

报名参与读书会：

https://pattern.swarma.org/study_group_issue/884?from=wechat

扫码参与「具身智能」读书会，加入群聊，获取系列读书会回看权限，与社区的一线科研工作者沟通交流，共同探索具身智能这一前沿领域的发展。

涉及到的参考文献

[1]Yuan Y, et al. From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation.

[2]Dong Z*, Yuan Y*, Hao J, et al. Cleandiffuser: An easy-to-use modularized library for diffusion models in decision making. NeurIPS 2024.

[3]Cui H*, Yuan Y*, et al. AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI. arXiv preprint arXiv:2503.10070, 2025.

具身智能读书会启动

集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧，共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构，探讨四个核心模块：硬件系统（机器人本体设计），数据、仿真环境与Benchmark，机器人学习，具体场景任务。希望通过重点讨论经典、前沿的重要文献，帮助大家更好地学习机器人与具身智能技术前沿技术，为相关领域的研究和应用提供洞见。

读书会从2025年1月19日开始，每周日14:00-16:00，持续时间预计 6-8 周左右。每周进行线上会议，与主讲人等社区成员当面交流，之后可以获得视频回放持续学习。

详情请见：具身智能读书会启动：走向现实世界的下一代AI系统

点击“阅读原文”，报名读书会

开放世界低成本通用具身操作：硬件系统和算法丨周三直播·具身智能读书会

分享简介

分享大纲

核心概念

主讲人简介

报名参与

涉及到的参考文献

涌现动力学如何用来分析复杂系统？ | 新课上线

请勿阅读：愚人节自指悖论指南

发表评论点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

开放世界低成本通用具身操作：硬件系统和算法丨周三直播·具身智能读书会

分享简介

分享大纲

核心概念

主讲人简介

报名参与

涉及到的参考文献

微信扫一扫,分享到朋友圈

涌现动力学如何用来分析复杂系统？ | 新课上线

请勿阅读：愚人节自指悖论指南

猜你喜欢

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

发表评论 点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

关注我们的公众号

发表评论点击这里取消回复。