导语

在多模态大模型与世界模型蓬勃发展的当下,具身智能正逐渐成为通往通用人工智能的关键路径。你是否好奇,这一前沿领域如今涌现了哪些新突破?3月23日下午16:00-18:00,集智俱乐部具身智能读书会第三期,本次分享主题为“自适应具身智能感知与交互” ,中山大学计算机学院副教授刘阳老师将系统梳理具身智能领域的最新前沿进展,剖析多模态大模型与世界模型的融合,如何重塑具身智能体的认知架构,还会围绕构建具身感知与交互框架展开深入探讨。
图片


背景介绍

随着多模态大模型(MLMs)与世界模型(WMs)的发展,具身智能(Embodied AI)已成为实现通用人工智能(AGI)的关键路径。现有的AI系统受限于虚拟空间与物理世界的割裂,而具身智能通过构建感知-推理-交互闭环,推动AI实体在真实场景中的进化。


分享简介

本次分享将系统梳理具身智能领域的最新前沿进展,重点揭示多模态大模型与世界模型的融合如何重构具身智能体的认知架构。深入探讨如何构建符合真实物理世界的具身感知与交互框架,提高具身智能体在复杂环境的适应性、决策可靠性和泛化能力。主要内容包括:(1)双视觉三维场景感知与问答;(2)长程连续具身导航;(3)面向主动探索的具身问答;(4)大规模具身智能仿真平台。建立MLMs时代具身AI的技术图谱,为领域发展提供结构化认知框架,为研究者提供的技术路线。


分享大纲

  

  1. 具身智能发展概述

  2. 具身感知(Embodied Perception)

  3. 具身交互(Embodied Interaction)

  4. 具身智能体(Embodied Agent)

  5. 具身模拟器(Embodied Simulators)


主讲人介绍

刘阳,中山大学计算机学院,副教授,人机物智能融合实验室(HCP-Lab)(https://www.sysu-hcp.net)核心成员。
主要研究方向为智能体与具身智能、鲁棒可信多模态表征学习。已累计发表论文40余篇,包括TPAMI,TIP,TMECH, CVPR,ICCV等,2篇论文入选ESI高被引论文。出版专著《多模态大模型:新一代人工智能技术范式》,入选中山大学本科教材系列,并获得2024电子工业出版社年度优秀作者。主持多模态因果推理开源框架CausalVLR和具身智能资源仓库。承担了国家自然科学基金重点、青年等省部级项目十余项,获得2023中国软件大会机器人大模型与具身智能挑战赛优胜奖以及2023广东省第三届计算机科学青年学术秀一等奖。担任广东省图象图形学会计算机视觉专委会副秘书长。
研究领域:
智能体和具身智能:视觉语言导航、具身交互、机器人操纵与控制
多模态表征学习:多模态感知、视觉问答、跨模态视频理解
因果推理:因果关系发现、因果模型学习、反事实推理
有意加入实验室的博士生、硕士生或优秀本科生,通过liuy856@mail.sysu.edu.cn联系(来信请附自我介绍和个人简历)

报名参与

参与时间:

2025年3月23日  下午16:00-18:00

报名参与读书会:

https://pattern.swarma.org/study_group_issue/876?from=wechat

扫码参与「具身智能」读书会,加入群聊,获取系列读书会回看权限,与社区的一线科研工作者沟通交流,共同探索具身智能这一前沿领域的发展。



涉及到的参考文献

[1] Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, and Liang Lin. “Aligning cyber space with physical world: A comprehensive survey on embodied ai.” arXiv preprint arXiv:2407.06886, 2024.

[2] Luo, Jingzhou, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li, and Liang Lin. “DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering.” CVPR, 2025.

[3] Song, Xinshuai, Weixing Chen, Yang Liu, Vincent Chan, Guanbin Li, and Liang Lin. “Towards long-horizon vision-language navigation: Platform, benchmark and method.” CVPR. 2025.

[4] Kaixuan Jiang, Yang Liu, Weixing Chen, Jingzhou Luo, Ziliang Chen, Ling Pan, Guanbin Li, Liang Lin, “Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering. ” arXiv preprint arXiv:2503.11117, 2025.

[5] Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang et al. “InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction.” arXiv preprint arXiv:2412.05789, 2024.

具身智能读书会启动

集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。


读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。


图片


详情请见:具身智能读书会启动:走向现实世界的下一代AI系统


点击“阅读原文”,报名读书会