主题介绍
空间智能是智能体在复杂三维空间中实现高水平自主行为的核心能力,涵盖了对环境的感知、理解、推理与生成等完整链条。它不仅要求对空间中物体的位置、形状和运动进行精确刻画,更强调对场景语义与动态变化的高层次把握,从而实现对三维世界的全面认知与创造性生成。与传统视觉方法相比,空间智能突出多模态信息融合与跨层次语义建模,突破了仅依赖几何和外观特征的局限,使智能体能够对真实世界形成更加全面、深刻且具备生成性的理解。近年来,随着人工智能与三维视觉技术的迅猛发展,空间智能的感知与生成能力不断取得重要突破,并在虚拟现实、自动驾驶、智慧城市等领域展现出广阔前景与深远价值。
本论坛将聚焦空间智能的感知与生成,邀请计算机视觉、图形学、机器人等领域的顶尖学者,分享最新研究成果与应用实践,深入剖析当前面临的挑战与未来机遇,搭建高水平的学术交流与合作平台,推动该领域的前沿发展与跨界创新。
各报告的日程安排、详细报告信息与讲者信息(含拟邀请讲者的个人简介及报告题目
时间:2025年10月17日
时间 | 地点 | 报告题目 | 报告人 |
---|---|---|---|
15:50 - 16:14 | 分会场 D1 厅 | 动态场景三维重建与生成 | 戴玉超 |
16:15 - 16:38 | 分会场 D1 厅 | 光场数据高效表示与重建 | 安平 |
16:39 - 17:02 | 分会场 D1 厅 | 面向空间智能的三维场景感知、理解与生成 | 郭裕兰 |
17:03 - 17.26 | 分会场 D1 厅 | 空间视频技术研究 | 周晓巍 |
17.27 - 17.50 | 分会场 D1 厅 | Deep Modeling of Dynamic 3D Scenes | 侯军辉 |
董天祯,上海应用技术大学智能学部高级工程师,一直致力于计算机视觉、模式识别等方面的研究工作,并取得了一些有特色的研究成果。主要包括动态三维模型渲染与重建研究,复杂场景下目标的跟踪与识别,模糊信息分析与信息融合等课题的研究工作。主持或参加国家、省部、国防等多项课题的研究工作,发表CCF-A、 SCI、EI等高水平学术论文数十篇,编写计算机视觉类教材两部,担任《Pure and New Mathematics in AI》、《自动化学报》、《The Visual Computer》、《Scientific Reports》等期刊的编委或审稿专家。
崔兆鹏,浙江大学计算机科学与技术学院“百人计划”研究员、博士生导师,国级青年人才计划入选者。2017年至2020年在瑞士苏黎世联邦理工学院计算机视觉和几何实验室任高级研究员。研究方向为三维计算机视觉,具体包括三维重建、三维理解、SLAM、三维内容生成和三维运动规划等。近年来在计算机视觉、机器人、计算机图形学、机器学习等领域的顶级期刊和会议上发表论文60余篇,曾主持国家自然科学基金青年基金项目、专项项目等。目前担任Pattern Recognition、IEEE RA-L等国际期刊编委,曾担任领域内顶级会议CVPR、ECCV、IJCAI领域主席,SIGGRAPH程序委员会委员,以及ICRA、IROS副编委等。曾获ICRA 2020机器视觉最佳论文提名、IROS 2021安全、安保和救援机器人最佳论文提名、3DV 2024最佳论文荣誉提名。
马健, 天津大学智能与计算学部助理研究员,入选教育部博士后海外引才计划(A类),主持国自然青年C、中国博士后科学基金面上及天津市自然科学基金面上项目。围绕着国家公共安全与事故重现,实现了交互解耦像素级语义跟踪、遮挡鲁棒数百人动态重建、个性化多空间生成与并行多智能体逃生仿真。累计在TPAMI、IJCV、NeurIPS等国际顶刊与顶会发表论文14篇,单篇他引超850,1项研究技术应用于产业界,2个数据集被上海人工智能实验室Opendatalab收录。
电子邮箱:jianma@tju.edu.cn
黄步真,天津大学副研究员,主要研究方向为三维视觉与具身智能,聚焦以人为中心的交互感知与理解。以第一作者/通讯作者在TPAMI、TIP、CVPR、ICCV等顶级期刊和会议发表论文 10 余篇,2 篇论文入选CVPR 口头报告,授权发明专利7项。获得凌迪图形学者,NeurIPS 2024 杰出审稿人等荣誉。参与国家重点研发计划、国家自然科学基金等多项项目,长期担任TPAMI、NeurIPS、CVPR、ICCV在内的多个国际顶级期刊/会议审稿人。
电子邮箱:buzhenhuang@outlook.com
面向空间智能的三维场景感知、理解与生成
空间智能旨在实现三维空间中的感知、推理、生成与交互,可深度赋能机器人、自动驾驶、增强现实等应用领域。激光雷达和深度相机等三维成像技术的快速发展,为智能体准确感知其环境空间信息提供了有效手段。而更准确、更高效地理解三维场景及其动态变化,则有助于实现智能体与其周围环境的安全可靠交互。在本报告中,将重点汇报团队在面向大规模场景的深度估计、点云语义理解、四维时空理解以及三维内容生成等方面的主要进展。
郭裕兰,中山大学电子与通信工程学院教授,博士生导师。主要研究领域为空间智能与三维视觉,包括三维重建、点云理解及机器人系统。在IEEE TPAMI和CVPR等期刊和会议发表学术论文200余篇,谷歌学术总被引2万余次,连续五年入选Elsevier中国高被引学者,ScholarGPS全球前0.05%科学家,获中国计算机学会自然科学一等奖、吴文俊人工智能优秀青年奖、ACM China SIGAI Rising Star等奖励。担任中国图象图形学学会三维视觉专委会副主任,IEEE Transactions on Image Processing高级领域编辑(SAE),CVPR 2025/2023/2021、ICCV 2025/2021、ECCV 2024、NeurIPS 2025/2024、ACM Multimedia 2021等国际会议领域主席。
空间视频技术研究
空间视频(体积视频)是未来数字媒体的重要形式,可广泛应用于远程交流、文化旅游、体育直播、仿真训练等领域,其技术本质是对现实场景动态光场的高保真重建与绘制。相较于传统的网格表达,近年来兴起NeRF/3DGS等表达方法在表达能力与绘制真实感等方面展现了巨大的优势,为空间视频提供了新的技术途径,但在采集成本、重建质量、存储开销等方面仍有局限。本报告将介绍我们在空间视频的表达与重建等方面的最新工作,并简要探讨未来还需解决的技术难题。
周晓巍,浙江大学求是特聘教授,国家科技创新领军人才,国家重点研发项目首席科学家。研究方向主要为三维视觉及其在混合现实、机器人等领域的应用。近五年在相关领域的顶级期刊与会议上发表论文80余篇,多次入选CVPR最佳论文候选,成果在中船集团、中国兵器、华为、蚂蚁、商汤等头部企业的项目和产品中成功应用。曾获得浙江省自然科学一等奖,两次获得CCF优秀图形开源贡献奖,入选全球前2%顶尖科学家榜单、爱思唯尔中国高被引学者。培养学生获得CCF优博、国自然优秀学生基金。担任国际顶级期刊IJCV编委、顶级会议CVPR/ICCV领域主席,CSIG 三维视觉专委会副主任,曾任图形学与混合现实研讨会(GAMES)执行委员会主席。
动态场景三维重建与生成
现实世界是三维的并且动态变化,从二维图像感知和重建三维动态场景具有重要的研究意义和应用价值。这一技术在自动驾驶、消费级应用、增强现实/元宇宙等方面具有广泛的应用前景。动态场景三维重建致力于从连续视频观测恢复所观测场景随时间变化的三维几何结构和外观信息。动态场景三维重建经历从显式优化方法到隐式表示方法再到生成方法的发展历程。本报告围绕动态场景三维重建与生成,在显式优化方法下探讨单一物体稀疏重建、多物体稠密重建、复杂场景稠密重建,在隐式学习方法下聚焦动态场景新视角合成和三维重建,最后对于基于生成模型的重建方法、重建与生成的结合和本领域的开放问题与发展趋势进行展望。
戴玉超,西北工业大学电子信息学院教授、博士生导师,校学术委员会委员,陕西省信息获取与处理重点实验室主任。研究方向为机器视觉与人工智能,主持国家自然科学基金青年项目(A类)、JKW基础加强计划领域基金重点等项目,近年来在TPAMI、IJCV、ICCV、CVPR、NeurIPS等国际著名期刊和会议上发表论文70余篇,谷歌学术引用超过15000次,H因子58。获CVPR 2012最佳论文奖(大陆高校30年来首次获得该奖项)、陕西省自然科学奖一等奖、CSIG青年科学家奖、火箭军“智箭火眼”人工智能挑战赛全国冠军、CVPR 2020最佳论文奖提名等奖项。担任IJCV编委、APSIPA杰出讲者、China3DV 2025大会主席、中国空间智能大会(ChinaSI 2025)程序主席和CVPR、ICCV、ECCV、NeurIPS等国际会议领域主席。
光场数据高效表示与重建
光场成像为沉浸式显示和计算机视觉应用提供了关键的数据支撑,然后受限于视点数量庞大及成像设备的技术瓶颈,高质量稠密光场的直接获取仍面临极大挑战。本报告将重点讨论基于视点稀疏性的光场数据高效表示与重建,围绕关键稀疏视点的确定和从稀疏到稠密的重建性能两个问题展开,介绍关键稀疏视点表示模型以及利用稀疏视点中多视角纹理与深度信息实现结构化和非结构化光场重建的方法。
安平, 上海大学教授、博士生导师,上海市曙光学者、上海市优秀技术带头人、宝钢优秀教师奖获得者。研究领域为视频图像智能处理,在沉浸式视频编码与重建、内容复原与增强、以及自由视点电视结构相关数学模型与系统设计等方面取得了系列成果。主持完成国家自然科学基金、国家科技部支撑计划、上海市项目等十多项。发表学术论文200余篇,出版著作2部,授权发明专利40余项,曾获上海市科技进步二等奖、教育部自然科学二等奖、中国电子学会自然科学二等奖、科技部世博科技先进个人等奖项。
Deep Modeling of Dynamic 3D Scenes
In this talk, I will showcase our recent advancements in dynamic 3D scene modeling from either 3D geometry data or monocular 2D videos. Initially, I will introduce Dynosurf, a framework designed to reconstruct topologically consistent dynamic 3D meshes from continuous sequences of 3D point clouds with unknown temporal correspondences. Following this, I will introduce two 3D Gaussian Splatting (GS)-based frameworks, i.e., RigGS, a framework modeling articulated objects captured in monocular videos to enable novel view synthesis, while also being easily editable, drivable, and re-posable, and MoDGS, a pipeline to render novel views of dynamic scenes derived from casually captured monocular videos. Finally, I will introduce a new novel view synthesis paradigm that operates without the need for training, by leveraging the potent generative capabilities of pre-trained large video diffusion models.
Junhui Hou is an Associate Professor with the Department of Computer Science, City University of Hong Kong. His research interests include multi-dimensional visual computing, such as light field, hyperspectral, geometry, and event data. He received the Early Career Award from the Hong Kong Research Grants Council and the Excellent Young Scientists Fund from NSFC. He has served or is serving as an Associate Editor for IEEE TIP, TVCG, TMM, and TCSVT.
中国图象图形学学会 (CSIG)
中国人工智能学会 (CAAI)
中国计算机学会 (CCF)
中国自动化学会 (CAA)
上海交通大学 (SJTU)
上海飞腾文化传播有限公司
AutoDL
华东师范大学