会议程序

会议日程 主旨报告 特邀报告 专题论坛 女科学家论坛 讲习班 博士生论坛
王兴刚

简介:王兴刚,华中科技大学电信学院教授博导,国家级青年人才,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编。主要从事基础模型、视觉表征学习、目标检测分割跟踪等领域研究、在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用30000余次,其中一作/通讯1000+引用论文5篇,入选Elsevier 2023中国高被引学者。担任CVPR, ICCV, ICIG等会议领域主席,Machine Vision and Application等期刊编委。入选了中国科协青年人才托举工程,获湖北青年五四奖章、CSIG青年科学家奖,吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等,指导学生获2022年全国“互联网+”大赛金奖、2023年挑战杯“揭榜挂帅”专项赛全国一等奖。
报告题目:文本提示“检测分割一切”模型研究
报告摘要:Meta公司开发的“分割一切”模型(SAM)在全世界获得了广泛的关注和应用,但在SAM和SAM 2中都只支持点、包围盒等形式的交互提示,无法做到自动化的文本提示的分割一切物体。针对这个难题,我们从视觉特征和文本特征的高效交互出发,在视觉基础模型和文本基础模型的基础上,设计了大规模弱监督预训练、早期多模态特征融合等有效策略,分别开发出了YOLO-World模型(CVPR 24, 4.1k github stars)和EVF-SAM模型(arXiv:2406.20076, 225 github stars),取得了业内领先的检测、分割一切目标的性能。
王立君

简介:王立君,大连理工大学未来技术/人工智能学院长聘副教授,博士生导师,国自然优秀青年基金获得者,主要研究方向聚焦于图像深度估计、目标识别、检测与跟踪等。主持国自然联合重点、面上和青年项目,入选人社部“博士后创新人才支持计划”和大连市“科技人才创新支持计划”,在本领域顶级学术会议和期刊发表论文40余篇,谷歌学术总引用7900余次。相关研究成果获得辽宁省科技进步一等奖,中国图象图形学会自然科学二等奖,教育部自然科学二等奖,中国图象图形学学会优秀博士论文奖,以及辽宁省优秀博士论文奖。连续三年获得VOT国际视觉跟踪竞赛冠军。担任多个国际会议和期刊审稿人,VALSE执行委员,CCF-CV与CSIG-MV专委会执行委员等。
报告题目:开放条件下的视觉识别
报告摘要:随着多模态感知与大模型技术的飞速发展,视觉识别也从可控封闭环境迈向更加开放的场景,一方面体现为输入数据模态具有不确定,现有模型在测试时难以有效应对任意输入模态带来的挑战;另一方面,目标类别具有开放性,测试阶段待识别的类别与训练集类别不一致、或需要额外的逻辑推理才可以确定,极大程度提升了视觉识别的难度。针对上述问题,本报告将从输入模态、开放类别字典和因果推理三个层面,介绍团队在开放视觉识别领域最新的研究成果,探讨如何强化视觉识别模型对模态的鲁棒性和类别的泛化性,以及如何借鉴多模态大模型技术面向视觉识别任务提升开放环境下的推理能力。
彭宇新

简介:彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、中国电子学会会士、中国人工智能学会会士、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任、北京图象图形学学会副理事长。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等30多个项目,发表论文200多篇,包括ACM/IEEE Trans和CCF A类论文100多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。
报告题目:细粒度多模态运动分析
报告摘要:运动是生命的基本要素,是现实世界的客观描述。与粗粒度、单模态的运动分析不同,细粒度、多模态的运动分析描述真实世界更准确,同时更具挑战性。细粒度多模态运动分析旨在利用文本、视频、3D姿态等不同模态信息的推理能力对目标动作进行细粒度识别、定位、评价、重建等,关键科学问题是如何精准辨识时空边界模糊的细粒度子动作,如何利用文本信息对人体动作进行精细重建等。可广泛应用于智能安防、智慧医疗、智能体育、智慧传媒等领域。本报告将介绍我们最新的6篇CVPR 2024论文,涵盖了我们在细粒度多模态运动分析的近期工作进展,包括细粒度动作质量评价、文本驱动的细粒度时空动作定位、文本驱动的三维人体姿态估计等,并对未来发展方向与趋势进行讨论与展望。
张兆翔

简介:张兆翔,博士,研究员,博士生导师,长江学者,中国科学院自动化研究所模式识别实验室常务副主任,中国科学院大学岗位教授,曾获得北京市科学技术奖科技进步奖一等奖(排名第一)。张兆翔博士的研究兴趣包括:模式识别、具身智能、智能体学习,在IEEE T-PAMI、IJCV、JMLR、National Science Review等顶级期刊与CVPR、ICCV、ECCV、NIPS、AAAI、IJCAI等顶级会议发表论文200余篇,授权专利30余项,承担了国家自然科学基金重点项目、重点国际(地区)合作研究项目、企业联合重点支持项目、国家重点研发项目等多项国家级科研项目,多次担任CVPR、ICCV、NeurIPS等顶会Area Chair。
报告题目:视觉物体检测的新趋势和新范式
报告摘要:视觉物体检测是计算机视觉与模式识别领域的重要问题,在过去十余年间伴随着深度学习的兴起取得重要进展。伴随着多模态大模型、生成式模型、世界模型等新兴技术的兴起和自动驾驶、机器人等关键应用的驱动,视觉物体检测的方向发展呈现出新趋势,视觉物体检测的方法创新呈现出新范式。本报告在回顾视觉物体检测的发展基础上,着重介绍本团队在视觉物体检测领域做的一系列代表性工作,并以自动驾驶等应用场景,生成式世界模型等方法驱动为例,探讨视觉物体检测的创新发展。
王大轶

简介:王大轶,北京空间飞行器总体设计部科技委主任、研究员,是国家杰青、国防卓青、万人领军,973项目(自主诊断重构)和173重点项目(自主导航)技术首席专家,长期从事观测、诊断和重构能力定量表征理论方法以及空间飞行器全自主运行技术研究,为我国探月工程和首次火星探测等任务的圆满完成做出重要贡献。获国家技术发明二等奖、国家科技进步特等奖,以及全国创新争先奖、何梁何利基金科技创新奖、首届国家工程师奖等,被授予“国家卓越工程师”称号。
报告题目:基于能力定量表征的序列图像自主导航技术
报告摘要:深空探测任务对空间飞行器全自主运行技术提出了迫切需求,自主导航与自主诊断重构是其中两大关键核心,也是实现全自主运行的前提和保障。报告人针对资源强受限的空间飞行器,以观测能力的定量表征为理论创新突破口,以从序列图像中挖掘导航状态信息为关键技术突破口,提出了基于观测能力定量表征的序列图像自主导航技术,为实现空间飞行器安全可靠自主运行做出重要贡献。
刘烨斌

简介:刘烨斌,清华大学长聘教授,国家杰青基金获得者。研究方向为三维视觉、数字人重建、3D生成与交互。发表计算机视觉/计算机图形学领域顶会顶刊近百篇。多次担任CVPR、ICCV、ECCV领域主席,担任IEEE TVCG、CGF编委,中国图象图形学会三维视觉专委会副主任。获2012年国家技术发明一等奖(排名3),2019年中国电子学会技术发明一等奖(排名1)。
报告题目:高真实感3D高斯数字化身
报告摘要:近期,3D高斯泼溅(Guassian Splatting )作为一种新的可微渲染技术,逐渐取代其他可微渲染方法成为学术界和产业界的研究热点。借助3D高斯泼溅在3D场景表达和渲染的优势,介绍报告人在3D数字重建与生成方面的最新研究工作,包括高保真的头部与身体数字化身生成、简易-快速高效的人头3D高斯化身、融合视频生成机制的3D高斯数字化身、基于动作生成的高斯数字化身交互等相关研究工作。
常建龙

简介:华为AI技术专家、百度奖学金、中国人工智能协会吴文俊优秀博士论文奖、中科院优秀博士论文奖、中科院院长奖获得者。主要研究通用AI算法和商业落地,五十余项研究成果发表于CSUR、IEEE T-PAMI、IEEE T-IP、NeurIPS、CVPR等国际顶级AI期刊会议,并成功应用于华为云为千行百业赋能。
报告题目:通用数据预训练与高效微调方法研究
报告摘要:人工智能的发展和应用一直面临着智能孤岛的问题,即各种数据中的知识只能通过不同的模型学习,而不能累积学习。不同于人工智能,人类智能没有智能孤岛现象,可以从海量任务和数据中累积学习,这就是为什么人类能够根据他们过去的经验完成他们从未遇到过的任务。该报告聚焦于该问题,从数据、架构和优化出发实现预训练模型的累积式知识学习,并从通过统一各类微调方案解提升预训练模型的应用效率。
杜博

简介:杜博,武汉大学弘毅特聘教授,国家自然科学基金杰出青年科学基金、优秀青年科学基金获得者,湖北省杰青。现任国家多媒体软件工程技术研究中心主任,武汉大学发展规划与学科建设办公室主任、计算机学院院长,武汉大学人工智能研究院常务副院长,多媒体网络通信工程湖北省重点实验室主任。主要从事计算机视觉和人工智能等方面的研究工作。近五年主持和参与国家重点研发计划项目等纵向科研项目30余项,发表ESI高被引或热点论文23篇,出版著作3部,授权国家发明专利35项。获得2024年湖北省首届青年创新奖(序1),2019年湖北省自然科学一等奖(序1);2020、2021年中国国际高新技术成果交易会优秀产品奖;2020年湖北省首届专利银奖;2019-2023年科睿维安全球高引学者;2020-2023年Elsevier中国高被引学者;多次获多项人工智能领域顶级会议最佳论文奖以及人工智能和图像处理类全球竞赛冠军。
报告题目:多模态大模型发展及垂域赋能
报告摘要:多模态大模型作为人工智能领域的重要进展,通过整合学习文本、视觉等多模态数据信息,极大地提升了模型的多模态理解和人机交互能力。随着大模型技术的不断发展,多模态大模型也有望助力赋能各行业发展。本报告将探讨多模态大模型的发展历程、应用场景与研究挑战,以及介绍团队从通用基础大模型到医疗、遥感垂直领域多模态大模型的研究成果,分析多模态大模型在特定垂直领域的应用潜力和赋能效果,并为未来的大模型技术发展和赋能应用提供前瞻性视角。
官方公众号