在大规模基础模型取得重大进展的推动下,计算机视觉领域经历了深刻的变革。计算机视觉领域的变革浪潮前沿是视觉模型,例如Vision Transformer(ViT),通过自注意力机制来理解图像,引领了图像理解范式的转变。同时,跨语言图像预训练(CLIP)框架提出了一种新的方法,通过利用图像-文本对数据集来促进视觉-语言理解。此外,Segment Anything Model(SAM)和GPT-4V为视觉模型赋予了交互式语义分割的功能。这些进展不仅突显基础模型理论的重要性,而且还提供了具体的实现路径,重塑计算机视觉的格局。然而,视觉基础模型的研究方兴未艾,如何在实际应用场景中产生更大的价值,值得我们进一步探索。基于此,中国图象图形学学会主办的英文学术期刊Visual Intelligence将在本次大会上组织“视觉基础模型及其前沿应用”专题论坛,旨在将领域内相关研究者聚集在一起,交流目前视觉基础模型研究和技术应用的最新进展和未来发展趋势,对其中一些共性、难点问题进行交流和深入探讨。
论坛主席
个人简介:
罗斌,安徽大学计算机科学与技术学院教授、博士生导师,安徽省学术技术带头人,安徽省模范教师。现任中国图象图形学学会常务理事、安徽省计算机学会监事长。曾受聘英国电信公司短期研究员、美国佛罗里达技术学院客座教授、澳大利亚新南威尔士大学客座研究员、新加坡南洋理工大学客座教授、英国Stirling大学客座教授、英国York大学博士后研究员等。研究方向为模式识别与数字图像处理。代表性成果发表于IEEE TPAMI和CVPR等国际期刊和会议。任Visual Intelligence副主编和《安徽大学学报(自然科学版)》主编。
个人简介:
范登平,南开大学教授、博士生导师,计算机系主任、国家级四青人才。代表性论文:1篇NeurIPS workshop最佳论文、2篇CVPR最佳论文提名、5篇热点论文、10篇TPAMI,谷歌引用2.1万,H指数53。担任IEEE TIP、Visual Intelligence等国际期刊编委,CVPR、NeurIPS等国际顶会领域主席,入选斯坦福全球前2%顶尖科学家榜单。
论坛日程
时间:2024年10月18日10:00-12:05
论坛报告
郑伟诗
中山大学教授
报告题目:
具身视觉感知与学习(10:00-10:25)
报告摘要:
面向物理实体机器人的视觉行为感知与学习是具身智能研究的重要一环。本次报告将汇报我们研究组在通用机器人自由抓取建模上所展开的相关研究,包括机器人6DOF抓取建模、机械灵巧手抓取建模、动态抓取与多机器人协作、机器人行为质量评估等初步研究成果。
个人简介:
郑伟诗,中山大学计算机学院教授、副院长,教育部“长江学者奖励计划”特聘教授,英国皇家学会牛顿高级学者,教育部机器智能与先进计算重点实验室主任。他长期研究协同与交互分析理论与方法,解决人体建模和机器人行为的视觉计算问题。担任IEEE TPAMI、Visual Intelligence等期刊的编委。主持承担国家级重点类项目和人才项目5项、广东省自然科学基金委卓越青年团队(负责人)项目等。获国家教学和省部级科技奖励6项。
王兴刚
华中科技大学教授
报告题目:
低复杂度视觉基础模型研究(10:25-10:50)
报告摘要:
Transformer 在视觉和多模态基础模型领域已取得巨大成功,但其计算复杂度随输入序列长度的增加而呈二次增长。因此,探索低复杂度的视觉和多模态基础模型成为一个核心问题。本报告将介绍我们利用 Mamba、Gated Linear Attention 等新机制构建低复杂度视觉基础模型的初步研究,以及如何运用这些新型网络实现计算高效且表征能力强的视觉理解和内容生成模型。
个人简介:
王兴刚,华中科技大学电信学院教授、博士生导师,入选国家级青年人才计划,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编。主要从事基础模型、视觉表征学习、目标检测分割跟踪等领域研究、在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用3万余次,其中一作/通讯1000+引用论文5篇,入选Elsevier 2023中国高被引学者。担任CVPR、ICCV、ICIG等会议领域主席,Machine Vision and Application等期刊编委。入选中国科协青年人才托举工程,获湖北青年五四奖章、CSIG青年科学家奖,吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等,指导学生获2022年全国“互联网+”大赛金奖、2023年挑战杯“揭榜挂帅”专项赛全国一等奖。
叶茫
武汉大学教授
报告题目:
多模态基础模型驱动的图文跨模态检索(10:50-11:15)
报告摘要:
图文跨模态检索任务是连接视觉内容与文本信息的重要桥梁,如何将通用多模态基础模型迁移适配到下游任务具有重要意义。本次报告将分享我们团队基于通用CLIP模型在下游的图文跨模态检索上的研究进展,主要包括以人为中心的图文检索和多模态检索,通用图文检索和视频文本检索等方向,旨在实现更精准高效的信息检索。
报告人简介:
叶茫,武汉大学计算机学院教授、博士生导师,国家级高层次青年人才,中国科协青年托举人才,湖北省高层次人才。曾任阿联酋起源人工智能研究院研究科学家,美国哥伦比亚大学访问学者。主要研究方向多模态检索、多模态语义理解、联邦学习等,以第一/通讯作者发表 CCF-A 类论文 60 余篇,谷歌学术引用 9000 余次,1篇论文入选湖北省优秀科技论文。受邀担任CCF-A类期刊IEEE TIFS(中科院一区)等国际SCI期刊编委,多次受邀担任顶级会议CVPR、ACM MM、NeurIPS、ICLR、ECCV领域主席等学术职务。
任文琦
中山大学教授
报告题目:
低质量与对抗环境下的目标检测(11:15-11:40)
报告摘要:
本报告聚焦低质量视觉内容增强与感知对抗主题。针对图像视频在成像过程中常见的模糊、雨雾、低分辨率及低动态范围等质量退化问题,深入研究了多种视觉基础模型在视觉内容清晰化上的可行性,验证了新颖Transformer和状态空间模型在底层视觉恢复任务的有效性。提出一种新的图像恢复算法,在提升图像的清晰度的同时充分融合了下游目标检测效果的增益考量。通过对干净标签进行对抗攻击能够生成既与原始样本相近又有助于目标检测的伪标签,从而确保在增强图像质量的同时提升目标检测的准确度。此外,针对视觉对抗攻击这一日益严重的威胁,进一步提出一种无需先验知识或额外训练的对抗补丁定位与移除方法。该方法能够应对各种对抗攻击模式,兼容不同预训练的目标检测器,显著提升了防御能力。提出的方法在多种退化场景和攻击类型下均能显著提升目标检测的准确性。
报告人简介:
任文琦,中山大学“百人计划” 引进人才,教授,主持国家自然科学优秀青年基金,广东省重大人才工程青年拔尖人才。长期从事多媒体内容安全、目标增强与感知、计算机视觉等领域的教学科研工作。在人工智能和计算机视觉领域发表80余篇中科院一区和CCF-A类期刊和国际顶会议论文。截至目前,Google Scholar 引用14000余次,包括ESI高被引论文7篇,第一作者论文单篇最高被引1800余次,入选2022/2023年爱思唯尔中国高被引学者。担任CVPR、NeurIPS、ICLR等计算机视觉与人工智能国际会议的领域主席,《中国图像图形学报》等期刊编委。主持国家自然科学基金优青、面上、国际合作与交流项目,深圳市优青、面上项目,华为、腾讯公司资助项目等20余项。入选2018微软亚洲研究院“铸星计划”、2022百度全球高潜力AI华人青年学者。曾获2019年中国计算机学会优博奖、2022年吴文俊人工智能优秀青年奖、2023年中国图象图形学学会自然科学一等奖(第三完成人)。
王文海
上海人工智能实验室青年科学家
报告题目:
视觉语言大模型的研究与应用:通过开源套件缩小与商用多模态大模型的性能差距(11:40-12:05)
报告摘要:
随着大语言模型的兴起,多模态大模型也取得了显著进步,推动了复杂的视觉语言对话和交互,弥合了文本与视觉信息之间的鸿沟。然而,现有的开源模型与商用闭源模型(如GPT-4o和Gemini 1.5 Pro)相比,在模型性能上仍存在显著差距。本报告将探讨图文多模态大模型的基本原理和技术,探索如何利用开源套件构建强大的多模态大模型,研究如何通过渐进式策略扩展开源多模态模型的性能边界,以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。
报告人简介:
王文海,上海人工智能实验室青年科学家。南京大学博士,香港中文大学博士后,上海人工智能实验室“书生”系列视觉和多模态模型核心开发者。研究方向为视觉基础模型,在IEEE TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等国际会议和期刊发表论文40余篇,其中20篇为一作/共同一作/通信作者。研究成果获得了超过2万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文。入选斯坦福大学2023年度全球前2%顶尖科学家,中国图象图形学学会优博提名,世界人工智能大会云帆奖。担任Visual Intelligence编委,IJCAI 2021的高级程序委员会委员,以及多个顶级国际期刊和会议的审稿人。