01
论坛简介、目的与意义
02
论坛日程
03
论坛嘉宾
叶齐祥 报告嘉宾
中国科学院大学长聘教授
嘉宾简介:叶齐祥,中国科学院大学长聘教授,卢嘉锡青年人才奖获得者,中国科学院优秀博士生导师。2013至2014年在美国马里兰大学先进计算机技术研究所(UMIACS)任访问助理教授,2016年Duke大学信息技术研究所(IID)访问学者。主要进行监督信息不完备条件下的视觉特征表示与态目标感知技术研究,在IEEE CVPR, ICCV, NeurIPS, AAAI、ECCV等顶级会议与T-PAMI, TNNLS, TIP, T-ITS, PR等期刊发表论文100余篇,H-Index为46,Google引用8000余次,多篇论文ESI高被引。承担了自然基金重点、开发的高精度目标感知方法支撑了华为、航天等单位的应用系统。曾获ICCV2017、 CVPR2019、高分辨率对地观测重大专项遥感目标解译竞赛冠军、中国电子学会自然科学一等奖。培养多名博士生获中科院院长奖、中国科学院百篇优秀博士论文、博士后创新人才计划支持等。担任CVPR2023 Area Chair、国际期刊IEEE T-ITS,IEEE T-CSVT编委。
报告题目:视觉表征结构:从局部-全局特征耦合的Conformer到全预训练模型iTPN
报告摘要:卷积运算善于提取局部特征,却不具备提取全局表征的能力。为了感受图像全局信息,CNN必须依靠堆叠卷积层,采用池化操作来扩大感受野。Vision Transformer的提出则打破了CNN在视觉表征方面的垄断。得益于自注意力机制,Vision Transformer (ViT、Deit)具备了全局、动态感受野的能力,在图像识别任务上取得了更好的结果。但是受限于计算复杂度,Transformer需要减小输入分辨率、增大下采样步长,这造成切分patch阶段损失图像细节信息。中国科学院大学联合鹏城实验室和华为提出了Conformer基网模型,将Transformer与CNN进行了融合。Conformer小规模模型可以显著提升了基网表征能力。代码已经开源: github.com/pengzhiliang/Conformer. 在研究分层特征融合的基础上,课题组近期还研究了结构更简约的分层Transformer (HiViT)与全预训练的Transformer 金字塔网络(iTPN),从模型结构设计的角度将表征学习的性能提升到了一个新高度(Base模型自监督预训练,ImageNet1k微调达到85.5%的Top-1精度,超出MAE模型性能2个点)。
张力 报告嘉宾
复旦大学青年研究员
嘉宾简介:张力,复旦大学青年研究员,博士生导师。博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,牛津大学工程科学系博士后,曾任职于剑桥三星人工智能中心研究员。致力于计算机视觉与深度学习方向的研究,在本领域顶级期刊和会议发表论文 40 余篇,Google Scholar 引用数 8200 余次。获得上海科技青年35人引领计划 (35U35),临港国家实验室“求索杰出青年计划”、上海市海外高层次人才计划。担任 CVPR 2023 领域主席。
报告题目:不依赖于Softmax的线性复杂度Transformer
报告摘要:Vision Transformers 推动了各项视觉识别任务中的进展,但是在计算和存储方面都存在二次复杂度。具体来说,传统的自注意力计算需要对特征向量之间的点积缩放后进行 softmax 归一化。保持该 softmax 操作对任何线性化的方法都是一个障碍。本工作提出不依赖于 softmax 的 Transformer 模型,使用无行归一的高斯核函数来代替之前的点积注意力,并基于此构建低秩的矩阵分解逼近满注意力矩阵。采用 Newton-Raphson 方法来保证近似的鲁棒性并实现近似中涉及的 Moore-Penrose 逆计算。在大规模图像识别数据集 ImageNet 上的实验表明该线性化方法能够显著提升现有 Transformer 模型的计算效率,获得准确性和复杂性之间一个更优越的权衡。
谢凌曦 报告嘉宾、主持人
华为公司高级研究员
嘉宾简介:谢凌曦博士目前是华为公司的高级研究员。他分别于2010年和2015年于清华大学获得本科和博士学位,并且于2015年至2019年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个方向,主要包括统计学习方法和深度学习模型的应用。他的研究工作覆盖图像分类、物体检测、语义分割和其他视觉任务,并积极推动自动机器学习算法在上述领域的应用。谢凌曦博士已经在国际顶级的学术会议和期刊上发表超过90篇论文,谷歌学术引用超过8000次。他于2015年获得清华大学优秀博士论文奖,并于ICMR2015会议上获得最佳论文奖。
报告题目:走向无限细粒度的按需视觉识别
报告摘要:视觉识别是计算机视觉领域的根本问题之一。在处理复杂的视觉信号时,人类拥有近乎无限细粒度的识别能力,能够从图像或者视频中识别出重要的或者感兴趣的语义、实体、部件、属性、关系等。与之相对地,计算机视觉算法依然沿用传统的基于分类的评价体系,即使从文本引导中获得了开放域特性,也难以适应不断细化的识别需求。本报告将回顾已有的视觉识别任务和评价指标,并分析它们的缺陷。在此基础上,我们提出按需视觉识别任务,并在两个具有挑战性的数据集上进行试验。我们希望这个初步的工作,能够迈出走向无限细粒度视觉识别的一小步。