会议程序

会议日程 主旨报告 特邀报告 专题论坛 女科学家论坛 讲习班 博士生论坛
点击论坛跳转到相应位置
多模态连续学习


论坛简介

多模态连续学习模仿了人类学习过程中的多感官感知和记忆保持功能,旨在提高模型的泛化性、灵活性和实用性,近些年吸引了来自计算机视觉、自然语言处理、脑科学等多个学科领域学者们的广泛关注。如何突破跨媒体数据的异构鸿沟和语义鸿沟、如何避免在学习新任务时遗忘旧知识造成的灾难性遗忘、如何自适应建模任务间的内在联系以通用地适配任意输入任务并提升模型泛化能力、以及开展多模态大模型的连续学习必要性,都是多模态连续学习研究的关键和热点问题。为深入探讨这些挑战,本论坛汇集相关领域的专家学者共同探索多模态连续学习的最新研究进展与面临的挑战,并对其未来发展趋势进行交流和讨论。期待通过这次论坛,能够激发新的思考,推动这一研究的创新和应用。


论坛主席

640 (59).jpg

尹宝才
北京人工智能研究院院长



个人简介:

尹宝才,博士生导师,北京学者,国家杰出青年基金获得者,北京人工智能研究院院长,多媒体与智能软件技术北京市重点实验室主任,ACM北京分会副主席。主要研究领域包括多媒体技术、计算机视觉、模式识别和人工智能。近五年,作为课题负责人承担国家自然科学基金重大项目课题2项,作为负责人承担国家自然科学基金重点项目1项。在图像视频等高维数据压缩编码、复杂场景对象建模与理解、交通大数据分析等方面取得了一系列创新成果,发表IEEE/ACM汇刊或CCF-A类会议学术论文60余篇,授权相关专利60余项,制定国家和行业标准10余项。2009年获“享受国务院特殊津贴专家”,2014年主持的交通视频处理团队入选“北京市学术创新团队”,2021年入选“北京学者”。获得多项科学技术奖励,2003 年“基于多功能感知理论的中国手语识别与合成研究”成果获得国家科技进步二等奖;2007年“基于WEB的手语播报系统与手语普适终端”成果获教育部高等学校科技进步一等奖;2020年“多源高维数据协同表征及应用”成果获得中国人工智能学会吴文俊人工智能科技进步一等奖。




640 (60).jpg

王博岳
北京工业大学副教授



个人简介:

王博岳,北京工业大学副教授、博士生导师。研究方向为跨模态分析,以第一/通讯作者发表IEEE/ACM汇刊、CCF¬A会议论文20余篇;主持科研项目10余项,主要包括国家重点研发计划课题、国家自然科学基金重点研究计划培育项目/面上项目/青年项目、北京市自然科学基金青年项目等;中国图象图形学学会多媒体专委会委员、中国图学学会可视化与认知计算专业委员会委员、北京人工智能学会理事;获“中国图学学会优秀博士学位论文奖”,入选“北京工业大学高端人才队伍建设计划”、“北京工业大学新锐青年学者”,入选北京市科协“青年人才托举工程”。


640 (61).jpg

胡永利
北京工业大学教授



个人简介:

胡永利,北京工业大学教授,博士生导师,北京人工智能研究院研究员。北京市百千万人才工程入选者,北京市高层次创新创业人才支持计划领军人才。长期从事模式识别、计算机视觉、机器学习和智能交通等方面的研究,近年来关注图像视频聚类、多视聚类、跨媒体和图网络等方面的研究。主持国家自然科学基金联合基金重点、面上和北京市科技计划等项目10余项。共发表论文110余篇,其中包括IEEE TIP、TNNLS、TCYB、TMM、TCSVT、TITS、ACM TKDD等IEEE/ACM汇刊和CVPR、AAAI、IJCAI、ACM MM等CCF A类会议论文30余篇。获得国家发明专利授权 22 项。获2020吴文俊人工智能科技进步奖一等奖、2020青岛市科技进步奖二等奖、2017年和2018年国家自然科学基金委水下机器人目标抓取大赛二等奖。


640 (62).jpg

高源
武汉大学副教授



个人简介:

高源,武汉大学副教授、博士生导师;曾任腾讯AI Lab高级研究员、拼多多视觉算法部算法专家及研究主管;研究方向为多模态多任务学习、高效深度学习、三维计算机视觉;在包括Nat. Comm., IJCV, TIP, ICML, ICLR, CVPR, ECCV等顶级期刊和会议上发表论文30余篇;申请授权发明专利16项,含国际专利8项;主持研发的"人脸识别与活体验证系统"在腾讯云部署、"轻量化通用多任务图像理解"支持拼多多算法中台,服务于多家政府和金融机构,支持了多个千万级规模的消费者应用,取得了行业领先效果。



论坛日程


时间:

2024年10月18日17:30-19:50


640 (83).jpg


论坛报告


640 (63).jpg

邓成
西安电子科技大学二级教授



报告题目:

在线增量学习(17:30-17:50)


报告摘要:

人类与生俱来具有终身不断获取、整合和迁移知识的能力,这种学习能力被称之为增量学习(Incremental Learning)。在机器学习领域,特别是深度学习模型提出以来,增量学习致力于解决模型训练的一个普遍缺陷——灾难性遗忘(Catastrophic Forgetting),即在新任务上训练时,在旧任务上的表现通常会显著下降。本报告以增量学习的两个范式——任务增量学习和类增量学习为主线,首先探讨分析近年来的研究进展,并介绍本组在该领域取得的最近研究成果。


个人简介:

邓成,西安电子科技大学二级教授,博士生导师。国家级高层次人才,国家百千万人才工程入选者,国家有突出贡献中青年专家,陕西省重点科技创新团队负责人,陕西省教学名师,陕西省师德标兵,教育部电子信息类教学指导委员会秘书长。长期从事人工智能领域的研究工作,主持国家自然科学基金重点项目、科技部重点研发计划等项目近30项。在本领域国际一流期刊和CCF A类会议上发表论文200余篇,连续多年入选爱思唯尔中国高被引学者榜单。研究成果获2019年、2023年陕西省自然科学一等奖(第1)、2016年国家自然科学二等奖(第3)。



640 (64).jpg

魏云超
北京交通大学教授



报告题目:

Continual Learning Meets Real-World Visual Perception17:50-18:10


报告摘要:

连续学习下的视觉内容感知研究聚焦于如何使模型不断适应新环境、识别新类别最终达成模型自身认知能力的提升。在本次报告中,魏云超教授将围绕如何基于预训练模型开展连续学习?如何解决精细化视觉感知任务中背景漂移问题?在多模态大模型/生成式模型时代开展连续学习的必要性?等问题展开讨论并介绍其团队在执行科技创新2030-新一代人工智能重大项目“连续学习的理论和方法”过程中产生的相关研究成果。


个人简介:

魏云超,北京交通大学计算机学院教授、副院长,国家级讲席教授。曾在新加坡国立大学、美国伊利诺伊大学厄巴纳--香槟分校、悉尼科技大学从事研究工作。入选MIT TR35 China、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star;获世界互联网大会领先科技奖(2023)、教育部高等学校自然科学奖一等奖(2022)、中国图象图形学学会科技技术奖一等奖(2019)、澳大利亚研究委员会青年研究奖(2019)、IBM C3SR最佳研究奖(2019)、计算机视觉世界杯ImageNet目标检测冠军(2014)及多项CVPR竞赛冠军;发表TPAMI、CVPR等顶级期刊/会议论文100多篇,Google引用超22000次。目前主要研究方向包括面向非完美数据的视觉感知、多模态数据分析、生成式人工智能等。



640 (65).jpg

赵鑫
中国人民大学教授



报告题目:

面向大模型训练的数据工程方法18:10-18:30


报告摘要:

近年来,大语言模型的研发受到了广泛关注,一般包括预训练与后训练两个阶段,其中预训练阶段是建立模型能力的关键。本次报告将聚焦预训练与继续预训练过程的基本技术路线,将针对其中涉及的数据工程方法展开讨论。除了介绍如何高效利用已有数据外,还将介绍大规模合成数据在继续预训练中的应用方法。特别地,我们将以Llama 3为例,完整介绍继续预训练所涉及的数据工程方法。

报告人简介:

赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用2.2万余次,曾主导研发了玉兰大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。



640 (66).jpg

崔振
南京理工大学教授



报告题目:

小样本增强式持续学习研究18:30-18:50


报告摘要:

小样本条件下的持续学习是当前人工智能的重要研究方向。本报告将介绍近期小样本增强式持续学习的研究进展,并分享我们在这一领域的一些探索性工作。这些研究涵盖样本扩散生成、数据强化精炼和增量微分建模等技术,旨在帮助大家更深入地了解持续学习的研究动态。


报告人简介:

崔振,南京理工大学教授、博导。研究方向为计算机视觉和模式识别,聚焦于视觉计算及图建模学习研究。在IEEE汇刊和CCF A类会议发表论文90余篇。获中国科学院优秀博士论文奖、IEEE Computer Society最佳论文奖、IEEE T-AFFC最佳论文奖,航天集团科技进步二等奖,多次国内外重大/重要赛事冠亚军等;入选国家高层次青年人才计划,承担江苏省杰出青年基金、国家自然科学基金、装发预研等多项项目。



640 (67).jpg

赵洲
浙江大学教授



报告题目:

持续学习视角下的多模态统一离散化表征18:50-19:10


报告摘要:

多模态统一表征旨在通过整合来自不同模态(如文本、图像、声音、视频等)的信息,以提高机器学习模型的性能和泛化能力。本报告首先介绍跨模态泛化Uni-Code模型,通过实现了不同模态间的细粒度对齐和统一表示,使模型在仅有单一模态标记时能对其他模态实现零样本泛化。其次针对多模态预训练模型的泛化介绍DG-SCT注意力机制,通过动态调整模型参数以适应多模态输入特征,提升大规模预训练模型在音视频下游任务中的性能。针对多模态数据对不足的问题,设计C-MCR方法来通过语义增强的内-外MCR连接方法,增强了不同模态间嵌入的语义一致性和完整性。进一步提出FreeBind方法,通过“空间键”将多模态表示空间视为基本单元,自由扩展预训练的统一空间,整合额外专家空间的知识,显著提升了多模态理解与生成的性能。此外,本报告介绍一种基于持续学习的跨模态统一表示方法,通过使用一种模态作为中介,逐步将其他模态映射到共享的离散字典中,形成动态增长的统一表示空间。通过引入了CMoE-Adapter模块和伪模态重放(PMR)机制,实现模型以适应新模态的特征并实现多模态统一表示。


报告人简介:

赵洲,浙江大学计算机学院教授、博士生导师、国家青年人才、科技部2030重点研发计划青年科学家。主要研究方向为自然语言理解、计算机视觉计算和生成式模型,在国际期刊TPAMI和会议NeurIPS,ICML,ICLR,CVPR等上发表50余篇论文,被谷歌学术引用1.5万余次,相关技术被应用于微软、字节、Stability AI、华为等公司,获2022年度教育部科技进步一等奖、2021年度中国电子学会科技进步一等奖、2022年浙江大学竺可桢学院十佳专业导师,入选2022年度“全球前2%顶尖科学家榜单”和2023“中国高被引学者”,指导的多位学生获华为天才少年奖和浙江大学竺可桢奖学金。


640 (68).jpg

刘夏雷
南开大学副教授



报告题目:

基于图文预训练模型的连续学习方法研究19:10-19:30


报告摘要:

连续学习是新一代人工智能系统的关键技能之一,旨在使系统能够在动态变化的环境中不断学习新知识,同时避免灾难性地遗忘旧知识,以模拟人类学习的方式。本报告将以图文预训练模型为基础,探索多模态模型的连续学习,分别从判别性模型(如CLIP)角度和生成性模型(如mini-GPT4)角度,解决目前连续学习所面临的挑战。最后对连续学习领域进展进行总结和展望。


报告人简介:

刘夏雷,南开大学计算机学院副教授,研究方向为开放环境视觉连续学习。入选南开大学“百名青年学科带头人培养计划”,入选第九届中国科协青年托举计划,博士生导师。博士毕业于西班牙巴塞罗那自治大学,博士后工作于英国爱丁堡大学。长期从事连续学习、无监督学习和小样本学习等面向开放环境的机器学习和计算机视觉问题。至今共发表学术论文40余篇,谷歌学术引用3500余次。包含国际顶级期刊和会议TPAMI、NeurIPS、CVPR、ICCV等,一篇文章入选CVPR 2022 Best Paper Finalists。担任VALSE 2022-2024 组委会成员,组织CVPR 2023年连续学习Workshop,获第二届粤港澳大湾区(黄埔)国际算法算例大赛“序列任务的连续学习”冠军。



640 (69).jpg

高源
武汉大学副教授



报告题目:

General-Purpose Multi-Task Learning with Adaptive Task-Knowledge Sharing19:30-19:50


报告摘要:

现实世界中大多问题实质上是复杂的系统问题,涉及多个任务的协作。通用多任务学习通过自适应建模任务间的内在联系,以通用地适配任意输入任务,并提升模型泛化能力。本报告围绕通用多任务学习中最本质的负迁移问题展开,结合实际应用中普遍存在的关键限制(如稀疏的标注数据、有限的部署资源、任务间相关度的可解释性),将通用多任务学习建模为任务间自适应特征融合框架,深入探讨如何进行特征融合、在何处进行特征融合、何时进行特征融合、以及哪些任务应进行特征融合等通用多任务学习关键问题,并介绍课题组最新的相关研究进展。


报告人简介:

高源,武汉大学副教授、博士生导师;曾任腾讯AI Lab高级研究员、拼多多视觉算法部算法专家及研究主管;研究方向为多模态多任务学习、高效深度学习、三维计算机视觉;在包括Nat. Comm., IJCV, TIP, ICML, ICLR, CVPR, ECCV等顶级期刊和会议上发表论文30余篇;申请授权发明专利16项,含国际专利8项;主持研发的"人脸识别与活体验证系统"在腾讯云部署、"轻量化通用多任务图像理解"支持拼多多算法中台,服务于多家政府和金融机构,支持了多个千万级规模的消费者应用,取得了行业领先效果。



官方公众号