视言碰撞：语言模型与视觉生态协同-专题论坛-PRCV-中国模式识别与计算机视觉大会

点击论坛跳转到相应位置

视言碰撞：语言模型与视觉生态协同

论坛简介

随着语言与视觉大模型的迅猛发展，语言模型与视觉生态紧密地交互，诞生出了空前的探索机遇，也引领了当下研究的前沿与潮流。本论坛从语言模态和视觉模态的碰撞出发，重点探讨语言模型对于视觉生成、感知、理解乃至交互多个层面的协同与促进作用，希望对这一领域的研究和发展做出积极的贡献。具体地，本次论坛特邀讲者的报告内容主要涵盖（1）如何修正语言模型获取高质量的图像生成及2D/3D图像生成模型；（2）如何利用语言模型进行视觉任务的调度；（3）如何掌控3D视觉交互与控制。我们期待在本论坛中与各位研究者和从业者共同探讨，推动这一领域的发展，创造出更多创新的应用，激发出更多的创造潜力。论坛预计200人。

论坛主席

程明明

南开大学杰出教授

个人简介：

程明明，南开大学杰出教授，主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学，在SCI一区/CCF A类刊物上发表学术论文100余篇（含IEEE TPAMI论文30余篇），h-index为80，论文谷歌引用4万余次，单篇最高引用4700余次，多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的3名博士生获得省部级优秀博士论文奖。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI, IEEE TIP和《中国科学：信息科学》编委。

王亚星

南开大学副教授

个人简介：

王亚星，南开大学副教授，博士生导师，入选海外高层次人才引进计划青年项目，入选南开“百名青年学科带头人培养计划”。西班牙巴塞罗那自治大学博士，曾在西班牙巴塞罗那自治大学从事博士后研究。研究方向为扩散模型、生成对抗网络、图像到图像翻译、迁移学习。在TPAMI，IJCV，CVPR，NeurIPS等期刊会议发表论文30余篇，谷歌学术引用2000余次。现担任Computers, Materials & Continua期刊编委，ECCV Workshop 组织者，在国际顶级期刊和会议TPAMI、NeurIPS、CVPR、ICCV等多次担任期刊和会议审稿人。多模态语言翻译国际竞赛 (WMT16 Multimodal Machine Translation challenge) 中荣获第一名、2022年粤港澳大湾区（黄埔）国际算法算例大赛（遥感目标检测赛道）亚军（2/116队伍）。主持国家自然科学基金青年项目。

贾旭

大连理工大学长聘副教授

个人简介：

贾旭，大连理工大学未来技术学院/人工智能学院长聘副教授，辽宁省智能感知与理解人工智能重点实验室骨干成员，博士毕业于比利时鲁汶大学，师从Tinne Tuytelaars教授和Luc Van Gool教授，曾在Google Research，商汤科技，华为诺亚方舟实验室等从事研究工作。现主要研究方向包括视觉内容增强与生成、类脑视觉等，近年来在计算机视觉和机器学习领域顶级会议及期刊发表论文40余篇，Google Scholar引用8300余次，申请国内外专利10余项。主持或参与国家自然科学基金重点项目、科技部科技创新2030重大项目以及华为等多项科研项目。担任IJCAI、ICLR多个国际顶级会议和期刊的领域主席和审稿人，CCF、CSIG中多个专委会执委，及VALSE第六、七届执委。

论坛日程

时间：

2024年10月19日17:30-19:30

论坛报告

徐畅

悉尼大学副教授

报告题目：

Pixels as Parameters in Diffusion Models（17:50-18:10）

报告摘要：

在当今AI生成内容的世界中，扩散模型作为一种有价值的技术正越来越受到关注。在本次报告中，我们将介绍扩散模型及其在计算机视觉中的相关应用。这些模型不仅限于生成图像，还可以应用于各种计算机视觉任务。例如，我们将讨论我们最近在视频动作分割中使用扩散模型的工作。此外，可以将反向扩散过程视为逐步更新图像像素的一种方式，实际上将像素视为参数或变量。这一视角为优化扩散模型中的采样过程开辟了一种全新的方法。通过重新思考如何将像素更新为参数，我们发现了一些可能阻碍图像生成稳定性的有趣挑战，并为此开发了创新的优化策略来应对这些挑战。

个人简介：

徐畅，澳大利亚悉尼大学副教授，澳大利亚研究理事会杰出青年学者（ARC Future Fellow）。他的研究领域主要集中在机器学习算法及相关计算机视觉应用。他已在国际知名期刊和顶级学术会议上发表了超过200篇论文，并获得多项重要的学术奖项，包括2023年AAAI杰出论文奖，以及2018年IJCAI杰出论文奖。他在NeurIPS、ICML、ICLR和CVPR等知名会议担任领域主席，并在AAAI与IJCAI担任高级程序委员。此外，他还担任IEEE T-PAMI、IEEE T-MM和T-MLR的副主编。他荣获2023年度澳大利亚新南威尔士州州长优秀青年研究奖。

任博

南开大学副教授

报告题目：

含复杂光路场景的三维神经渲染（18:10-18:30）

报告摘要：

高质量的大模型训练需要高质量的数据，这在三维方面尤其如此。然而，当前的三维数据质与量远达不到要求。使用计算手段高效生成真实高质量的三维数据是一种可行的方案。神经渲染技术在利用图像与视频生成三维数据方面在近年间展示了较强的潜力，然而其在包含多镜面、半透明、运动烟雾等导致复杂光路的场景尚存在较大的挑战。多数相关的研究局限于处理不透明的二维流形。在本次报告中，我将探讨如何从第一性原理和基础假设出发增强神经渲染理论，使之能够胜任更广泛的场景数据生成任务。

个人简介：

任博，南开大学计算机学院副教授。主要研究方向包括计算机图形学基于物理/机器学习的仿真与控制，神经辐射场三维场景重建与渲染等。在国际顶级期刊会议发表文章二十余篇。主持或参与多项国家自然科学基金青年/面上项目，国家重点研发计划课题。任中国图学学会理事会国际联络工作委员会，CCF CAD&CG专委会，CSIG智能图形专委会委员。在SIGGRAPH Asia，CVM，Pacific Graphics等图形学国际会议中出任分会场主席。

盛律

北京航空航天大学副教授

报告题目：

Multimodal LLMs Meet Embodied Agents（18:30-18:50）

报告摘要：

在多模态大模型和生成模型的加持下，围绕具身智能体的研究工作从传统的抓取、导航等任务，扩展到在复杂多模态环境中通用交互任务的结果。在本次报告中，讲者将介绍面向具身智能体的多模态大模型及其多模态多任务高效微调方法，并以此为基础探讨实现具身智能体泛化能力的几种设计思路，包含Minecraft等仿真环境和机器臂操作等真实环境下的尝试。最后，报告将展望端到端具身大模型，讨论其中的机会和挑战。

报告人简介：

盛律，博导，北京航空航天大学“卓越百人”副教授，入选北航青年拔尖计划。主要研究方向为三维视觉和具身智能。在IEEE TPAMI/IJCV/TIP以及CVPR/ICCV/NeurIPS/ICLR/ECCV等重要国际期刊和会议发表论文超过50篇, Google Scholar显示被引用数超5000次。组织ICML 2024 Multimodal Foundation Models Meet Embodied AI和ICCV 2021 SenseHuman等多个国际会议研讨会。现任ACM Computing Surveys副编辑，CVPR 2024、ECCV 2024和ACM Multimedia 2024领域主席，以及多个领域顶会顶刊审稿人和程序委员。任CCF和CSIG多个专委会执行委员，VALSE执行领域主席。主持或参与多项国家自然科学基金、科技部重点研发计划和省部级重点研发计划项目。

王毅

上海人工智能实验室青年研究员

报告题目：

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding（18:50-19:10）

报告摘要：

视频理解是计算机视觉领域的关键研究方向，拥有广泛的应用场景，例如视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等。近年来，大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展对视觉研究和其他学科产生了深远的影响。将视频有效地嵌入这些大型模型中，并利用其能力来增强视频理解性能，已成为一项关键任务。我们引入InternVideo2，一个新的视频基础模型 (ViFM) 家族，它在视频识别、视频文本任务和以视频为中心的对话中取得了最先进的结果。我们的核心设计是一种渐进式训练方法，它将掩码视频建模、跨模态对比学习和下一个令牌预测统一起来，将视频编码器的规模扩展到 60 亿个参数。在数据层面，我们通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。这提高了视频和文本之间的对齐。通过大量的实验，我们验证了我们的设计，并在 60 多个视频和音频任务上展示了优越的性能。值得注意的是，我们的模型在各种与视频相关的对话和长视频理解基准测试中优于其他模型，突出了其推理和理解更长上下文的能力。

报告人简介：

王毅，于香港中文大学获得博士学位，专注于计算机视觉中的视频/图像理解和生成。他在顶级期刊和会议等发表20余篇论文，1篇论文曾入选CVPR2022 best paper finalist。他在多个期刊和会议上担任评审。他的研究工作获得了超过2500次引用。他曾获得9项国际比赛第一名，包括CVPR具身智能RxR-Habitat赛道冠军，ECCV第一视角视频5个赛道冠军等。成果包括通用视频大模型InternVideo、视频多模态数据集InternVid和首个视频对话系统VideoChat。

杨灵

北京大学博士在读

报告题目：

扩散模型的前沿算法与应用（19:10-19:30）

报告摘要：

扩散模型（Diffusion Models）作为生成模型的一种新兴方法，在图像生成领域取得了显著的成果。扩散模型通过逐步添加噪声并学习逆过程生成数据，展现了其在高质量图像生成中的潜力。然而，如何在生成过程中实现精确的可控性，仍然是一个具有挑战性的问题。本报告将探讨扩散模型的可控生成、复杂生成机制，以及其在图像、视频、3D和4D等多领域的应用。首先，我将将介绍扩散模型的一些可控生成方法，通过引入条件信息或引导策略，实现对生成结果的精确控制。随后，我将展示基于（多模态）大语言模型的复杂生成框架和优化策略，使扩散模型在生成过程中能够处理更复杂的场景。最后，我将展示扩散模型在图像、视频、3D和4D等领域的应用方法和实例。

报告人简介：

杨灵，北京大学博士在读，导师为崔斌教授，研究方向为扩散模型，多次获得北京大学国家奖学金、学术创新奖等，入选Valse 2024优秀学生论坛（全国一共8名学生）。主编AIGC专著《扩散模型：生成式AI模型的理论、应用与代码实践》，一作在CVPR/NeurIPS/ICML/ICLR/TKDE等顶刊顶会上共发表论文15篇，长期担任SIGGRAPH, TPAMI, ICML, ICLR, NeurIPS, CVPR等顶刊顶会审稿人，一作发表文生图SOTA框架RPG-DiffusionMaster，性能超越Stable Diffusion XL和OpenAI的DALL-E 3，和OpenAI合作一作发表全球首篇扩散模型综述。长期和OpenAI、斯坦福大学等知名研究机构在文生图/视频扩散模型等研究领域进行合作探索，一作文章总被引1300次。

会议程序

点击论坛跳转到相应位置

视言碰撞：语言模型与视觉生态协同

会议程序

主办单位

承办单位