PRCV

Tutorial

Advancing Spatial Intelligence from Data Representation, Learning Process, and 3D Generation

多模态垂域大模型技术与应用

01 Title

多模态垂域大模型技术与应用

02 Schedule

半天

03 Biographies of the Organizer and Speakers

（1）组织者：

齐梦实（北京邮电大学教授）
个人简介：齐梦实，北京邮电大学计算机学院，教授、博导。博士毕业于北京航空航天大学，美国罗切斯特大学联合培养博士。曾工作于瑞士洛桑联邦理工学院CVLAB担任博士后研究员，百度研究院访问研究员等。入选2021年第七届中国科协青年人才托举工程（中国人工智能学会），2024年小米青年学者。主要研究方向为人工智能、计算机视觉和多媒体智能计算等。作为主要负责人承担国家自然科学基金、北京市自然科学基金-小米创新联合基金、腾讯犀牛鸟课题、微软瑞士高校合作项目等，并作为核心研发人员参与了国家自然科学基金重点项目、科技部重点专项和港澳台科技专项等，发表国际高水平期刊会议论文40余篇，包括顶级学术会议CVPR/ICCV/ECCV/NeurIPS/ACM MM/AAAI和权威学术期刊TPAMI/TIP/TMM/TCSVT/TIFS等。还担任了顶级会议AAAI、IJCAI的领域主席和TMM的特邀编辑。
邮箱：qms@bupt.edu.cn
电话：13581540051

刘亮（北京邮电大学教授）
个人简介：刘亮，北京邮电大学人工智能学院教授，现任北京邮电大学科研院院长，国家自然科学基金杰出青年基金获得者。主要研究方向为物联网体系结构、智能感知计算，在国际知名刊物和会议上发表论文200余篇，曾获国家高等教育教学成果二等奖、教育部自然科学一等奖、中国计算机学会自然科学一等奖、中国电子学会科技进步一等奖、中国计算机学会优秀博士论文奖等教学科研奖励。
邮箱：qms@bupt.edu.cn
电话：13581540051

（2）拟定讲者：

王伟（北京交通大学教授，拟报告主题：面向危险品检测的大模型内容生成研究）
个人简介：王伟，北京交通大学计算机科学与技术学院教授，国家高层次青年人才基金获得者。主要研究方向为人脸图像视频的生成与编辑，以及序列模型架构研究。在 IEEE Trans.和 CCF A 类会议和期刊上发表论文40余篇，担任 ICIP、ICMR等国际会议的Area Chiar，曾获ACM MultiMeida最佳论文提名奖，ICCV 优博奖，和意大利计算机视觉模式识别和机器学习协会优博奖等。
邮箱：wei.wang@bjtu.edu.cn
电话：15610070353

张力（复旦大学教授，拟报告主题：大规模自动驾驶仿真系统研究）
张力，复旦大学大数据学院教授，上海创智学院全时导师，获国家级青年人才计划。博士毕业于伦敦玛丽女王大学电子工程与计算机科学系，曾任职于牛津大学工程科学系博士后，剑桥三星人工智能中心研究科学家。获上海海外高层次人才计划、上海科技青年 35 人引领计划(35U35)、世界人工智能大会青年优秀论文奖；发表人工智能期刊与会议论文 100 余篇，论文总被引两万余次。担任人工智能国际会议 NeurIPS 2023-2025、CVPR 2023-2026 领域主席、AAAI 2026 高级程序委员会委员。

谢伟迪（上海交通大学，副教授，报告主题：基于多智能体的医学通用模型构建）
谢伟迪，上海交通大学长聘轨副教授，教育部U40获得者，国家级青年人才(海外)，科技部科技创新 2030 —“新一代人工智能”重大项目青年项目负责人，上海市海外高层次人才计划获得者，上海市启明星计划获得者，国家基金委面上项目负责人。博士毕业于牛津大学视觉几何组（Visual Geometry Group，VGG），首批 Google-DeepMind 全额奖学金获得者，China-Oxford Scholarship获得者，牛津大学工程系杰出奖获得者。主要研究领域为计算机视觉，医学人工智能，共发表论文超 80篇，包括Nature Communications，NPJ Digital Medicine, CVPR，ICCV, NeurIPS, ICML, IJCV等，Google Scholar累计引用超 17000次，多次获得国际顶级会议研讨会的最佳论文奖和最佳海报奖，最佳期刊论文奖，MICCAI Young Scientist Publication Impact Award Finalist (5/6000)；Nature Medicine，Nature Communications特邀审稿人，计算机视觉和人工智能领域的旗舰会议CVPR，NeurIPS，ECCV的领域主席。

秦杰（南京航空航天大学人工智能学院，教授，报告题目：基于关系理解的视频智能分析）
秦杰，南京航空航天大学人工智能学院，教授，博士生导师，院长助理，脑机智能技术教育部重点实验室副主任，国家级青年人才，江苏省杰青，中国科协海智特聘专家。现任国家自然科学基金委员会交叉科学部流动项目主任。主要从事人工智能、计算机视觉、机器学习和多媒体等领域的基础理论与关键技术研究，重点关注面向开放动态环境的具身智能感知，取得了相关理论与技术的突破与创新。目前已在国际权威期刊和会议上发表论文100余篇，其中CCF A类国际顶级期刊论文10余篇（包括4篇IEEE-TPAMI、3篇IJCV、4篇IEEE-TIP等）、CCF A类国际顶级会议论文30余篇（包括14篇CVPR等）、计算机视觉国际顶级会议ECCV论文9篇，Google Scholar引用5800余次，H指数39。获得ACM MM 2023（CCF A类多媒体顶级会议）唯一荣誉提名奖（1/3072），ICME 2024（CCF B类多媒体旗舰会议）最佳论文提名，中国图象图形学学会自然科学奖二等奖（排名1）等。担任CCF A类期刊IJCV客座编委、CCF B类期刊Neural Networks副主编、CCF A类会议NeurIPS/ICLR/AAAI/IJCAI/ACM MM领域主席/高级程序委员、计算机视觉顶级会议ECCV研讨会主席、ECAI领域主席、IJCB领域主席、PRCV资深领域主席等，受邀担任TPAMI、TIP、CVPR、ICCV、NeurIPS、ICML等顶级期刊和会议审稿人。主持国家自然科学基金面上项目、江苏省自然科学基金杰出青年基金项目、中央高校基本科研业务费等国家级/省部级课题。工信部海外人才项目评审专家。

04 Syllabus

（1）简介：
多模态大模型是近年来人工智能、计算机视觉与模式识别领域备受瞩目的研究方向，本讲习班聚焦多模态垂域大模型（Domain-Specific Multimodal Foundation Models）这一人工智能前沿领域，系统梳理跨模态表征学习、领域知识注入、轻量化适配等核心技术进展。内容涵盖视觉-语言预训练（VLP）、多模态提示工程、垂直领域（如医疗、工业质检）的模型微调策略，以及联邦学习框架下的多模态数据协同训练方法。本讲习班通过对多模态垂域大模型的架构设计与优化进行深入探讨，并结合社会安全治理、自动驾驶、智慧医疗等典型行业应用场景、关键技术突破和最新研究进展等多个方面，为相关研究者提供从理论到实践的全景视角。

（2）目的：
本讲习班旨在为人工智能大模型与垂域应用的交叉研究提供重要平台，介绍垂域大模型面临的三大挑战：领域知识缺失导致的幻觉问题、多模态对齐的语义鸿沟，以及资源受限场景的部署瓶颈等。通过分享视频异常行为检测、自动驾驶端侧大模型、人体健康状况检测等丰富行业垂域应用案例，演示如何构建领域适配的LoRA微调方案与评估指标体系，探索如何利用多模态大模型指导不同行业垂域应用，研究垂直行业解决方案，推动学术成果向产业应用转化。

（3）意义：
本讲习班的重要意义在于响应国家《新一代人工智能发展规划》中"构建领域知识增强的通用智能"的顶层设计，通过医疗、制造等关键领域的多模态大模型落地，加速AI与实体经济深度融合，服务制造强国战略；其次，针对现有大模型垂域适配难题，探索基于多模态大模型的参数压缩和知识迁移方法，为具身智能、科学计算等前沿方向提供方法论支撑；最后，研究覆盖农业、金融、安全、交通等多个国家重要领域的多模态大模型垂域应用评测方法，形成国产大模型在垂直场景的"技术护城河"，助力突破相关技术在通用基座模型领域的研究。

（4）主题列表：

多模态大模型垂直领域适配方法与理论
垂域大模型的模型压缩与剪枝方法
垂域大模型的知识嵌入方法
垂域大模型的行业应用技术
垂域大模型的前景与挑战

05 Projected attendance

150-200人

06 Relationship with Tutorials from Mainstream Conferences in the Past Three Years

1. CVPR 2025
Cognitive AI for the Future: Multimodal Models and RAG in Vision Language Applications, from Training to Deployment; https://github.com/zhuo-yoyowz/cvpr-2025
认知人工智能是一种像人类一样理解、思考并共情的人工智能系统，尽管潜力巨大，但要使这些系统能够跨领域应用，仍面临诸多实际挑战。该讲习班主要探讨如何将多模态模型与检索增强生成相结合，使认知人工智能系统能够提供个性化、情境感知的解决方案，重点介绍训练、优化和部署这些模型和流程的实用策略。
与拟开展讲习班的关系：该讲习班内容与本次拟开展讲习班内容具有较强相关性，其专题聚焦认知人工智能，强调模型在理解、推理与记忆等认知层面的能力，希望能为人类提供个性化服务。而垂域大模型正需借助此类认知机制实现领域知识的深度内化与动态适应。因此，该讲习班内容可作为本讲习班在认知增强与领域特化方向上的关键支撑材料。

2. PRCV 2024
多模态基础模型的结构设计与优化
黄高（清华大学）、刘静（中科院自动化所）、杨乐（西安交通大学）、周奕毅（厦门大学）、郭龙腾（中科院自动化所）、王文海（南京大学）
http://2024.prcv.cn/?procedure_64/360.html
该讲习班主要面向多模态基础模型的最新进展。鉴于大语言模型与视觉、声学等多模态信息深度融合的趋势，人工智能社区对构建通用多模态系统（即多模态基础模型）的关注度迅速攀升，这些模型可在医疗、机器人、多媒体等复杂场景中实现跨模态理解、推理与生成。该讲习班从（1）多模态大模型研究进展；（2）多模态预训练模型的构建与应用；（3）图文多模态大模型的研究与实践三个方面，对多模态基础模型的最新方法与原则进行系统学习和实践。
与拟开展讲习班的关系：该讲习班内容与本次拟开展讲习班内容具有较强关系，二者在层次上为递进关系：多模态基础模型以跨模态对齐的通用表征作为基座，垂域大模型在此基础上在特定场景中以少量高质数据完成知识蒸馏与能力固化。因此，该讲习班内容可作为本讲习班的重要补充材料。

07 References

[1] Colombo P, Pires T, Boudiaf M, et al. Saullm-54b & saullm-141b: Scaling up domain adaptation for the legal domain[C]//Advances in Neural Information Processing Systems. 2024.
[2] Dong F, Chen M, Zhou J, et al. Once Read is Enough: Domain-specific Pretraining-free Language Models with Cluster-guided Sparse Experts for Long-tail Domain Knowledge[C] //Advances in Neural Information Processing Systems. 2024.
[3] Que H, Liu J, Zhang G, et al. D-cpt law: Domain-specific continual pre-training scaling law for large language models[C]//Advances in Neural Information Processing Systems. 2024.
[4] Guo H, Yang J, Liu J, et al. OWL: A Large Language Model for IT Operations[C]//The Twelfth International Conference on Learning Representations. 2024.
[5] Xie Y, Aggarwal K, Ahmad A. Efficient continual pre-training for building domain specific large language models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024.
[6] Zhao R, Mao W, Shou M Z. Doracycle: Domain-oriented adaptation of unified generative model in multimodal cycles[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[7] Lavoie M A, Mahmoud A, Waslander S L. Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[8] Chen K, Min C, Zhang L, et al. FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[9] Guo Y, Chen Z, Zhang J M, et al. Personality-guided code generation using large language models[C]//In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics. 2025.
[10] Cao P, Zhou F, Yang L, et al. Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[11] Hu L, Rosing T, Zhang H. TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs[C]//In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics. 2025.
[12] Kim M, Jung H, Koo M. SELF-EXPERTISE: Knowledge-based Instruction Dataset Augmentation for a Legal Expert Language Model[C]//Findings of the Association for Computational Linguistics: NAACL 2024. 2024.
[13] Frisoni G, Cocchieri A, Presepi A, et al. To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024.
[14] Chen T, Tan Z, Gong T, et al. Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection[C]//Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.
[15] Xu N, Ma X. LLM The Genius Paradox: A Linguistic and Math Expert’s Struggle with Simple Word-based Counting Problems[C]//Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2025.

Hosts

China Society of Image and Graphics (CSIG)

Chinese Association for Artificial Intelligence (CAAI)

China Computer Federation (CCF)

Chinese Association of Automation (CAA)

Organizer

Shanghai Jiao Tong University (SJTU)

Shanghai Feten Culture Promotion Company

Co-Organizer

AutoDL

East China Normal University

WeChat Official Account