多模态垂域大模型技术与应用
多模态垂域大模型技术与应用
半天
(1)组织者:
北京邮电大学教授
北京邮电大学教授
(2)拟定讲者:
北京交通大学教授
复旦大学, 教授
上海交通大学, 副教授
南京航空航天大学人工智能学院, 教授
(1)简介:
多模态大模型是近年来人工智能、计算机视觉与模式识别领域备受瞩目的研究方向,本讲习班聚焦多模态垂域大模型(Domain-Specific Multimodal Foundation Models)这一人工智能前沿领域,系统梳理跨模态表征学习、领域知识注入、轻量化适配等核心技术进展。内容涵盖视觉-语言预训练(VLP)、多模态提示工程、垂直领域(如医疗、工业质检)的模型微调策略,以及联邦学习框架下的多模态数据协同训练方法。本讲习班通过对多模态垂域大模型的架构设计与优化进行深入探讨,并结合社会安全治理、自动驾驶、智慧医疗等典型行业应用场景、关键技术突破和最新研究进展等多个方面,为相关研究者提供从理论到实践的全景视角。
(2)目的:
本讲习班旨在为人工智能大模型与垂域应用的交叉研究提供重要平台,介绍垂域大模型面临的三大挑战:领域知识缺失导致的幻觉问题、多模态对齐的语义鸿沟,以及资源受限场景的部署瓶颈等。通过分享视频异常行为检测、自动驾驶端侧大模型、人体健康状况检测等丰富行业垂域应用案例,演示如何构建领域适配的LoRA微调方案与评估指标体系,探索如何利用多模态大模型指导不同行业垂域应用,研究垂直行业解决方案,推动学术成果向产业应用转化。
(3)意义:
本讲习班的重要意义在于响应国家《新一代人工智能发展规划》中"构建领域知识增强的通用智能"的顶层设计,通过医疗、制造等关键领域的多模态大模型落地,加速AI与实体经济深度融合,服务制造强国战略;其次,针对现有大模型垂域适配难题,探索基于多模态大模型的参数压缩和知识迁移方法,为具身智能、科学计算等前沿方向提供方法论支撑;最后,研究覆盖农业、金融、安全、交通等多个国家重要领域的多模态大模型垂域应用评测方法,形成国产大模型在垂直场景的"技术护城河",助力突破相关技术在通用基座模型领域的研究。
(4)主题列表:
150-200人
1. CVPR 2025
Cognitive AI for the Future: Multimodal Models and RAG in Vision Language Applications, from Training to Deployment; https://github.com/zhuo-yoyowz/cvpr-2025
认知人工智能是一种像人类一样理解、思考并共情的人工智能系统,尽管潜力巨大,但要使这些系统能够跨领域应用,仍面临诸多实际挑战。该讲习班主要探讨如何将多模态模型与检索增强生成相结合,使认知人工智能系统能够提供个性化、情境感知的解决方案,重点介绍训练、优化和部署这些模型和流程的实用策略。
与拟开展讲习班的关系:该讲习班内容与本次拟开展讲习班内容具有较强相关性,其专题聚焦认知人工智能,强调模型在理解、推理与记忆等认知层面的能力,希望能为人类提供个性化服务。而垂域大模型正需借助此类认知机制实现领域知识的深度内化与动态适应。因此,该讲习班内容可作为本讲习班在认知增强与领域特化方向上的关键支撑材料。
2. PRCV 2024
多模态基础模型的结构设计与优化
黄高(清华大学)、刘静(中科院自动化所)、杨乐(西安交通大学)、周奕毅(厦门大学)、郭龙腾(中科院自动化所)、王文海(南京大学)
http://2024.prcv.cn/?procedure_64/360.html
该讲习班主要面向多模态基础模型的最新进展。鉴于大语言模型与视觉、声学等多模态信息深度融合的趋势,人工智能社区对构建通用多模态系统(即多模态基础模型)的关注度迅速攀升,这些模型可在医疗、机器人、多媒体等复杂场景中实现跨模态理解、推理与生成。该讲习班从(1)多模态大模型研究进展;(2)多模态预训练模型的构建与应用;(3)图文多模态大模型的研究与实践三个方面,对多模态基础模型的最新方法与原则进行系统学习和实践。
与拟开展讲习班的关系:该讲习班内容与本次拟开展讲习班内容具有较强关系,二者在层次上为递进关系:多模态基础模型以跨模态对齐的通用表征作为基座,垂域大模型在此基础上在特定场景中以少量高质数据完成知识蒸馏与能力固化。因此,该讲习班内容可作为本讲习班的重要补充材料。
[1] Colombo P, Pires T, Boudiaf M, et al. Saullm-54b & saullm-141b: Scaling up domain adaptation for the legal domain[C]//Advances in Neural Information Processing Systems. 2024.
[2] Dong F, Chen M, Zhou J, et al. Once Read is Enough: Domain-specific Pretraining-free Language Models with Cluster-guided Sparse Experts for Long-tail Domain Knowledge[C] //Advances in Neural Information Processing Systems. 2024.
[3] Que H, Liu J, Zhang G, et al. D-cpt law: Domain-specific continual pre-training scaling law for large language models[C]//Advances in Neural Information Processing Systems. 2024.
[4] Guo H, Yang J, Liu J, et al. OWL: A Large Language Model for IT Operations[C]//The Twelfth International Conference on Learning Representations. 2024.
[5] Xie Y, Aggarwal K, Ahmad A. Efficient continual pre-training for building domain specific large language models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024.
[6] Zhao R, Mao W, Shou M Z. Doracycle: Domain-oriented adaptation of unified generative model in multimodal cycles[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[7] Lavoie M A, Mahmoud A, Waslander S L. Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[8] Chen K, Min C, Zhang L, et al. FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[9] Guo Y, Chen Z, Zhang J M, et al. Personality-guided code generation using large language models[C]//In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics. 2025.
[10] Cao P, Zhou F, Yang L, et al. Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[11] Hu L, Rosing T, Zhang H. TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs[C]//In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics. 2025.
[12] Kim M, Jung H, Koo M. SELF-EXPERTISE: Knowledge-based Instruction Dataset Augmentation for a Legal Expert Language Model[C]//Findings of the Association for Computational Linguistics: NAACL 2024. 2024.
[13] Frisoni G, Cocchieri A, Presepi A, et al. To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024.
[14] Chen T, Tan Z, Gong T, et al. Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection[C]//Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.
[15] Xu N, Ma X. LLM The Genius Paradox: A Linguistic and Math Expert’s Struggle with Simple Word-based Counting Problems[C]//Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2025.
中国图象图形学学会 (CSIG)
中国人工智能学会 (CAAI)
中国计算机学会 (CCF)
中国自动化学会 (CAA)
上海交通大学 (SJTU)
上海飞腾文化传播有限公司
AutoDL
华东师范大学