Banner
Tutorial

 

 

大模型时代的表征学习与压缩

 

01 Title

大模型时代的表征学习与压缩

02 Biographies of the Organizer and Speakers

 

 

杨文瀚,博士,鹏城实验室副研究员,国家级青年人才,南方科技大学兼职博士生导师。2018年7月毕业于北京大学信息科学技术学院计算机应用技术专业,获理学博士。研究方向包括端云媒体协同计算和面向算力网环境的高效紧致表征。累计发表CCF A类论文50余篇,其中第一作者20篇。授权16项中国发明专利。获得IEEE ICME-2023 Multimedia Rising Star Runner-Up Award ,IEEE ICME-2020 最佳论文奖, ISCAS-2022 MSA-TC 最佳论文奖, 以及IEEE CVPR-2018 UG2 挑战赛亚军奖,北京大学优秀博士学位论文,2019年CSIG最佳博士论文提名奖。担任AITISA 视觉特征编码组联合组长、IEEE P3483 多模态特征编码组副组长。

 

 

 

李昂,博士,中国科学院生物物理研究所研究员, 认知科学与心理健康全国重点实验室独立PI。致力于围绕人工智能和神经影像等交叉学科方法,发展个体化的脑功能客观评估技术,帮助定量解析精神疾病等客观生物标记。作为负责人主持科技部科技创新2030—“脑科学与类脑研究”重大项目(课题)、国自然面上项目、中国科学院先导B 子课题等项目。近5 年以第一作者或通讯作者(含共同)发表 Nature Medicine(2020), Nature Methods(AIP), Nature Human Behaviour(AIP), Nature Communications(2023), Nature Mental Health(2023)等文章。

 

 

倪张凯,博士,同济大学计算机科学与技术学院副教授、博士生导师、院务助理。 2021 年10 月毕业于香港城市大学计算机科学系获博士学位,并于2021 年10 月 至12 月在该校任博士后研究员。主要研究领域为计算机视觉、人工智能和医疗影像分析等。在IEEE TPAMI、IJCV、ICML 等国际顶级期刊与会议上发表论文40 余篇,申请及授权国内外发明专利20 余项。主持国家及省部级等科研项目 8 项,参与国家及省部级等科研项目6 项。科研成果获日内瓦国际发明展银奖 (2024),中国电子学会优秀硕士学位论文奖(2018)。在教学与人才培养方面, 获同济大学优秀毕业设计指导教师(2025)、优秀本科生导师(2024)、新生院优秀班主任(2023)等荣誉。所指导学生曾获上海市优秀毕业生,小米特等奖学金等。

 

 

高长生,博士,南洋理工大学博士后。2023 年6 月毕业于中国科学技术大学获工学博士学位。研究方向包括图像视频编码,特征编码和质量评价等,在相关领域发表论文十余篇。曾在IEEE ICME 2025,ICASSP 2026 组织special session 并担任领域主席,在IEEE ICIP 组织第三届Coding for Machines 的workshop。获MMSP 2024 图像压缩挑战赛冠军。

 


03 Main Theme

随着人工智能的快速发展,协同计算已成为现代智能系统的普遍需求。尤其在面对海量数据和复杂任务时,单一计算节点已难以满足计算需求,因此,端云协同计算成为优化计算资源和提升效率的关键技术。这一转变不仅提高了智能系统的计算能力,还推动了应用场景的多样化。然而,这种转型也带来了特征压缩的挑战。如何在分布式计算环境中高效处理和压缩数据特征,确保在不同计算节点之间的一致性和准确性,已成为当前技术发展的核心问题。


与此同时,随着大规模数据处理和模型训练的进步,表征学习进入了一个新的阶段。大模型表征趋于一致性和收敛性,但如何保持表征的强度和多样性,以适应不断变化和扩展的任务,仍然是一个重大挑战。在多任务、多模态等复杂应用场景下,如何有效压缩数据特征,提升特征的表达能力,并且确保不丧失关键信息,成为了实现高效智能系统的核心课题。


此外,仿生特征计算作为一种新的计算范式,近年来也受到了关注。通过模仿生物系统处理感知特征的方式,仿生计算为表征学习与压缩技术提供了新的思路,特别是在处理复杂的感知数据时,能更好地模拟和压缩生物系统中的信息处理过程。此外,理解人脑信号、编码与解码人脑信号也逐渐成为表征计算的新模式,这一研究方向为表征学习与压缩技术的进一步发展提供了有力的支持。


在这一背景下,表征学习与压缩技术逐渐成为智能系统发展的关键技术。如何通过创新的特征压缩方法,在保证数据表征能力和计算效率的同时,更好地适应多样化的应用场景,已成为新时代的核心命题。高效的表征学习与压缩技术不仅能减少存储和计算负担,还能提升数据处理速度和模型响应能力,特别是在资源受限的环境中。随着任务和场景的多样化,特征压缩技术需要灵活应对不同需求,确保高效和准确的表现。


面向时代新趋势,表征学习与压缩技术的研究新方向包括:


1) 多任务协同可伸缩编码:视频与特征一体化建模:通过在人眼视觉与机器视觉间构建统一表征[1, 2, 3],将压缩过程表述为“感知-语义”的联合优化,利用特征先验与跨层协同机制实现细节保真与语义复用,并在多任务场景下提供可伸缩的建模与压缩能力。
2) 融合编码与智能的一体化理论建模方法:将编码从压缩-重建扩展为认知层面的关系建模过程,基于范畴论抽象出任务、数据与模型的对应关系,并提出“理想编码-实用编码-紧致性促进泛化”的公理体系[4, 5, 6]。编码在此框架下被定义为保留任务相关关系、过滤冗余信息的过程,并以最小描述长度原理为优化目标,从而在多任务与通用场景下实现统一建模与跨系统泛化。
3) 面向多模态与多任务场景的适配表征方法:大模型特征往往是静态的,而实际场景具有动态多变的特征分布,因此需通过多维度适配实现跨场景泛化[7, 8, 9]。在极端采样环境下保证稳健表征,在极端传输条件下以可伸缩码流满足多任务需求,在极端算力分布下支持跨设备协同与特征共享,从而构建兼具泛化性、鲁棒性、可伸缩性与协同性的技术体系。
4) 大模型特征\Token 编码:通过在分布式部署框架下设计高效的特征压缩 [10, 11, 12],实现对中间表征的低开销编码与跨架构对齐,在缓解计算与存储负担的同时提升可扩展性与能效,并兼顾隐私保护需求,为未来大模型系统的高效部署提供关键支撑。
5) 特征\数据质量评价:通过构建特征压缩质量数据库与轻量化客观评价方法[13, 14],实现对压缩后语义保真度的量化衡量,为特征编码的设计优化提供依据,并在分布式大模型部署、跨任务特征重用及边缘–云协同推理等场景中保障系统的稳定与高效运行。
6) 个体化脑功能的表征建模:通过将个体独特的脑功能模式视为神经表征[15, 16, 17],利用fMRI 精确刻画功能连接指纹,并结合最大后验估计与长时程扫描优化,实现个体身份识别与疾病特异性网络异常检测,在预测个体行为和临床结局中展现出更高精度,为精准神经科学与个性化医疗奠定基础。
7) 神经活动低维压缩表征:通过可学习的潜在嵌入、神经流形建模与拓扑数据分析[18, 19, 20],将高维神经信号压缩为低维几何结构,实现行为与神经活动的联合表征,揭示脑状态转换的内在动力学并刻画静息态的枢纽样过渡,为脑功能理解与神经解码提供理论框架。
8) 对齐、融合、先验一体化的高动态范围成像表征压缩:通过构建“重建—压缩—成像”端到端链路[21, 22, 23],结合混合注意力的多曝光融合、参考引导的错位感知增强与外观冗余消除,在稳健迭代中引入最大后验估计,并融入语义先验与课程式掩码学习,实现高保真、低比特率且具备强泛化的HDR 压缩成像。
9) 感知、结构、协同一体化三维紧致重建:通过感知驱动的自适应致密化[24]、外壳约束的压缩与动态剪枝[25],以及输入-输出双向协同的跨视体积融合与自监督一致性[26],实现高质量、低开销与强鲁棒的三维重建统一框架。


随着大模型兴起,表征学习与压缩技术经历了革命性的变革。在这一过程,“表征即理解,理解即压缩”成为核心理念。大模型推动数据表征的深刻理解,并为特征压缩提供了全新的理论框架和实践契机。表征学习与压缩技术的结合,使得能够高效地提取数据中的关键信息,以更低的计算成本进行处理。这种深度理解与压缩的相互促进,不仅提升了计算效率,还为人机交互带来了全新的发展态势,标志着人类与机器之间的协同进入了崭新的阶段。


因此,本次教程将聚焦于表征学习与压缩技术带来的变革趋势,探讨这一领域如何通过创新的表征与压缩方法开辟新的研究机遇。将深入分析这些技术的前沿进展、最新研究成果及应用趋势,为学者和工程师提供全面的学术视野,帮助他们掌握该领域的核心技术,并推动其在各类实际应用中的落地与发展。

04 Primary objective

本次讲习班的主要目的可概括为以下三方面:
1. 系统性梳理大模型时代的表征学习与压缩建模框架
近年来,大模型逐渐成为人工智能发展的核心驱动力,大模型特征的表征能力与适配方式正在快速演化,但现有知识体系仍较为分散。本次讲习班将以大模型时代的表征学习与压缩为切入点,逐步展开:


1) 大模型高效特征表示、压缩与质量评估技术;

2) 融合编码与智能的一体化理论建模方法;

3) 面向多模态与多任务场景的适配表征方法;

4) 生物信号的高效编解码与解析机制;

5) 新型媒介\模型高效压缩与表征。


通过梳理,帮助与会者建立从理论基础到模型实现的整体认知框架。


2. 搭建跨领域交流的平台
表征学习与压缩研究不仅涉及深度学习与视觉理解,也与通信、计算架构、生物信息等领域紧密相关。通过此次讲习班,我们希望:


1) 促进视觉计算、编码通信和智能系统研究者的深度交流;
2) 探讨端云协同场景下高效特征编码的实现路径,并推动对机器视觉多任务的评估与基准讨论;
3) 加强对比与理解生物特征与机器视觉特征的机制差异与联系,为跨学科融合提供统一视角。


3. 展示应用前景与未来挑战
除了理论与机制的讲解外,我们还将结合应用案例,展示特征学习与压缩在智能交通、智慧城市、生物感知等实际任务中的优势与潜力。同时,也将聚焦未来的关键挑战,包括:


1) 大规模特征的统一评测体系:如何科学评估特征表征的泛化与适配性;
2) 面向多任务的特征高效压缩路径:如何在端云协同中,实现多任务联合压缩的最优性能平衡;
3) 机制理解的前沿难题:如何进一步揭示并对齐生物视觉与机器视觉的表征本质差异。


通过这些探讨,我们希望引导学界和业界共同思考大模型表征在新一代智能系统中的发展方向与研究路径。

05 Academic Significance

1. 学术意义:迈向大模型表征的新范式
随着大模型逐渐成为智能时代的核心基础,其表征能力呈现出不断收敛与趋同的形态,但现有研究对其本质机制与建模方式仍缺乏系统认知。本次讲习班的学术价值在于:


1) 从理论层面,探索并提出融合编码与智能的一体化建模框架,为大模型表征提供统一的理论支撑;
2) 从方法层面,系统梳理大模型时代的高效适配表征途径,阐释其在多模态、多任务场景下的结构性演化;
3) 从跨学科层面,聚焦机器视觉特征与生物视觉特征的机制理解、对齐与区别,为人工智能与神经科学的对话开辟新空间。


2. 应用意义:推动端云协同与多任务视觉应用
大模型表征不仅是学术问题,更是工程实践的关键。本次讲习班将紧扣“端云协同”这一现实需求,强调:


1) 在端-云协同架构中,研究如何实现大模型特征的高效编码与传输,以满足资源受限环境下的实时性与稳定性;
2) 探讨大模型特征如何在机器视觉的多任务场景中进行统一评估和对比,从而支持智慧城市与智能安防等应用的多样化需求;
3) 展示基于统一特征表征框架的实践案例,推动学术理论与工程系统的融合落地。


3. 社会意义:增强智能系统的效率与解释性
在交通出行、城市治理、医疗健康等关键社会领域,智能系统的效率、稳定性与可解释性日益成为关注的重点。本次讲习班的探讨有助于:


1) 提升智能系统在复杂环境中的鲁棒性,减少噪声、带宽限制与跨域迁移对模型性能的影响;
2) 通过揭示机器特征与生物特征的异同,增强模型决策过程的可解释性,满足关键行业对透明度与可追溯性的需求;
3) 提升对新介质/新模态数据的压缩效率与场景应用;
4) 探索在端云协同环境下优化大模型的应用路径,推动人工智能的稳定与高效发展。


综上所述,本次讲习班不仅在学术层面提出了大模型表征的统一建模思路,还在应用层面深入探讨了端云协同的实践路径,同时回应了智能系统在效率、稳定性与可解释性方面的迫切需求。

06 Summary

综上所述,本次讲习班以“大模型时代的表征学习与压缩技术”为核心主题, 目标是系统性梳理表征学习与压缩的理论框架、搭建跨学科交流平台、展示前沿应用与面临的挑战,其意义体现在探索学术前沿、推动多任务应用以及促进人工智能与生物信息学的深度融合。


我们相信,本讲习班的举办不仅能够为与会者带来丰富的知识和研究视角,也将为大模型时代智能系统的进一步发展注入新的动力。表征学习与压缩技术的创新将成为未来人工智能发展的核心推动力,而本次讲习班正是这一进程中的关键一步。

07 References

[1] Wenhan Yang, Haofeng Huang, Yueyu Hu, Ling-Yu Duan, and Jiaying Liu. "Video Coding for Machines: Compact Visual Representation Compression for Intelligent Collaborative Analytics," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol.46, No.7, pp.5174-5191, July 2024.
[2] Yueyu Hu, Shuai Yang, Wenhan Yang, Ling-Yu Duan, and Jiaying Liu. "Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach," Proc. of IEEE International Conference on Multimedia & Expo, 2020. (Best paper award)
[3] Lingyu Duan, Jiaying Liu, Wenhan Yang, Tiejun Huang, and Wen Gao. "Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics," IEEE Trans. on Image Processing, vol.29, pp.8680-8695, 2020.
[4] Wenhan Yang, Zixuan Hu, Lilang Lin, Jiaying Liu, Ling-Yu Duan, "Coding for Intelligence from the Perspective of Category," arXiv:2407.01017v1, arXiv, 2024.

[5] Wenhan Yang, Jinyi Luo, Minghao Liu, Jiaying Liu, "Towards Understandable Deep Image Restoration from the Perspective of Category Theory," IEEE Int’l Conf. on Image Processing Workshop, 2025.
[6] Yang Yuan, "On the Power of Foundation Models," Int’l Conf. on Machine Learning, 2023.
[7] Kangsheng Yin, Quan Liu, Xuelin Shen, Yulin He, Wenhan Yang, Shiqi Wang, "Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision," AAAI Conf. on Artificial Intelligence, 2025.
[8] Minghao Liu, Wenhan Yang, Jinyi Luo, and Jiaying Liu. "UP-Restorer: When Unrolling Meets Prompts for Unified Image Restoration", AAAI Conf. on Artificial Intelligence, 2025.
[9] Wenhan Yang, Haofeng Huang, Jiaying Liu, and Alex Kot. "Facial Image Compression via Neural Image Manifold Compression", IEEE Trans. on Circuits and Systems for Video Technology, 2025.
[10] Changsheng Gao, Yifan Ma, Qiaoxi Chen, Yenan Xu, Dong Liu, Weisi Lin, "Feature Coding in the Era of Large Models: Dataset, Test Conditions, and Benchmark," Int’l Conf. on Computer Vision, 2025.
[11] Changsheng Gao, Zijie Liu, Li Li, Dong Liu, Xiaoyan Sun, Weisi Lin, "DT-UFC: Universal Large Model Feature Coding via Peaky-to-Balanced Distribution Transformation," ACM Multimedia, 2025.
[12] Changsheng Gao, Shan Liu, Feng Wu, Weisi Lin, "Cross-architecture universal feature coding via distribution alignment," IEEE Int’l Conf. on Image Processing, 2025.
[13] Changsheng Gao, Wei Zhou, Guosheng Lin, Weisi Lin, "Compressed Feature Quality Assessment: Dataset and Baselines," ACM Multimedia, 2025.
[14] Shipei Wang, Ping An, Chao Yang, Gongyang Li, Xinpeng Huang, Shiqi Wang, "Feature Quality Assessment: A Database and A Lightweight Objective Method," IEEE Trans. on Multimedia, 2025.
[15] Charles J. Lynch, Immanuel G. Elbau, Tommy Ng, Aliza Ayaz, et al., "Frontostriatal Salience Network Expansion in Individuals in Depression," Nature, vol. 633, no. 8026, pp. 624-633, 2024.
[16] Leon Qi Rong Ooi, Csaba Orban, Shaoshi Zhang, et al., "Longer Scans Boost Prediction and Cut Costs in Brain-Wide Association Studies," Nature, vol. 644, no. 8029, pp. 731-740, 2025.
[17] Emily S. Finn, Xilin Shen, Dustin Scheinost, Monica D. Rosenberg, Jessica Huang, Marvin M. Chun, Xenophon Papademetris, and R. Todd Constable, "Functional Connectome Fingerprinting: Identifying Individuals Using Patterns of Brain Connectivity," Nature Neuroscience, vol. 18, no. 11, pp. 1664-1671, 2015.
[18] Steffen Schneider, Jin Hwa Lee, and Mackenzie Weygandt Mathis, "Learnable Latent Embeddings for Joint Behavioural and Neural Analysis," Nature, vol. 617, no. 7960, pp. 360-368, 2023.
[19] Manish Saggar, James M. Shine, Raphaël Liégeois, Nico U. F. Dosenbach, and Damien Fair,"Precision Dynamical Mapping Using Topological Data Analysis Reveals a Hub-Like Transition State at Rest," Nature Communications, vol. 13, no. 4791, 2022.
[20] Matthew G. Perich, Devika Narain, and Juan A. Gallego, "A Neural Manifold View of the Brain," Nature Neuroscience, vol. 28, no. 9, pp. 1582-1597, 2025.
[21] Xuelin Shen, Linfeng Pan, Zhangkai Ni, Yulin He, Wenhan Yang, Shiqi Wang, and Sam Kwong, "Breaking Boundaries: Unifying Imaging and Compression for HDR Image Compression," IEEE Trans. on Image Processing, vol. 34, pp 510-521, 2025.
[22] Xinyue Li, Zhangkai Ni, and Wenhan Yang, “AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm,” Int’l Conf. on Computer Vision, 2025.
[23] Zhangkai Ni, Yang Zhang, Kerui Ren, Wenhan Yang, Hanli Wang, and Sam Kwong,"Semantic Masking with Curriculum Learning for Robust HDR Image Reconstruction," Int’l Journal of Computer Vision, pages 1-16, 2025.
[24] Hongbi Zhou and Zhangkai Ni, “Perceptual-GS: Scene-Adaptive Perceptual Densification for Gaussian Splatting,” Int’l Conf. on Machine Learning, 2025.
[25] Peiqi Yang, Zhangkai Ni, Hanli Wang, Wenhan Yang, Shiqi Wang, and Sam Kwong, “Shell-Guided Compression of Voxel Radiance Fields,” IEEE Trans. on Image Processing, vol. 34, pp. 1179-1191, 2025.
[26] Zhangkai Ni, Peiqi Yang, Wenhan Yang, Hanli Wang, Lin Ma, and Sam Kwong, “ColNeRF: Collaboration for Generalizable Sparse Input Neural Radiance Field,” AAAI Conf. on Artificial Intelligence, vol. 38, no. 5, pp. 4325–4333, 2024.

Hosts

China Society of Image and Graphics (CSIG)

Chinese Association for Artificial Intelligence (CAAI)

China Computer Federation (CCF)

Chinese Association of Automation (CAA)

 

Organizer

Shanghai Jiao Tong University (SJTU)

Shanghai Feten Culture Promotion Company


Co-Organizer

AutoDL

East China Normal University

WeChat Official Account