会议程序

会议日程 主旨报告 特邀报告 PRCV & DICTA 2022联合论坛 专题论坛 女科学家论坛 讲习班 博士生论坛 香港论坛 录用论文/口头报告/学术海报展示
点击论坛跳转到相应位置
视频动作检测与识别

01

论坛简介、目的与意义

视频动作检测与识别是计算机视觉领域的一个研究热点问题,在视频监控、安防等领域有广阔的应用前景。本论坛旨在讨论视频动作检测与识别任务的最新研究进展、面临的挑战和难题、距离真正落地还有多远,并对其未来的发展进行深入讨论。

02

论坛日程

03

论坛嘉宾

杨易 报告嘉宾

浙江大学求是讲席教授

嘉宾简介:杨易,浙江大学求是讲席教授,国家级特聘专家。2003年和2010年分别在浙江大学获得学士和博士学位。Google Scholar 引用33000余次,H-index为94,入选科睿唯安(Clarivate Analytics)全球高被引学者。入选2021年人工智能全球最具影响力学者榜单中经典AI、多媒体、计算机视觉、数据库四个领域,是同时在四个子领域进入全球影响力前一百的最具影响力学者之一(全球仅五人)。曾获教育部全国优秀博士论文,浙江省自然科学一等奖,澳大利亚研究理事会青年职业奖和澳大利亚计算机学会颠覆创新金奖,谷歌学者研究奖和AWS机器学习研究奖等十余次人工智能领域国际奖项。

报告题目:视频分析与多模态数据理解

报告摘要:首先,本报告将讨论多场景视频分析面临的瓶颈,介绍首个大规模时序标注的多场景视频语义分割数据集,并展开分析时序上下文信息对分割效果的影响。本报告将展开讨论视频时序建模的方法,介绍提升模型效率的策略。其次,本报告将介绍基于点云数据的视频时序建模方法,着重讨论点云视频建模的难点与可行方案。最后,本报告将介绍视频与其他模态数据(如音频、文本等)联合训练的方法,并讨论多模态视频分析技术的应用前景。

卢策吾 报告嘉宾

上海交通大学计算机科学与工程系教授、博士生导师

嘉宾简介:卢策吾, 上海交通大学计算机科学与工程系教授,博士生导师,2016年获海外高层次青年引进人才,2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英(MIT TR35),2019年获求是杰出青年学者,以通讯作者或第一作者在《自然》,《自然机器·智能》,TPAMI等高水平期刊和会议发表论文100多篇;担任《Science》等审稿人,CVPR,ICCV ,ECCV,IROS 领域主席。研究兴趣包括计算机视觉,机器人学习 。

报告题目:基于知识驱动的行为理解

报告摘要:行为理解是人工智能领域的重要问题,其复杂性远远大于物体检测,本讲座将讨论如何定量分析行为理解的难度,揭示无法用深度学习根本解决的原因。并推出一套全新的端对端可微分的感知-推理方案,很大程度上推进了行为理解,并在此基础上构建大规模行为理解知识引擎(HAKE),涉及千万基本知识样本,为Neural-Symbolic(网络-符号)提供实验室平台。为了进一步证明,行为理解在生物神经层面的存在性,构建一套全新的视觉感知与脑信号链接系统,揭示了行为理解在机器认知与生物认知的稳定相关性,同时成果预测了“社会阶层行为”的神经回路。从另一个角度,我们希望研究机器人行为理解与任务理解,涉及到“具身智能”(Embodied AI),因此该讲座将简介“具身智能”的历史发展,介绍讲者提出的robotflow框架面向机器人本体的通用框架,同时介绍在机器人抓取方面的最新工作GraspNet-首个达到人类抓取能力通用抓取算法。最后总结行为理解与具生智能(第一视角行为理解)的内在关系与发展趋势。

王利民 报告嘉宾

南京大学教授、博士生导师

嘉宾简介:王利民,南京大学教授,博士生导师。2011年在南京大学获得学士学位,2015年香港中文获得博士学位,2015年至2018年在苏黎世联邦理工学院(ETH Zurich)从事博士后研究工作。主要研究领域为计算机视觉和深度学习,专注视频理解和动作识别,在IJCV、T-PAMI、CVPR、ICCV等重要学术期刊和会议发表论文50余篇。根据Google Scholar统计,论文被引用 14000余次,两篇一作论文取得了单篇引用超过3000的学术影响力。提出的TSN网络获得首届ActivityNet比赛冠军,已经成为动作识别领域基准方法。2018年入选国家高层次青年人才计划,曾获得广东省技术发明一等奖,世界人工智能大会青年优秀论文奖。入选AI 2000人工智能全球最具影响力学者榜单(计算机视觉方向),2022年度全球华人AI青年学者榜单,2021爱思唯尔中国高被引学者榜单。

报告题目:基于注意力机制的视频行为识别与检测

报告摘要:视频理解已经成为人工智能研究的热点和难点,其中动作识别已经成为视频理解领域的关键技术。在本次报告中,我们主要介绍南京大学媒体计算课题组MCG在视频动作识别和检测方面的系列工作。首先,针对视频数据的表征与建模,我们提出了基于注意力机制的时序建模网络TAM和TDN,在计算效率和识别精度方面都取得了较优效果。其次,针对视频模型的高效学习,我们提出了基于掩码自编码器的视频自监督学习方法VideoMAE,验证了MAE一种数据高效的Transformer自监督训练框架,并且在下游动作识别和检测基准数据库上取得优异性能。针对视频动作检测,我们提出了基于查询(Query Based)的高效解码机制,在单类动作检测实现了RTD检测器,在多类动作检测实现了PointTAD检测器,在动作检测基准数据集上取得优异性能。最后将展望基于注意力机制的视频动作识别和检测技术的发展趋势。

姚霆 报告嘉宾

京东科技算法科学家

嘉宾简介:姚霆博士,京东科技算法科学家,领导团队聚焦计算机视觉与多媒体领域的基础研究和技术创新,成果先后10余次被成功转化到京东的产品和服务中。他在顶级会议/期刊上已发表论文80余篇,设计了视频分析领域标准的3D卷积神经网络范式(P3D),构建的大规模视频文本数据集(MSR-VTT)也被全球四百余研究机构的学者下载使用。姚博士先后荣获IEEE TCMC Rising Star(2019)、ACM SIGMM Rising Star(2019)和IEEE ICME Multimedia Star Innovator(2022),现任IEEE Transactions on Multimedia和Pattern Recognition Letters期刊编委。

报告题目:深度时空视觉表征学习方法及应用

报告摘要:本次演讲将简要回顾近几年深度时空视觉表征学习(图像和视频表征学习)的技术发展和创新,包括在图像识别、视频动作识别任务中所设计的经典CNN结构、自动网络学习、和基于Transformer的网络结构,以及时空视觉表征学习在零售、物流、体育赛事等场景下的一系列落地应用。

高赞 论坛主席、主持人

山东省人工智能研究院教授、博士生导师

嘉宾简介:高赞,山东省人工智能研究院教授,博士生导师,国家青年人才计划人选、山东省突贡专家。目前兼任计算机学会高级会员,山东省人工智能学会常务理事,计算机学会多媒体技术专委会、计算机视觉专委会、模式识别与人工智能委员会委员,中国图形图象学会多媒体技术专委会委员。主要研究方向:智能媒体分析、社交网络舆情分析、计算机视觉和机器学习及其应用。近年来,主持国家自然科学基金和省级项目10余项,参与包括国家自然基金重点,国家重点研发计划等省部级以上课题10余项。在国际高水平会议和期刊上发表论文100余篇,其中包括TIP,TMM,TKDE,TCYBE,TNNLS,CVPR,SIGIR, ACM MM,WWW和AAAI等, 4篇论文入选ESI高被引,1篇入选热点论文,2021年获CCF A类会议SIGIR 2021最佳学生论文,先后获山东省科技进步一等奖和天津市科技进步二等奖各1项,获授权发明专利15项。

朱磊 论坛主席、主持人

山东师范大学教授、博士生导师、IEEE高级会员

嘉宾简介:朱磊,山东师范大学教授,博士生导师,IEEE高级会员。主要研究方向是多媒体内容分析与检索。共发表或录用中国计算机学会(下简称CCF)推荐A类会议长文、ACM/IEEE的汇刊论文100多篇(第一作者或通讯作者35篇)。Google Scholar引用4700多次,H-index为37,ESI高被引论文7篇。获得CCF A类会议ACM SIGIR 2019的唯一最佳论文提名奖,CCF A类会议ACM MM 2019的最佳论文提名(5篇最佳候选论文之一),ADMA 2020的最佳论文奖,ChinaMM 2022的最佳学生论文奖,1篇论文入选2019年中国百篇最具影响国际学术论文。拥有授权专利22件(第一发明人6件)。担任IEEE Transactions on Big Data、Information Sciences的编委(Associate Editor),自动化学报(英文版)的首届青年编委,任多媒体领域权威国际会议ACM MM领域主席,AAAI、CIKM高级程序委员会委员。主持基金委青年/面上项目、山东省优秀青年基金项目,参与基金委重点项目、山东省自然科学基金重大基础研究项目等10余项横纵课题。获得ACM中国SIGMM新星奖,山东省留学回国人员创业奖、山东省人工智能优秀青年奖等。

官方公众号