简介:王兴刚,华中科技大学电信学院教授博导,国家级青年人才,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编。主要从事基础模型、视觉表征学习、目标检测分割跟踪等领域研究、在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用30000余次,其中一作/通讯1000+引用论文5篇,入选Elsevier 2023中国高被引学者。担任CVPR, ICCV, ICIG等会议领域主席,Machine Vision and Application等期刊编委。入选了中国科协青年人才托举工程,获湖北青年五四奖章、CSIG青年科学家奖,吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等,指导学生获2022年全国“互联网+”大赛金奖、2023年挑战杯“揭榜挂帅”专项赛全国一等奖。
报告题目:文本提示“检测分割一切”模型研究
报告摘要:Meta公司开发的“分割一切”模型(SAM)在全世界获得了广泛的关注和应用,但在SAM和SAM 2中都只支持点、包围盒等形式的交互提示,无法做到自动化的文本提示的分割一切物体。针对这个难题,我们从视觉特征和文本特征的高效交互出发,在视觉基础模型和文本基础模型的基础上,设计了大规模弱监督预训练、早期多模态特征融合等有效策略,分别开发出了YOLO-World模型(CVPR 24, 4.1k github stars)和EVF-SAM模型(arXiv:2406.20076, 225 github stars),取得了业内领先的检测、分割一切目标的性能。