行车场景下认知与决策-PRCV-中国模式识别与计算机视觉大会

行车场景下认知与决策

获奖名单公示

获奖级别

获奖单位

团队名称

获奖队员

一等奖

Hozon New Energy Automobile Co., Ltd

E2EAutoMatrixTeam

黄斌,王思宇，陈远鹏，吴彝丹，宋辉，

丁子凡，冷静，梁成鹏，张军良，薛鹏

竞赛名称

行车场景下认知与决策

竞赛目的与意义

自从ChatGPT大火以来，多模态大语言模型因其通过文本处理和推理非文本数据（如图像和视频）的能力而受到研究界各领域的广泛关注。23年上半年到如今，大语言模型+自驾已有一些初步的尝试，如DriveGPT4、GPT-Driver等一系列工作利用了现有的模型进行训练或微调，但是其主要关注点还是集中在传统的训练模式，并没有针对自驾领域提出一种应用通用VLM/LLM模型的新型范式。在这一大背景下，OpenDriveLab提出DriveLM，认为通过充分考虑驾驶特性，巧妙地构建含图结构的问答对，能够有效前迁移VLM的强泛化性至自驾领域，解决自驾领域泛化性不足的“心头大患”。

本任务旨在用视觉语言模型提升自动驾驶系统性能。模型需要引入视觉语言模型的视频理解能力帮助自车做出决策，并输出可解释的驾驶行为。给定多视角图像作为输入，模型需要围绕自动驾驶系统中感知、预测、规划方面问题做出回答。

竞赛组织方（包括联系方式）

上海人工智能实验室， contact@opendrivelab.com

组织者：李阳、王晖杰、张涵雪、李天羽、李弘扬

竞赛参与者要求

参赛细则

• 参赛者只能一个隶属团队，不得同时属于多个团队。

• 一个团队最多由10名成员构成。

• 参赛团队必须通过表格（https://docs.google.com/forms/d/e/1FAIpQLSef_L4L9jXV_88pXkuFmaloifhRuFjVARbjsV-8GWETc6aNCA/viewform）进行注册，可在比赛截止前对报名表格进行修改。

• 同一个组织可以同时拥有多个团队。

• 参赛者将获得由赛事组委会颁发的证书。

• 尝试破译测试集或进行类似行为将被取消资格。

技术细则

• 除非有明确说明，禁止使用未来的帧作为模型输入。

• 在技术报告中必须明确描述数据的使用方式。

• 在比赛结束后，所有技术报告将被公开。

评审细则

• 参与评奖必须满足以下要求：

￮团队必须在提交截止日期之前在排行榜上公开结果，并在此后继续保持公开状态；

￮团队必须以PDF格式提交技术报告，最多4页（不包括参考文献）；

￮如有需要，团队必须向赛事组委会提供其代码、镜像或为进行验证所需的必要材料。

• 比赛奖项将由赛事组委会对技术报告评审后决定。

• 赛事组委会保留更新规则的权利；赛事组委会保留取消违反规则团队参赛资格的权利；赛事组委会对比赛拥有最终解释权。

报名方式

参赛团队必须通过表格（https://docs.google.com/forms/d/e/1FAIpQLSef_L4L9jXV_88pXkuFmaloifhRuFjVARbjsV-8GWETc6aNCA/viewform）进行注册，可在比赛截止前对报名表格进行修改。

主要时间节点

• 2024年6月1号: 参赛指南发布

• 2024年6月20号: 测试服务器开放

• 2024年9月20号: 测试服务器关闭；报名注册截止

• 2024年10月1号: 技术报告提交截止

• PRCV 2024：获奖者公布

竞赛数据、硬件资源的准备与使用方式

• 数据集：Drive LM - nuScenes https://github.com/OpenDriveLab/DriveLM

训练集4072帧，测试集799帧，每帧约90个问答对

• 自备机器进行训练，参考训练时间：8卡V100，1天

任务设置

输入

• 来自六个相机的多视角图片，包括历史帧

• 以文本提出的问题

输出

• 文本形式的答案 (包括感知-预测-规划三个方面)

• 规划模块给出的动作分类

结果的评价方式

• 语言评测：子评测指标包括BLEU, ROUGE_L, CIDEr, 用于评估自然语言生成结果的各种无监督自动化指标。

• 准确率：正确预测的样本数与样本总数之比。

• ChatGPT 得分：使用 ChatGPT 对真实答案和预测答案的匹配度打分

• 匹配得分：正确预测的重要对象数量与总对象数量之比

我们对之前的几项得分进行加权和平均，得出最终得分，其中 ChatGPT 得分、语言得分、匹配得分和准确率的权重分别为 0.4、0.2、0.2 和 0.2。

结果提交方式

在测试服务器关闭之前，参赛者需要在Hugging Face上提交结果。（地址：https://huggingface.co/spaces/AGC2024/driving-with-language-official）

参考样例

https://github.com/OpenDriveLab/DriveLM/blob/main/challenge/llama-adapter-DriveLM.json

提交准备

1. 根据参考样例的格式准备结果

2. 将结果保存在json文件中，并命名为 submission.json.

3. 将结果作为一个Hugging Face model进行提交。注意私有模型在竞赛空间中也是可以被接受的。

在Hugging Face网站右上角点击个人profile的图片，选择New Model，接着在表格中填写相应信息并提交submission.json 。

提交过程

1. 在竞赛空间左侧栏中选择 New Submission 。在表格中粘贴所创建的 Hugging Face model 的链接。接着点击 Submit 完成一次新的提交

2. 注意一天中最多只能进行三次提交

奖项设置和奖励方法

• 创新奖：2,000人民币

• 一等奖：3,000人民币

知识产权归属

参赛选手提交的结果归参赛选手所有；参赛选手提交的技术报告归赛事组委会所有（所有技术报告都将会被公开）；赛事总结等赛后的成果归赛事组委会所有。

参赛团队注册方式

大会竞赛

行车场景下认知与决策

大会竞赛

主办单位

承办单位