当前位置：首页 > news >正文

学习网站导航潍坊网站优化排名

news 2025/11/13 3:56:07

学习网站导航,潍坊网站优化排名,兰州一氧化碳,租房网站建设论文链接：https://arxiv.org/pdf/2503.13938 代码链接：https://github.com/xuqingyao/ChatBEV 0. 简介近日，上海交通大学、上海人工智能实验室、同济大学与MAGIC团队联合推出了题为《ChatBEV: A Visual Language Model that Understands BE…

论文链接：https://arxiv.org/pdf/2503.13938
代码链接：https://github.com/xuqingyao/ChatBEV

0. 简介

近日，上海交通大学、上海人工智能实验室、同济大学与MAGIC团队联合推出了题为《ChatBEV: A Visual Language Model that Understands BEV Maps》的前沿论文，聚焦交通场景理解领域，特别是基于鸟瞰视图（BEV, Bird’s Eye View）地图的视觉语言模型（VLM）研究。该工作不仅提出了大规模BEV视觉问答（VQA）数据集ChatBEV-QA，还设计了专门适配BEV地图的视觉语言模型ChatBEV，并创新性地将其应用于真实感交通场景生成，实现了交通智能系统中更精准的环境理解和行为预测。
在这里插入图片描述

图1. 我们提出了ChatBEV-QA，这是一个可扩展的鸟瞰视角（BEV）视觉问答（VQA）基准，涵盖了全面的场景理解任务。基于ChatBEV-QA，我们经过微调的ChatBEV模型在场景理解任务中表现出色，并为后续应用（如场景生成）提供了高层次的指导。

1. 研究背景与主要贡献

交通场景的全面理解是智能交通系统和自动驾驶安全高效运行的关键。虽然近年来视觉语言模型在自然图像场景理解中取得了显著进展，但针对交通领域、特别是BEV地图的多模态理解尚处于探索初期。现有方法多受限于任务设计和数据规模，难以实现对车辆、车道及车辆间复杂交互的全面推理。

本文的核心贡献包括：

ChatBEV-QA数据集：构建了涵盖超过13.7万个问题的BEV视觉问答基准，设计了涵盖全局场景理解、车辆-车道交互及车辆-车辆交互的多维度问题体系，促进对交通场景的深层理解。
自动化数据构建流程：基于nuPlan数据集，提出三步自动化流水线，从问题设计、注释提取到VQA生成，确保数据丰富且结构化，支持大规模扩展。
ChatBEV视觉语言模型：基于先进的视觉语言模型架构，结合LoRA微调技术，针对BEV地图的特殊语义结构进行定制优化，显著提升模型在BEV理解任务上的表现。
语言驱动的交通场景生成：提出以ChatBEV为地图理解提取器的条件扩散架构，实现文本指导下的真实一致交通场景生成，增强自动驾驶环境模拟的准确性与多样性。

2. 相关工作综述

2.1 视觉语言模型（VLM）

视觉语言模型是计算机视觉与自然语言处理交叉的关键研究方向，旨在融合视觉与文本信息，提升理解与生成能力。早期研究多聚焦于单任务监督学习，如图像描述生成和图像字幕任务。近年来，随着多任务框架的发展，诸如CLIP、ALIGN等模型实现了视觉与语言任务的统一建模。大型语言模型（LLM）的快速发展，如GPT系列，极大推动了VLM的演进，催生了Flamingo、BLIP、LLaVA等融合视觉与语言的强大模型，具备更丰富的语义理解和跨模态推理能力。

2.2 场景理解中的视觉语言方法

随着LLM和VLM的进步，越来越多研究将视觉语言框架应用于自动驾驶场景理解。已有如NuScenes-QA的数据集，提供交通场景的视觉问答评测；Talk2BEV则利用LLM增强BEV地图的物体识别和理解；MAPLM构建了涵盖点云、图像与语言的多模态基准，促进自动驾驶与高清地图系统的融合。然而，针对BEV地图的研究仍较少，且现有任务设计相对单一，往往忽略车辆与车道间的复杂交互，而这对于路径规划和导航至关重要。ChatBEV填补了这一空白，提出了全面考虑车辆-车道交互的BEV理解VQA数据集和模型。

2.3 语言驱动的场景生成

交通场景生成是智能交通系统的重要组成部分，旨在基于地图或初始状态模拟车辆轨迹。传统规则驱动方法虽能编码交通规则，但缺乏多样性与真实感；学习驱动方法通过数据学习驾驶模式提升现实感。近年来，可控场景生成兴起，允许根据特定条件调整生成结果。借助LLM，诸如CTG++、LCTGen和InteractTraj等方法实现了基于文本描述的轨迹生成，增强了生成的灵活性和交互性。然而，这些方法普遍忽视了地图理解的重要性。本文创新地将ChatBEV作为地图理解模块，辅助生成更精准且符合上下文的交通场景。

3. 核心算法与方法详解

3.1 自动化数据构建流程

ChatBEV-QA数据集的构建基于三步自动化流程：
在这里插入图片描述

(a) 自动化数据构建流程，包括三个步骤：问题设计、数据收集与标注，以及视觉问答对的生成。
(b) 问题类型的分布（训练集）。
(c ) 答案类别的分布（训练集）。
图2. 数据集构建流程及统计信息的示意图。

问题设计：围绕三大理解维度设计六类问题，涵盖全局环境（区域类型、车道类型）、车辆与车道交互（位置、导航）以及车辆间交互（存在性、相对方向）。每类问题采用多模板设计，确保语义多样性和结构化表达。
数据收集与注释：利用nuPlan数据集的基础注释，设计基于规则的标注函数，自动提取高级语义信息，如车辆所处区域、车道类型、未来轨迹车道ID及周边车辆空间关系。通过人工迭代审核，保证标注质量。生成以车辆为中心的BEV地图，突出兴趣车辆并标明运动方向与车道边界。
VQA生成：通过预设模板和注释生成问答对，包含开放式和多选题。为解决类别不均衡问题，引入随机欠采样技术，平衡数据分布，提升模型训练的公平性和泛化能力。

3.2 ChatBEV视觉语言模型设计

在这里插入图片描述

图3：我们基于语言驱动的场景生成模型的推理流程

鉴于BEV地图的紧凑空间结构及语义特征，传统VLM直接应用效果不佳。团队基于LoRA微调技术，对多种先进VLM（如LLaVA、BLIP、InternLM-XComposer2）进行定制化训练，形成ChatBEV系列模型。模型通过视觉指令调整，强化对BEV地图中空间关系和上下文信息的捕捉能力，尤其在区域识别、车道分类及车辆交互推理上表现优异。实验中，ChatBEV-LLaVA-1.5-13b版本表现最佳。

3.3 语言驱动的交通场景生成框架

创新设计了基于条件扩散模型的交通场景生成流程，核心包括：

地图理解提取器：利用ChatBEV模型从BEV地图和文本描述中提取全局理解信息（区域与车道类型one-hot向量）及导航推理信息（文本对齐的车道中心线数据），为后续生成提供丰富上下文。
条件编码器：融合车辆历史状态、文本描述及地图理解信息，生成多模态条件嵌入，确保模型对时空动态和语义信息的综合理解。
扩散解码器：基于CTG++架构，迭代去噪生成未来车辆轨迹。通过时间和空间注意力机制捕捉智能体间的动态关系及几何约束，地图注意层引入车道向量信息，实现地图感知的轨迹预测。

该框架有效结合视觉语言理解与轨迹生成，能够生成符合文本描述且场景一致的动态交通轨迹。

4. 实验与评估

数据集规模与分布：ChatBEV-QA包含约2.5万张BEV图像和13.7万个问答对，训练集和测试集均衡分布多样问题类型。平均每张图像含5.44个问题，覆盖丰富场景与交互。
评估指标：采用Top-1准确率衡量模型在不同问题类型上的表现，细粒度分析全局理解、车-车道交互和车-车交互任务的性能。
基线模型对比：通过对比多种预训练VLM及其微调版本，验证ChatBEV模型在BEV地图理解能力上的显著提升。尤其是ChatBEV-LLaVA-1.5-13b模型，整体准确率领先，具备更强的空间推理和多任务适应力。
场景生成效果：条件扩散模型在文本引导下生成的交通轨迹在准确性和场景一致性方面表现优良，展示了地图理解模块对生成质量的关键促进作用。

表1. 不同模型在ChatBEV-QA上的实验结果。最佳结果以粗体显示。我们的ChatBEV在各个方面均取得了最佳结果，并显示出显著的改进。

表2. 不同基础视觉语言模型（VLM）的消融研究。最佳结果以粗体显示，第二佳结果以下划线标出。使用LLaVA-1.5-13b作为基础模型可获得最佳的整体结果。