Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use (https://arxiv.org/abs/2509.12867) 提出了一种名为Tool-R1的强化学习框架,旨在提升LLM在通用、组合和多步骤工具使用方面的能力。该框架通过生成可执行的Python代码,支持用户自定义工具和标准库的集成,并通过基于结果的奖励函数进行策略优化。实验结果表明,Tool-R1在GAIA基准测试中显著提高了准确性和鲁棒性。
训练数据相关
WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory (https://arxiv.org/abs/2509.13172) 发布了WHU-STree数据集,这是一个跨城市、多模态的城市街道树木数据集,包含点云和高分辨率图像,覆盖21,007棵树木实例和50个物种。该数据集支持10多个与街道树木清单相关的任务,并提供基线模型进行评估,旨在促进多模态数据融合、多任务协作和跨领域泛化方面的研究。
Leveraging Large Language Models to Effectively Generate Visual Data for Canine Musculoskeletal Diagnoses (https://arxiv.org/abs/2509.12866) 研究了利用LLM生成犬类骨骼肌肉诊断的合成视觉训练数据的有效性。通过将肌肉或关节映射到文本领域,使用LLM生成了大量合成数据,并用这些数据训练模型,在真实世界数据上取得了良好的效果,证明了LLM在解决数据稀缺问题上的潜力。
ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement (https://arxiv.org/abs/2509.13282) 发布了一个名为ChartGaze的眼动追踪数据集,用于捕捉人类在图表推理任务中的注视模式。研究发现,LVLM的注意力与人类注视点存在差异,导致可解释性和准确性下降。为了解决这个问题,作者提出了一种基于注视引导的注意力细化方法,将图像-文本注意力与人类注视点对齐,从而提高了模型在图表理解方面的性能。
大模型的行业应用
RadGame: An AI-Powered Platform for Radiology Education (https://arxiv.org/abs/2509.13270) 介绍了一个AI驱动的放射学教育平台RadGame,该平台通过游戏化的方式,结合大规模公共数据集和AI驱动的自动反馈,提高放射科医生定位病灶和生成报告的能力。实验结果表明,使用RadGame的参与者在定位准确性和报告撰写准确性方面均优于传统被动学习方法。
Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy (https://arxiv.org/abs/2509.13234) 评估了多模态LLM在糖尿病视网膜病变(DR)检测中的应用,并模拟了不同输出类型下的临床AI辅助效果。研究发现,MedGemma等轻量级模型在低资源环境下具有潜在价值,而描述性输出可以增强临床工作流程中的可解释性和医生信任度。
More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM era (https://arxiv.org/abs/2509.13175) 展示了如何利用LLM从放射学报告中自动提取诊断标签,从而实现大规模的监督预训练,并提升视觉-语言对齐效果。研究结果表明,通过这种方式训练的视觉编码器可以达到与使用专业BERT模型提取标签相当的性能,降低了大规模监督预训练的门槛。
MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization (https://arxiv.org/abs/2509.12893) 提出了一个名为MEJO的框架,用于解决手术三元组识别中存在的长尾数据分布问题。MEJO通过多模态LLM(MLLM)增强的联合优化,解决了任务间和任务内的优化冲突,从而提高了手术场景理解的性能。
UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model (https://arxiv.org/abs/2509.13145) 提出了一种基于多模态LLM的个性化发音语音治疗辅助系统UTI-LLM,该系统利用超声舌像和语音信号,提供精确的交互式发音反馈。通过构建高质量的领域特定数据集并采用时空融合训练策略,UTI-LLM能够进行细粒度的发音障碍分析,并生成可操作的反馈。
文生图/文生视频
Dream3DAvatar: Text-Controlled 3D Avatar Reconstruction from a Single Image (https://arxiv.org/abs/2509.13013) 提出了一个名为Dream3DAvatar的高效且文本可控的两阶段框架,用于从单张图像重建3D化身。该框架通过轻量级的适配器增强多视图生成模型,并设计了一个前馈Transformer模型,从生成的图像中重建高保真度的3D高斯溅射表示。
Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation (https://arxiv.org/abs/2509.12815) 介绍了一个端到端的AI驱动内容创作平台Hunyuan3D Studio,旨在通过自动化和简化游戏资产的生成,彻底改变游戏生产流程。该平台集成了先进的神经模块,可以将概念图像或文本描述快速转换为具有优化几何体和高保真PBR纹理的生产质量3D模型。
底层模型架构
AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models (https://arxiv.org/abs/2509.12715) 提出了一种名为AsyMoE的新型架构,该架构利用模态不对称性来增强大型视觉-语言模型中专家特化。AsyMoE使用三个专门的专家组,分别处理模态内信息、分层跨模态交互以及抑制参数偏差并保持上下文基础。
其他
Image Realness Assessment and Localization with Multimodal Features (https://arxiv.org/abs/2509.13289) 介绍了一种可靠的方法,用于量化AI生成图像的感知真实感,并识别视觉不一致区域。该方法利用在大型数据集上训练的视觉-语言模型生成的文本描述,这些文本描述可作为人类注释的可靠替代品,用于客观真实感评估和局部不一致性识别。
Enhancing Video Large Language Models with Structured Multi-Video Collaborative Reasoning (early version) (https://arxiv.org/abs/2509.13161) 提出了一个多视频协作框架,旨在通过利用多个相关视频来增强视频语言模型的推理性能。该框架通过视频结构化模块将视频知识表示为时空图,然后利用图融合模块将相关视频的结构化知识和有价值信息融合到增强的图节点token中。
Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs (https://arxiv.org/abs/2509.13148) 引入了SSEU-Bench,这是一个多功能的音频理解基准,明确考虑了语音和非语音音频之间的能量差异,以及语音、场景和事件的独立和联合理解设置。研究表明,一些LALM在联合理解设置中表现不佳,并提出了一种思维链方法来提高LALM的联合音频理解性能。
Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models (https://arxiv.org/abs/2509.13031) 提出了一种两阶段强化学习框架,旨在共同增强VLM的感知和推理能力。第一阶段侧重于通过粗粒度和细粒度的视觉理解来提高模型的视觉感知能力,而第二阶段则侧重于增强推理能力。
Lego-Edit: A General Image Editing Framework with Model-Level Bricks and MLLM Builder (https://arxiv.org/abs/2509.12883) 提出了一种名为Lego-Edit的通用图像编辑框架,该框架利用MLLM的泛化能力来组织一套模型级别的编辑工具,以应对现实世界中用户指令的多样性。
Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents (https://arxiv.org/abs/2509.12876) 对代表性的LVLM在M2E2数据集上进行了系统评估,涵盖文本、图像和跨媒体子任务,评估了在多媒体事件抽取 (M2E2) 任务中,大型视觉语言模型 (LVLM) 的性能。结果显示,Few-shot LVLM 在视觉任务上表现更好,但在文本任务上表现较差;LoRA 微调能显著提升模型性能;结合模态时,LVLM 表现出强大的协同作用。
DiffHash: Text-Guided Targeted Attack via Diffusion Models against Deep Hashing Image Retrieval (https://arxiv.org/abs/2509.12824) 提出了一种基于扩散模型的文本引导目标攻击方法DiffHash,用于对抗深度哈希图像检索。该方法通过优化图像的潜在表示,并利用LLM生成的文本信息作为目标图像的指导,实现了更好的黑盒可迁移性和跨数据集稳定性。
Contrastive Learning with Enhanced Abstract Representations using Grouped Loss of Abstract Semantic Supervision (https://arxiv.org/abs/2509.12771) 提出了一种分组对比损失函数,旨在提升视觉-语言模型(VLM)的抽象概念识别能力。该方法通过引入一个分组图像-标题数据集(MAGIC),并使用对比损失技术,促使模型在图像(标题)的表示中编码图像-标题组所有成员共有的信息。
What Makes a Good Generated Image? Investigating Human and Multimodal LLM Image Preference Alignment (https://arxiv.org/abs/2509.12750) 研究了图像的哪些属性(如美学、伪影、解剖学准确性、构图正确性、对象一致性和风格)对于LLM和人类判断图像质量至关重要。研究发现,人类在判断图像质量方面更容易,而某些属性(如解剖学准确性)对于多模态LLM来说更难判断。
RadGame: An AI-Powered Platform for Radiology Education (https://arxiv.org/abs/2509.13270): 该论文展示了AI在教育领域的一个创新应用,通过游戏化和AI反馈提升放射学培训的效果,具有实际应用价值和潜力。
ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement (https://arxiv.org/abs/2509.13282): 该论文通过引入眼动追踪数据,揭示了LVLM在图表理解方面的不足,并提出了一种有效的注意力细化方法,对提升LVLM的可靠性和可解释性具有重要意义。
Leveraging Large Language Models to Effectively Generate Visual Data for Canine Musculoskeletal Diagnoses (https://arxiv.org/abs/2509.12866): 该论文探索了LLM在生成合成数据方面的潜力,并成功应用于犬类骨骼肌肉疾病诊断,为解决数据稀缺问题提供了一种新思路。
Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use (https://arxiv.org/abs/2509.12867): 该论文专注于提升LLM在工具使用方面的能力,通过强化学习框架Tool-R1实现了更高效和可靠的工具增强推理,对于实际应用中的智能体设计具有重要价值。