当前位置: 首页 > news >正文

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.10-2025.06.15

文章目录~

  • 1.CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making
  • 2.Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models
  • 3.Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models
  • 4.Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency
  • 5.NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models
  • 6.CLIP-HandID: Vision-Language Model for Hand-Based Person Identification
  • 7.Image Corruption-Inspired Membership Inference Attacks against Large Vision-Language Models
  • 8.CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images
  • 9.Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs
  • 10.AIR: Zero-shot Generative Model Adaptation with Iterative Refinement
  • 11.VideoDeepResearch: Long Video Understanding With Agentic Tool Using
  • 12.PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
  • 13.IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain
  • 14.GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning
  • 15.Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning
  • 16.Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation
  • 17.MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models
  • 18.Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges
  • 19.HalLoc: Token-level Localization of Hallucinations for Vision Language Models
  • 20.ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs
  • 21.EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
  • 22.Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
  • 23.3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation
  • 24.Towards Multi-modal Graph Large Language Model
  • 25.Adding simple structure at inference improves Vision-Language Compositionality
  • 26.Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning
  • 27.Ming-Omni: A Unified Multimodal Model for Perception and Generation
  • 28.MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning

1.CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making

标题:CAPO:加强医疗决策中的一致性推理

author:Songtao Jiang, Yuan Wang, Ruizhe Chen, Yan Zhang, Ruilin Luo, Bohan Lei, Sibo Song, Yang Feng, Jimeng Sun, Jian Wu, Zuozhu Liu

date Time:2025-06-15

paper pdf:http://arxiv.org/pdf/2506.12849v1

摘要
在医学视觉问题解答(Med-VQA)中,实现准确回答有赖于三个关键步骤:精确感知医学影像数据、基于视觉输入和文本问题的逻辑推理,以及从推理过程中推导出连贯的答案。通用视觉语言模型(VLM)的最新进展表明,大规模强化学习(RL)可以显著提高推理能力和模型的整体性能。然而,它们在医疗领域的应用却受到两个基本挑战的阻碍:1) 感知理解和推理阶段之间的不一致,以及 2) 推理路径和答案生成之间的不一致。在本文中,我们首先介绍了 Med-Zero-17K,这是一个用于纯推理训练的数据集,包含 30 多种医学图像模式和 24 个临床任务。此外,我们还为 Med-VLMs 提出了一个新颖的大规模 RL 框架–一致性感知偏好优化(CAPO),它整合了奖励以确保感知和推理之间的保真度、推理到答案推导的一致性以及最终响应的基于规则的准确性。域内和域外场景的广泛实验证明了我们的方法优于强大的 VLM 基线,并展示了对 3D Med-VQA 基准和 R1-like 训练范例的强大泛化能力。

2.Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models

标题:加强基于评级的强化学习,有效利用大型视觉语言模型的反馈信息

author:Tung Minh Luu, Younghwan Lee, Donghoon Lee, Sunho Kim, Min Jun Kim, Chang D. Yoo

publish:Accepted to ICML 2025

date Time:2025-06-15

paper pdf:http://arxiv.org/pdf/2506.12822v1

摘要
设计有效的奖励函数仍然是强化学习(RL)的一个基本挑战,因为这通常需要大量的人力和领域专业知识。虽然根据人类反馈进行的强化学习在使代理与人类意图保持一致方面取得了成功,但获取高质量反馈的成本高昂且耗费人力,这限制了强化学习的可扩展性。基础模型的最新进展提供了一种前景广阔的替代方案–利用人工智能生成的反馈来减少奖励学习对人类监督的依赖。在这种模式的基础上,我们引入了 ERL-VLM,这是一种基于评级的增强型 RL 方法,能有效地从人工智能反馈中学习奖励函数。与之前依赖成对比较的方法不同,ERL-VLM 可查询大型视觉语言模型(VLM),以获得单个轨迹的绝对评分,从而获得更具表现力的反馈并提高样本效率。此外,我们还对基于评级的 RL 提出了关键的改进建议,以解决数据不平衡和噪声标签造成的不稳定性问题。通过对低级和高级控制任务的广泛实验,我们证明 ERL-VLM 明显优于现有的基于 VLM 的奖励生成方法。我们的研究结果证明了人工智能反馈在最小化人工干预的情况下扩展 RL 的潜力,为更自主、更高效的奖励学习铺平了道路。

3.Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models

标题:原生视觉理解:解决视觉语言模型中的分辨率难题

author:Junbo Niu, Yuanhong Zheng, Ziyang Miao, Hejun Dong, Chunjiang Ge, Hao Liang, Ma Lu, Bohan Zeng, Qiahao Zheng, Conghui He, Wentao Zhang

date Time:2025-06-15

paper pdf:http://arxiv.org/pdf/2506.12776v1

摘要
视觉语言模型(VLM)在处理真实世界图像的不同分辨率和长宽比时面临着巨大挑战,因为大多数现有模型都依赖于固定的低分辨率输入。虽然最近的研究已经探索了整合原生分辨率视觉编码以提高模型性能的方法,但这种努力仍然是零散的,在开源社区中缺乏一个系统的框架。此外,现有基准在评估不同视觉条件下的 VLM 时也存在不足,往往忽略了分辨率这一关键因素。为了解决由模型设计和基准限制造成的 “分辨率困境”,我们引入了 RC-Bench,这是一种新颖的基准,专门用于系统评估 VLM 在极端视觉条件下的能力,重点是分辨率和长宽比变化。同时,我们还提出了 NativeRes-LLaVA 这一开源训练框架,使 VLM 能够以原始分辨率和长宽比有效处理图像。基于 RC-Bench 和 NativeRes-LaVA,我们对现有的视觉编码策略进行了全面的实验。结果表明,在 RC-Bench 以及其他以分辨率为中心的基准测试中,本机分辨率视觉编码显著提高了 VLM 的性能。代码见 https://github.com/Niujunbo2002/NativeRes-LLaVA。

4.Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency

标题:通过置信度、不确定性和语义一致性实现多模态大型模型的动态模态调度

author:Hiroshi Tanaka, Anika Rao, Hana Satou, Michael Johnson, Sofia García

date Time:2025-06-15

paper pdf:http://arxiv.org/pdf/2506.12724v1

摘要
多模态大模型(MLLM)在视觉语言理解和生成任务中取得了显著进展。然而,现有的多模态大模型通常依赖于静态模态融合策略,这种策略对所有模态一视同仁,而不考虑其实例级可靠性或语义贡献。这通常会导致性能不达标,尤其是在模态存在噪声、缺失或错位的情况下。 在本文中,我们提出了动态模态调度(Dynamic Modality Scheduling,DMS),这是一种新颖的框架,可在每个样本级别自适应地调整每种模态的贡献。DMS 基于三个关键因素对每种模态进行评估:(1) \textit{置信度},通过预测熵估算;(2) \textit{不确定性},通过蒙特卡罗遗漏获得;(3) \textit{语义一致性},通过模态间相似性计算。为了确保训练的稳定性,我们进一步引入了textit{模态权重一致性损失},它可以对融合后的表示进行正则化处理,使其与单模态嵌入保持一致,并与分配给它们的权重成比例。我们的方法与模型无关,可以集成到现有的 MLLM 中,如 BLIP-2 和 LLaVA。在 VQA、图像文本检索和字幕任务上的实验结果表明,DMS 显著提高了纯净度和鲁棒性能,尤其是在模态损坏或丢失的情况下。这项研究为实现实例感知和鲁棒性增强的多模态建模提供了一种通用而有效的机制。

5.NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models

标题:NAP-Tuning:逆向鲁棒性视觉语言模型的神经增强提示调整

author:Jiaming Zhang, Xin Wang, Xingjun Ma, Lingyu Qiu, Yu-Gang Jiang, Jitao Sang

date Time:2025-06-15

paper pdf:http://arxiv.org/pdf/2506.12706v1

摘要
视觉语言模型(VLM)(如 CLIP)在通过联合嵌入空间理解视觉和文本数据之间的关系方面表现出了卓越的能力。尽管这些模型非常有效,但它们仍然容易受到对抗性攻击,尤其是在图像模式中,这就带来了重大的安全问题。我们之前在对抗性提示调整(Adversarial Prompt Tuning,AdvPT)方面的工作引入了可学习的文本提示,无需大量参数训练即可增强 VLM 的对抗鲁棒性,在此基础上,我们通过引入多模态对抗性提示调整(NAP-Tuning)的神经增强器框架进行了重大扩展:我们的主要创新包括:(1) 将 AdvPT 从纯文本扩展到跨文本和视觉模态的多模态提示;(2) 从单层提示架构扩展到多层提示架构;(3) 通过我们的神经增强器方法提出一种新颖的架构级重新设计,该方法实现了特征纯化,可直接解决对抗性攻击在特征空间中引入的扭曲问题。我们的 NAP-Tuning 方法结合了标记细化器,可通过残余连接学习重建纯化特征,从而实现特定模式和特定层的特征校正。综合实验证明,NAP-Tuning 在各种数据集和攻击类型中的表现明显优于现有方法。值得注意的是,在具有挑战性的 AutoAttack 基准测试中,我们的方法比最强的基准方法有了显著改进,在 ViT-B16 和 ViT-B32 体系结构上分别优于基准方法 33.5% 和 33.0%,同时还保持了具有竞争力的清除准确率。

6.CLIP-HandID: Vision-Language Model for Hand-Based Person Identification

标题:CLIP-HandID:基于手部的人员识别视觉语言模型

author:Nathanael L. Baisa, Babu Pallam, Amudhavel Jayavel

date Time:2025-06-14

paper pdf:http://arxiv.org/pdf/2506.12447v1

摘要
本文介绍了一种基于手部图像的人员识别新方法,专门用于刑事调查。这种方法在性虐待等严重犯罪中尤为重要,因为手部图像往往是唯一可识别的证据。我们提出的 CLIP-HandID 方法利用预先训练好的基础视觉语言模型,特别是 CLIP,从作为 CLIP 图像编码器输入的手部图像中高效地学习辨别性深度特征表征,并使用文本提示作为语义指导。由于手部图像的标签是索引,而不是文本描述,因此我们建议使用文本反转网络学习代表特定视觉环境或外观属性的伪标记。学习到的伪标记被纳入文本提示中,作为 CLIP 文本编码器的输入,以利用其多模态推理能力提高识别的泛化能力。通过对两个公开的、具有多种族代表性的大型手部数据集进行广泛评估,我们发现我们的方法大大超越了现有方法。

7.Image Corruption-Inspired Membership Inference Attacks against Large Vision-Language Models

标题:针对大型视觉语言模型的图像破坏成员推理攻击

author:Zongyu Wu, Minhua Lin, Zhiwei Zhang, Fali Wang, Xianren Zhang, Xiang Zhang, Suhang Wang

publish:Preprint. 15 pages

date Time:2025-06-14

paper pdf:http://arxiv.org/pdf/2506.12340v2

摘要
大型视觉语言模型(LVLM)在许多下游任务中表现出了卓越的性能。然而,LVLM 是在大规模数据集上进行训练的,如果训练图像包含敏感信息,就会带来隐私风险。因此,检测图像是否用于训练 LVLM 非常重要。最近的研究调查了针对 LVLM 的成员推理攻击(MIAs),包括检测图像-文本对和单一模式内容。在这项工作中,我们的重点是检测目标图像是否用于训练目标 LVLM。我们从 LVLM 对成员和非成员图像损坏的不同敏感性中汲取灵感,设计出简单有效的针对 LLVLM 的图像损坏启发式成员推理攻击(ICIMIA)。我们首先在白盒设置下执行 MIA 方法,通过目标 LVLM 的视觉部分获得图像的嵌入。攻击基于图像与其损坏版本之间的嵌入相似性。我们进一步探讨了一种更实际的情况,即我们对目标 LVLM 一无所知,只能通过图像和问题来查询目标 LVLM。然后,我们利用输出文本嵌入的相似性进行攻击。在现有数据集上进行的实验验证了我们提出的攻击方法在这两种不同情况下的有效性。

8.CLIP the Landscape: Automated Tagging of Crowdsourced Landscape Images

标题:CLIP 景观:自动标记众包景观图像

author:Ilya Ilyankou, Natchapon Jongwiriyanurak, Tao Cheng, James Haworth

date Time:2025-06-13

paper pdf:http://arxiv.org/pdf/2506.12214v1

摘要
我们介绍了一种基于CLIP的多模态、多标签分类器,用于预测Geograph数据集中风景照片的地理上下文标签–Geograph是一个横跨不列颠群岛的众包图像档案库,其中包括缺乏POI和街道级图像的偏远地区。我们的方法基于 Geograph 800 万张图片的一个子集完成了 Kaggle competition\footnote{https://www.kaggle.com/competitions/predict-geographic-context-from-landscape-photos} 任务,并进行了严格的评估:要求在 49 种可能的标签中实现精确匹配。我们的研究表明,将位置和标题嵌入与图像特征相结合,比单独使用图像嵌入提高了准确性。我们发布了一个轻量级的 pipeline\footnote{https://github.com/SpaceTimeLab/ClipTheLandscape} ,它使用预先训练好的 CLIP 图像和文本嵌入以及一个简单的分类头,在一台普通笔记本电脑上进行训练。预测标签可支持下游任务,如为地理信息应用构建位置嵌入,丰富数据稀缺地区的空间理解。

9.Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs

标题:经理:汇聚双塔式 VLM 和 MLLM 中来自单模式专家的见解

author:Xiao Xu, Libo Qin, Wanxiang Che, Min-Yen Kan

publish:Accepted by IEEE Transactions on Circuits and Systems for Video
Technology (TCSVT). June 2025. DOI:
https://doi.org/10.1109/TCSVT.2025.3578266

date Time:2025-06-13

paper pdf:http://arxiv.org/pdf/2506.11515v1

摘要
双塔视觉语言模型(Two-Tower Vision–Language Models,VLMs)在各种下游VL任务中表现出了强劲的性能。虽然BridgeTower通过在编码器之间搭建桥梁进一步提高了性能,但是它(textit{(i)}存在单模态表征逐层利用效率低的问题,(textit{(ii)}限制了对不同层次单模态语义知识的灵活利用,而且(textit{(iii)}仅限于在传统的低分辨率数据集上使用双塔VLM架构进行评估。在这项工作中,我们提出了 “管理器”(Manager)这一轻量级、高效且有效的插件,它能自适应地聚合来自不同级别的预训练单模态专家的见解,从而促进更全面的 VL 对齐和融合。首先,在双塔式 VLM 架构下,我们引入了 ManagerTower,这是一种在每个跨模态层中都引入管理器的新型 VLM。无论是否进行 VL 预训练,ManagerTower 的表现都优于之前的强基线,并在 4 个下游 VL 任务中取得了优异的性能。此外,我们还将探索扩展到了最新的多模态大语言模型(MLLM)架构。我们证明,无论是否启用多网格算法,LLaVA-OV-Manager 都能在 20 个下游数据集上显著提升 LLaVA-OV 在不同类别的能力、图像和分辨率上的零拍摄性能。深入分析表明,我们的管理器和多网格算法可被视为一个插件,通过从两个正交视角(深度和宽度)捕捉更多不同的视觉细节来改进视觉呈现。它们的协同作用可以减轻多网格算法造成的语义模糊,并进一步提高性能。代码和模型请访问 https://github.com/LooperXX/ManagerTower。

10.AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

标题:AIR:采用迭代改进的零次生成模型适配技术

author:Guimeng Liu, Milad Abdollahzadeh, Ngai-Man Cheung

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10895v1

摘要
零镜头生成模型适配(ZSGM)旨在仅使用文本引导,无需目标领域的任何样本,即可将预先训练好的生成器适配到目标领域。最近的 ZSGM 方法的核心是方向损失,它使用文本引导的形式,将图像偏移量与 CLIP 等视觉语言模型嵌入空间中的文本偏移量对齐。这类似于 NLP 中的类比推理,即通过对齐一对词之间的偏移量来识别另一对词中缺失的元素。然而,现有 ZSGM 方法的一个主要局限是学习目标假设图像偏移量和文本偏移量在 CLIP 嵌入空间中完全对齐,从而导致生成的图像质量下降。我们的工作有两大贡献。受 NLP 中偏移错位研究的启发,作为我们的第一个贡献,我们进行了一项实证研究,分析了各种大型公开数据集的 CLIP 嵌入空间中文本偏移和图像偏移之间的错位。我们的重要发现是,CLIP 嵌入空间中的偏移错位与概念距离相关,即距离近的概念偏移错位较小。为了解决当前方法的局限性,作为我们的第二项贡献,我们提出了 “迭代精化适应”(AIR)方法,这是第一种基于我们对偏移错位的新认识,专注于提高目标域图像质量的 ZSGM 方法。更多实验正在进行中。

11.VideoDeepResearch: Long Video Understanding With Agentic Tool Using

标题:视频深度研究:使用代理工具理解长视频

author:Huaying Yuan, Zheng Liu, Junjie Zhou, Hongjin Qian, Ji-Rong Wen, Zhicheng Dou

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10821v2

摘要
由于长视频理解(LVU)任务本身的复杂性和上下文窗口的限制,它对当前的多模态大型语言模型(MLLM)提出了巨大的挑战。人们普遍认为,处理长视频理解任务需要具有扩展上下文窗口、强大视觉感知能力和精通领域专业知识的基础 MLLM。在这项工作中,我们引入了用于长视频理解的新型代理框架 VideoDeepResearch,对这一普遍看法提出了挑战。我们的方法完全依赖于纯文本大型推理模型(LRM)与模块化多模态工具包(包括多模态检索器和视觉感知器)的结合,而所有这些工具包在实践中都是现成的。对于每个 LVU 任务,系统都会通过推理制定解决问题的策略,同时通过工具有选择性地访问和利用重要的视频内容。我们在流行的 LVU 基准(包括 MLVU、Video-MME 和 LVBench)上进行了广泛的实验。我们的结果表明,VideoDeepResearch 比现有的 MLLM 基线实现了大幅改进,在 MLVU(测试)、LVBench 和 LongVideoBench 上分别比以前的先进水平提高了 9.6%、6.6% 和 3.9%。这些发现凸显了代理系统在克服 LVU 问题关键挑战方面的前景。

12.PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

标题:PosterCraft:在统一框架中重新思考高质量审美海报的生成

author:SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10741v1

摘要
生成美观的海报比简单的设计图像更具挑战性:它不仅需要精确的文字渲染,还需要无缝整合抽象的艺术内容、引人注目的布局和整体风格的和谐。为了解决这个问题,我们提出了 PosterCraft,这是一个统一的框架,摒弃了之前的模块化流水线和僵化的预定义布局,允许模型自由探索连贯的、视觉上引人注目的构图。PosterCraft 采用精心设计的级联工作流程来优化高审美海报的生成:(i) 在我们新推出的 Text-Render-2M 数据集上进行大规模文本渲染优化;(ii) 在 HQ-Poster100K 上进行区域感知监督微调;(iii) 通过最佳偏好优化进行审美文本强化学习;(iv) 联合视觉语言反馈完善。每个阶段都有一个根据其特定需求量身定制的全自动数据构建管道提供支持,无需对复杂的架构进行修改即可实现强大的训练。经过多次实验评估,PosterCraft 在渲染准确性、布局一致性和整体视觉吸引力方面明显优于开源基线,接近 SOTA 商业系统的质量。我们的代码、模型和数据集可在项目页面上找到: https://ephemeral182.github.io/PosterCraft

13.IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain

标题:IQE-CLIP:用于医学领域零/少镜头异常检测的实例感知查询嵌入

author:Hong Huang, Weixiang Sun, Zhijian Wu, Jingwen Niu, Donghuan Lu, Xian Wu, Yefeng Zheng

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10730v2

摘要
近来,视觉语言模型(如 CLIP)的快速发展使零/少镜头异常检测(ZFSAD)任务取得了重大进展。然而,大多数基于 CLIP 的现有 ZFSAD 方法通常都假定了对类别的预先了解,并依赖于针对特定场景精心制作的提示。虽然这种精心设计的文本提示能有效捕捉文本空间中的语义信息,但却无法区分联合嵌入空间中的正常和异常实例。此外,这些 ZFSAD 方法主要是在工业场景中进行探索,很少用于医疗任务。为此,我们为医疗领域的 ZFSAD 任务提出了一个创新框架,称为 IQE-CLIP。我们发现,包含文本信息和实例感知视觉信息的查询嵌入能更好地指示异常情况。具体来说,我们首先引入了基于类别的提示标记和可学习的提示标记,以使 CLIP 更好地适应医疗领域。然后,我们设计了一个实例感知查询模块(IQM),从文本提示和视觉特征中提取区域级上下文信息,从而生成对异常更敏感的查询嵌入。在六个医疗数据集上进行的广泛实验表明,IQE-CLIP 在零镜头和少镜头任务上都取得了一流的性能。我们在 https://github.com/hongh0/IQE-CLIP/ 上发布了我们的代码和数据。

14.GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning

标题:GigaVideo-1:通过 4 GPU 小时微调自动反馈推进视频生成

author:Xiaoyi Bao, Jindi Lv, Xiaofeng Wang, Zheng Zhu, Xinze Chen, YuKun Zhou, Jiancheng Lv, Xingang Wang, Guan Huang

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10639v1

摘要
最近在扩散模型方面取得的进展大大提高了视频生成质量,但这些模型仍需要进行微调,以改善特定维度,如实例保存、运动合理性、构成和物理可信性。现有的微调方法通常依赖于人工注释和大规模计算资源,从而限制了其实用性。在这项工作中,我们提出了 GigaVideo-1,这是一个高效的微调框架,无需额外的人工监督即可推进视频生成。GigaVideo-1 不是从外部来源注入大量高质量数据,而是通过自动反馈来释放预训练视频扩散模型的潜在潜力。具体来说,我们关注微调过程的两个关键方面:数据和优化。为了改进微调数据,我们设计了一个提示驱动的数据引擎,用于构建多样化、以弱化为导向的训练样本。在优化方面,我们引入了奖励引导训练策略,该策略利用来自预训练视觉语言模型的反馈,在现实性约束下对样本进行自适应加权。我们以 Wan2.1 为基准,在 VBench-2.0 基准上对 GigaVideo-1 进行了 17 个评估维度的评估。实验结果表明,GigaVideo-1 在几乎所有维度上都持续提高了性能,仅用 4 个 GPU 小时就能获得约 4% 的平均增益。GigaVideo-1 不需要手动注释和最少的真实数据,就能证明其有效性和效率。代码、模型和数据将公开发布。

15.Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning

标题:利用联合提示-适配器学习实现多标签图像识别中的文本到图像

author:Chun-Mei Feng, Kai Yu, Xinxing Xu, Salman Khan, Rick Siow Mong Goh, Wangmeng Zuo, Yong Liu

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10575v1

摘要
得益于图像-文本对比学习,预先训练的视觉语言模型(如 CLIP)可以直接利用文本作为图像(TAI)进行参数高效微调(PEFT)。虽然 CLIP 能够使图像特征与相应的文本特征相似,但模态差距仍然是一个非同小可的问题,并限制了 TaI 的图像识别性能。以多标签图像识别(MLR)为例,我们提出了一种名为 T2I-PAL 的新方法,以解决 PEFT 仅使用文本标题时的模态差距问题。T2I-PAL 的核心设计是利用预先训练好的文本到图像生成模型,从文本标题生成逼真多样的图像,从而缩小模态差距。为了进一步增强 MLR,T2I-PAL 采用了分类热图和可学习原型。这可以聚合局部相似性,使局部视觉特征的表示更加稳健,为多标签识别提供更多信息。为了实现更好的 PEFT,我们进一步将及时调整和适配器学习结合起来,以提高分类性能。T2I-PAL 具有显著的优势:它不需要完全语义注释的训练图像,从而减少了人工注释的工作量;它保留了 CLIP 模型的固有模式,允许与任何现有的 CLIP 框架无缝集成。在 MS-COCO、VOC2007 和 NUS-WIDE 等多个基准上进行的广泛实验表明,我们的 T2I-PAL 可将识别性能平均提高 3.47%,超过排名靠前的一流方法。

16.Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation

标题:用于参考遥感图像分割的语义定位指导分割模型

author:Shuyang Li, Shuang Wang, Zhuangzhuang Sun, Jing Xiao

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10503v1

摘要
参考遥感图像分割(RRSIS)任务是根据文本描述为图像中的指定对象生成分割掩码,该任务已引起广泛关注和研究兴趣。目前的 RRSIS 方法依赖于多模态融合骨干和语义分割头,但面临着高密度注释要求和复杂场景解释等挑战。为了解决这些问题,我们提出了一个名为textit{prompt-generated semantic localization guiding Segment Anything Model}(PSLG-SAM)的框架,该框架将RRSIS任务分解为两个阶段:粗定位和细分割。在粗定位阶段,视觉接地网络会大致确定文本描述对象的位置。在精细分割阶段,来自第一阶段的坐标将指导 “任意分割模型”(SAM),并通过基于聚类的前景点生成器和掩码边界迭代优化策略进行增强,从而实现精确分割。值得注意的是,第二阶段无需训练,从而大大减轻了 RRSIS 任务的注释数据负担。此外,将 RRSIS 任务分解为两个阶段可以专注于特定区域的分割,避免复杂场景的干扰。在两个数据集(RRSIS-D 和 RRSIS-M)上进行的实验验证表明,PSLG-SAM 的性能有了显著提高,超过了现有的一流模型。

17.MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models

标题:MedSeg-R:利用多模态大语言模型对医学图像进行推理分割

author:Yu Huang, Zelin Peng, Yichen Zhao, Piao Yang, Xiaokang Yang, Wei Shen

publish:{\dag}: Equal contribution

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10465v1

摘要
医学影像分割对临床诊断至关重要,但现有模型由于依赖明确的人工指令而受到限制,并且缺乏理解复杂临床问题的主动推理能力。虽然多模态大语言模型(MLLMs)的最新进展改善了医疗问题解答(QA)任务,但大多数方法都难以生成精确的分割掩码,限制了它们在自动医疗诊断中的应用。在本文中,我们介绍了医学图像推理分割,这是一项新任务,旨在根据复杂而隐含的医学指令生成分割掩码。为了解决这个问题,我们提出了 MedSeg-R,这是一个端到端的框架,利用 MLLM 的推理能力来解释临床问题,同时还能为医学图像生成相应的精确分割掩码。该框架基于两个核心组件:1)全局上下文理解模块,用于解释图像并理解复杂的医疗指令,从而生成多模态中间标记;2)像素级接地模块,用于解码这些标记,从而生成精确的分割掩码和文本响应。此外,我们还介绍了专为医学图像推理分割任务定制的大型数据集 MedSeg-QA。该数据集包括 10,000 多个图像掩码对和多轮对话,使用大型语言模型自动注释,并通过医生评论加以完善。实验表明,MedSeg-R 在多个基准测试中表现出色,达到了很高的分割准确率,并能对医学图像进行可解释的文本分析。

18.Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges

标题:通过系统 1 或系统 2 推理 RAG:针对行业挑战的推理代理检索-增强生成调查

author:Jintao Liang, Gang Su, Huifeng Lin, You Wu, Rui Zhao, Ziyue Li

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10408v1

摘要
检索增强生成(RAG)是一个强大的框架,它通过将外部检索与语言生成相结合,克服了大型语言模型(LLM)的知识局限性。虽然早期基于静态管道的 RAG 系统在结构良好的任务中显示出了有效性,但在需要复杂推理、动态检索和多模态整合的现实世界场景中却显得力不从心。为了应对这些挑战,该领域已转向推理代理 RAG,这是一种将决策和自适应工具使用直接嵌入检索过程的范例。在本文中,我们全面回顾了推理代理 RAG 方法,并将其分为两个主要系统:预定义推理(遵循固定的模块化管道来促进推理)和代理推理(模型在推理过程中自主协调工具交互)。我们分析了这两种范式下的代表性技术,包括架构设计、推理策略和工具协调。最后,我们讨论了关键的研究挑战,并提出了未来的发展方向,以提高代理推理 RAG 系统的灵活性、稳健性和适用性。我们收集的相关研究成果已编入 https://github.com/ByebyeMonica/Reasoning-Agentic-RAG。

19.HalLoc: Token-level Localization of Hallucinations for Vision Language Models

标题:HalLoc:视觉语言模型的幻觉标记级定位

author:Eunkyu Park, Minyeong Kim, Gunhee Kim

publish:CVPR 2025

date Time:2025-06-12

paper pdf:http://arxiv.org/pdf/2506.10286v1

摘要
幻觉对大型视觉语言模型的可靠性提出了巨大挑战,因此,要确保关键应用的准确性,就必须对幻觉进行检测。目前的检测方法通常依赖于计算密集型模型,导致高延迟和资源需求。它们的明确结果也无法解释现实世界中幻觉信息和真实信息之间界限不清的情况。为了解决这些问题,我们提出了 HalLoc,这是一个专为高效、概率性幻觉检测而设计的数据集。它具有 15 万个标记级注释样本,包括幻觉类型,横跨视觉问题解答(VQA)、指令跟随和图像字幕任务。该数据集有助于开发可分级检测幻觉的模型,从而实现更明智的用户交互。此外,我们还引入了在 HalLoc 上训练的基准模型,在生成过程中提供低开销、并发的幻觉检测。该模型可无缝集成到现有的 VLM 中,在提高可靠性的同时保持效率。强大的即插即用幻觉检测模块为提高视觉语言模型在实际应用中的可信度开辟了新的途径。HalLoc 数据集和代码可在以下网址公开获取:https://github.com/dbsltm/cvpr25_halloc。

20.ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

标题:ViCrit:用于 VLM 视觉感知的可验证强化学习代理任务

author:Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.10128v1

摘要
强化学习(RL)在利用数学推理或代码生成等具有挑战性但易于验证的任务对大型语言模型(LLM)进行微调方面显示出巨大的功效。然而,将这种成功经验推广到视觉语言模型(VLM)的视觉感知方面,却因同时具有挑战性和明确可验证性的以视觉为中心的任务太少而受到阻碍。为此,我们引入了 ViCrit(Visual Caption Hallucination Critic,视觉字幕幻觉评判),它是一种 RL 代理任务,用于训练 VLM 定位注入到人类撰写的图像字幕段落中的微妙合成视觉幻觉。我们从一个 200 字的标题开始,注入一个单一的、微妙的视觉描述错误–对物体、属性、数量或空间关系进行几个字的修改–然后让模型根据图像和修改后的标题找出被破坏的跨度。这种表述方式既保留了全部的感知难度,又提供了易于计算和明确的二进制精确匹配奖励。使用 ViCrit 任务训练的模型在各种 VL 基准测试中都取得了显著提高。最重要的是,这些改进超越了自然图像训练数据,转移到了抽象图像推理和视觉数学上,显示了学习感知而不是勉强记忆所见物体的前景。为了便于评估,我们进一步引入了 ViCrit-Bench,这是一种类别平衡诊断基准,可系统地检测不同图像领域和错误类型的感知错误。总之,我们的研究结果表明,细粒度的幻觉批评是提高 VLM 视觉感知能力的有效且可推广的目标。

21.EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

标题:EfficientVLA:视觉-语言-动作模型的免训练加速和压缩

author:Yantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.10100v1

摘要
视觉-语言-动作(VLA)模型,尤其是基于扩散的架构,展示了具身智能的变革潜力,但却因大量固有和推理时间冗余造成的高计算和内存需求而受到严重阻碍。虽然现有的加速工作通常针对的是孤立的低效问题,但这种零敲碎打的解决方案通常无法从整体上解决整个 VLA 管线中的各种计算和内存瓶颈,从而限制了实际的可部署性。我们介绍的 EfficientVLA 是一种结构化的免训练推理加速框架,它通过利用多方面的冗余,系统地消除了这些障碍。EfficientVLA 协同整合了三种有针对性的策略:(1) 在层间冗余分析的指导下,从语言模块中剪除功能上无关紧要的层;(2) 通过任务感知策略优化视觉处理路径,选择紧凑、多样的视觉标记集,平衡任务关键性与信息覆盖面;(3) 通过战略性地缓存和重用关键中间特征,减轻基于扩散的迭代动作头中的时间计算冗余。我们将我们的方法应用于标准 VLA 模型 CogACT,推理速度提高了 1.93 倍,FLOPs 降低了 28.9%,在 SIMPLER 基准中成功率仅下降了 0.6%。

22.Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

标题:用交织思维和视觉绘图强化视觉语言模型中的空间推理能力

author:Junfei Wu, Jian Guan, Kaituo Feng, Qiang Liu, Shu Wu, Liang Wang, Wei Wu, Tieniu Tan

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09965v1

摘要
随着大型语言模型(LLM)的文本推理技术的长足发展,人们对增强大型视觉语言模型(LVLM)的多模态推理能力也越来越感兴趣。然而,现有的方法主要是以文本为中心直接进行多模态推理,即推理和答案推导都纯粹通过文本进行,唯一的区别在于是否存在多模态输入。因此,这些方法在空间推理任务中往往会遇到根本性的限制,因为空间推理任务要求精确的几何理解和连续的空间跟踪能力,而这些能力是人类通过心理可视化和操作来实现的。为了解决这些局限性,我们提出了 "绘制空间推理 "这一新颖的范式,使 LVLM 能够通过视觉空间中的基本绘制操作进行推理。通过为模型配备基本的绘制操作,包括注释边界框和绘制辅助线,我们使模型能够通过直接的视觉操作来表达和分析空间关系,同时避免了以往工具集成推理方法中专业感知工具带来的性能上限。为了培养这种能力,我们开发了一个三阶段训练框架:使用合成数据进行冷启动训练,以建立基本的绘图能力;反思性拒绝采样,以增强自我反思行为;强化学习,以直接优化目标奖励。广泛的实验证明,我们的模型(名为 VILASR)在各种空间推理基准测试(包括迷宫导航、静态空间推理、基于视频的推理和基于多视角的推理任务)中始终优于现有方法,平均提高了 18.4%。

23.3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation

标题:利用几何蒸馏技术微调 3D 感知视觉语言模型

author:Seonho Lee, Jiho Choi, Inha Kang, Jiwook Kim, Junsung Park, Hyunjung Shim

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09883v1

摘要
视觉语言模型(VLMs)在各种视觉和语言任务中表现出了卓越的性能,但它们对三维空间结构的理解仍然受到很大限制。我们提出了 “几何蒸馏”(Geometric Distillation)技术,这是一种轻量级、无需注释的微调框架,可在不修改 VLM 架构的情况下,将人类启发的几何线索注入预训练 VLM。通过从现成的三维基础模型(如 MASt3R、VGGT)中提炼出(1)稀疏对应关系、(2)相对深度关系和(3)高密度成本体积,我们的方法塑造了几何感知表征,同时与自然图像-文本输入保持兼容。通过对三维视觉语言推理和三维感知基准的广泛评估,我们的方法始终优于先前的方法,以显著较低的计算成本实现了更好的三维空间推理。我们的工作展示了一条可扩展的高效途径,可将二维训练的 VLM 与三维理解连接起来,从而在空间基础的多模态任务中得到更广泛的应用。

24.Towards Multi-modal Graph Large Language Model

标题:走向多模态图大型语言模型

author:Xin Wang, Zeyang Zhang, Linxin Xiao, Haibo Chen, Chendi Ge, Wenwu Zhu

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09738v1

摘要
多模态图集成了各种多模态特征和关系,在现实世界的应用中无处不在。然而,现有的多模态图学习方法通常都是针对特定的图数据和任务从头开始训练的,无法在各种多模态图数据和任务中通用。为了弥补这一差距,我们探索了多模态图大型语言模型(MG-LLM)的潜力,以统一和泛化各种多模态图数据和任务。我们提出了多模态图数据、任务和模型的统一框架,发现了多模态图固有的多粒度和多尺度特征。具体来说,我们提出了 MG-LLM 所需的五个关键特征:1)多模态结构和属性的统一空间;2)处理各种多模态图任务的能力;3)多模态图上下文学习;4)多模态图与自然语言的交互;5)多模态图推理。然后,我们阐述了主要挑战,回顾了相关工作,并强调了实现这些宏伟特性的未来研究方向。最后,我们总结了与模型训练相关的现有多模态图数据集。我们相信,本文将有助于推动 MG-LLM 研究在多模态图数据和任务中的应用。

25.Adding simple structure at inference improves Vision-Language Compositionality

标题:在推理时添加简单结构可提高视觉语言的可组合性

author:Imanol Miranda, Ander Salaberria, Eneko Agirre, Gorka Azkune

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09691v1

摘要
双编码器视觉语言模型(VLM)(如 CLIP)被广泛用于图像文本检索任务。然而,这些模型在合成性方面存在问题,表现出类似于词袋的行为,限制了它们的检索性能。为了提高这些模型的视觉语言合成能力,人们提出了许多不同的训练方法。相比之下,推理时间技术很少受到关注。在本文中,我们建议在推理时添加简单的结构,即在给定图像和标题的情况下:i) 我们将图像分成不同的小片;ii) 我们提取文本片段,捕捉对象、属性和关系;iii) 使用 VLM,我们找到与文本片段匹配度更高的图像片段;iv) 我们计算最终的图像-文本相似度,汇总匹配的各个相似度。基于各种流行的双编码器 VLM,我们在受控数据集和自然数据集中对我们的方法进行了 VL 合成性评估。我们发现,我们的方法无需任何训练就能持续提高已评估 VLM 的性能,这显示了推理时间技术的潜力。在受控数据集中,属性-对象绑定的结果尤其出色。通过广泛的分析,我们发现:i) 对图像作物的处理实际上是提高性能的关键;ii) 我们确定了进一步改进推理时间方法的具体领域。

26.Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning

标题:通过 "探索-开发 "式上下文学习激发多模态少镜头 LVLM

author:Cheng Chen, Yunpeng Zhai, Yifan Zhao, Jinyang Gao, Bolin Ding, Jia Li

publish:10 pages, 6 figures, CVPR 2025

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09473v1

摘要
上下文学习(ICL)是指令学习的一个主流趋势,旨在通过提供清晰的任务指导和示例来提高大型语言模型的性能,从而提高其理解和执行任务的能力。本文研究了大型视觉语言模型(LVLM)的语境学习(ICL),并探讨了多模式示范选择的策略。现有的 ICL 研究工作面临着重大挑战:首先,它们依赖于预先定义的演示或基于人类直觉的启发式选择策略,而这些策略通常不足以涵盖多样化的任务要求,从而导致次优解决方案;其次,单独选择每个演示无法对它们之间的交互进行建模,从而导致信息冗余。与上述主流方法不同的是,我们提出了一种新的探索-利用强化学习框架,该框架探索融合多模态信息的策略,并作为一个整体自适应地选择适当的示范。该框架允许 LVLM 通过自我探索不断完善其演示来进行自我优化,使其能够自主识别和生成最有效的选择策略,从而实现上下文学习。实验结果验证了我们的方法在四个可视化问题解答(VQA)数据集上的卓越性能,证明了它在增强少镜头 LVLM 的泛化能力方面的有效性。

27.Ming-Omni: A Unified Multimodal Model for Perception and Generation

标题:明-奥米感知与生成的统一多模态模型

author:Inclusion AI, Biao Gong, Cheng Zou, Chuanyang Zheng, Chunluan Zhou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jun Peng, Kaixiang Ji, Kaiyou Song, Kaimeng Ren, Libin Wang, Lixiang Ru, Lele Xie, Longhua Tan, Lyuxin Xue, Lan Wang, Mochen Bai, Ning Gao, Pei Chen, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Sirui Gao, Tinghao Liu, Taisong Li, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaoxue Chen, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yunxiao Sun, Yipeng Chen, Yifei Wu, Yongjie Lyu, Ziping Ma, Zipeng Feng, Zhijiang Fang, Zhihao Qiu, Ziyuan Huang, Zhengyu He

publish:18 pages,8 figures

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09344v1

摘要
我们提出了一个统一的多模态模型 Ming-Omni,它能够处理图像、文本、音频和视频,同时在语音和图像生成方面表现出很强的能力。Ming-Omni 采用专用编码器从不同模态中提取标记,然后由配备了新提出的特定模态路由器的 MoE 架构 Ling 进行处理。这种设计使单一模型能够在一个统一的框架内有效地处理和融合多模态输入,从而为各种任务提供便利,而不需要单独的模型、针对特定任务的微调或结构重新设计。重要的是,Ming-Omni 超越了传统的多模态模型,支持音频和图像生成。这是通过集成先进的音频解码器(用于自然语音)和Ming-Lite-Uni(用于高质量图像生成)来实现的,这也使模型能够进行上下文感知聊天、执行文本到语音的转换以及进行多功能图像编辑。我们的实验结果表明,Ming-Omni 为所有模式的统一感知和生成提供了强大的解决方案。值得注意的是,我们提出的 Ming-Omni 是我们所知的第一个在模态支持方面与 GPT-4o 不相上下的开源模型,我们发布了所有代码和模型权重,以鼓励社区的进一步研究和开发。

28.MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning

标题:MSSDF:用于高分辨率多模态遥感图像学习的模态共享自监督蒸馏法

author:Tong Wang, Guanzhou Chen, Xiaodong Zhang, Chenxi Liu, Jiaqi Wang, Xiaoliang Tan, Wenchao Guo, Qingyuan Yang, Kaiqi Zhang

date Time:2025-06-11

paper pdf:http://arxiv.org/pdf/2506.09327v1

摘要
遥感图像判读在环境监测、城市规划和灾害评估中发挥着至关重要的作用。然而,获取高质量的标注数据往往既昂贵又耗时。为了应对这一挑战,我们提出了一种多模态自监督学习框架,利用高分辨率 RGB 图像、多光谱数据和数字地表模型(DSM)进行预训练。通过设计信息感知自适应屏蔽策略、跨模态屏蔽机制和多任务自监督目标,该框架既能有效捕捉不同模态之间的相关性,又能捕捉每种模态中的独特特征结构。我们在多个下游任务中对所提出的方法进行了评估,涵盖了典型的遥感应用,如场景分类、语义分割、变化检测、物体检测和深度估计。实验在 15 个遥感数据集上进行,涵盖 26 项任务。结果表明,所提出的方法在大多数任务中都优于现有的预训练方法。具体来说,在波茨坦和韦兴根语义分割任务中,我们的方法只用了50%的训练集,就取得了78.30%和76.50%的mIoU分数。在US3D深度估计任务中,RMSE误差降低到0.182;在SECOND数据集的二进制变化检测任务中,我们的方法取得了47.51%的mIoU分数,超过第二名CS-MAE 3个百分点。我们的预训练代码、检查点和 HR-Pairs 数据集见 https://github.com/CVEO/MSSDF。


文章转载自:

http://AwIHgRsT.Lpskm.cn
http://5E5zoaxp.Lpskm.cn
http://ZVLbD4on.Lpskm.cn
http://5kbOsp4j.Lpskm.cn
http://RE1dDTWA.Lpskm.cn
http://L1RS7oXt.Lpskm.cn
http://y5ULHkkl.Lpskm.cn
http://DVF3OHen.Lpskm.cn
http://aokH0Nvl.Lpskm.cn
http://EpgVR7lq.Lpskm.cn
http://Gw9h4Z6z.Lpskm.cn
http://lGXKP8ud.Lpskm.cn
http://4lZD79Bp.Lpskm.cn
http://4vXculMI.Lpskm.cn
http://bcobitvm.Lpskm.cn
http://QMO6YkZT.Lpskm.cn
http://j8W3YL5L.Lpskm.cn
http://ZguhjKZ0.Lpskm.cn
http://wg8OkNkF.Lpskm.cn
http://V7C7QYVZ.Lpskm.cn
http://mUPnqreL.Lpskm.cn
http://LS6sRKxY.Lpskm.cn
http://hQA2GgEn.Lpskm.cn
http://3J10swYb.Lpskm.cn
http://to97vujp.Lpskm.cn
http://Y3KNoF4v.Lpskm.cn
http://Cm2cyNBI.Lpskm.cn
http://jEsIPlun.Lpskm.cn
http://pMYhTyiL.Lpskm.cn
http://QAp9Pexb.Lpskm.cn
http://www.dtcms.com/a/372491.html

相关文章:

  • struct结构体内存对齐详解
  • 使用QLoRA 量化低秩适配微调大模型介绍篇
  • 变量与常量
  • 第7.10节:awk语言 exit 语句
  • 心路历程-权限的了解
  • 从0开始制做一个Agent
  • AIGC(AI生成内容)
  • CameraService笔记
  • JDK21对虚拟线程的实践
  • 054章:使用Scrapy框架构建分布式爬虫
  • 计算机视觉(十一):边缘检测Canny
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘wheel’问题
  • 监控系统 | 脚本案例
  • TI-92 Plus计算器:高等数学之函数特性判断
  • IDEA 配置tomcat服务器
  • HTTP中Payload的含义解析
  • docker-compose build命令及参数
  • 接入第三方升级协议OTA教程
  • IO模型多路转接
  • Python-基础语法
  • FastApi框架
  • 单片机的bin、exe、elf、hex文件差异
  • 基于ResNet50的智能垃圾分类系统
  • 大模型推理参数讲解
  • Linux 性能调优之 OOM Killer 的认知与观测
  • Linux->日志的实现
  • 西门子 S7-200 SMART PLC :3 台电机顺启逆停控制(上篇)
  • SAP系统两种部署方式:公有云VS私有云 企业如何选择?
  • 用博图FB类比c#中sdk的api
  • 8.渗透-.虚拟机安装