当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（121）

news 2025/9/12 16:45:45

在这里插入图片描述

CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration

➡️ 论文标题：CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration
➡️ 论文作者：Jiahui Gao, Renjie Pi, Tianyang Han, Han Wu, Lanqing Hong, Lingpeng Kong, Xin Jiang, Zhenguo Li
➡️ 研究机构: Noah’s Ark Lab、The Hong Kong University of Science and Technology、The Hong Kong Polytechnic University、The University of Hong Kong
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理涉及视觉输入的对话任务中表现出色，但这些模型在面对恶意图像输入时容易生成敏感或有害的响应，即使底层的大语言模型（LLMs）已经通过文本数据训练以符合人类价值观。研究发现，MLLMs在处理图像输入时的安全意识较弱，这主要是由于模态差距（modality gap）导致的。
➡️ 研究动机：研究团队提出，通过在MLLMs的输入中添加明确的安全要求，可以增强模型的安全意识。进一步，研究团队探索了一种称为宪法校准（Constitutional Calibration, CoCA）的技术，旨在通过校准模型的输出分布来放大安全提示的影响，使模型能够恢复其原有的安全意识，同时不损失其原有的视觉理解和推理能力。
➡️ 方法简介：研究团队提出了一种简单而有效的方法——宪法校准（CoCA），该方法通过在解码阶段计算并放大模型预测中包含和不包含安全原则的logits差异，来增强MLLMs的安全意识。具体来说，CoCA在生成每个token之前，计算包含和不包含安全原则的logits差异，并通过一个缩放因子将其加入原始logit中，从而调整最终的概率分布。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括多模态安全基准（MM-SafetyBench）和视觉理解与推理任务（如MM-Vet、MME、VQA和GQA）。实验设计了不同的任务类型和模型规模，以全面评估CoCA在提高MLLMs安全意识和保持模型原有能力方面的效果。实验结果表明，CoCA能够显著降低恶意图像查询的成功率，同时保持模型在视觉理解和推理任务中的性能。

Towards Time Series Reasoning with LLMs

➡️ 论文标题：Towards Time Series Reasoning with LLMs
➡️ 论文作者：Winnie Chow, Lauren Gardiner, Haraldur T. Hallgrímsson, Maxwell A. Xu, Shirley You Ren
➡️ 研究机构: Stanford University, Apple, University of Illinois at Urbana-Champaign
➡️ 问题背景：尽管多模态大语言模型（MLLMs）在视觉等领域取得了显著进展，但在时间序列分析方面，尤其是时间序列推理方面，这些模型的表现仍然有限。时间序列推理对于健康指导、金融投资和环境监测等应用至关重要，这些领域需要精确且可解释的时序洞察。然而，目前大多数研究集中在时间序列预测上，而使用自然语言进行时间序列推理的能力尚未得到充分探索。
➡️ 研究动机：研究团队旨在通过提出一种新的多模态时间序列LLM方法，解决现有模型在时间序列感知、上下文提取和演绎推理方面的瓶颈。该方法通过训练一个轻量级的时间序列编码器，直接从时间序列数据中提取信息，并通过链式思维（CoT）增强的时间序列任务进行微调，以促进模型生成推理路径。研究的目标是展示模型在多种领域中的零样本推理任务上的优越性能，甚至超越GPT-4o。
➡️ 方法简介：研究团队设计了一种新颖的架构，该架构首先将输入的时间序列数据归一化并分割成固定大小的块，然后通过一个多头自注意力编码器处理这些块，最后通过一个线性层将特征投影到与LLM词嵌入空间相同的维度。文本嵌入和时间序列嵌入被串联起来输入到LLM中，以生成文本。实验中使用了预训练的Mistral-7B作为LLM的骨干。
➡️ 实验设计：研究团队采用了两阶段的训练方法。第一阶段，从头开始训练编码器和投影层，同时保持LLM冻结，通过课程学习方法逐步增加任务难度。第二阶段，使用LoRA技术对编码器、投影层和LLM进行端到端的监督微调，任务包括时间序列分类和因果推理等。实验在多个公开数据集上进行，包括UCR分类档案中的数据集，以及合成的时间序列数据集。实验结果表明，该模型在零样本推理任务上显著优于GPT-4o，尤其是在时间序列感知和推理能力方面。

Bridging Design and Development with Automated Declarative UI Code Generation

➡️ 论文标题：Bridging Design and Development with Automated Declarative UI Code Generation
➡️ 论文作者：Ting Zhou, Yanjie Zhao, Xinyi Hou, Xiaoyu Sun, Kai Chen, Haoyu Wang
➡️ 研究机构: 华中科技大学、澳大利亚国立大学
➡️ 问题背景：随着移动应用生态系统的不断扩展，用户界面（UI）的设计和开发面临着更高的需求，包括更好的用户体验和更高效的开发流程。尽管声明式UI框架在移动应用开发中得到了广泛应用，提供了代码可读性和维护性的提升，但将UI设计转化为功能代码的过程仍然具有挑战性和耗时。现有的方法在处理复杂设计和交互逻辑方面存在局限性，无法直接从视觉设计生成高质量的代码。
➡️ 研究动机：现有的研究在自动从UI设计生成声明式UI代码方面存在不足，特别是在组件识别、交互逻辑理解和跨页面一致性方面。为了克服这些挑战，研究团队提出了DeclarUI，这是一种结合计算机视觉（CV）、多模态大语言模型（MLLMs）和迭代编译优化的方法，旨在从UI设计中生成和优化声明式UI代码。
➡️ 方法简介：DeclarUI通过以下步骤实现其目标：1) 构建Page Transition Graph（PTG）以捕捉应用的导航逻辑；2) 使用先进的CV技术进行UI组件提取和表示；3) 通过Prompt Synthesis将预处理的数据整合成一个全面的提示，供MLLM生成UI代码；4) 通过Iterative Code Refinement进行导航一致性和编译错误检查，确保生成的代码质量和功能完整性。
➡️ 实验设计：研究团队在React Native框架上进行了实验，评估了DeclarUI在生成UI代码方面的性能。实验结果表明，DeclarUI在PTG覆盖率、视觉相似度和编译成功率方面显著优于现有的MLLMs。此外，DeclarUI还展示了在Flutter和ArkUI框架上的良好泛化能力。用户研究进一步证实，DeclarUI生成的代码在可用性、修改时间、可读性和可维护性方面均达到了工业级标准。

Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference

➡️ 论文标题：Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference
➡️ 论文作者：Najmeh Forouzandehmehr, Nima Farrokhsiar, Ramin Giahi, Evren Korpeoglu, Kannan Achan
➡️ 研究机构: Walmart Global Tech
➡️ 问题背景：个性化服装推荐系统需要同时理解服装搭配的兼容性和当前的时尚趋势，以满足消费者的个性化需求。随着在线购物的普及和消费者对个性化体验的需求增加，开发这样的系统具有重要的实际意义和经济潜力。然而，现有的方法在捕捉时尚趋势和个性化上下文方面存在局限性，尤其是在生成实用、时尚且符合用户需求的服装建议时。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种新的框架，通过微调大型语言模型（LLMs）并整合直接用户反馈，使模型能够更好地理解时尚兼容性和当前趋势，同时保持解释性。该框架旨在通过多模态语言模型（MLLMs）提取服装图像的风格和颜色特征，以生成个性化推荐，并通过持续的用户反馈循环不断优化推荐结果。
➡️ 方法简介：研究团队提出了一种系统的方法，通过微调LLMs和直接偏好优化（DPO）来提高模型的个性化推荐能力。具体来说，使用多模态语言模型（MLLMs）进行图像描述，以提取服装的风格和颜色特征；通过参数高效微调（PEFT）技术对LLMs进行微调，使其能够理解时尚兼容性和趋势；最后，通过DPO方法进一步优化模型，使其能够根据用户的偏好生成更合适的推荐。
➡️ 实验设计：研究团队在Polyvore数据集上进行了实验，评估了模型在两个关键任务上的表现：填空任务（Fill-in-the-Blank, FITB）和互补物品检索任务（Complementary Item Retrieval, CP）。实验设计了不同的训练策略，包括基础LLM、PEFT LLM（使用LoRA）和PEFT DPO LLM，以全面评估模型的性能。实验结果表明，提出的框架在FITB任务上的准确率和CP任务上的AUC值均显著优于基线方法。

Democratizing MLLMs in Healthcare: TinyLLaVA-Med for Efficient Healthcare Diagnostics in Resource-Constrained Settings

➡️ 论文标题：Democratizing MLLMs in Healthcare: TinyLLaVA-Med for Efficient Healthcare Diagnostics in Resource-Constrained Settings
➡️ 论文作者：Aya El Mir, Lukelo Thadei Luoga, Boyuan Chen, Muhammad Abdullah Hanif, Muhammad Shafique
➡️ 研究机构: eBrain Lab, Division of Engineering, New York University Abu Dhabi, UAE
➡️ 问题背景：多模态大型语言模型（MLLMs）在医疗领域的应用受到其高计算需求和显著内存要求的限制，特别是在资源受限的设备上，如Nvidia Jetson Xavier。这种限制在远程医疗环境中尤为明显，这些地区需要先进的诊断技术，但资源有限。
➡️ 研究动机：为了克服这些限制，研究团队提出了一种优化方法，将通用的TinyLLaVA模型通过指令调优和在医疗数据集上的微调，适应并重命名为TinyLLaVA-Med。该方法旨在减少计算复杂性和功耗，同时保持高精度，使模型能够在资源受限的环境中部署，如嵌入式系统。
➡️ 方法简介：研究团队通过构建一个包含60,000个图像-文本对的生物医学指令调优数据集，对TinyLLaVA模型进行了指令调优。随后，模型在VQA-RAD和SLAKE等下游数据集上进行了微调，以提高其在特定医疗任务中的性能。最后，模型被部署在Nvidia Jetson Xavier上，以测试其在嵌入式系统中的实际运行效果。
➡️ 实验设计：实验在VQA-RAD和SLAKE两个数据集上进行，评估了TinyLLaVA-Med在开放性和封闭性问题上的诊断能力。同时，还评估了模型在Nvidia Jetson Xavier上的硬件性能，包括GPU利用率、功耗和内存使用情况。实验结果表明，TinyLLaVA-Med在封闭性问题上的准确率分别为64.54%（VQA-RAD）和70.70%（SLAKE），并且在功耗和内存使用方面表现优异，分别达到了18.9W和11.9GB。