多模态大语言模型arxiv论文略读(118)
VoiceWukong: Benchmarking Deepfake Voice Detection
➡️ 论文标题:VoiceWukong: Benchmarking Deepfake Voice Detection
➡️ 论文作者:Ziwei Yan, Yanjie Zhao, Haoyu Wang
➡️ 研究机构: 华中科技大学
➡️ 问题背景:随着文本转语音(TTS)和语音转换(VC)技术的快速发展,检测深度伪造语音(Deepfake Voice)变得越来越重要。然而,学术界和工业界缺乏一个全面且直观的基准来评估检测器。现有的数据集在语言多样性方面有限,且缺乏在实际生产环境中遇到的多种操作。
➡️ 研究动机:为了填补这一空白,研究团队提出了VoiceWukong,一个旨在评估深度伪造语音检测器性能的基准。通过收集19种先进的商业工具和15种开源工具生成的深度伪造语音,并创建了38种数据变体,涵盖六种类型的操作,构建了评估数据集。VoiceWukong包括265,200个英语和148,200个中文深度伪造语音样本。使用VoiceWukong评估了12种最先进的检测模型,结果显示大多数检测器的等错误率(EER)超过20%,其中AASIST2表现最佳,EER为13.50%。此外,研究团队还进行了大规模的用户研究,涉及300多名参与者,以评估人类和检测器在不同欺骗水平下的识别能力。
➡️ 方法简介:研究团队构建了一个包含英语和中文的深度伪造语音数据集,使用了19种商业工具和15种开源工具生成的语音。数据集通过六种类型的操作(噪声注入、音量控制、时间拉伸、采样率变化、重放和淡入淡出)生成了38种数据变体。每个变体都经过了标准化处理,包括格式统一、采样率标准化、单声道转换、静音去除和音量归一化。
➡️ 实验设计:在构建的数据集上评估了12种最先进的深度伪造语音检测器。实验设计了不同操作(如噪声注入、音量控制等)的变化,以及不同类型的攻击目标(如保护性、有害性、偏见性和中性内容),以全面评估检测器在不同条件下的表现。此外,还进行了大规模的用户研究,涉及300多名参与者,以评估人类和检测器在不同欺骗水平下的识别能力。
LIME: Less Is More for MLLM Evaluation
➡️ 论文标题:LIME: Less Is More for MLLM Evaluation
➡️ 论文作者:King Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shawn Gavin, Tuney Zheng, Jiawei Guo, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Zachary Liu, Xiang Yue, J. H. Liu, Chenghua Lin, Min Yang, Shiwen Ni, Wenhao Huang, Ge Zhang
➡️ 研究机构: M-A-P, 01.ai, University of Manchester, Zhejiang University, NTU, The University of New South Wales, USTC, Dartmouth College, Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Interdisciplinary Centre for Security, Reliability and Trust (SnT), Université du Luxembourg
➡️ 问题背景:多模态大语言模型(MLLMs)在图像描述、视觉问答和推理等任务中表现出色。然而,现有的多模态基准测试包含大量简单或无信息的样本,难以有效区分不同MLLMs的性能。此外,跨多个基准测试评估模型需要大量的计算资源。
➡️ 研究动机:为了更有效地评估MLLMs的性能并减少计算负担,研究团队提出了LIME(Less Is More for MLLM Evaluation),一个经过精简和优化的基准测试。LIME通过半自动管道过滤掉无信息的样本,并消除答案泄露,专注于需要图像理解的任务,以更准确地反映模型的能力。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建LIME基准测试,评估MLLMs在不同任务中的表现。LIME基准测试包含10个子任务,覆盖6个领域,每个子任务的样本数量约为1000个。LIME通过三个主要阶段进行数据精简:1) 使用开源模型作为评估者,2) 半自动筛选过程,3) 消除答案泄露。
➡️ 实验设计:研究团队在LIME基准测试上进行了实验,使用了多种开源和闭源模型。实验设计了不同的输入设置,包括QA + 图像输入、仅文本输入(QA输入)和QA + 图像描述实验。实验结果表明,LIME能够更有效地反映不同MLLMs之间的性能差异,并且在减少样本数量和评估时间的同时,提高了评估的准确性。
VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation
➡️ 论文标题:VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation
➡️ 论文作者:Hanning Chen, Yang Ni, Wenjun Huang, Yezi Liu, SungHeon Jeong, Fei Wen, Nathaniel Bastian, Hugo Latapie, Mohsen Imani
➡️ 研究机构: University of California, Irvine, CA, USA; Texas A&M University, College Station, TX, USA; United States Military Academy, West Point, USA; Cisco, San Jose, CA, USA
➡️ 问题背景:视觉变压器(ViTs)在许多分割模型中作为骨干网络,取得了最先进的性能。然而,ViTs的成功伴随着显著的计算成本,尤其是在高分辨率图像分割任务中。传统的图像令牌修剪方法在处理任务导向的分割(TOS)时效果不佳,因为这些方法主要关注静态语义类别,而TOS任务中每个像素的类别取决于特定的任务。
➡️ 研究动机:现有的图像令牌修剪方法在处理任务导向的分割任务时存在局限性,因为这些方法没有考虑外部推理指导。为了提高ViT模型在TOS任务中的效率,研究团队提出了一种新的视觉语言引导的令牌修剪方法(VLTP),该方法通过多模态大语言模型(MLLM)的指导,加速ViT模型的推理过程,同时保持高推理效能。
➡️ 方法简介:研究团队设计了一种新的修剪解码器,并将其插入ViT的多个选定层中,以提供灵活的多阶段修剪。修剪解码器预测图像令牌与推理任务的相关性,基于相关性预测,VLTP保留具有高相关性的图像令牌,并将其传递到ViT的后续层。此外,被修剪的图像令牌在下一个修剪阶段重新激活,以重新评估令牌的相关性并生成掩码。
➡️ 实验设计:研究团队在两个数据集上进行了实验,包括RIO和COCO-Tasks。实验评估了VLTP框架在不同任务导向的分割任务中的性能,包括常见的和不常见的任务。实验结果表明,VLTP框架在不降低性能的情况下,将ViT的计算成本降低了约25%,在性能下降1%的情况下,计算成本降低了约40%。此外,VLTP集成的分割模型在mIoU指标上比现有方法提高了2.5%。
OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography
➡️ 论文标题:OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography
➡️ 论文作者:Youzhu Jin, Yichen Zhang
➡️ 研究机构: Beijing-Dublin International College, Beijing University of Technology, Beijing, China
➡️ 问题背景:多模态大语言模型(MLLMs)在图像处理领域取得了显著成功,其任务泛化和自由形式的对话能力可以极大地促进医疗诊断辅助,帮助患者更好地理解自己的病情,增强医患信任。然而,传统的AI模型在医疗图像解释方面往往达不到所需的精确度,尤其是在处理复杂的CT图像时,这些模型难以准确解读复杂的纹理特征,限制了其在诊断辅助中的应用。此外,这些模型通常缺乏自由形式的对话交互能力,这对于细致的医疗咨询至关重要。
➡️ 研究动机:为了解决上述挑战,研究团队开发了OrthoDoc,一个专门用于CT诊断的多模态大模型。OrthoDoc通过结合120,000张CT图像及其对应的诊断报告进行训练,不仅能够处理复杂的CT图像,还能存储、理解和推理医学知识和语言。此外,OrthoDoc引入了检索增强生成(RAG)模块,有效减少了模型的幻觉问题,提高了生成的诊断报告的准确性和可靠性。
➡️ 方法简介:OrthoDoc的训练过程分为两个阶段:多模态微调和RAG模块的集成。多模态微调阶段使用CT图像-文本对进行训练,通过ResNet-101提取图像特征,使用BERT生成文本嵌入,并通过跨模态注意力机制将两者整合。RAG模块通过从权威医学文献中检索相关信息,确保生成的文本准确且符合专业标准。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,评估了OrthoDoc在条件识别和报告生成任务中的表现。实验设计了多个评估指标,包括准确率、敏感性、特异性和F1分数,以及内容相关性、事实正确性、完整性和用户满意度。实验结果表明,OrthoDoc在识别常见骨科疾病(如骨折、关节炎和肿瘤)方面显著优于现有的开源和商业模型,准确率超过91%。此外,OrthoDoc在处理罕见和复杂病例时也表现出色,进一步证明了其在临床应用中的实用价值。
Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU
➡️ 论文标题:Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU
➡️ 论文作者:Zhenyu Ning, Jieru Zhao, Qihao Jin, Wenchao Ding, Minyi Guo
➡️ 研究机构: 上海交通大学、复旦大学
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)因其强大的多模态综合能力,在许多实际应用中展现出巨大潜力,如GPT-4o、自动驾驶和机器人技术。然而,多模态输入通常会导致长上下文,这不仅增加了计算复杂度,还导致了高内存消耗和性能下降,尤其是在流式推理场景中,这些问题更加突出。
➡️ 研究动机:现有的多模态大语言模型在处理长上下文时面临显著的内存和计算挑战,限制了其在边缘设备上的应用。研究团队旨在通过提出一种高效的推理框架,解决这些挑战,使MLLMs能够在单个GPU上实现无限上下文的流式推理,从而提高模型在实际应用中的性能和可用性。
➡️ 方法简介:研究团队提出了Inf-MLLM,一种基于“注意力鞍点”(attention saddles)现象的高效推理框架。Inf-MLLM通过动态缓存最近和相关令牌,同时逐出不重要的KV状态,减少了内存使用,提高了解码速度。此外,Inf-MLLM引入了注意力偏置(attention bias),以确保KV缓存能够动态更新,捕捉长期依赖关系。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括纯文本输入和文本/视频输入。实验评估了Inf-MLLM在处理超长文本和多轮视频问答任务中的性能,特别是在内存受限的设备上。实验结果表明,Inf-MLLM在处理超长文本时表现出稳定的困惑度,并在多轮视频问答中显著提高了准确率。