当前位置: 首页 > news >正文

网站目录爬行wordpress怎么做信息分类

网站目录爬行,wordpress怎么做信息分类,新手做网站视频教程,wordpress引入外部js摘要:视频多模态大语言模型(Video-MLLMs)在视频理解领域取得了显著进展。然而,这些模型仍易产生与视频输入不一致或不相关的幻觉内容。既往的视频幻觉基准测试主要聚焦于短视频,并将幻觉归因于语言先验过强、帧缺失或视…

摘要:视频多模态大语言模型(Video-MLLMs)在视频理解领域取得了显著进展。然而,这些模型仍易产生与视频输入不一致或不相关的幻觉内容。既往的视频幻觉基准测试主要聚焦于短视频,并将幻觉归因于语言先验过强、帧缺失或视觉编码器引入的视语言偏差等因素。尽管这些原因确实能解释短视频中的大部分幻觉现象,但仍过于简化了幻觉的成因。有时,模型生成的输出结果有误,但帧级语义却正确无误。我们将此类幻觉称为语义聚合幻觉(Semantic Aggregation Hallucination,SAH),它产生于将帧级语义聚合为事件级语义组的过程中。鉴于SAH在长视频中因多事件语义复杂性的增加而尤为突出,因此有必要将此类幻觉与其他类型区分开来,并进行深入研究。为解决上述问题,我们推出了首个专注于长视频幻觉的基准测试——ELV-Halluc,以实现对SAH的系统性探究。实验证实了SAH的存在,并表明其随语义复杂性的增加而增多。此外,我们还发现,模型在语义快速变化的场景下更易产生SAH。此外,我们探讨了缓解SAH的潜在方法。研究表明,位置编码策略有助于减轻SAH,且我们进一步采用直接偏好优化(DPO)策略,提升了模型区分事件内部及跨事件语义的能力。为此,我们精心构建了一个包含8000对对抗性数据的测试集,并在ELV-Halluc和Video-MME上均取得了改进,其中包括SAH比例显著降低27.7%。Huggingface链接:Paper page,论文链接:2508.21496

研究背景和目的

研究背景

随着视频理解技术的快速发展,视频多模态大型语言模型(Video-MLLMs)在视频内容解析、事件识别和语义理解等方面取得了显著进展。然而,这些模型在处理长视频时仍然面临一个关键挑战——幻觉(Hallucination)问题。幻觉指的是模型生成的内容与视频输入不一致或无关,严重影响了模型的可靠性和实用性。现有的视频幻觉基准测试主要关注短视频(几秒到几十秒),并将幻觉归因于视觉语言错位、帧质量差或采样策略不佳等因素。然而,这些基准测试未能充分探索长视频中的幻觉问题,尤其是语义聚合幻觉(Semantic Aggregation Hallucination, SAH)。

SAH是一种在长视频中尤为突出的幻觉类型,它发生在将帧级语义聚合为事件级语义组的过程中。在长视频中,由于多个事件的时间扩展和语义连贯性,模型容易在跨事件语义归属上出错,导致错误地关联视觉线索和概念。例如,模型可能正确感知每帧的视觉语义,但在将语义分配到不同事件时出错,从而产生与视频内容不一致的描述。

研究目的

本研究旨在解决长视频理解中的语义聚合幻觉问题,通过引入首个专门针对长视频幻觉的基准测试ELV-Halluc,系统研究SAH现象。具体目标包括:

  1. 定义和量化SAH:明确SAH的定义,通过量化长视频中的语义复杂性,揭示SAH在长视频理解中的关键作用。
  2. 构建基准测试:开发ELV-Halluc基准测试,提供一套系统评估SAH的数据集和评估指标。
  3. 分析SAH模式:通过实验分析SAH的发生模式,探讨其与视频语义复杂性和变化率的关系。
  4. 提出缓解策略:探索缓解SAH的有效方法,提高长视频理解模型的可靠性和准确性。

研究方法

1. 基准测试构建

ELV-Halluc基准测试由500个从YouTube收集的长视频组成,每个视频包含2到10个清晰区分的事件。视频主题涵盖体育、新闻广播、教育、电影片段等多个领域。每个视频经过人工验证,确保事件分割的准确性和语义清晰度。通过半自动化标注流程,生成高质量的地面真实字幕(Ground Truth Captions)和幻觉字幕对(Hallucinated Caption Pairs)。

2. 幻觉字幕生成

使用GPT-4o生成两种类型的幻觉字幕:

  • In-video Hallucination:将地面真实字幕中的对象替换为同一视频中其他事件的对象。
  • Out-video Hallucination:将地面真实字幕中的对象替换为视频中未出现的虚构对象。

每种修改策略生成8,630对幻觉字幕,用于评估模型对SAH的敏感性。

3. 评估指标

引入SAH比率(SAH Ratio)作为主要评估指标,定义为模型在Out-video问答对上的准确率与In-video问答对上的准确率之差除以(1 - In-video准确率)。该指标反映了模型在处理跨事件语义归属时的错误倾向。

4. 实验设置

评估了14个开源模型(参数范围从1B到78B)和两个闭源模型(GPT-4o和Gemini2.5Flash)在ELV-Halluc上的表现。通过对比不同模型在In-video和Out-video问答对上的准确率,分析SAH的发生模式和影响因素。

5. 缓解策略探索

  • 位置编码策略:评估不同位置编码策略(如VideoRoPE)对缓解SAH的效果。
  • 直接偏好优化(DPO):采用DPO策略,通过构造正负响应对,优化模型对正确事件语义的偏好。

研究结果

1. SAH的存在和模式

实验结果表明,SAH在长视频理解中普遍存在,且随着语义复杂性的增加而加剧。模型在处理快速变化的语义时更容易出现SAH。例如,在视觉细节、动作和对象等低级语义方面,SAH比率显著高于声明性内容等高级语义。

2. 模型性能对比

不同模型在ELV-Halluc上的表现差异显著。较大的模型通常具有更高的整体准确率,但对SAH的敏感性并未显著降低。例如,Qwen2.5-VL-32B模型在所有模型中SAH比率最低,但仍达到0.2%。

3. 缓解策略效果

  • 位置编码:强化位置编码策略(如VideoRoPE)显著降低了SAH比率,表明更强的位置绑定能力有助于减少语义聚合错误。
  • DPO优化:采用DPO策略后,模型在In-video问答对上的准确率显著提高,SAH比率降低了27.7%。同时,模型在VideoMME基准测试上的整体性能也有所提升(+0.9%)。

研究局限

1. 数据集规模和多样性

尽管ELV-Halluc基准测试包含了500个长视频,但相对于真实世界中的长视频多样性而言,数据集规模仍然有限。此外,半自动化标注流程可能引入Gemini生成字幕的偏差,影响评估结果的普遍性。

2. 基准测试的真实性

ELV-Halluc中的视频通过事件分割简化了语义复杂性,但与真实世界中的长视频相比,仍存在一定差距。真实长视频中的事件过渡可能更加模糊和复杂,增加了语义聚合的难度。

3. 缓解策略的局限性

尽管位置编码和DPO策略在一定程度上缓解了SAH问题,但并未完全消除幻觉现象。未来的研究需要探索更有效的缓解方法,进一步提高长视频理解模型的可靠性。

未来研究方向

1. 扩大数据集规模和多样性

未来的研究可以进一步扩大ELV-Halluc数据集的规模,增加更多主题和场景的长视频,提高评估结果的普遍性和鲁棒性。同时,可以探索完全自动化的标注流程,减少人工标注成本。

2. 改进基准测试设计

可以设计更复杂的基准测试,模拟真实世界中的长视频场景,增加事件过渡的模糊性和复杂性。此外,可以引入多模态评估指标,综合考虑视觉、语言和音频等多方面的信息,提高评估的全面性。

3. 探索更有效的缓解策略

除了位置编码和DPO策略外,可以探索其他缓解SAH的方法,如引入外部知识库、加强跨模态交互学习等。同时,可以研究如何结合多种缓解策略,形成更全面的幻觉抑制方案。

4. 加强模型可解释性研究

未来的研究可以加强模型可解释性方面的探索,揭示模型在处理长视频时的内部机制和决策过程。通过可解释性研究,可以更好地理解SAH的发生原因,为设计更有效的缓解策略提供依据。

5. 跨领域应用探索

可以将ELV-Halluc基准测试和缓解策略应用于其他视频理解任务中,如视频摘要、视频问答等,验证其普遍性和有效性。通过跨领域应用探索,可以进一步推动长视频理解技术的发展和应用。

http://www.dtcms.com/a/453439.html

相关文章:

  • 专题三:二分查找~
  • 360小工具合集,用39个小工具
  • GreenTuber 0.1.7.6| 纯净无广的油管第三方,支持4K下载
  • UVa 235 Typesetting
  • 东莞营销网站建设哪个平台好十大app排行榜
  • asp网站开发工具现在的企业一般用的什么邮箱
  • 企业区块链重新崛起
  • 【SSH】同一局域网下windows使用Xshell SSH连接另一台 ubuntu 22.04 电脑
  • [随手记] docker 镜像拉取记录
  • Ruoyi 赋能,百度天气不止当下:打造面向未来的预报实战
  • 网站搭建流程负责人长春制作网站哪家好
  • 日语学习-日语知识点小记-进阶-JLPT-N1阶段应用练习(7):语法 +考え方20+2022年7月N1
  • 天天爱天天做网站广告联盟没有网站怎么做
  • 1688 关键词搜索接口深度开发:从精准匹配到供应链筛选的技术实现
  • 网站多域名怎么做绿色网站模板大全
  • 深入理解 Vue 3 组件间数据传递的多种方式
  • 华威桥网站建设wordpress去除更新
  • .net 网站生成安装文件目录asp运行wordpress
  • 免费手机网站模板网站开发设计框图
  • 自助建站官网wordpress免费主机空间
  • systemd-resolved.service实验实战2
  • 基于 GEE 的 GWCCI 指数大豆识别与制图研究
  • Python argparse库介绍(内置的命令行参数解析库)(未检查)
  • JMeter之 json提取器与json path语法
  • 深度学习之神经网络2(Neural Network)
  • 做UI设计的网站网站界面设计尺寸
  • Python全栈(基础篇)——Day06:后端内容(定义函数+调用函数+实战演示+每日一题)
  • C++算法·贪心例题讲解
  • 成都正规集团网站制作维护商业综合体
  • 网站做生鲜线下推广建议wordpress可视化编辑主题