当前位置：首页 > news >正文

网站目录爬行wordpress怎么做信息分类

news 2025/10/8 6:55:37

网站目录爬行,wordpress怎么做信息分类,新手做网站视频教程,wordpress引入外部js摘要：视频多模态大语言模型（Video-MLLMs）在视频理解领域取得了显著进展。然而，这些模型仍易产生与视频输入不一致或不相关的幻觉内容。既往的视频幻觉基准测试主要聚焦于短视频，并将幻觉归因于语言先验过强、帧缺失或视…

摘要：视频多模态大语言模型（Video-MLLMs）在视频理解领域取得了显著进展。然而，这些模型仍易产生与视频输入不一致或不相关的幻觉内容。既往的视频幻觉基准测试主要聚焦于短视频，并将幻觉归因于语言先验过强、帧缺失或视觉编码器引入的视语言偏差等因素。尽管这些原因确实能解释短视频中的大部分幻觉现象，但仍过于简化了幻觉的成因。有时，模型生成的输出结果有误，但帧级语义却正确无误。我们将此类幻觉称为语义聚合幻觉（Semantic Aggregation Hallucination，SAH），它产生于将帧级语义聚合为事件级语义组的过程中。鉴于SAH在长视频中因多事件语义复杂性的增加而尤为突出，因此有必要将此类幻觉与其他类型区分开来，并进行深入研究。为解决上述问题，我们推出了首个专注于长视频幻觉的基准测试——ELV-Halluc，以实现对SAH的系统性探究。实验证实了SAH的存在，并表明其随语义复杂性的增加而增多。此外，我们还发现，模型在语义快速变化的场景下更易产生SAH。此外，我们探讨了缓解SAH的潜在方法。研究表明，位置编码策略有助于减轻SAH，且我们进一步采用直接偏好优化（DPO）策略，提升了模型区分事件内部及跨事件语义的能力。为此，我们精心构建了一个包含8000对对抗性数据的测试集，并在ELV-Halluc和Video-MME上均取得了改进，其中包括SAH比例显著降低27.7%。Huggingface链接：Paper page，论文链接：2508.21496

研究背景和目的

研究背景：

随着视频理解技术的快速发展，视频多模态大型语言模型（Video-MLLMs）在视频内容解析、事件识别和语义理解等方面取得了显著进展。然而，这些模型在处理长视频时仍然面临一个关键挑战——幻觉（Hallucination）问题。幻觉指的是模型生成的内容与视频输入不一致或无关，严重影响了模型的可靠性和实用性。现有的视频幻觉基准测试主要关注短视频（几秒到几十秒），并将幻觉归因于视觉语言错位、帧质量差或采样策略不佳等因素。然而，这些基准测试未能充分探索长视频中的幻觉问题，尤其是语义聚合幻觉（Semantic Aggregation Hallucination, SAH）。

SAH是一种在长视频中尤为突出的幻觉类型，它发生在将帧级语义聚合为事件级语义组的过程中。在长视频中，由于多个事件的时间扩展和语义连贯性，模型容易在跨事件语义归属上出错，导致错误地关联视觉线索和概念。例如，模型可能正确感知每帧的视觉语义，但在将语义分配到不同事件时出错，从而产生与视频内容不一致的描述。

研究目的：

本研究旨在解决长视频理解中的语义聚合幻觉问题，通过引入首个专门针对长视频幻觉的基准测试ELV-Halluc，系统研究SAH现象。具体目标包括：

定义和量化SAH：明确SAH的定义，通过量化长视频中的语义复杂性，揭示SAH在长视频理解中的关键作用。
构建基准测试：开发ELV-Halluc基准测试，提供一套系统评估SAH的数据集和评估指标。
分析SAH模式：通过实验分析SAH的发生模式，探讨其与视频语义复杂性和变化率的关系。
提出缓解策略：探索缓解SAH的有效方法，提高长视频理解模型的可靠性和准确性。

研究方法

1. 基准测试构建：

ELV-Halluc基准测试由500个从YouTube收集的长视频组成，每个视频包含2到10个清晰区分的事件。视频主题涵盖体育、新闻广播、教育、电影片段等多个领域。每个视频经过人工验证，确保事件分割的准确性和语义清晰度。通过半自动化标注流程，生成高质量的地面真实字幕（Ground Truth Captions）和幻觉字幕对（Hallucinated Caption Pairs）。

2. 幻觉字幕生成：

使用GPT-4o生成两种类型的幻觉字幕：

In-video Hallucination：将地面真实字幕中的对象替换为同一视频中其他事件的对象。
Out-video Hallucination：将地面真实字幕中的对象替换为视频中未出现的虚构对象。

每种修改策略生成8,630对幻觉字幕，用于评估模型对SAH的敏感性。

3. 评估指标：

引入SAH比率（SAH Ratio）作为主要评估指标，定义为模型在Out-video问答对上的准确率与In-video问答对上的准确率之差除以（1 - In-video准确率）。该指标反映了模型在处理跨事件语义归属时的错误倾向。

4. 实验设置：

评估了14个开源模型（参数范围从1B到78B）和两个闭源模型（GPT-4o和Gemini2.5Flash）在ELV-Halluc上的表现。通过对比不同模型在In-video和Out-video问答对上的准确率，分析SAH的发生模式和影响因素。

5. 缓解策略探索：

位置编码策略：评估不同位置编码策略（如VideoRoPE）对缓解SAH的效果。
直接偏好优化（DPO）：采用DPO策略，通过构造正负响应对，优化模型对正确事件语义的偏好。

研究结果

1. SAH的存在和模式：

实验结果表明，SAH在长视频理解中普遍存在，且随着语义复杂性的增加而加剧。模型在处理快速变化的语义时更容易出现SAH。例如，在视觉细节、动作和对象等低级语义方面，SAH比率显著高于声明性内容等高级语义。

2. 模型性能对比：

不同模型在ELV-Halluc上的表现差异显著。较大的模型通常具有更高的整体准确率，但对SAH的敏感性并未显著降低。例如，Qwen2.5-VL-32B模型在所有模型中SAH比率最低，但仍达到0.2%。

3. 缓解策略效果：

位置编码：强化位置编码策略（如VideoRoPE）显著降低了SAH比率，表明更强的位置绑定能力有助于减少语义聚合错误。
DPO优化：采用DPO策略后，模型在In-video问答对上的准确率显著提高，SAH比率降低了27.7%。同时，模型在VideoMME基准测试上的整体性能也有所提升（+0.9%）。