当前位置：首页 > news >正文

测试时扩散的深度研究助手

news 2025/11/17 6:30:34

摘要

https://arxiv.org/pdf/2507.16075

由大语言模型（LLMs）驱动的深度研究助手正在迅速发展，然而，在使用通用的测试时扩展算法生成复杂的长篇研究报告时，其性能往往会趋于平稳。受人类研究迭代性的启发，人类研究包括搜索、推理和修订的循环过程，我们提出了测试时扩散深度研究助手（Test-Time Diffusion Deep Researcher，TTD-DR）。这一新框架将研究报告的生成视为一个扩散过程。TTD-DR以初步草稿为起点，这一可更新的框架作为不断演进的基础，引导研究方向。随后，草稿通过一个“去噪”过程进行迭代完善，这一过程由检索机制动态提供信息，在每一步都融入外部信息。核心过程还通过应用于智能体工作流程各组件的自进化算法进一步增强，确保为扩散过程生成高质量的上下文。这种以草稿为中心的设计使报告撰写过程更加及时和连贯，同时减少了迭代搜索过程中的信息丢失。我们证明，我们的TTD-DR在需要密集搜索和多跳推理的广泛基准测试中取得了最先进的成果，显著优于现有的深度研究助手。

1 引言

得益于近期大语言模型的进步，构建深度研究（Deep Research，DR）助手在研究和工业界迅速受到关注。这些助手展现出卓越的能力，包括提出新颖的想法（Hu等人，2024年；Si等人，2024年）、通过搜索工具有效收集信息（Jin等人，2025年；Li等人，2025a），以及在撰写研究报告或论文之前进行分析或实验（Yamada等人，2025年；Zheng等人，2024年）。现有的深度研究助手主要利用测试时扩展方法，如思维链（Chain-of-Thought，CoT）（Wei等人，2022年）、 $n$ 中选优采样（best-of- $n$ sampling）（Ichihara等人，2025年）、蒙特卡洛树搜索（Monte Carlo Tree Search）（Swiechowski等人，2022年）、辩论机制（Liang等人，2023年）和自完善循环（Madaan等人，2023年）。尽管取得了令人瞩目的进展，但大多数流行的公开深度研究助手（Alzubi等人，2025年；Researcher，2025年；Roucher等人，2025年）只是简单地将这些测试时算法和各种工具组合在一起，而没有根据人类写作时的认知行为进行精心设计，并且通常缺乏赋予人类研究者能力的有原则的草稿、搜索和反馈机制。这表明当前深度研究助手工作存在根本性局限，并凸显了对更连贯、专为深度研究助手设计的框架的需求，该框架能够模仿或超越人类的研究能力。

在这里插入图片描述

先前的认知研究表明，当人类撰写关于复杂主题的内容时，他们并非遵循线性过程，从第一个字写到最后一个字。如图1（Chitwood，2022年）所示，人们通常首先制定一个高层次的计划，然后根据该计划草拟研究报告，随后进行多次修订循环（Flower和Hayes，1981年）。至关重要的是，在修订阶段，作者经常查找文献或使用搜索工具收集补充信息，以完善和加强他们的论点（Catalano，2013年）。

我们发现，这种人类写作模式与通过检索增强的扩散模型中的采样过程（Zhang等人，2023年）惊人地相似。在这个类比中，训练好的扩散模型最初生成一个带有噪声的草稿，而去噪模块在检索工具的辅助下，将该草稿修订为更高质量（或更高分辨率）的输出。受这种扩散采样范式（Shen等人，2025年；Yang等人，2022年）的启发，我们提出了深度研究助手的测试时扩散（TTD）方法。我们的框架将整个研究报告的生成精心建模为一个迭代扩散过程，模拟人类的认知模式。由于普通的扩散采样对于生成复杂研究任务的高质量输出可能效果不佳，我们专门设计了由两种机制组成的TTD深度研究助手，如图2所示，并在下文详细介绍。

（a）带检索的去噪（Zhang等人，2023年）：最初的研究报告主要基于大语言模型的内部知识草拟，然后进行迭代完善。去噪后的草稿与研究计划（阶段1）一起指导下游的研究方向。每个去噪步骤都通过有针对性地检索外部信息（阶段2）进行增强，显著提高了准确性和全面性。（b）自进化（Lee等人，2025年；Novikov等人，2025年）：除了通过草稿进行报告层面的扩散外，智能体工作流程中的每个单独组件（例如，计划、问题、答案和报告生成）都经历自己的优化过程。这鼓励探索多样化的知识，减轻长智能体轨迹中每个单元智能体的信息丢失，从而为报告扩散提供更有利的上下文。这两种算法的复杂相互作用和协同组合对于实现高质量的研究成果至关重要。

先前的工作主要集中在科学论文撰写助手（Chen等人，2025年；Gottweis等人，2025年；Lu等人，2024年；Tang等人，2025年；Yamada等人，2025年），特别强调生成学术出版物。最近，研究范围已扩大到通用研究助手（Li等人，2025b；Zheng等人，2025年），这些助手旨在满足更广泛的信息搜索和推理用例。与这些现有工作不同，我们的工作引入了一种专为更广泛应用而设计的深度研究助手。具体而言，我们开发了一种研究伙伴，能够为跨多个行业领域的复杂研究问题生成有用且全面的报告，包括金融、生物医学、娱乐和技术领域（Han等人，2024年），类似于OpenAI（2025年）、Perplexity（2025年）和Grok（2025年）提供的深度研究产品。我们的框架针对当前最先进的大语言模型无法仅凭其内部知识或使用传统搜索工具完全解决的搜索和推理密集型用户查询。我们总结了我们的主要贡献如下：

我们提出了测试时扩散深度研究助手（TTD-DR），这是一种新颖的测试时扩散框架，能够实现研究报告的迭代草拟和修订，从而在研究过程中实现更及时和连贯的信息整合，同时减少信息丢失。

我们仅使用对大多数智能体系统易于获取的搜索工具对TTD-DR进行压力测试，无需集成额外的专有工具（例如，多模态、网页浏览）。

我们为深度研究助手建立了严格的评估方法，采用全面的指标和专家评估人员。我们的实验表明，对于需要撰写长篇且全面的研究报告或需要多跳搜索和推理以确定简洁答案的任务，TTD-DR显著优于各种领先的研究助手。

我们进行了全面的消融研究和深入分析，以阐明TTD-DR各组件的单独贡献，并证明其在超越领先深度研究助手方面的有效性。

2 测试时扩散深度研究者（TTD-DR）

我们的方法——测试时扩散深度研究者（Test-Time Diffusion Deep Researcher，TTD-DR），其灵感源自人类研究的迭代特性，该特性涉及规划、起草、信息搜索和修订的循环过程。我们将复杂研究报告的生成过程概念化为一种扩散过程，即从初始的、有噪声的草稿逐步优化为高质量的最终输出。这一过程通过两种协同运作的核心机制实现：（1）通过检索去噪进行报告层面的优化，在此过程中整个报告草稿不断演变；（2）通过自我进化进行组件层面的优化，此过程可提升研究工作流程中每个步骤的质量。
在这里插入图片描述

TTD-DR框架旨在解决现有深度研究（Deep Research，DR）智能体的局限性。如图3所示，许多公开的智能体，如Huggingface Open DR（Roucher等人，2025年）、GPT（Researcher，2025年）Researcher和Open Deep Research（Alzubi等人，2025年），采用线性或并行化的规划、搜索和生成流程。这可能导致在研究过程中丢失全局上下文信息，并错过关键依赖关系。我们以草稿为中心的迭代方法能保持连贯性，并为研究方向提供动态指导，从而减少信息丢失。OpenAI（2025年）、Perplexity（2025年）和Grok（2025年）的专有DR在很大程度上仍属于黑箱。

2.1 骨干深度研究智能体

图4展示了我们骨干深度研究智能体的架构，该架构由3个主要阶段和多个关键组件构成，形成智能体框架：单元大语言模型（Large Language Model，LLM）智能体、工作流程和智能体状态。下面将详细介绍这些内容。

在这里插入图片描述

阶段1：研究计划生成是一个专用单元LLM智能体，它在接收到用户查询后生成结构化的研究计划。该计划概述了最终报告所需的关键领域列表，作为指导后续信息收集过程的初始框架。研究计划生成后，将被保存在智能体状态中，然后传递给其子智能体。

阶段2：迭代搜索与合成是一个嵌套在父级顺序工作流程中的循环工作流程。它包含两个子智能体：搜索问题生成（阶段2a）根据研究计划、用户查询以及先前搜索迭代（即过去的问题和答案）的上下文来制定搜索查询。答案搜索（阶段2b）搜索可用资源（如谷歌搜索）以查找相关文档，并返回总结性答案。此循环（阶段2a → 阶段2b）持续进行，直到研究计划得到充分覆盖或达到最大迭代次数。

阶段3：最终报告生成是父级顺序工作流程（阶段 $2→Stage2\rightarrow{\mathsf{S t a g e}}$ 3）中的一个单元LLM智能体，它通过综合所有收集到的结构化信息来生成全面且连贯的最终报告，这些信息包括阶段1的计划以及阶段2的一系列问答对。

2.2 组件层面的自我进化

上述骨干DR智能体决定了整体研究方向（阶段1），并为最终报告撰写（阶段3）提供上下文和信息（阶段2）。我们提高了每个阶段智能体的性能，以发现并保留高质量的上下文。为实现这一目标，我们利用自我进化算法来改进每个阶段的智能体。图5展示了我们受近期自我进化研究（Lee等人，2025年；Novikov等人，2025年）启发提出的算法。这里我们以搜索答案生成为例，但该算法可应用于所有阶段的智能体，如计划生成、搜索问题生成甚至最终报告生成，以提高它们的输出质量。该算法在一个并行工作流程中实现，该工作流程包含以下顺序和循环工作流程。

在这里插入图片描述

初始状态。最左侧的模块根据前一阶段的输出生成输出的多个不同变体（例如，针对搜索查询的多个可能答案）。每个模块都通过单元LLM智能体实现，允许使用不同参数（如温度、top_k）对多个答案进行采样，以探索更大的搜索空间。这理想情况下有助于发现可能更有价值的信息。
环境反馈。每个答案变体都由一个作为评判者的LLM进行评估，该评判者利用自动评分器对“有帮助性”和“全面性”等指标进行评分。这些评分器不仅提供适应度得分，还生成文本批评意见，有助于改进答案。
修订步骤。根据上一步骤的得分和反馈，每个变体进行修订，以获得更好的适应度得分。“环境反馈”和“修订”步骤重复进行，直到满足停止准则，形成一个循环工作流程。
交叉。最后，将多个修订后的变体合并为一个高质量的输出。此合并过程整合了所有进化路径中的最佳信息，为主报告生成过程提供了更优质的上下文。合并提示可在附录A.5中找到。

虽然自我进化提高了每个组件输出的质量，但在搜索过程完成之前，这些信息并未纳入最终报告。这一延迟促使我们采用第二种机制——检索去噪，该机制以更及时、连贯的方式整合智能体的发现，从而有效指导研究方向。

2.3 通过检索进行报告层面的去噪

受扩散模型中采样过程的启发，在扩散模型中，有噪声的图像会经过迭代优化，我们提示LLM根据用户查询生成初始报告草稿。如图2所示，此草稿作为“有噪声”的起点。然而，正如先前研究指出的，在没有外部上下文的情况下让模型对其自身输出进行去噪，可能导致收敛缓慢和结果欠佳（Shen等人，2025年；Yoon等人，2025年；Zhang等人，2023年）。对于复杂的研究查询尤其如此，此时来自搜索工具的外部信息对于改进草稿至关重要。这一观察促使我们设计了一种检索增强去噪过程，该过程直接与2.1节中介绍的骨干DR工作流程相连。

具体而言，如算法1所示，我们将当前报告草稿输入骨干DR工作流程的阶段2a，以指导下一个搜索查询的生成（第2行）。在阶段2b获得综合答案后（第4行），使用新信息修订报告草稿，可通过添加新细节或验证现有信息来实现（第6行）。此过程——将去噪后的报告反馈回去以生成下一个搜索查询——在连续循环中重复进行。草稿不断进行“去噪”，直到搜索过程结束，此时最终智能体根据所有历史搜索答案和修订内容撰写最终报告（阶段3）。

在这里插入图片描述

总之，这种持续的反馈循环，即不断演变的草稿指导搜索，而搜索又优化草稿，确保报告保持连贯性，研究保持正轨。搜索过程结束后，根据完整的修订和检索答案历史记录生成最终的“去噪”报告。组件层面的自我进化和报告层面的扩散过程之间的协同作用至关重要，使TTD-DR能够取得最先进的成果。

3 实验设置

为了严格评估我们的测试时扩散深度研究器（Test-Time Diffusion Deep Researcher，TTD-DR），我们建立了一个全面的实验框架。本节将详细介绍评估指标、用于基准测试的数据集以及我们实现方法的具体细节。

3.1 评估指标

我们的深度研究（Deep Research，DR）智能体本质上是一个复杂的多智能体系统。该系统的每个阶段都会生成较长的回复，最终智能体将这些回复连贯地组合起来，为用户生成一份全面的报告。

由于需要验证的事实数量庞大、长期逻辑依赖关系复杂，并且大型语言模型（Large Language Model，LLM）和人类评判者都存在主观性（Han等人，2024；Li等人，2024；Si等人，2024），因此评估长文本LLM回复和复杂的智能体轨迹具有重大挑战。为确保评估者的质量和效率，我们收集了高质量的人类评判注释，使用根据人类偏好校准过的“LLM作为评判者（LLM-as-a-judge）”方法，并将校准后的“LLM作为评判者”作为最终评估者。下文将详细介绍评估指标。

有用性（Helpfulness）和全面性（Comprehensiveness）是评估长文本LLM回复最常用的两个指标，特别是在研究输出方面（Coelho等人，2025；Lim等人，2025；Schmidgall等人，2025）。因此，我们采用了这两个指标，并基于它们构建了一个新的并排质量比较框架。有用性由以下四个标准定义：1）满足用户意图；2）易于理解（流畅性和连贯性）；3）准确性；4）语言恰当。全面性定义为不存在关键信息缺失。如果需要，允许进行网页搜索以更好地理解查询。报告有用性和全面性等级的确定准则见附录A.1。

并排质量比较（也称为成对评估）是一种广泛采用的评估长文本LLM回复的方法（Han等人，2024；Li等人，2024；Liu等人，2024；Si等人，2024）。要求评估者根据有用性和全面性，从两份报告（A和B）中选出偏好的一份，使用以下评分标准：1）若A比B更有用且更全面，则A“好得多”；2）若A比B更有用且与B一样全面，或A比B更全面且与B一样有用，则A“更好”；3）若A比B更有用但不如B全面，则A“略好”；否则，若以上条件均不满足，则选择4）“大致相同”。当B比A更好时，同样适用上述逻辑。我们自定义的人类注释界面见附录A.2。每对报告评分两次，以计算人类评估者之间的一致性。然后，我们使用与人类指令相同的“LLM作为评判者”方法，使其评分与人类评分保持一致。我们将在下一小节中讨论更多校准细节。

正确性（Correctness）用于评估我们的多跳短文本问答（Question Answering，QA）任务（Phan等人，2025）。对于此类任务，我们可以简单地提示LLM将智能体生成的长文本答案与给定的真实答案进行比较。我们遵循标准的评估提示¹，首先从LLM的回复中提取一个答案，然后将提取的答案与真实答案进行比较。

3.2 “LLM作为评判者”的校准

鉴于LonGFoRM ReSeARcH和DeEPConsuLt基准测试中长文本回复缺乏真实答案，利用“LLM作为评判者”进行可扩展评估是一种常见做法（Coelho等人，2025；Han等人，2024；Lim等人，2025；Schmidgall等人，2025；Si等人，2024）。然而，大多数先前关于DR智能体的研究并未专门使用人类评估者对“LLM作为评判者”的质量进行校准，这引发了人们对自动评估者可靠性的质疑。

相比之下，我们通过将DR智能体生成的200份报告与OpenAI深度研究（Deep Research）生成的报告进行比较，使“LLM作为评判者”的评分与人类评分保持一致。然后，我们使用与人类并排比较评估类似的评估者提示，并计算自动评估者与人类评估者之间的一致性得分。附录A.3中的表3提供了我们选择Gemini-1.5-pro作为“LLM作为评判者”的详细信息和结果。
在这里插入图片描述

对于用于评估HLE和GAiA数据集的“正确性”自动评估者，我们并未使用人类评分对其进行校准。这是因为这些任务存在官方评估提示，并且我们通过遵循原始提示，与研究界保持一致。此外，这两个基准测试中的所有答案都有直接了当的真实答案，简化了对LLM回复正确性的判断。因此，对于这些特定任务，我们使用Gemini-1.5-pro作为评估模型，而无需进一步的人类校准。

3.3 数据

我们选择的基准测试侧重于两大任务。1）需要研究智能体生成长文本全面报告的复杂查询（LongForm Research和DeepConsult）；2）需要广泛搜索和推理才能回答的多跳查询（HLE和GAIA）。这两类任务都符合我们构建一个类似于OpenAI深度研究（OpenAI，2025）和PeRPLEXiTY深度研究（Perplexity，2025）的通用型、现实世界研究助手的目标。值得注意的是，如图7a和附录中的12a所示，这两项任务可能都需要多达20个搜索步骤（跳数）才能完全解决用户查询。如果其他数据集不需要广泛搜索（例如，仅需几个搜索步骤），例如长文本检索增强生成问答（Retrieval-Augmented Generation Question Answering，RAG-QA）（Han等人，2024；Stelmakh等人，2022）和短文本多跳问答（Trivedi等人，2022；Yang等人，2018），则不在本研究范围内。这同样适用于那些并非针对通用型研究报告生成的数据集，例如Ai-Researcher（Tang等人，2025）。此外，我们专注于搜索工具的使用，将浏览和编码等其他工具的整合留待未来研究。

长文本研究（LongForm Research）。为了将我们的DR智能体系统与其他基线系统进行基准测试，我们首先整理了一组需要搜索和复杂推理的授权真实世界查询。该数据集最能代表我们的目标用例，即用户需要深入研究以创建有用且全面的报告。如图6所示，该评估集包含205个查询，涵盖多个行业领域。

DeepConsult（Lim等人，2025）是一组用于深度研究的商业和咨询相关提示词。该查询集涵盖了广泛的主题，包括市场营销、金融、技术趋势和商业规划。

人类终极考试（Humanity’s Last Exam，HLE）（Phan等人，2025）是一个包含2500个极具挑战性的问题的基准测试，这些问题跨越了几十个学科领域，旨在作为广泛学术能力的最终封闭式基准测试。我们专注于纯文本子集，将多模态留待未来研究。我们将该数据集命名为HLE-FULL。

在这里插入图片描述

HLE-search。HLE数据集中的大量查询无需广泛搜索即可解决。为了更好地对我们的搜索与推理目标用例进行基准测试，我们从HLE中筛选出了对搜索能力要求最高的查询。具体而言，我们提示Gemini-1.5-pro模型将所有查询分类为[a]纯推理类和[b]需要搜索类。所使用的提示词见附录A.4。最后，我们从[b]类中随机抽样了200个查询。如表2所示，LLM在这个精心挑选的子集上的性能明显低于完整数据集。其问题领域分布也可参见图6。因此，我们认为HLE-SeARcH更适合作为我们研究重点的基准测试。

GAIA（Mialon等人，2023）是另一个公开基准测试，用于评估人工智能在现实世界问题上的表现，涵盖了三个难度级别的问题。成功完成这些任务需要推理、多模态流畅性、网页浏览和工具使用熟练度等能力。我们使用该评估集与其他基线系统进行比较。

3.4 实现细节

智能体框架。为了实现我们的TTD-DR，我们需要一个模块化且易于扩展的智能体系统，该系统能够利用领先的LLM（如Gemini-2.5-pro）来无缝协调工作流程、调用工具和执行任务。谷歌智能体开发工具包（Agent Development Kit，ADK）²是最近发布的一个智能体开发平台，满足所有这些要求。第2节中描述的所有组件都可以使用ADK轻松实现。因此，我们选择基于ADK构建深度研究器。

我们将最大去噪检索步骤数固定为20。自进化（SeLFEvoLUTion）算法的其他超参数见附录A.6。我们使用谷歌搜索³实现第2b阶段的检索增强生成（Retrieval-Augmented Generation，RAG）系统。

3.5 对比系统

我们将我们的研究助手（Research Assistant，RA）系统与市场上的领先RA智能体进行了比较：OpenAI深度研究（OpenAI，2025）、PeRPlEXiTY深度研究（Perplexity，2025）、GRoκ深度搜索（Grok，2025）、OPen深度搜索（Alzubi等人，2025）和GPT-RESEARCHER（Researcher，2025）。对于没有应用程序编程接口（Application Programming Interface，API）支持的DR智能体，我们手动抓取并保存了它们的原始输出。

在这里插入图片描述

在消融研究中，我们将基线LLM（Gemini-2.5-pro和Gemini-2.5-flash）及其包含简单搜索工具（简单RAG）的变体进行了比较。对于我们的DR智能体，我们比较了以下几种。1）基础DR智能体是我们没有任何测试时扩展算法的基础DR智能体。2）+自进化和3）+带检索的去噪是我们通过提出的测试时扩展算法增强的两种DR智能体变体。我们的DR智能体使用Gemini-2.5-pro作为基础模型。所有其他基线智能体都使用其默认的LLM（例如，OpenAI DR使用o3）。

4 结果与分析

4.1 主要结果

表1展示了我们的TTD-DR与其他DR系统的性能比较。我们的TTD-DR在所有基准测试中始终取得优异结果。具体而言，与OpenAI DeeP ReSEARCH相比，在两项长篇研究报告生成任务的并排比较中，我们的方法分别取得了69.1%和74.5%的胜率。此外，在三个包含短篇真实答案的广泛研究数据集上，其性能分别比OpenAI DeeP ReSEARCH高出4.8%、7.7%和1.7%。图8进一步展示了在两项长篇研究任务中，有用性（Helpfulness）和全面性（Comprehensiveness）自动评分器的得分情况，其中我们的TTD-DR也超过了OpenAI DEEP ReSEARCH，尤其是在LoNGFoRM ReSEARCH数据集上。

表2展示了DR智能体的消融研究。显然，即使是最先进的具备强大推理能力的大型语言模型（LLM），如GeMiNi-2.5-flASH和GEMiNi-2.5-Pro，在没有任何搜索工具的情况下，性能也很差。例如，在精心策划的HLE-SeARcH数据集上，尽管GEMiNi2.5-Pro在整个HLE数据集上表现出相对较好的结果（20.9%），但其准确率仅为8.6%。当使用搜索工具增强基础LLM时，两者的性能都显著提高，尽管其结果仍远低于OpenAI DeEP ReSeARcH。
在这里插入图片描述

现在，考察三个具备自主决策能力的DR智能体，基础DR智能体相较于使用搜索工具的LLM有显著改进，但性能仍不如OPenAI DEEP ReSEARCH。加入所提出的SeLF-EvOLUTion算法后，我们发现对于LonGFoRM ReSEARCH和DEEPConSulT，我们的系统分别以60.9%和59.8%的胜率超过了OPenAI DeeP ReSEARCH。在两个HLE数据集上的正确率得分相较于OpenAI DR也分别提高了1.5%和2.8%，尽管我们在GAIA数据集上的表现仍比OpenAI DR低4.4%。最后，纳入DiffUsiON wiTH ReTRiEvaL后，在所有基准测试中，相较于OpenAI DEeP ReSeARCH均取得了显著提升。

此外，我们绘制了系统的帕累托前沿，以研究延迟与性能之间的权衡。在图7b中，x轴表示以秒为单位的 $log_{10}$ 值。左侧y轴显示了在LonGFoRM ReESEARcH上，我们的TTD-DR相对于OpenAI DR的胜率。从左到右的数据点分别代表GEMiNi-2.5-Pro W/ SEARCH TOOl、DR-AGeNt-BaSE、+Self-EvolUTiON和+DiffUSiON wiTH ReTRiEvaL，随着延迟的增加。凸形，特别是最后两个点的向上倾斜趋势，表明我们提出的两个算法在单位延迟增加的情况下提供了更多的性能增益。这表明，带检索的去噪算法和自进化算法都是测试时扩展的有效算法。

4.2 分析

本节深入探讨了我们的两种提出方法如何有助于改进DR智能体。

自进化算法对基础DR的改进。图9展示了在DeePConsulT上搜索查询和答案的累积复杂度比较。复杂度通过LLM（Gemini-2.5-pro）提取的关键点来衡量。

在这里插入图片描述

我们观察到，自进化算法显著增加了搜索过程的复杂度，从而丰富了收集到的信息，进而提高了最终报告的质量。

我们的最终扩散算法允许对中间报告进行修订和保存，使我们能够评估报告的逐步质量，如图7a所示。通过增加计算资源，添加更多的搜索和修订步骤，我们相较于OpenAI Deep Research取得了越来越显著的增益。HLE-SeARCH的结果见附录A.11。接下来，我们旨在理解带检索的去噪算法在自进化算法基础上的这些改进中所做的贡献。

带检索的去噪算法对自进化算法的改进。图10a展示了在DeEPConsUlt上搜索查询新颖性的累积比较。新颖性通过累积新生成点（由Gemini-2.5-pro使用提示A.9提取）的百分比来衡量。我们可以观察到，在整个搜索和修订过程中，带检索的去噪算法通过将修订后的报告作为指导来探索新查询，使查询新颖性提高了超过12个百分点。在图10b中，我们展示了在早期搜索和修订步骤中，答案中的报告归因情况（使用Gemini-2.5-pro和提示A.10计算）。值得注意的是，在第9步，带检索的去噪算法已经融入了最终报告信息的51.2%，并且在胜率上比自进化算法（20个搜索步骤）高出4.2%（图10c中的最后一个点）。这些结果表明，带检索的去噪算法有效地利用了早期阶段的信息，从而在智能体学习效率最高的时候及时保留了知识，如图7a所示。

5 相关工作

我们对推动我们深入研究智能体的相关工作进行回顾。

测试时计算扩展。Baek等人（2024年）、Lu等人（2024年）、Zheng等人（2024年）较早地尝试构建在测试时使用搜索工具和迭代优化算法的研究助理/科学家智能体。最近，Gottweis等人（2025年）提出了一种用于生物医学研究的AI合作科学家智能体，该智能体集成了测试时算法，如辩论机制以产生新想法、竞赛机制以比较和排序研究假设，以及自我批判机制以优化研究提案。Schmidgall等人（2025年）构建了一个端到端的科学论文写作智能体，该智能体在其工作流程的每个阶段都具备自我反思能力。值得注意的是，他们启用了一种协同驾驶模式，即人类可以介入并提供反馈，这被证明能提高论文的整体质量。Yamada等人（2025年）设计了一个机器学习研究智能体，该智能体融入了树搜索推理算法，能够撰写一篇被ICLR研讨会接收的完整研究论文。Tang等人（2025年）提出了一个多智能体系统，该系统能够进行文献综述、产生新想法、发明新算法、开展实验并起草一篇可发表的论文。类似地，DeerFlow（2025年）利用一个包含规划者、协调者、研究者和报告者的多智能体系统，对一般用户查询做出全面回应。

在测试时算法中，自我进化（Lee等人，2025年；Novikov等人，2025年；Qiu等人，2025年）最近成为设计各种智能体系统（包括DR）的一种流行框架。我们的自我进化算法与这种方法具有共同之处，特别是在其进行多次自我批判和自我优化的能力上。然而，TTD-DR与自我进化不同之处在于：1）我们的框架从根本上受人类认知行为驱动，并且我们借鉴检索增强扩散过程与人类写作过程之间的共性，来开发我们的测试时扩散DR；2）自我进化改进单个智能体，以提供高质量的上下文信息来辅助主要的去噪算法。先前的工作没有明确对人类认知行为以及自我进化和检索去噪之间的相互作用进行建模。

智能体调优。最近的一些工作探索了通过训练来改进深度研究智能体。早期的工作侧重于构建一个能够进行深度搜索和推理的智能体检索增强生成（RAG）系统。Guan等人（2024年）提出了一个多任务学习目标，结合组件级监督微调（SFT）数据和模型反馈，来联合训练其智能体RAG系统中的每个模块。Jin等人（2025年）将搜索动作和大语言模型（LLM）的最终响应转换为一个单一序列输入，并使用最终响应奖励对RAG系统进行端到端训练。最近，Li等人（2025b）、Zheng等人（2025年）、Shi等人（2025年）和Kimi-Researcher（2025年）利用强化学习来训练一个研究助理智能体，该智能体能够利用搜索和浏览工具来收集信息并撰写报告。在我们的工作中，我们专注于测试时计算，并将智能体调优留待未来研究。

大语言模型扩散模型。传统的大语言模型训练范式利用自回归目标来训练模型并采样输出。大语言模型扩散模型试图通过打破从第一个到最后一个标记进行采样的假设，来提高最先进大语言模型的可扩展性。大语言模型扩散模型首先被训练生成一个完整的“有噪声”草稿，然后迭代地将多个标记去噪为一个完整的高质量草稿（Gemini，2025年；Nie等人，2025年；Yang等人，2022年）。由于生成过程具有高度可并行性，这一系列工作有可能在保持质量的同时实现更高的效率。我们的工作受到大语言模型扩散模型的启发，在测试时报告撰写过程中引入了去噪机制，但与它们的不同之处在于我们不对智能体进行训练；相反，我们假设大语言模型智能体经过精心设计，能够执行去噪任务。

在这里插入图片描述

6 结论

具有测试时扩散的深度研究者（TTD-DR）智能体是一种生成研究报告的新颖框架，其灵感来自人类研究的迭代性质。该智能体通过将报告生成概念化为一个扩散过程，解决了现有DR智能体的局限性。TTD-DR从一个初步草稿开始，这是一个可更新的框架，用于指导研究方向。然后，通过“去噪”过程对该草稿进行迭代优化，该过程由一个检索机制动态提供信息，该机制在每一步都融入外部信息。核心过程还通过应用于智能体工作流程每个组件的自我进化算法得到进一步增强，确保为扩散过程生成高质量的上下文。

TTD-DR框架在各种需要密集搜索和多跳推理的基准测试中取得了最先进的结果，显著优于现有的DR智能体。它在生成全面的长篇研究报告以及为多跳搜索和推理任务识别简洁答案方面表现出卓越的性能。该框架以草稿为中心的设计引导报告撰写过程更加及时和连贯，同时减少了迭代搜索过程中的信息丢失。

Task

在这里插入图片描述