当前位置：首页 > news >正文

51c大模型~合集175

news 2025/8/29 5:34:50

自己的原文哦~ https://blog.51cto.com/whaosoft/14152349

#从RAG到Deep Research全景综述

一文看懂AI搜索与Web智能体

一文带你了解Deep Research和Web Agent背后的原理。

1. 摘要

随着互联网技术的发展，信息搜索变得日益重要；高效的检索、评估、筛选和管理信息资源已成为必备技能。传统搜索引擎往往难以准确把握复杂的人类意图，因此获取最终答案常常耗时费力。近年来，大型语言模型（LLMs）在语言理解与生成方面表现突出，但在获取外部知识和最新信息上仍存在局限。AI搜索和Web智能体通过将 LLMs 能力融入传统互联网搜索流程，能够更好地应对复杂用户问题，显著提升信息浏览与检索的效率与准确性。

如图1所示，本文对近些年AI搜索相关80余篇工作进行了深入回顾。重点涵盖（1）基于文本的 AI 搜索、（2）Web智能体、（3）多模态 AI 搜索与Web智能体、（4）基准评测、（5）AI搜索软件与产品。

详细可参考论文链接：

https://www.preprints.org/frontend/manuscript/79453d62cbbfce9ac42239071098a3d9/download_pub

图1. 近年来AI搜索和Web智能体相关工作概览

2. 文本AI搜索

基于文本的AI搜索代表了信息检索系统的重大变革，它从传统搜索引擎发展到融合检索增强生成（RAG）工作流和深度搜索能力的复杂方法。这种技术的核心在于将LLMs的强大语言理解和生成能力与搜索引擎的海量信息获取能力相结合，以解决复杂的现实世界信息检索挑战。一种高效且经典的workflow如图2所示，包含有几个重要模块：意图模型，问题改写模型，搜索引擎，网页重排模型，总结模型。

图2. 基于文本的AI搜索经典工作流图

检索增强生成（RAG）工作流

朴素的AI搜索采用类似RAG的思路，如图3所示，本质上是检索（Retrieval）全网知识库来增强（Augment）大模型的生成（Generate）准确答案的能力。传统的RAG方法通过预定义的工作流程运行，主要包含四种范式。（1）顺序RAG采用线性的"检索-然后-生成"工作流，首先获取相关文档，然后基于这些文档生成最终回答。（2）分支RAG通过多个并行管道处理输入查询，每个管道都可能涉及自己的检索和生成步骤，然后合并输出以获得全面的答案。（3）条件RAG引入决策模块来自适应地确定给定查询是否需要检索，提高了系统的灵活性和鲁棒性。（3）循环RAG具有迭代和交互式的检索-生成循环，能够进行深度推理并处理复杂查询。

图3. 基于RAG的AI搜索流程图

端到端深度搜索方法

与传统RAG工作流不同，深度搜索方法通过在端到端连贯推理过程中调用搜索引擎来获取外部知识，以解决复杂的信息检索问题。这种方法的核心优势在于不需要预定义的工作流程，模型可以在推理过程中自主决定何时调用与搜索相关的工具，使其更加灵活和有效。深度搜索方法能够让模型在遇到不确定信息时自主检索外部知识，有效解决了长链式思维推理中的知识空白问题，在数学、科学、编程和多跳问答任务中都表现出显著的性能提升。

（1）无需训练的框架设计

如图4所示，无需训练的方法通过精心设计的指令来增强推理模型的搜索能力，使模型能够意识到其任务性质以及如何正确使用搜索工具。Search-o1等代表性工作提出了智能体RAG机制，允许推理模型在主要推理过程中遇到不确定信息时自主检索外部知识。这些方法还引入了文档深度推理过程，在每次搜索调用后深度分析检索到的文档内容，将简洁有用的信息返回到主推理链中。后续的WebThinker、WebDancer、ManuSearch等工作进一步发展了这一范式，通常引入对收集的网页URL的浏览功能，以实现深度网络探索。此外，一些工作如WebThinker还探索了在收集信息的同时自主撰写研究报告，为用户提供更全面和前沿的知识。

图4. 无需训练的端到端基于深度搜索的AI搜索流程图

（2）基于后训练的方法

如图5所示，基于训练的方法设计各种训练策略来激励或增强LLM在推理过程中的搜索能力，这些策略涵盖预训练、监督微调（SFT）和强化学习（RL）等多个层面。在预训练阶段，MaskSearch框架引入检索增强掩码预测任务，训练模型使用搜索工具来填充被掩码的文本。在监督微调方面，多种方法专注于合成包含搜索动作的长链式思维数据，如CoRAG通过拒绝采样自动生成检索链，ReaRAG通过策略蒸馏构建专门的数据集。强化学习训练最近获得了显著关注，包括基于直接偏好优化（DPO）的方法和基于PPO、GRPO等的训练策略。这些方法通过设计先进的奖励函数、结合结果和过程奖励、提高训练效率等方式，不断优化模型对搜索工具的使用效率和准确性，使其能够更有效地处理复杂的信息检索和推理任务。

图5. 有后训练的端到端基于深度搜索的AI搜索流程图

3. Web Agent

Agent是一种自主的智能体，能够响应输入、执行和上下文相关的动作，其核心目标是模拟人类的决策过程。而Web Agent是Agent在垂直领域的应用。不同于AI搜索，Web智能体模拟人类浏览网页的过程，在当前网络环境上获取信息决定后续操作。

基于提示词的Web Agent

如图6，基于提示词的Web Agent这种方法不需要对模型的参数进行调整，所以方便快捷，所需的资源也较少。这类Web Agent致力于精心设计的提示词（Prompt）工程，将输入的信息通过筛选、拼接、结构化等方式进行处理，形成特定格式的Prompt，便于通用LLM进行理解以获取结果。例如WebVoyager对网页的截图和网页的结构化数据结合，形成Prompt输入GPT-4V进行处理，输出下一步操作，直至获取最终答案。

图6. 基于提示词的Web智能体

基于后训练的Web Agent

鉴于Web Agent实际使用时网络环境和网页浏览任务的复杂性，如图7所示，Web Agent需要通过后训练如SFT或RL来微调模型网页知识，从而返回下一步的决策。WebAgent-R1就是利用强化学习，以DeepSeek-R1为基础模型，通过改进的GRPO构建纯端到端Web Agent。另外一种常用方法就是SFT，比如Falcon自主构建图形用户界面（GUI）数据集，再通过微调使LLM可以更好地处理GUI信息，增强Web Agent浏览GUI的能力。

图7. 基于后训练的Web智能体

4. 多模态AI搜索与Web智能体

当用户的问题或答案中包含图片时，就需要多模态 AI 搜索；另外互联网上的信息往往以图文交织的形式呈现。如图8所示，你在博物馆拍下一件古董的照片，想要了解它背后的历史背景或相关人物，这就需要多模态AI搜索。近来，多模态大语言模型（MLLMs）在视觉感知，理解和推理中应用广泛。经典的模型如GPT-4V，LLaVA等在学术界和工业界应用广泛。

图8. 多模态AI搜索流程示例图

多模态AI搜索的代表工作包括MMSearch和MMSearch-R1。如图9所示，MMSearch将AI搜索流程中三个阶段requery，rerank，summarization里的LLM都替换成了MLLM。MMSearch-R1采用强化学习和多轮搜索的方式来进一步提升基于搜索的图片问答能力。

图9. 两种多模态AI搜索方法

此外还有多模态Web Agent，这种Web Agent模拟人类视觉通过辅助输入网页截图实现拟人化操作，显著提升在复杂网络环境中的任务完成效率。代表作有SEEACT，WebVoygar，WebWatcher。例如如下任务：在xx汽车租赁网站上“以最低的价格租一辆轻型卡车”。多模态Web智能体利用类似GPT-4v的MLLM来视觉感知网页图片中不同类型的汽车，生成思维链，输出可执行的网页操作。

5. 评测集（1）文本AI搜索评测集

对AI搜索模型进行科学评估，是推动其技术发展的关键一环。为此，研究者们构建了一系列评测基准来衡量模型在真实场景下的检索与推理能力。

传统评测基准及其局限性 传统的评测基准，如Natural Questions (NQ)、HotpotQA、FEVER等，主要用于评估模型在多跳推理、事实核验等任务上的表现，其数据源通常是维基百科等结构化知识库。然而，随着大模型能力的飞速提升，这些传统评测集已逐渐“饱和”，顶尖模型在这些任务上接近满分，难以有效地区分出模型间的真实能力差距。

现代浏览基准的挑战 为了更真实地反映现实世界的信息检索挑战，研究者们开发了新一代的现代浏览基准，如BrowseComp、BrowseComp-ZH和Mind2Web 2。这些评测集的核心特点是高度复杂且贴近真实应用场景。它们要求模型不再是简单地进行单次查询，而是像人类一样，在复杂的互联网环境中进行持续的导航、推理和信息整合，解决需要多步骤才能找到答案的难题。

如图10提到的BrowseComp-ZH中的一个问题就极具代表性。要解决此问题，AI模型必须具备以下能力：

问题分解：将一个复杂问题拆解为三个关于不同角色的独立信息线索。
多轮搜索：针对每个线索执行独立的网络搜索，如“1993年出道的女演员”、“丈夫是湖州人的女演员”等。
信息整合与推理：将多轮搜索得到的分散信息进行交叉验证和关联，最终推理出所有线索共同指向的唯一答案。

这类高难度的评测任务，能够更精准地检验AI搜索模型在开放环境下的真实能力，从而推动技术向着更智能、更实用的方向演进。

图10. AI搜索评测集

（2）Web智能体评测集

Web Agent 基准测试模拟了现实世界网络环境中的交互式任务，评估Agent在导航、操作和推理方面的能力。主要分为两类，第一类是通用评测基准，评估Web Agent在多样网站完成任务的能力，如Mind2Web和WebArena。Mind2Web部分网站和任务如图11所示。第二类是针对特定网站和任务的专用评测基准，如DeepShop和SafeArena，分别在电子商务和恶意浏览两个方面对Web Agent进行评估。

图11. Mind2Web评测集

（3）多模态AI搜索评测集

对于多模态AI搜索评测集，MMsearch评估了MLLM在AI搜索流程中的三个任务的能力。LIVEVQA是图片知识问答，如图12所示，对于一些复杂或者实时问题需要借助互联网搜索才能回答准确。VisualWebArena是评估多模态Web智能体的评测集。

图12. LIVEVQA评测集

6. AI搜索软件与产品

AI搜索产品已迅速分化为全球通用型产品、垂直领域产品和集成化助手三大类别。下文将分别介绍这三个类别的核心产品。

（1）全球通用型AI搜索产品

作为深度研究的先驱，OpenAI的ChatGPT DeepResearch。Perplexity 的DeepResearch使用最为广泛且效果优异，可以追踪热点话题，特别适用于学术调研，文献综述与技术写作。其他广泛使用的软件和产品还有：Google的Gemini DeepResearch，字节豆包，腾讯元宝等。豆包和元宝通过融入自家生态内容为用户提供更为丰富的内容。我们还调研了其他产品，有些是学术研究，包括：Nano AI，Kimi，DeepSeek，夸克，MiroMind ODR和Manus。

（2）垂直领域AI搜索产品

MediSearch提供循证医学解答，如药物相互作用、治疗方案，大量医疗从业者将其用于临床决策支持。Devv.ai作为代码专用搜索引擎，提供实时调试代码片段与GitHub集成，该工具支持中文查询但仅限于编程场景。Consensus覆盖2亿余篇科学论文，运用自然语言处理技术提取研究假设与方法论，在文献综述环节可节省50%时间。

（3）集成化AI搜索助手

WallesAI作为浏览器侧边栏助手，支持解析PDF、视频及网页内容，实现跨文档问答与内容导出功能。必应聊天深度集成Edge浏览器生态，通过实时网络索引与来源标注提供附带引文的答案，构建了搜索-浏览一体化体验。

#全球AI百强榜发布

ChatGPT稳坐第一，DeepSeek第三，前50有22个来自中国

a16z最新发布「全球Top100消费级GenAI应用榜单」，AI竞争格局逐渐稳定，中国力量全面崛起，DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领跑，谷歌Gemini紧随其后，Grok高速逆袭。整体来看，全球AI正进入多极化竞争的新阶段。

就在刚刚，a16z最新一期的「Top 100消费级GenAI应用榜单」出炉！

本期榜单传递出一个最核心信息：AI产品竞争的生态格局正日趋稳定！

网页排行前50

移动应用排行前50

不论是你常用的DeepSeek、豆包、夸克，还是一直领先的ChatGPT和Gemini，或者是新进榜单Lovable等，这场AI产品的「百团大战」依然在继续！

中国开始影响世界

首先来看网页排行榜，本次榜单中，5家中国公司跻身全球前20。

分别是DeepSeek全球排名第三、夸克Quark全球排名第九、豆包Doubao排名全球第十二、月之暗面Kimi排名全球第十七、通义千问Qwen3全球排名第二十。

此外，可灵KlingAI上榜全球排名第三十三，海螺AI排名45。

在移动应用榜单中，排名有较大变化。

豆包拿下全球第四、百度AI搜索全球第七、DeepSeek全球第八、美图全球第九，以及夸克上榜第四十七。

以上都是我们熟悉的产品，设有中文网站，a16z统计这些产品超过75%的流量来自国内。

其中，值得一提的是，国内的视频模型比海外的产品更具优势——因为中国有更多研究人员专注于视频领域。

照片和视频类别的集中度尤其高，仅美图一家就贡献了五个席位：Photo&VideoEditor、BeautyPlus、BeautyCam、Wink和Airbrush。

字节跳动也是一个重要参与者，旗下产品包括豆包和Cici（通用大语言模型助手）、Gauth（教育科技）和Hypic（照片/视频编辑）。

谷歌携四款产品强势入榜

这是首次对谷歌几款应用单独的流量进行排名并收录。

该公司的通用大语言模型助手Gemini位居第二，仅次于ChatGPT，其网站访问量约为ChatGPT的12%。

谷歌还有哪些产品上榜？

面向开发者的AI Studio首次亮相即跻身前十。

该网站提供了一个沙盒环境，开发者可在此基础上使用Gemini模型进行构建，包括多模态模型。

紧随其后的是排名第13的NotebookLM。

该产品在作为Google Labs的一部分推出后，现已作为独立网站运营。

NotebookLM在近一年前首次爆红，此后稳步增长，仅在夏季有轻微下滑（可能源于学术用户的暂时性流失）。

作为谷歌面向消费者的AI实验平台，Google Labs排名第39。

Labs平台承载了Flow（用户可在此试用视频模型Veo3）以及其他多款应用。

在2025年5月Veo3发布后，Google Labs的流量飙升超过13%，创下过去一年的最大单月增幅。

在移动端，Gemini同样排名第二，紧随ChatGPT，但差距要小得多，其月度活跃用户（MAU）已接近ChatGPT的一半。

Gemini在安卓设备上表现尤为强劲，其近90%的MAU来自安卓平台，相比之下，ChatGPT的安卓用户占比为60%。

ChatGPT稳坐第一

Grok紧追

在通用大语言模型助手的激烈竞争中，ChatGPT仍保持领先，但谷歌、Grok和Meta正在缩小差距。

Grok在网站榜上排名第4，移动榜上排名第23。

该公司在移动端的跃升尤为惊人，从2024年底无应用的「冷启动」状态，发展到如今超过2000万的月活用户。

2025年7月，Grok的移动端用量迎来巨大增长，随着7月9日新模型Grok4（具备更强的推理能力、实时搜索和工具集成）的发布，用量攀升了近40%。

紧接着，7月14日又推出了AI伴侣头像功能。

发布初期，动漫头像Ani（包含NSFW选项）尤为火爆。

相比之下，Meta的努力至今增长较为平缓。其通用助手MetaAI在网站榜上排名第46，未能进入移动榜单。

MetaAI于2025年5月底推出，但增长速度远不及Grok，尤其是在2025年6月发生了一次「公开动态」事件（用户发现自己的部分帖子被公开发布）之后。

在通用大语言模型助手的其他战线，Claude在移动端均已明显增长放缓。

Perplexity则与Grok一道，持续展现强劲的增长势头。

在网站端，Perplexity和Claude持续增长。

在网站榜单中，有11个新晋应用的上榜是由流量增长驱动的。

相比之下，在a16z 2025年3月的榜单中，新晋者达17个。

移动应用榜单的新面孔则明显更多（14个），这得益于各大应用商店对「山寨ChatGPT」应用的打击（也就是所谓套壳），为更多原创移动应用腾出了发展空间。

这是a16z第二次发布「准上榜名单」（BrinkList）：即刚刚与榜单失之交臂的10家公司（5家网站，5家移动应用）。

在上期网站榜的「准上榜名单」中，Lovable成功闯入百强，并一举跃升至第22位，令人瞩目！

这一飞跃也凸显了AI驱动的应用生成这一赛道的普遍崛起。

在上期移动应用榜的「准上榜名单」中，PolyBuzz和Pixverse这两家公司成功进入核心榜单。

氛围编程强势崛起

在a16z 2025年3月的榜单中，「氛围编程」(vibe coding)的概念才刚刚萌芽——当时网站榜上只有Bolt一家。

如今，Bolt已进入「准上榜名单」，而Lovable和Replit则双双首次登上主榜单。

虽然「氛围编程」的使用看似短暂，但早期数据显示其用户粘性很强——或者说，至少有足够多的用户留存下来并逐渐扩大使用范围。

来自信用卡数据提供商ConsumerEdge的数据显示，某顶级「氛围编程」平台的美国用户群体，在注册数月后，其收入留存率超过了100%。

这意味着，即便算上流失的用户，这些用户群体的月度总支出仍在持续增长。

这些平台也在为其他AI产品引流。通过Replit和Lovable构建并发布的网站（未使用自定义域名），其流量分别归于replit.app和lovable.app之下。

这两个域名本身都有着可观的流量（lovable.app的流量足以排进榜单前50），但仍低于其面向开发者的主站。

作为「氛围编程技术栈」的一部分，相关产品的流量也随之激增，因为开发者们需要用它们来部署项目。

这些产品不符合上榜资格（因其自身并非AI原生公司）——最典型的例子就是数据库提供商Supabase。

Supabase的流量增长与核心「氛围编程」平台的崛起几乎亦步亦趋，在过去九个月里的增速远超往年。

14家「全明星」从未缺席

在a16z发布的五期网站Top50榜单中，有14家公司从未缺席——a16z称之为「全明星」！！

这些公司构成了消费者AI行为的真实缩影：

通用助手（ChatGPT、Perplexity、Poe）
AI伴侣（CharacterAI）
图像生成（Midjourney、Leonardo）
图像与视频编辑（Veed、Cutout）
语音生成（ElevenLabs）
生产力工具（Photoroom、Gamma、Quillbot）
以及模型托管（Civitai、HuggingFace）

在a16z近两年前发布的第一份榜单中，a16z曾好奇：所有顶级的消费级AI公司最终都会训练自己的基础模型吗？

现在，a16z有了答案——在这14家「全明星」中：

五家拥有自研模型
七家使用来自其他公司的API或开源模型
还有两家是模型聚合平台。

有趣的是，尽管榜单的全球化程度日益提高，但这十四位「常青树」仅来自五个国家：美国、英国（ElevenLabs、Veed）、澳大利亚（Leonardo）、中国（CutoutPro）和法国（Photoroom、HuggingFace）。

此外，除了两家公司外，其余均已获得风险投资——Midjourney以其自力更生而闻名，而CutoutPro也尚未进行过融资。

若不计入首期榜单，还有另外五家公司也能入选「常青树」之列——这反映了它们近期的强劲势头。

这些公司同样代表了多样的AI消费级应用，包括：

Claude和DeepAI（通用助手）
JanitorAI（AI伴侣）
Pixelcut（图像编辑）
Suno（音乐生成）

a16z统计方法说明

榜单分别对排名前50的AI原生网站产品（依据Similarweb的月度独立访问量）和排名前50的AI原生移动应用（依据SensorTower的月度活跃用户）进行排名。

对于那些增加了重要生成式AI功能但并非AI原生的产品，如Canva和Notion，则不包含在内。

参考资料：

https://a16z.com/100-gen-ai-apps-5/

https://x.com/omooretweets/status/1960726780681376028

#xxx

查看全文

http://www.dtcms.com/a/354607.html

pcl_案例2 叶片与根茎的分离

Redis发布订阅:实时消息系统的极简解决方案

MyBatis延迟加载

云计算学习100天-第29天

Node.js 的模块化规范是什么？CommonJS 和 ES6 模块有什么区别？

Python DELL Logo

day1 ———C++———变量和字符串的使用

AI驱动企业数字化转型：解码未来三年的智能化变革密码

STAGEWISE实战指南：从集成到使用的完整解决方案

AI在商业领域的多元应用：从写作助手到精准运营，解锁AI商业工具新价值

流程控制语句（3）

操作系统中的死锁是什么意思

农行广西区分行携手广西专精特新商会共探金融赋能专精特新企业新路径

用KPI导航数字化转型：制造企业如何科学评估系统上线成效

流程控制语句（2）

Java网络编程（UDP, TCP, HTTP）

【Linux基础知识系列：第一百一十五篇】使用gzip与bzip2进行压缩

从首次测试到采购40个机器人:Junior kühlk如何自动化协作机械臂矩阵

Linux学习-基于TCP实现群聊

医疗AI时代的生物医学Go编程：高性能计算与精准医疗的案例分析(三)

windows下查看别的服务器的端口是否通

[光学原理与应用-319]：激光器光路设计的主要输出文件的形式和内容

解构与重构：“真人不露相，露相非真人” 的存在论新解 —— 论 “真在” 的行为表达本质

一文读懂：用PyTorch从零搭建一个Transformer模型

(LeetCode 每日一题) 3446. 按对角线进行矩阵排序（矩阵、排序）

读大语言模型08计算基础设施

GeoScene Maps 完整入门指南：从安装到实战

《Explanation of Adaptive Platform Design》详细解读

同一个栅格数据，为何在QGIS和ArcGIS Pro中打开后显示的数值范围不同？

redis单哨兵模式

#从RAG到Deep Research全景综述

#全球AI百强榜发布

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

相关文章：