当前位置：首页 > news >正文

AI操作系统 | LLMs RAG DRAG

news 2025/10/11 10:41:43

前文传送：[Andrej Karpathy] 大型语言模型作为新型操作系统

我们正面临从传统操作系统向AI原生操作系统的范式转变。现有以人为中心的系统已无法满足AI时代需求，新型AI操作系统将围绕六大核心组件重构：

1）AI推理调度内核；

2）多层语义记忆系统；

3）原生工具链环境；

4）多模态数据空间；

5）自主进程调度器；

6）安全合规引擎。

这种系统将催生全新的AI原生应用形态——具备自主协作、共享记忆和情境感知能力的"数字神经元"，实现从"人操作机器"到"人机共生"的进化。未来5-10年，操作系统将演变为分布式、自我优化的数字大脑，重新定义"思考"的本质。

一、为什么需要新的操作系统？

我们正处在一场堪比从MS-DOS到Windows、从功能机到智能机（iOS）的划时代变革的边缘。

这场变革的核心是“基于AI的操作系统”的崛起。

这种新型操作系统并非现有系统的简单升级，而是从底层架构上就以AI为核心，旨在管理自主智能体（AI Agents），从而控制未来数字世界的“数字神经系统”。

现有操作系统（如Windows, macOS）是以人为中心设计的，其三大核心假设（界面、文件系统、进程调度）已不适用于AI时代的需求。

人类OS: 依赖人类进行阅读、点击、手动组织文件、主动打开应用。
AI的需求: 需要的是上下文管理、持久化自适应记忆、自主进程管理和丰富的工具操作空间（调用API而非打开整个应用）。

二、基于AI的操作系统内核架构剖析

文章将AI操作系统分解为六大核心组件，其整体架构如下：

1. AI内核：系统的“首席指挥官”，负责推理调度，而不仅仅是资源分配。其关键职责包括：

模型运行时管理（协调多种AI模型协同工作）
智能推理调度（决策在本地、云端或边缘处理）
技能加载与卸载（按需调用和释放专业模型）

2. 多层内存子系统：超越传统的RAM/磁盘，是一个在语义层面运作的记忆系统，分为：

短暂上下文（当前状态）
工作记忆（中期焦点）
长期记忆（持久的向量数据库，存储所有经历）
程序记忆（预存的工作流程）
由内存协调器管理索引和保留策略。

3. 原生工具链和环境管理：提供AI可直接调用的能力（而非独立应用），包括：

API集成、代码执行沙箱、机器人控制接口、模拟环境等。

4. 多模态输入/输出结构：在一个连贯的数据空间中统一处理语言、视觉、音频、视频及各种传感器数据。

5. 自主进程和目标调度器：系统能主动接受高级目标（如“计划产品发布”），并将其分解为子任务，自主分配、执行、监控和合并结果，全程无需人类干预。

6. 护栏和合规引擎：为确保安全与责任，内置安全措施，包括：

危险代码沙箱隔离、阻止非法操作、决策审计日志、偏见与公平性检查。

文章强调，在现有OS中嵌入Copilot或Siri如同“给马车装GPS”，而真正的AI OS是“为全新路线设计的汽车”。

三、基于AI操作系统的AI原生程序剖析

在AI OS上运行的应用程序形态将发生根本性变化。

1. 形态对比：

传统App: 像建筑物中孤立的房间，数据隔离，需要手动操作。
AI原生App: 像开放空间中流动的区域，共享全局状态和记忆，具备自主性，是共享认知网络中的节点。

2. 关键特征：

跨领域共享状态和内存（如邮件App自动更新项目管理器）
后台操作（App可事件驱动，在后台自主工作）
自主协作（App间用内部语言直接对话协作）
情境感知UI（UI仅在需要时出现）

3. 示例场景：

电子邮件与日历自主协商会议时间。
个人财务AI代理主动管理并优化资产。
写作应用自动协同图像生成、SEO优化和发布安排。

4. 未来发展路线图：

第一阶段（现在）: OS之上的AI智能体包装器（如LangGraph）。
第二阶段（1-3年）: 混合OS，AI拥有内核级权限。
第三阶段（3-5年）: 完全以AI为先的OS。
第四阶段（5-10年）: 分布式、自我优化的无边界的数字大脑。

结论

文章最后总结，这场变革不仅仅是让计算机“思考”得更快，而是重新发明“思考”本身。未来的AI操作系统将不再是一个被动的工具，而是成为一个承载人类与AI智力生活的主动环境。这标志着从“人操作机器” 到 “人机共生” 的根本性转变。

LLMs之RAG之DRAG

LLMs之RAG之DRAG：《Lexical Diversity-aware Relevance Assessment for Retrieval-Augmented Generation》的翻译与解读

相关前文传送：

[RAG system] Pipeline Orchestrator | AI infra & vector db & RAG

[RAG] LLM 交互层 | 适配器模式 | 文档解析器(`docling`库, CNN, OCR, OpenCV)

[RAG] 文档格式化 | 知识库摄入 | VectorDB.faiss | BM25索引.pkl

导读：DRAG是一种新颖的词汇多样性感知RAG框架，通过引入多样性敏感相关性分析器（DRA）在检索阶段对查询组件进行细粒度评估，解决了传统RAG因忽略词汇多样性而导致的相关性评估偏差；同时，通过风险引导稀疏校准策略（RSC）在生成阶段量化无关性风险并高效地校准高风险Token。该方法在开放域问答任务中实现了显著的性能提升和计算效率，证明了在RAG中处理词汇多样性对于提高事实准确性和知识利用效率的至关重要性

>> 背景痛点：

● LLM固有限制与幻觉问题：大型语言模型（LLMs）仅依赖其训练参数化知识进行推理，常导致事实性幻觉、信息过时和可解释性低，尤其在需要开放域知识或实时信息的任务中表现突出。

● 现有RAG缺乏细粒度相关性评估：以往的RAG方法在查询和检索文档之间建立细粒度相关性评估时存在困难，忽略了查询的词汇多样性（Lexical Diversity）。

● 词汇多样性导致检索复杂性：查询的不同组成部分（词语、短语）具有不同的词汇多样性：有些（如专有名词）表达固定，有些（如“职业”）表达形式多样，还有些是需要推理补充的（Supplementary），这种差异使得统一标准的评估难以准确捕捉相关信息。

● 生成阶段的差异化噪声干扰：在生成阶段，预测的Token具有不同特性，容易受到检索文档中无关信息（Irrelevant Noise）的干扰。特别是代表实体答案的Token，对这种干扰尤为敏感。

>> 具体的解决方案：

● 词汇多样性感知RAG (DRAG)：提出一种词汇多样性感知RAG（Lexical Diversity-aware RAG, DRAG）框架，用于解决由词汇多样性引起的检索和利用偏差问题。

● 多样性敏感相关性分析器 (DRA)：DRA模块用于解耦查询并根据其词汇多样性水平（不变、可变、补充）评估不同查询组件与检索文档之间的相关性，确保检索的精确性和全面性。

● 风险引导稀疏校准策略 (RSC)：RSC模块用于量化并校准那些受无关内容严重影响的高风险生成Token，从而最大限度地减少无关信息的影响。

>> 核心思路步骤：

● DRA：词汇多样性驱动的查询解耦：将查询分解为具有不同属性的组件：

1. 不变组件（Invariant）：词汇多样性低，如专有名词，表达形式不能改变。

2. 可变组件（Variant）：词汇多样性高，如“Capital”可以有同义词或相关表达。

3. 补充组件（Supplementary）：不在查询中明确提及，但可合理推断以辅助相关性评估。

● DRA：细粒度相关性评估：根据组件的属性应用定制化的评估标准：

1. 不变组件：应用严格标准（$\sigma_1$），如果文档明确提及则得 1 分，否则得 0 分。

2. 可变/补充组件：应用更灵活的标准（$\sigma_2$），赋予 [0, 1] 范围内的连续分数。

最终通过加权求和计算文档的总体相关性得分，并选择得分最高的文档进行增强。

● RSC：无关性风险量化：量化每个预测Token ($y_t$) 受无关信息影响的程度，综合考虑三种风险：

1. 词汇风险 ($r_{t}^{lex}$): 基于查询组件的词汇多样性程度（多样性越高，风险越高）。

2. 注意力风险 ($r_{t}^{attn}$): 基于Token对不同相关性文档的注意力分布（对低相关性文档的注意力越高，风险越高）。

3. 预测风险 ($r_{t}^{pred}$): 基于模型预测的不确定性（$1 - p_t$）。

● RSC：稀疏Token校准：构建一个“噪声参考文本” ($T^{ref}$)，通常选择相关性得分最低的文档来模拟无关信息。设置阈值 $\delta$，仅对无关性风险 ($r_t$) 超过 $\delta$ 的高风险Token进行稀疏校准。校准通过对比原始输出分布与在 $T^{ref}$ 条件下生成的分布来实现，从而减轻噪声干扰。

>> 优势：

● 显著的性能提升：在HotpotQA上实现了10.6%的准确率提升，并在PopQA、TriviaQA、ASQA等多个开放域问答数据集上超越现有SOTA方法。

● 高效的检索能力：通过DRA的细粒度评估，显著提高了检索到的文档与查询在语义上的对齐程度，确保了知识的有效性。

● 计算效率高：RSC采用稀疏校准策略，仅对高风险Token进行调整，避免了对所有Token进行校准带来的高计算开销，实现了高效且精确的生成增强。

● 强大的泛化能力：尽管仅在PopQA和TriviaQA上训练，但在多跳问答（HotpotQA, 2WikiQA）和长文本生成（ASQA）等任务上表现出色，证明了其对词汇多样性挑战的普遍适用性。

● 低资源需求：DRA模块的训练使用了较小的模型（Qwen2-0.5B）和少量数据，资源消耗远低于其他基于训练的RAG方法（如Self-RAG）。

>> 结论和观点(侧重经验与建议)：

● 词汇多样性是RAG的关键瓶颈：将词汇多样性引入RAG的评估中是实现细粒度相关性评估的关键，能够有效解决传统RAG评估的固有偏差。

● 稀疏风险校准的有效性：量化无关性风险并仅对高风险Token应用稀疏校准，是一种有效且计算高效的增强生成质量的策略，尤其适用于减轻检索噪声干扰。

● 模型兼容性强：DRAG框架与多种LLM（包括Llama2-7B/13B, Llama3-8B）兼容，并能显著提升它们的性能，证明了其设计具有通用性。

● 未来方向：未来的工作需要扩展该方法，使其适用于具有不同架构的模型，并探索在更专业的领域（如医疗报告分析）中，通过额外的领域数据来丰富模型的专业知识和更好地捕捉词汇多样性。