当前位置: 首页 > news >正文

DeepSeek 的长上下文扩展机制

DeepSeek 在基础预训练完成后,引入 YaRN(Yet another RoPE extensioN method)技术,通过额外的训练阶段将模型的上下文窗口从默认的 4K 逐步扩展至 128K。整个过程分为两个阶段:第一阶段将上下文窗口从 4K 扩展到 32K;第二阶段则进一步从 32K 扩展到 128K。每个阶段均采用相同的 YaRN 配置,并在解耦的共享 key(decoupled shared key)上应用 Rotary Position Embeddings,以保证扩展过程中的位置编码精度与计算效率。

YaRN 方法概述

YaRN(Yet another RoPE extensioN method)是一种基于 Rotary Position Embeddings (RoPE) 的高效上下文扩展技术。它通过在自注意力模块中对位置编码进行调整,使模型能够在处理更长序列时保持原有的位置信息精度,同时显著减少计算和内存开销 。

在具体实现上,YaRN 只作用于解耦的共享 key(decoupled shared key),避免了对整个注意力结构的全面修改,从而最大程度地保持模型原有性能与稳定性。

在 DeepSeek 中的应用流程

  1. 基础预训练
    DeepSeek

相关文章:

  • 【MCP】详细了解MCP协议:和function call的区别何在?如何使用MCP?
  • 0803分页_加载更多-网络ajax请求2-react-仿低代码平台项目
  • 【多线程】五、线程同步 条件变量
  • 逆向|dy|a_bogus|1.0.1.19-fix.01
  • RK3568 Debian调试记录
  • 基于强化学习的智能交通控制系统设计
  • 基于STM32单片机PWM讲解(HAL库)
  • html css js网页制作成品——HTML+CSS+js美甲店网页设计(5页)附源码
  • pytest 技术总结
  • Windows怎样使用curl下载文件
  • 大模型时代的语言格局演变:为什么是 JavaScript?
  • uml类关系(实现、继承,聚合、组合,依赖、关联)
  • Python并发编程全景解析:多线程、多进程与协程的深度对比
  • 职场十二法则-马方
  • 刚体运动 (位置向量 - 旋转矩阵) 笔记 1.1~1.3 (台大机器人学-林沛群)
  • Python Cookbook-6.11 缓存环的实现
  • 光子计算芯片进展评估:下一代AI算力突破的可能性
  • 逻辑运算符
  • C++之map
  • 缓存替换算法之 FIFO(先进先出)
  • 美商界报告:全美超86万岗位依赖对华出口,关税将重创美国出口商
  • 陈文清:推进扫黑除恶常态化走深走实,有力回应人民群众对安居乐业的新期待
  • 安徽省公安厅原副厅长刘海石主动投案,正接受审查调查
  • 对谈|李钧鹏、周忆粟:安德鲁·阿伯特过程社会学的魅力
  • 日趋活跃!2024年我国数据生产总量同比增长25%
  • 上海出台灵活就业人员公积金新政:不限户籍、提取自由,6月起施行