当前位置：首页 > news >正文

DeepSeek 的长上下文扩展机制

news 2025/10/29 17:35:53

DeepSeek 在基础预训练完成后，引入 YaRN（Yet another RoPE extensioN method）技术，通过额外的训练阶段将模型的上下文窗口从默认的 4K 逐步扩展至 128K。整个过程分为两个阶段：第一阶段将上下文窗口从 4K 扩展到 32K；第二阶段则进一步从 32K 扩展到 128K。每个阶段均采用相同的 YaRN 配置，并在解耦的共享 key（decoupled shared key）上应用 Rotary Position Embeddings，以保证扩展过程中的位置编码精度与计算效率。

YaRN 方法概述

YaRN（Yet another RoPE extensioN method）是一种基于 Rotary Position Embeddings (RoPE) 的高效上下文扩展技术。它通过在自注意力模块中对位置编码进行调整，使模型能够在处理更长序列时保持原有的位置信息精度，同时显著减少计算和内存开销。

在具体实现上，YaRN 只作用于解耦的共享 key（decoupled shared key），避免了对整个注意力结构的全面修改，从而最大程度地保持模型原有性能与稳定性。

在 DeepSeek 中的应用流程

基础预训练
DeepSeek

http://www.dtcms.com/a/158036.html

相关文章：

【MCP】详细了解MCP协议：和function call的区别何在？如何使用MCP？

0803分页_加载更多-网络ajax请求2-react-仿低代码平台项目

【多线程】五、线程同步条件变量

逆向|dy|a_bogus|1.0.1.19-fix.01

RK3568 Debian调试记录

基于强化学习的智能交通控制系统设计

基于STM32单片机PWM讲解（HAL库）

html css js网页制作成品——HTML+CSS+js美甲店网页设计（5页）附源码

pytest 技术总结

Windows怎样使用curl下载文件

大模型时代的语言格局演变：为什么是 JavaScript？

uml类关系(实现、继承，聚合、组合，依赖、关联)

Python并发编程全景解析：多线程、多进程与协程的深度对比

职场十二法则-马方

刚体运动 (位置向量 - 旋转矩阵) 笔记 1.1~1.3 (台大机器人学-林沛群)

Python Cookbook-6.11 缓存环的实现

光子计算芯片进展评估：下一代AI算力突破的可能性

逻辑运算符

C++之map

缓存替换算法之 FIFO（先进先出）

L1-4 零头就抹了吧

图解 Redis 事务 ACID特性｜源码解析｜EXEC、WATCH、QUEUE

第5讲：不同杂志风格主题复刻指南——打造像Nature、Science、Cell那样的高水准科研图表！

软件维护类型四大类型（IEEE 14764 标准）

021-C语言文件操作

Beta-VAE背景原理及解耦机制分析

悟空统计平台在教育行业的落地：课程转化路径优化实践

如何在 Ubuntu 22.04|20.04|18.04 上安装 PostGIS

# 家庭网络IPv6地址的一些知识

Jquery -函数调用使用创建立即执行函数