当前位置: 首页 > news >正文

RoPE长度外推:外插内插

RoPE:假定 α \alpha α是定值 其中一半位置是用cos表示的
cos ⁡ ( k α − 2 i d ) \cos(k\alpha^{-\frac{2i}{d}}) cos(kαd2i)(另一半是sin)(d是词嵌入维度)
当太长如何解决:
1 直接不管—外插
缺点:超过一定长度性能急剧下降。(较大时,对应的很多位置编码都是训练时未见过)
2 k映射为 k/λ—内插
cos ⁡ ( k λ α − 2 i d ) \cos(\frac{k}{\lambda}\alpha^{-\frac{2i}{d}}) cos(λkαd2i)
相当于插值了 来表示更多位置
缺点:更密集了 分辨率更低 相邻两个位置的差异变小
3 NTK方案
乘上随i变化的系数 λ d d − 2 \lambda^\frac d{d-2} λd2d,于是编码方案变为 cos ⁡ ( k α − 2 i d λ − 2 i d − 2 ) \cos(k\alpha^-\frac{2i}d\lambda^{-\frac{2i}{d-2}}) cos(kαd2iλd22i)
当i较小时 也就是高频时 短周期时 该系数的指数接近0 系数接近1 等于没变动 也就是外插
当i较大时 也就是低频时 长周期时 该系数的指数接近-1 系数接近1/λ 也就是除了个λ 相当于插值 也就是内插
综上 高频部分外插 低频部分内插
如何区分高频低频:
对于 cos ⁡ ( k α − 2 i d ) \cos(k\alpha^{-\frac{2i}{d}}) cos(kαd2i)公式
内部指数图像是一条
在这里插入图片描述
当i小的时候是快速变化的 因此称之为高频 其实高频指的就是i小的时候 也就是维度低的时候

相关文章:

  • Microsoft 365 Copilot:为Teams在线会议带来多语言语音交流新体验
  • 内存安全革命:工具、AI 与政策驱动的 C 语言转型之路
  • Mac配置php开发环境(多PHP版本,安装Redis)
  • MYSQL库表设计:范式
  • Error parsing column 10 (YingShou=-99.5 - Double) dapper sqlite
  • [Unity]-[UI]-[Image] 关于UI精灵图资源导入设置的详细解释
  • 【AI提示词】蝴蝶效应专家
  • 编译日志:关于编译opencv带有ffmpeg视频解码支持的若干办法
  • JWT原理及工作流程详解
  • 图像匹配导航定位技术 第 10 章
  • 单片机-STM32部分:10、串口UART
  • 虚拟文件系统
  • Rust 中的 Pin 和 Unpin:内存安全与异步编程的守护者
  • VS Code配置指南:打造高效的QMK开发环境
  • 操作系统的初步了解
  • YOLOv8目标检测性能优化:损失函数改进的深度剖析
  • STM32外设-串口UART
  • WORD压缩两个免费方法
  • leetcode - 双指针问题
  • 抖音 “碰一碰” 发视频:短视频社交的新玩法
  • 中国科协发声:屡禁不止的奇葩论文再次敲响学风建设警钟
  • 聆听百年唐调正声:唐文治王蘧常吟诵传习的背后
  • 教育部答澎湃:2025世界数字教育大会将发布系列重磅成果
  • 江西省直机关工委副书记熊亮华履新宜春市委常委、宣传部部长
  • 玉渊谭天丨一艘航母看中国稀土出口管制为何有效
  • 普雷沃斯特当选新一任天主教罗马教皇