当前位置: 首页 > news >正文

RoPE长度外推:外插内插

RoPE:假定 α \alpha α是定值 其中一半位置是用cos表示的
cos ⁡ ( k α − 2 i d ) \cos(k\alpha^{-\frac{2i}{d}}) cos(kαd2i)(另一半是sin)(d是词嵌入维度)
当太长如何解决:
1 直接不管—外插
缺点:超过一定长度性能急剧下降。(较大时,对应的很多位置编码都是训练时未见过)
2 k映射为 k/λ—内插
cos ⁡ ( k λ α − 2 i d ) \cos(\frac{k}{\lambda}\alpha^{-\frac{2i}{d}}) cos(λkαd2i)
相当于插值了 来表示更多位置
缺点:更密集了 分辨率更低 相邻两个位置的差异变小
3 NTK方案
乘上随i变化的系数 λ d d − 2 \lambda^\frac d{d-2} λd2d,于是编码方案变为 cos ⁡ ( k α − 2 i d λ − 2 i d − 2 ) \cos(k\alpha^-\frac{2i}d\lambda^{-\frac{2i}{d-2}}) cos(kαd2iλd22i)
当i较小时 也就是高频时 短周期时 该系数的指数接近0 系数接近1 等于没变动 也就是外插
当i较大时 也就是低频时 长周期时 该系数的指数接近-1 系数接近1/λ 也就是除了个λ 相当于插值 也就是内插
综上 高频部分外插 低频部分内插
如何区分高频低频:
对于 cos ⁡ ( k α − 2 i d ) \cos(k\alpha^{-\frac{2i}{d}}) cos(kαd2i)公式
内部指数图像是一条
在这里插入图片描述
当i小的时候是快速变化的 因此称之为高频 其实高频指的就是i小的时候 也就是维度低的时候

http://www.dtcms.com/a/180397.html

相关文章:

  • Microsoft 365 Copilot:为Teams在线会议带来多语言语音交流新体验
  • 内存安全革命:工具、AI 与政策驱动的 C 语言转型之路
  • Mac配置php开发环境(多PHP版本,安装Redis)
  • MYSQL库表设计:范式
  • Error parsing column 10 (YingShou=-99.5 - Double) dapper sqlite
  • [Unity]-[UI]-[Image] 关于UI精灵图资源导入设置的详细解释
  • 【AI提示词】蝴蝶效应专家
  • 编译日志:关于编译opencv带有ffmpeg视频解码支持的若干办法
  • JWT原理及工作流程详解
  • 图像匹配导航定位技术 第 10 章
  • 单片机-STM32部分:10、串口UART
  • 虚拟文件系统
  • Rust 中的 Pin 和 Unpin:内存安全与异步编程的守护者
  • VS Code配置指南:打造高效的QMK开发环境
  • 操作系统的初步了解
  • YOLOv8目标检测性能优化:损失函数改进的深度剖析
  • STM32外设-串口UART
  • WORD压缩两个免费方法
  • leetcode - 双指针问题
  • 抖音 “碰一碰” 发视频:短视频社交的新玩法
  • Spring Boot 框架概述
  • 主题分析建模用法介绍
  • FPGA:如何提高RTL编码能力?
  • 第20篇:Linux设备驱动程序入门<七>
  • 虚拟专用服务器(VPS)完全指南:从入门到选型
  • 基于卷积神经网络和Pyqt5的猫狗识别小程序
  • java基础:继承和多态
  • ChatGPT深度研究功能革新:GitHub直连与强化微调
  • Linux 文件系统中的数据定位:inode 与 dentry 的技术解析
  • 基于DeepSeek的韦恩图绘制:方法、优化与应用