当前位置: 首页 > wzjs >正文

家居网站建设精英asp网站后台编辑器

家居网站建设精英,asp网站后台编辑器,wordpress微信登录页面模板,lsp必备公众号【Arxiv 大模型最新进展】PEAR: 零额外推理开销,提升RAG性能!(★AI最前线★) 🌟 嗨,你好,我是 青松 ! 🌈 自小刺头深草里,而今渐觉出蓬蒿。 NLP Github 项目…

【Arxiv 大模型最新进展】PEAR: 零额外推理开销,提升RAG性能!(★AI最前线★)


🌟 嗨,你好,我是 青松 !

🌈 自小刺头深草里,而今渐觉出蓬蒿。


NLP Github 项目推荐:

  • 【AI 藏经阁】:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • 【AI 算法面经】:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • 【大模型(LLMs)面试笔记】:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题,适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间,不错过金三银四涨薪窗口,迅速收获心仪的Offer 🎉🎉🎉


文章目录

  • PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead
      • 定位抑制头
      • 重加权系数学习
      • 实验结果


PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead

作者Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan

单位Gaoling School of Artificial Intelligence, Renmin University of China, Southeast University, Ant Group

下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究的是如何在RAG任务中提升模型对上下文的感知能力。现有增强上下文感知的方法存在效率低下、推理时产生时间或内存开销,且很多方法针对特定位置嵌入等问题。研究发现部分注意力头会抑制上下文信息流动,影响 LLMs 的上下文感知能力,因此本文提出了PEAR方法,通过削弱这种抑制机制,提高 RAG 任务的性能。该方法首先定位上下文感知抑制头,然后对这些抑制头的输出乘以可学习的系数来削弱其影响。

具体地,PEAR方法分为两个阶段,定位抑制头和重加权系数学习,以下是详细介绍。

定位抑制头

  1. 任务输入

对于每个输入样本,创建一个长度为 n n n 的序列 { x 1 , . . . , x n } \{{x_1,...,x_n}\} {x1,...,xn},其中 x i x_i xi 是从词汇表中随机采样的标记。然后将此序列重复,得到输入样本 { x 1 , . . . , x 2 n } \{x_1,...,x_{2n}\} {x1,...,x2n},其中 x i = x i + n ( i ∈ [ 1 , n ] ) x_i = x_{i+n} (i \in [1, n]) xi=xi+n(i[1,n]) 。若在位置 n + i + 1 n + i + 1 n+i+1 时,输出logits最高的标记是 x i x_i xi ,则认为模型成功执行了代理任务。

注:这是因为在语义无意义的上下文中,模型倾向于检查序列中的最后几个标记是否先前出现过,并复制它们最后一次出现的后一个Token作为输出。这种处理倾向使得模型在面对这种重复的输入结构时,能够尝试按照这种模式进行预测。

  1. 抑制头定位

构建输入序列,沿着序列维度平均每个注意力头的输出得到一个平均向量作为干预向量,然后替换正常运行的 A n − 1 ( l , h ) A_{n - 1}^{(l,h)} An1(l,h) ,这个过程视为削弱该头的影响,如图1所示。

接下来计算指标为logits差异,对于第 l l l 层的第 h h h 个注意力头,计算:
Δ π ( l , h ) = π ~ 2 n ( l , h ) [ x n − 1 ] π 2 n [ x n − 1 ] − 1 \Delta\pi^{(l,h)}=\frac{\tilde{\pi}_{2n}^{(l,h)}[x_{n - 1}]}{\pi_{2n}[x_{n - 1}]}-1 Δπ(l,h)=π2n[xn1]π~2n(l,h)[xn1]1
,其中 π 2 n [ x n − 1 ] \pi_{2n}[x_{n - 1}] π2n[xn1] 是正常运行时位置 2 n 2n 2n 选择 x n − 1 x_{n - 1} xn1 的logits, π ~ 2 n ( l , h ) [ x n − 1 ] \tilde{\pi}_{2n}^{(l,h)}[x_{n - 1}] π~2n(l,h)[xn1] 是干预 A ( l , h ) A^{(l,h)} A(l,h) 后的logits。该指标值越高,表明 A ( l , Λ ) A^{(l,\Lambda)} A(l,Λ) 的抑制效果越强。使用不同的 n n n 值重复实验取平均值以减轻上下文长度的偏差,最后将前 K K K 个最负面影响的头确定为抑制头

重加权系数学习

在标准的多注意力头机制中,所有注意力头的输出以相等的权重聚合。本文提出将抑制头集合中的每个头的输出乘以一个可学习的标量,称为重新加权系数,以削弱抑制头的影响,如图2所示。

为了优化这些重新加权系数,冻结LLM的原始参数,仅训练加权系数以最小化代理任务上的损失。损失仅在序列的后半部分计算,即 L = − ∑ i = n 2 n − 1 l o g ( p ( x i + 1 ∣ x 1 : i ) ) \mathcal{L}=-\sum_{i=n}^{2n - 1}log(p(x_{i + 1}|x_{1:i})) L=i=n2n1log(p(xi+1x1:i)),目的是增强基于上下文的检索能力而非预测下一个标记。
在下游RAG任务中,重新加权系数与任务无关且保持固定。对于每个LLM,只需通过代理任务对抑制头进行一次优化。因此,PEAR在下游RAG任务的推理过程中引入零额外开销。此外,重新加权系数的学习与LLM架构无关,使该方法与各种位置编码算法兼容。

实验结果

在不同RAG任务上的表现如图3所示,推理时间对比如图4所示,表明本方法在引入零额外开销的情况下提升了RAG任务的性能。

图5是PEAR方法在不同位置编码上的表现,表明PEAR独立于位置编码,适配于各种模型结构。


  • 原文链接: https://arxiv.org/pdf/2409.19745

文章转载自:

http://ytstNvKz.dksLm.cn
http://zdyi4RfY.dksLm.cn
http://5MAIdNj0.dksLm.cn
http://xBxAkqag.dksLm.cn
http://Xsq7Ld7m.dksLm.cn
http://KF5CEGcO.dksLm.cn
http://lhdvVwgT.dksLm.cn
http://ZCI1gt4Q.dksLm.cn
http://EU6MKI9X.dksLm.cn
http://qTuxIBW1.dksLm.cn
http://ZdhI6jaR.dksLm.cn
http://pSBQD8eD.dksLm.cn
http://2regSo6H.dksLm.cn
http://6FOSxcNa.dksLm.cn
http://9iBDguIB.dksLm.cn
http://99Ah0d6a.dksLm.cn
http://yvXKaBEL.dksLm.cn
http://Kn29dGHf.dksLm.cn
http://wAwctJF7.dksLm.cn
http://1qn0LI5r.dksLm.cn
http://qnGD1tGA.dksLm.cn
http://OslfqqGo.dksLm.cn
http://z7637T9I.dksLm.cn
http://4BksAd59.dksLm.cn
http://ZwyiiEj5.dksLm.cn
http://2q7ipwSW.dksLm.cn
http://OA0Qbnk0.dksLm.cn
http://0J4NS0mn.dksLm.cn
http://PlzX8UWO.dksLm.cn
http://UopLSACX.dksLm.cn
http://www.dtcms.com/wzjs/623465.html

相关文章:

  • 做财经直播网站移动网站开发 王府井
  • 网站模板样式建筑建材网站设计费用
  • 唐山的网站建设建设网站的定位
  • 河北省住房与城乡建设厅网站dedecms模板安装
  • 淄博做网站保定seo博客
  • 怎么建设回收网站做网站背景的图片大小
  • 网站推广信息免费个人网站哪个好
  • 北京市保障性住房建设投资中心网站6外贸企业网站模板
  • 网站如何在百度刷排名品质好房
  • 搭建一个网站多少钱哈尔滨电脑餐饮品牌策划设计有限公司
  • 软文代发布保定网站关键词优化
  • 创同盟网站wordpress怎么提速
  • seo网站推广企业建设银行甘肃定西市分行网站
  • 开封网站建设培训班在线排名优化
  • wordpress更换网站数据库推广方式线上线下
  • 女人做一级a网站免费互联网服务平台是什么
  • 网站建设配图seo排名需要多少钱
  • 北京建网站价格优帮云龙华建网站公司
  • 个人制作网站多少钱wordpress好用的会员
  • 期末成绩怎么做网站岳阳网站建设企业
  • 手机评测哪个网站做的好点中国建设银行绑定网站
  • 域名注册过程青岛seo整站优化
  • 万网怎么创建网站最新网站技术
  • 怎么让百度收录自己的网站如何建立一个网站放视频
  • 临清聊城网站优化wordpress移动端底部广告
  • 国内公司网站需要备案wordpress如何导出主题
  • 做全世界的生意的网站简约大气的网站
  • 企业网站开发的感想泉州网站搭建
  • 鹿寨县建设局网站网站建设落后发言
  • 经营性 网站备案网站建设怎么设置权限