当前位置: 首页 > wzjs >正文

国内网站怎么做有效果做样子的网站

国内网站怎么做有效果,做样子的网站,不同企业的网络营销网站,做的网站怎么进后台LLMLingua2 https://arxiv.org/pdf/2403.12968是LLMLingua的改进版本。我们知道 LLMLingua需要用小模型压缩,模型太小不一定能保证性能,模型太大耗费时间又太长。这个方法理论上可以,但实际上不是很方便用。很难选择到合适的小模型。 小模型…

LLMLingua2 https://arxiv.org/pdf/2403.12968是LLMLingua的改进版本。我们知道

  1. LLMLingua需要用小模型压缩,模型太小不一定能保证性能,模型太大耗费时间又太长。这个方法理论上可以,但实际上不是很方便用。很难选择到合适的小模型。

  2. 小模型压缩后的prompt在不同系列的大模型不一定能识别的准。

  3. 信息熵不一定是最好的压缩度量指标,比如胡乱的语句信息熵很高,但是确是无效错误的信息,通用模型压缩效果肯定不如专门训练的压缩模型效果好。

  4. 如何实现更高的压缩率,更强的通用性就是值得研究的问题。

1. 核心实现要点

基于上述的优化点,微软研究团队专门训练一个压缩的模型进行prompt 的compress,优化初版的LLMLingua,框架图如下:

 

  1. 数据蒸馏。在MeetingBank数据集上,借助GPT-4,构建严格的指令,指示GPT-4压缩文本,只丢弃原始文本中不重要的单词,并且在生成过程中不添加任何新单词,符号,保持原有的顺序,尽可能的短,得到prompt的压缩数据。从而构建一个压缩数据集。

 

2.  对于长上下文,GPT-4倾向于大幅压缩(估计和GPT-4处理长上下文的能力有限),容易丢失关键信息。因此将超长上下文分割成短上下文(比如512长),分段压缩+合并,其实就是map reduce 的方法。这样子获取得到长prompt的压缩数据。

3. 对原始的prompt数据和GPT4 压缩得到的prompt 进行数据标注,得到每一个token是不是preserve or discard的标签。简单的来讲就是在原始prompt中查找是不是找到了压缩prompt 中的token, 是则标签就是true(preserve), 否则标签就是fasle(discard)。

4. 使用transformer encoder架构作为分类模型的基础模型(multilingual-BERT),在最后一层加上一个线性分类层,对原始的prompt 进行编码,然后训练,

5. 训练的结果就是可以得到原始prompt中的每一个token的标签{preserve , discard}的概率。

6. 根据原始prompt和压缩后的prompt作为数据对,训练压缩模型。loss函数为预测结果和压缩prompt的交叉熵, 交叉熵特别适合应用在分类问题,可以衡量两个概率分布之间的差异。

 

 

7. 通过这样子训练出来的压缩模型就巧妙的将一个prompt中的每一个token转换为二分类问题,把分类结果是preserve的token 保留,就是压缩的结果。

 


文章转载自:

http://b9N71kN8.wcjgg.cn
http://0HdQmOGe.wcjgg.cn
http://cGA8jKEl.wcjgg.cn
http://fUMUmFfN.wcjgg.cn
http://n8oFEqpp.wcjgg.cn
http://M5WHQ9hW.wcjgg.cn
http://ZfOm8B8z.wcjgg.cn
http://z0Uq9Ymn.wcjgg.cn
http://2rQV9PQK.wcjgg.cn
http://bcAOMSGA.wcjgg.cn
http://5v2kjAoj.wcjgg.cn
http://MtzHyWTj.wcjgg.cn
http://Rmx54eLb.wcjgg.cn
http://ogex1IBj.wcjgg.cn
http://fdLTEBur.wcjgg.cn
http://KcuhE0YJ.wcjgg.cn
http://6mgFcu6n.wcjgg.cn
http://RCJEe77p.wcjgg.cn
http://dtbFv4eZ.wcjgg.cn
http://WSUcrzE8.wcjgg.cn
http://khAFMvZW.wcjgg.cn
http://svdPxu9n.wcjgg.cn
http://BHrE4Ouk.wcjgg.cn
http://x2rQm00z.wcjgg.cn
http://VJWD89Oe.wcjgg.cn
http://oaGBYGxK.wcjgg.cn
http://eblHVtBy.wcjgg.cn
http://AdF4ZcEP.wcjgg.cn
http://n8VYaOm5.wcjgg.cn
http://1AgU4U7C.wcjgg.cn
http://www.dtcms.com/wzjs/658167.html

相关文章:

  • 长沙官网排名推广网站快速排名优化哪家好
  • cad dwt模板做网站模版外贸公司是私企还是国企
  • 网站建设回访中国建设企业银行
  • 云南微网站搭建费用教育培训机构微网站模板
  • 做app网站有哪些功能深圳招聘网站开发
  • 子域名查询工具cn域名做seo
  • 公司网站优化网页制作对联
  • 家具网站的建设广东网站设计流程
  • 建站宝盒的设置移动互联网开发大作业
  • 担路做网站怎么做app平台
  • 网站设计的知识技能wordpress5.6.20
  • 海外高端网站建设深圳福田地图
  • 企业建站划算吗ppt做视频的模板下载网站有哪些
  • 网站 简单黑白色调网站
  • 网站分为哪几个部分做网站 中文字体是用什么
  • 请问去哪里学编程比较正规哈尔滨整站优化
  • 做商业网站要交税吗网站与网页的区别
  • 建设网站ppt企业百度推广怎么收费
  • 人才招聘网站开发杭州建设网站平台的哪些企业比较好
  • dw个人网站主页怎么做织梦网站更改标题长度
  • dnf游戏币交易网站建设网站设计软件开发
  • 成都工业学院文献检索在哪个网站做外链生成工具
  • 深圳网站建设51duoshi网站建设培训 店
  • 响应式电商网站制作深圳制作网站的公司简介
  • 长阳网站建设重庆规模最大的建网站公司
  • 海口网站建设价格招聘网站做竞品分析
  • 网站备案 固定电话wordpress邮件新文章
  • 建设厅网站密码忘了怎么办wordpress文章怎么生成标签
  • 400网站建设推广优设网的特点
  • 做网站设计的公司四川整站优化关键词排名