当前位置: 首页 > wzjs >正文

广西网站建设智能优化线上营销策划案例

广西网站建设智能优化,线上营销策划案例,网站开发国内外研究现状,兰州小程序定制开发论文笔记--Baichuan 2: Open Large-scale Language Models 1. 文章简介2. 文章概括3 文章重点技术3.1 预训练3.1.1 预训练数据3.1.2 模型架构 3.2 对齐3.2.1 SFT3.2.2 Reward Model(RM)3.2.3 PPO 3.3 安全性 4. 文章亮点5. 原文传送门 1. 文章简介 标题:Baichuan 2…

论文笔记--Baichuan 2: Open Large-scale Language Models

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 预训练
      • 3.1.1 预训练数据
      • 3.1.2 模型架构
    • 3.2 对齐
      • 3.2.1 SFT
      • 3.2.2 Reward Model(RM)
      • 3.2.3 PPO
    • 3.3 安全性
  • 4. 文章亮点
  • 5. 原文传送门

1. 文章简介

  • 标题:Baichuan 2: Open Large-scale Language Models
  • 作者:Aiyuan Yang et al.
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

   文章提出了百川2开源大模型,在MMLU、GSM8K等benchmarks上超过了现有的开源模型表现,特别地,百川2在医疗、法律等垂域上表现亮眼。百川2模型包括Baichuan 2-7B 和Baichuan 2-13B 和两个不同大小模型,可以供不同需求、不同预算的研究使用,两个模型的区别如下表所示。
百川1VS2

3 文章重点技术

3.1 预训练

3.1.1 预训练数据

  百川2尝试去提高数据的规模和代表性,为此,文章从网页、数据、研究论文、代码等不同来源构建尽可能丰富的预训练数据。下图为百川2的预训练数据分布情况
数据分布

  百川2希望模型可以接收尽可能高质量的数据集,为此,文章构建了高效的聚类和去重系统。如下图所示,百川2的数据处理程序分为:

  • Exact deduplication:完全相同的重复数据剔除
  • Heuristic approach:一些启发式的算法(文章并没有提到具体方法)
  • Sent-wise quality filter:句子级别的质量过滤(maybe 过滤一些广告、tag之类的,然后再对过滤后的句子、段落去重一遍)
  • Sent-wise, paragraph-wise deduplication:句子、段落级别的去重
  • Document deduplication:文档级别的去重
    数据过滤

3.1.2 模型架构

  • 分词器:为了构建一个大小合适且压缩率高的分词器,文章将词表大小从百川1的64000扩充到125695。分词方法为BPE。特别地,为了更好地处理数字,百川2将数字分隔为单个的digit;为了更高地处理代码,百川2在分词器中增加了空格tokens(单个空格、多个空格分别为一个token?)
  • 位置编码:百川2选择采用AliBi编码,该方法相比于RoPE编码方法表现更好。
  • 激活函数:百川2使用SwiGLU作为激活函数。SwiGLU是当下一些LLMs(PALM,LLaMA等)倾向选择的一种激活函数。由于SwiGLU相当于两个线性变换(其中一个加了Swi函数)的乘积,前馈层SwiFFN包含了三个参数矩阵 ( S w i s h ( x W 1 ) × x V ) W 2 (Swish(xW_1)\times xV) W_2 (Swish(xW1)×xV)W2,为了保持相同的计算量,我们将隐藏层的尺寸从4倍隐藏层大小缩减到8/3倍隐藏层大小(缩减到原来的2/3,这样三个参数的计算量为2/3*3=2,基本和原来2个矩阵的计算量持平),再近似到128的倍数。
  • Optimization:文章采用AdamW为优化器
  • NormHead:文章做了数值实验发现通过使用NormHead,即正则output层(heads),训练动态过程可以更加稳定,此外文章发现语义信息主要由cosine相似度 < a , b > ∥ a ∥ 2 ∥ b ∥ 2 \frac {<a,b>}{\Vert a\Vert_2 \Vert b\Vert_2} a2b2<a,b>进行度量,但线性层是通过计算点积 < a , b > <a,b> <a,b>进行计算的,两者之间相差了 a , b a, b a,b的L2范数,从而通过对输出层进行L2正则,我们可以有效地减轻L2距离对语义信息的影响。
  • Max-z loss:文章发现训练过程中,LLMs的logits可能变得非常大,而softmax很容易被这些非常大的logits所影响。为此,一些研究选择采用惩罚项来对太大的logits进行惩罚,比如repetition penalty,但这样可能会扭曲最后生成的概率。文章类似PALM,增加一项max-z loss来对logits进行正则: L m a x − z = 2 e − 4 ∗ z 2 \mathcal{L}_{max-z} = 2e^{-4} * z^2 Lmaxz=2e4z2,其中 z z z表示logits的最大值,即logits最大值越大,损失 L = L 0 + L m a x − z \mathcal{L} = \mathcal{L_0} + \mathcal{L}_{max-z} L=L0+Lmaxz越大,从而起到对太大的logits的惩罚作用
  • Scaling Laws:当数据规模、模型大小或者两者增加时,模型的error会降低,这就是大名鼎鼎的Scaling law。文章通过训练从10M到3B的不同代奥的模型,得到了拟合比较好的Scaling Law曲线,且该曲线可以比较精准地预测参数量为7B/13B的error:
    scaling law

3.2 对齐

3.2.1 SFT

  在SFT阶段,百川2请人类标注员对不同来源的prompts进行标注,每个prompt 被标记为是否有帮助、是否无害,标注原则和Claude类似。文章收集了100k个SFT数据样本,并将这些样本在base model上进行训练,然后通过RLHF方法进一步提升结果:
RLHF

3.2.2 Reward Model(RM)

  文章对所有的prompts构建了三层的分类系统:6个主要的类别,第二层为30个二级类别,第三层为200个三级类别。我们希望reward model训练的prompts尽可能覆盖每个类别,且每个类别的prompts尽可能多样。
  给定prompt,首先通过百川2不同size和不同阶段的模型产生尽可能不同的回答。这些回答被打分,然后用于reward model的训练。

3.2.3 PPO

  得到RM之后,我们采用PPO策略训练语言模型,文章采用4个模型:actor model)用于生成不同的回答,reference model(用于计算KL惩罚),reward model(提供reward),critic model(学习每个token的value)
整个RLHF的过程如下图:

3.3 安全性

  随着LLMs的发展,大模型的安全性问题越来越受到学术界和工业界的重视。为了提高百川2的安全性,文章在预训练阶段设计了一系列规则和模型确预训练数据的安全,此外,文章精心选择了中英双语攻击7百万高质量网页,在预训练数据上提升了这些网页的采样概率。
  在对齐阶段,文章设计了6种不同形式的攻击和100+安全分类,来自传统物联网安全的专家组生成200K的攻击attacks,然后通过一种监督采样方法,我们使用这些数据生成不同安全level的回答。在RL最优化结算,我们通过DPO方法提升具体问题上的表现,此外RM模型也会将helpful和harmless目标结合考虑来增强模型的安全性和帮助性。

4. 文章亮点

  文章提出了百川2-7B/13B开源大模型,模型在多个benchmarks上表现突出,在大部分测试的中文benchmarks上达到SOTA表现,且在医疗、法律等广泛应用的垂域上有显著的提升。

5. 原文传送门

Baichuan 2: Open Large-scale Language Models


文章转载自:

http://eubkFGKp.gqbks.cn
http://fG86JSU5.gqbks.cn
http://zBKNP9QP.gqbks.cn
http://Eu9EhSyL.gqbks.cn
http://nnLa7tYf.gqbks.cn
http://mrBlH7Oh.gqbks.cn
http://ZPlzhxyU.gqbks.cn
http://DLn5Ds7q.gqbks.cn
http://GABtenyy.gqbks.cn
http://vcqRYq2q.gqbks.cn
http://absVXd0Z.gqbks.cn
http://cYNd8vZa.gqbks.cn
http://SiNQqzaR.gqbks.cn
http://6aZKl4sp.gqbks.cn
http://j9E4GrSn.gqbks.cn
http://HbnwfDcX.gqbks.cn
http://EdAobS2P.gqbks.cn
http://fj5knZ5f.gqbks.cn
http://rgnWyIMz.gqbks.cn
http://sC3Cdorp.gqbks.cn
http://vn8gXcXW.gqbks.cn
http://VP0aB7GC.gqbks.cn
http://lc7NyybP.gqbks.cn
http://0XY7dWMy.gqbks.cn
http://dwoRPa5h.gqbks.cn
http://DdcoCouP.gqbks.cn
http://Ls3zynFZ.gqbks.cn
http://fWVJlr3z.gqbks.cn
http://7JTkzliZ.gqbks.cn
http://o2XtrdAe.gqbks.cn
http://www.dtcms.com/wzjs/708150.html

相关文章:

  • 制作一个小型网站魔智科技logo在线设计
  • 建设厅网站贵州人事考试信息网wordpress做成仿阿里巴巴
  • 百度seo网站优化 网络服务云南财经大学网页设计作业
  • 青岛网站建设公司代理网络营销推广课程培训
  • 网站建设策划基本流程做室内效果图网站
  • 怎样优化网站案例青岛的互联网公司有哪些
  • 网站开发项目分析模板做一个旅游网站
  • 餐饮营销网站建设网站店铺的图片怎么做的
  • ftp中如何找到网站首页剪辑培训班
  • 网站统计插件简单网页制作模板图片
  • 建设厅安全证考试报名在哪个网站wordpress 本地头像
  • 免费建设微网站制作重庆发布微博
  • 遵义网站制作外包棋牌游戏网站模板
  • 网站开发量微信小程序里的网站怎么做
  • 电子商务网站建设期末题库河南教育平台网站建设
  • 龙岩任做网站的哪几个比较好网上做任务的网站
  • 购买网站模板怎么用建设部标准规范网站
  • 河北省保定市唐县城乡建设网站携程网站联盟
  • 电子商务网站的定义沈阳建设工程信息网举报
  • 做相册的网站(网易虚拟机wordpress教程
  • 重庆有哪些做网站 小程序的太原网站建设外包须知传媒
  • 免费网站是如何盈利的建设网站职业证书
  • 看电视剧免费的网站做刷网站流量犯法吗
  • Dedecms手机网站源码上海企业营销型网站建设
  • 最新网站源码冀州网站建设代理
  • 医院网站开发多少钱品牌的宣传及推广
  • 用asp做网站出现空白推广计划a设置了短语否定匹配关键词为招聘
  • html网站开发图片素材wordpress主页定制
  • 用asp做网站登录页面杭州公司注册代理中介
  • 旅游网站建设备案做商城网站要什么证件