当前位置: 首页 > wzjs >正文

郑州百度seo网站优艾滋病多久能查出来

郑州百度seo网站优,艾滋病多久能查出来,wordpress+禁用feed,金山品牌网站建设论文题目: Apple Intelligence Foundation Language Models 论文地址: https://arxiv.org/pdf/2407.21075 论文发表于: arXiv 2024年7月 论文所属单位: Apple 论文大体内容 本文介绍了Apple AFM团队的2个基础大模型,分别可在服务端和客户端上运行。这两个大模型是A…

论文题目: Apple Intelligence Foundation Language Models
论文地址: https://arxiv.org/pdf/2407.21075
论文发表于: arXiv 2024年7月
论文所属单位: Apple

论文大体内容
本文介绍了Apple AFM团队的2个基础大模型,分别可在服务端和客户端上运行。这两个大模型是Apple的基础模型,文中描述了从训练到评估模型的各个模块。

Motivation
这是Apple的基础大模型。

Contribution
①技术落地的完整性,本文详细描述了训练AFM的各个模块和步骤。
②提出了从基础模型扩展到具体任务的整体框架,用于Apple后续各个应用的落地。
③强调负责任的AI实践,包括整个流程的Principles,以及注重用户的隐私。


1. 本文主要介绍了Apple AFM组(Apple Foundation Model)的2个基础大模型,包括:
①AFM-on-device:3B参数的模型,运行于设备端;
②AFM-server:主LLM模型,用于对标GPT系列;
这两个基础模型主要提供2个应用场景:
①Coding model:在Xcode中提供给开发者使用;
②Diffusion model:在App中提供给用户使用,比如Messages App;

2. Apple对LLM开发时候遵守的Principles包括:
①用智能工具赋能用户
②代表我们的用户
③谨慎设计
④保护隐私
这几个Principles是公司文化的体现。

3. LLM整体架构采用了业界主流的Transformer架构,主要有以下几点选择:
①一个共享的输入/输出嵌入矩阵,节省内存;
②Pre-Normalization和RMSNorm;
③Q/K进行归一化,提升训练稳定性;
④GQA(Grouped-query attention),节省内存;
⑤SwiGLU激活函数[1];
⑥RoPE位置嵌入,支持更长的context;

4. LLM的整体尺寸信息如下,参数量计算公式是:N*(12*D*D+13*D),其中D=n*d。
-N是Transformer的层数
-n是MHA中head的数量
-d是MHA中每个头的dim

【Pre-training阶段】
5. 数据:
使用Applebot抓取的数据。本文指出数据的质量比数量更重要。
①网页数据:
-抽取正文
-使用启发式方法和模型进行安全性过滤来处理网页文本
-数据去重,使用n-gram哈希
-使用启发式方法和模型进行质量筛选
-对常用的基准数据集进行处理
②授权数据集:来自于出版商
③代码数据:来自于Github
④数学数据:网络爬取
⑤公开的高质量数据集
⑥分词器:BPE(byte-pair encoding)

6. 方法:
AFM Pre-training分为3个阶段:
①核心阶段:使用6.3T token训练,用了8192个TPUv4芯片,4096的序列长度
②延续阶段:弱化低质量数据集,强化高质量数据集,用了8192的序列长度
③context扩展阶段:提升context长度,用了32768的序列长度
优化器使用RMSProp。
其中AFM-on-device是AFM-server的蒸馏版本,使用了知识蒸馏和结构剪枝来降低模型大小。


【Post-Training阶段】
7. 数据:
包括人工标注数据和合成数据。本文指出数据的质量比数量更重要。
①人工标注数据
②合成数据:提升多样性

8. SFT(Supervised fine-tuning)
使用标注数据进行SFT。

9. RLHF
①iTeC(Iterative teaching committee)
该框架有效地结合了各种偏好优化算法,包括拒绝采样(RS)、直接偏好优化(DPO)以及在线强化学习(RL)。这使我们能够将RLHF的优势应用于各种规模的模型,同时提高它们的对齐性。
②MDLOO(Mirror Descent with Leave-One-Out estimation)
比PPO更有效。

10. 拒绝采样的理解[2]
①属于蒙特卡洛方法的一种,本质是通过一个提议分布(均匀分布或正态分布)q(x),来采样出目标分布p(x)。如果从q(x)中随机出来的 x <= p(x) 则采样,否则不采样。
②在LLM中使用拒绝采样的方式是让LLM生成多个答案,然后用 V3 判断哪个回答好,好的回答当作接下来的 SFT 数据,不断螺旋上升(DeepSeek R1[3])。

11. 基于基础模型扩展到具体任务:通过LoRA、量化进行微调,整体框架如下:

12. 效果评估
①Pre-Training阶段:主要使用了基准数据集MMLU(多选题Multi-subject multiple-choice)评估


②Post-Training阶段:主要使用了人工评估,能更接近于用户体验
-基准测试 HELM-Lite v1.5.0


-人工评估


-指令遵循


-工具使用


-写作


-数学:GSM8K、MATH


-摘要人工评估

13. Responsible AI(安全性)
①安全标准:该分类标准包含12个主要类别,下设51个子类别,其中包括“仇恨言论、刻板印象与诋毁性语言”、“歧视、边缘化与排斥”、“非法活动”、“成人色情内容”以及 “血腥暴力内容”。
②Pre-Training阶段:训练语料的的安全过滤、隐私信息过滤;
③Post-Training阶段:10%的数据用于对抗训练,与安全相关;
④防范恶意代码:将所有生成的代码视为不安全代码,代码只会在封闭的环境里执行
⑤Red Teaming:主动诱导、攻击的测试;
⑥安全性评估:本模型效果相比GPT等更优;


14. 这篇论文比较完整的展示了Apple LLM模型的各个环节,对大家了解LLM的工作有一些帮助,文章写的比较务实。整体来看是中规中矩,学术性的突破不多,更多是具体落地的工程实践。


参考资料
[1] 详解SwiGLU激活函数 https://zhuanlan.zhihu.com/p/31289994147
[2] 拒绝采样 https://blog.csdn.net/jteng/article/details/54344766
[3] DeepSeek R1 https://blog.csdn.net/John159151/article/details/147687702

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

http://www.dtcms.com/wzjs/357842.html

相关文章:

  • 企业网站建站 广州 视频什么是网站推广优化
  • 做化工外贸需要那些网站长沙靠谱的关键词优化
  • 哈尔滨建筑seo整站优化吧
  • 榆林网站seo销售
  • 大型网站响应式广告联盟app下载
  • 点点网转wordpressseo排名软件怎么做
  • 初学者求教怎样做网站北京seo主管
  • ps做好的网站如何做链接网站运营一个月多少钱
  • 什么样企业需要网站建设推广的几种方式
  • 有没有直接做网站的软件郑州关键词优化费用
  • wordpress架设主机石家庄百度搜索引擎优化
  • 住房和城乡建设厅网站首页外国人b站
  • 南城仿做网站seo免费系统
  • 外贸推广营销公司当阳seo外包
  • 瑞安企业网站建设seo软件
  • 一起做网站17广州2024年2月新冠疫情又开始了吗
  • 襄阳市住房城乡建设部网站必应bing搜索引擎
  • ps怎么做网站首页和超链接百度的客服电话是多少
  • 烟台 做网站松原今日头条新闻
  • 网站美工的重要性aso推广方案
  • 潍坊哪里可以做网站苏州新闻今天最新消息新闻事件
  • 可以做日语翻译的兼职网站免费网络推广
  • 金华东阳网站建设沈阳百度seo
  • 网站建设规划案例整站seo免费咨询
  • 沃航科技网站开发长沙网红打卡地
  • dw做的网站品牌策略有哪些
  • 零陵区住房和城乡建设局网站邯郸seo优化
  • 做网站服务器有哪些怎么创建网页
  • 有人拉我做彩票网站南山网站seo
  • 宝安有效的网站制作百度推广seo优化