当前位置: 首页 > wzjs >正文

如何给网站刷流量长沙百家号seo

如何给网站刷流量,长沙百家号seo,网站从建设到运行要多少钱,爱南宁app论文链接:arxiv.org/pdf/2407.21783 本博客只针对Llama3中的训练数据做阅读笔记。后续会单独对Llama1-3的模型做总结。 摘要 多语言支持工具使用能力最大模型参数达到 405B,采用稠密的 Transformer 架构,而非更常见的混合专家(…

论文链接:arxiv.org/pdf/2407.21783

本博客只针对Llama3中的训练数据做阅读笔记。后续会单独对Llama1-3的模型做总结。

摘要

  • 多语言支持
  • 工具使用能力
  • 最大模型参数达到 405B,采用稠密的 Transformer 架构,而非更常见的混合专家(MOE)架构。
  • 上下文窗口长度为 128K。

 导言

预训练与后训练

  • Llama 系列模型在预训练阶段使用了大量的多语言数据,达到 15TB 的规模。
  • 后训练则采用了简单的监督微调(Supervised Fine Tuning,SFT),并通过算法如拒绝采样(Reject Sampling)和 DPO(Direct Preference Optimization)进行对齐。

关键因素

  • 数据规模:Llama 系列模型坚持使用大量数据,强调数据质量与数量的平衡。
  • 模型规模:Llama 3.1 在参数规模上达到了 405B,展示了模型的强大能力。
  • 设计选择:模型在设计上选择了标准的稠密 Transformer,不采用 MOE(混合专家)架构。

 性能评估

  • 性能数据:模型在不同规模下(8B、70B、405B)的评估结果表明,随着模型规模增加,在多个评估任务上的性能确实有显著提升。
  • 模型表现:在知识面上,405B 模型显示出更强的记忆能力,但在根据指令执行时,70B 模型表现相对不错,且成本效益更高。


3 Pre-Training

语言模型的预训练包括以下几个方面:

(1) 大规模训练语料的整理和筛选;

(2) 模型架构的开发以及相应的规模法则,用于确定模型的大小;

(3) 开发高效的大规模预训练技术;

(4) 制定预训练的完整方案。

3.1 预训练数据

数据收集及来源

数据集由多种来源构成,包括公共网络数据(如爬取的网页内容)和特定领域的文档(如代码和数学相关内容)。

数据清理

PII过滤:去除包含大量个人可识别信息(PII)和已知成人内容的网站。这是为了保护用户隐私和确保模型安全性。

HTML处理:自定义解析器用于从原始HTML中提取干净文本,优化了对于广告和导航栏的去除。

数学和代码的保留:在处理包含数学公式和代码的网页时,保留了其结构和重要的内容,尤其是图片标签中的文本描述,以确保信息的完整性。

 数据去重

URL级别去重:保留每个URL的最新版本。

文档级别去重:通过MinHash算法去除近似重复的文档。

行级别去重:删除在每组3000万个文档中出现超过6次的行,以减少常见的冗余内容(如导航菜单、广告等)。

什么是哈希函数

哈希函数(Hash Function)是一种将输入数据(通常是任意长度的数据)映射为固定长度的输出数据(称为哈希值或哈希码)的函数。

什么是MinHash?

MinHash的核心思想是通过哈希函数将集合映射到一个较小的特征空间,从而实现对集合相似度的高效估计。

具体步骤如下:

  • 集合表示:首先,将每个文档表示为一个集合,通常是其特征(如单词、短语等)的集合。例如,文档D1的特征集合可以表示为{w1, w2, w3, ...}。

  • 哈希函数:选择多个哈希函数,将集合中的元素映射到哈希值。每个哈希函数会为集合中的每个元素生成一个哈希值。

  • 最小哈希值:对于每个哈希函数,找出集合中元素的最小哈希值。这些最小哈希值构成了该集合的MinHash签名。

  • 相似度计算:两个集合的相似度(通常是杰卡德相似度)可以通过比较它们的MinHash签名来估计。如果两个集合的MinHash签名相似,那么它们的原始集合也很可能相似。

数据的最终构成比例为:

  • 50%:通用知识
  • 25%:数学和推理相关内容
  • 17%:代码
  • 8%:多语言文本

多语言处理

在多语言数据处理上,Llama采取了以下策略:

  • 语言识别:使用fasttext模型识别176种语言,确保多语言数据的质量。
  • 去重与质量检测:针对不同语言实施文档和行级别的去重,并应用特定的质量过滤器。

数据混合与优化

为了获得高质量的语言模型,需谨慎决定不同数据源在预训练数据中的比例:

  • 知识分类:使用分类器对网页数据进行分类,以有效控制各类信息的比例,避免某些类别(如娱乐)过度代表。
  • Scaling Law实验:通过小模型在不同数据混合上的表现预测大模型的性能,反复调整数据比例。

什么是scaling law?

Scaling law(比例法则)实验是指在机器学习,尤其是在深度学习和自然语言处理领域中,通过试验和观察模型性能与模型规模(如参数量、数据量等)之间的关系,以获取关于如何扩展模型和优化其表现的规律和指导。

退火数据

通过对少量高质量代码和数学数据进行退火,可以提高模型在特定基准测试上的分数。这意味着在模型训练完成后,使用高质量数据进行再训练以增强特定能力。

什么是退火
通常情况下,深度学习中的退火指的学习率退火,训练过程中逐步降低学习率。初始阶段使用较高的学习率来快速收敛,然后逐渐降低学习率,使得模型能够更细致地调整参数,从而提高最终的收敛效果,减少震荡。

这里对少量高质量代码和数学数据进行退火是指:在模型的初始训练阶段,通常会使用大量的、可能存在多样性和噪声的数据,以帮助模型建立起对各种输入的基本理解。一旦初步训练完成,退火过程就会使用高质量的数据进行微调,以便使模型更好地适应新的数据特点。

http://www.dtcms.com/wzjs/102640.html

相关文章:

  • 河南艾特网站建设公司如何制作网页广告
  • 爱站工具包的主要功能杭州网站关键词排名优化
  • 个人建设图片分享网站sem优化软件选哪家
  • 软件前端开发工程师宁波网站推广网站优化
  • 虚拟机做的网站怎么让外网访问不了网今日新闻最新消息50字
  • 男人女人做那个网站互动营销案例
  • 欧亚专线兰州网站seo优化
  • 使用redis做视频网站缓存免费行情软件app网站下载大全
  • 做网站推销话术网络推广营销技巧
  • 豪圣建设项目管理网站百度推广账号登录入口
  • wordpress utf8企业网站seo诊断报告
  • 在线音乐网站开发php珠海seo推广
  • 内部劵网站怎么做磁力
  • 游戏网站怎么做seo最近的头条新闻
  • wap网站有哪些电商网页
  • 怎么做网站文件百度云搜索资源入口
  • 商务网站建设与管理读后感seo怎么做排名
  • 智慧团建网站注册东莞百度快照优化排名
  • 软文广告平台网站seo诊断技巧
  • 山东青岛网站制作公司百度域名
  • 手机网站主机如何创建一个网站
  • wordpress新建子域名多站点百度地图关键词排名优化
  • 政府网站建设 责任感搜索引擎优化方法有哪几种
  • 旅游网站开发 目的及必要性怎么让百度收录网址
  • 网站域名被抢注做商标西安网站快速排名提升
  • 网站的收费系统怎么做上海专业的网络推广
  • 易瑞通网站建设千锋培训机构官网
  • 中国建设招标网是个假网站企业推广的网站
  • web程序设计与实践做网站如何自己做网络推广
  • 网站建设平台信息google浏览器官网