当前位置: 首页 > wzjs >正文

做网站水晶头在校学生兼职网站建设

做网站水晶头,在校学生兼职网站建设,代码编程入门教学视频,考上一级建造师很牛吗--->更多内容&#xff0c;请移步“鲁班秘笈”&#xff01;&#xff01;<--- IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时&#xff0c;也为长文本处理和指令遵循场景带来了新的…

--->更多内容,请移步“鲁班秘笈”!!<---

IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时,也为长文本处理和指令遵循场景带来了新的可能。

架构与设计理念

Granite 4.0 Tiny预览版采用了一种独特的混合架构,将Mamba-2<温故知新>风格的状态空间模型(SSM)与传统Transformer架构融合在一起。这种设计理念源于IBM研究团队与Mamba原创者在Bamba项目上的合作,旨在结合两种架构的优势,克服各自的局限性。

这款模型采用了细粒度的混合专家系统(MoE)结构,总计拥有7B参数,但在每次前向传播中仅激活1B参数。这种稀疏性使模型能够在显著降低计算开销的同时,提供可扩展的性能——这对于资源受限环境和边缘计算尤为重要。

小编曾经很详细介绍了Mamba系列,感兴趣的读者可以去回顾一下。Mamba是一种状态空间模型(SSM),于2023年推出,而Transformer模型在2017年问世。

状态空间模型在概念上类似于在Transformer时代之前主导自然语言处理(NLP)领域的循环神经网络(RNN)。它们最初被设计用来预测连续序列(如电信号)的下一个状态,只使用当前状态、前一状态和可能性范围(即状态空间)的信息。尽管几十年来SSM已在多个领域使用,但它们与RNN共享某些缺点,直到最近这些缺点还限制了它们在语言建模方面的潜力。与Transformer的自注意力机制不同,传统的SSM没有固有的能力选择性地关注或忽略特定的上下文信息。

在2023年,卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao引入了一种结构化状态空间序列("S4")神经网络,增加了选择机制和扫描方法(用于计算效率)——缩写为"S6"模型——并取得了与Transformer相竞争的入场券。2024年,Gu和Dao发布了Mamba-2,这是Mamba架构的简化和优化实现。最后得出了SSM和自注意力之间是殊途同归的结论。

NoPE

传统语言模型常常依赖位置编码(PE)来表示词序信息,但研究表明,使用旋转位置编码(RoPE)等技术的模型难以泛化到长序列。

Granite 4.0架构采用了无位置编码(NoPE)技术。与常规的固定或学习型位置嵌入不同,该模型将位置处理直接集成到其层动态中。IBM的测试证明,这种方法不仅提高了模型在不同输入长度上的泛化能力,还提升了长序列生成的一致性,同时不会对长文本处理性能产生负面影响。

目前,IBM已验证了Tiny预览版在至少128K令牌长度的上下文中的性能,并期望在模型完成训练和后训练后,能够在显著更长的上下文长度上获得类似的表现。Granite 4.0 Tiny预览版在资源效率方面有着令人印象深刻的表现。在FP8精度下,多个并发会话可以在消费级硬件上运行长上下文(128K)任务,包括价格低廉的GPU。

多个Granite 4.0 Tiny的并发实例也可以在一个普通的消费级GPU上轻松运行。相比之下,模型的内存需求减少了约72%。

性能强劲

Chart comparing performance of language models

尽管Granite 4.0 Tiny预览版仅完成了计划15万亿或更多训练令牌中的2.5万亿,但它已经展现出了与IBM Granite 3.3 2B Instruct相媲美的性能。

Comparison of RAM requirements for language models

IBM预计,当Granite 4.0 Tiny完成训练和后训练后,其性能将与Granite 3.3 8B Instruct相当。在基准测试中,Granite 4.0 Tiny Base预览版展示了令人瞩目的进步:

  • DROP(段落离散推理)基准测试中提高了5.6分

  • AGIEval(评估一般语言理解和推理能力)中提高了3.8分

而经过指令调优的变体(Instruct),在IFEval的得分86.1,在GSM8K的得分70.05,在HumanEval得分为82.41

Granite 4.0 Tiny预览版的指令模型支持12种语言的多语言交互,使其适用于全球范围内的客户服务、企业自动化和教育工具等部署场景。

IBM已经在Hugging Face上公开了两个模型:

  1. Granite 4.0 Tiny Base Preview

  2. Granite 4.0 Tiny Instruct Preview

这些模型在Apache 2.0许可下提供完整的模型权重、配置文件和示例使用脚本,鼓励透明实验、微调和跨下游NLP工作流的集成。

IBM尚不建议将预览版用于企业用途,模型的新架构正在等待Hugging Face transformers和vLLM的支持,预计不久将为这两个项目完成。通过Ollama和LMStudio等平台合作伙伴在本地运行此模型的官方支持预计将在今年夏季完整模型发布时提供。

IBM Granite 4.0 Tiny预览版体现了现代AI开发中的一种平衡艺术——在追求技术创新的同时不忘实用性考量。通过结合Mamba和Transformer的优势,采用无位置编码技术,以及优化混合专家系统架构,IBM展示了如何在不牺牲性能的情况下显著提高效率。


文章转载自:

http://Hd8zz8BZ.mmpLj.cn
http://E7sSyKgU.mmpLj.cn
http://mxlSRxiI.mmpLj.cn
http://s9Dhd8D7.mmpLj.cn
http://gC4i2TyQ.mmpLj.cn
http://Zei1T4bo.mmpLj.cn
http://ipiiXgHZ.mmpLj.cn
http://3o59MqRl.mmpLj.cn
http://6FIN1Lj3.mmpLj.cn
http://kzthQnC1.mmpLj.cn
http://s57jN0ns.mmpLj.cn
http://RbnIag5S.mmpLj.cn
http://rox1jZJt.mmpLj.cn
http://H3zQPSkM.mmpLj.cn
http://0JVW77d1.mmpLj.cn
http://aNwUn5NZ.mmpLj.cn
http://izY1ndoK.mmpLj.cn
http://Ycgx6I95.mmpLj.cn
http://Ke0OSZa6.mmpLj.cn
http://djfaq6gZ.mmpLj.cn
http://83L1U3A9.mmpLj.cn
http://3a2gEiYO.mmpLj.cn
http://hFrCqLhk.mmpLj.cn
http://e3xuaiva.mmpLj.cn
http://x7vIm6Wr.mmpLj.cn
http://O0Tj6B09.mmpLj.cn
http://AGTubE5i.mmpLj.cn
http://aIoo17Vv.mmpLj.cn
http://NjhE8wTK.mmpLj.cn
http://AUTJ8ZgC.mmpLj.cn
http://www.dtcms.com/wzjs/637593.html

相关文章:

  • 淘宝联盟网站怎么建设响应式网站建设智能优化
  • 湖南网站seo营销网站做淘客 还可以吗
  • 怎么查询网站名注册263企业邮箱登录入口263
  • 网站建设方案公司任何网络项目开始的第一步
  • 个人网站备案入口做明星网站打广告
  • 学校网站信息化建设工作心得百度网站排名 查询
  • 校园网站建设平台h5制作网页
  • 便宜做外贸网站秦皇岛 网站
  • 广东网页制作网站wordpress 红包
  • 虹口北京网站建设网站开发公司源码
  • 做ppt好用的网站杭州网站建设公司联系方式
  • 义乌网站制作电话公司介绍ppt范例
  • 长春专业做网站的公司排名网页版的微信
  • 检测网站访问量1688阿里巴巴官网
  • 免费建设淘客网站南宁网站设计要多少钱
  • 网站logo图怎么做工作计划如何写
  • 四川省建设安全管理协会网站wordpress开发架构
  • 阜阳建设部网站广东东莞邮政编码
  • 爱心捐赠网站怎么做免费站长统计工具
  • 电脑和手机都能浏览的网站开发网站怎么优化推广
  • 网站建设需要学习课程网站建设方案策划书前言
  • 网站首页横版图怎么做emeinet亿玫网站建设
  • 简洁公司网站源码网站制作语言
  • 创建网站的价格制作小企业网站
  • 洛阳天艺网络做网站怎么样事件营销ppt
  • 国内优秀公司网站做一件代发哪个网站好
  • 网站营销公司哪家好西安网页设计设计培训
  • 网站更新维护怎么做网站制作的内容什么好
  • vs网站开发源码诸城个人网站建设
  • 视频网站做短视频网站优化建设郑州