当前位置: 首页 > news >正文

Qwen系列模型

在这里插入图片描述

Qwen 1 / 1.5 系列模型技术解析

通义千问(Qwen)1 系列模型采用经典的 Transformer 解码器架构,是标准的自回归大语言模型框架。在此基础上,Qwen 引入了一些改进和定制设计:

  • Transformer Decoder 架构
  • 分组查询注意力(Grouped Query Attention, GQA)
  • RoPE:
    Qwen 在实现中使用了 FP32 精度 来计算 RoPE 的频率矩阵,以确保在长上下文情况下的数值稳定性和精度。这为后续扩展上下文长度打下基础。
  • 词典输入输出投影权重不共享参数:
    实验发现这可以提升模型效果,但代价是略增内存消耗。
  • 去 Bias 处理:
    以简化模型和提高训练稳定性。但在注意力层的 Q、K、V 投影中保留了偏置。研究表明,在 QKV 添加偏置有助于增强模型长上下文外推能力(即在上下文长度超出训练范围时保持稳定的注意力分布)。
  • Pre-Norm与 RMSNorm
  • SwiGLU与FFN隐藏层从4倍到3倍:
    以配合GLU的门控机制减少参数量,但性能无明显损失。
  • NTK 插值方法和窗口化注意力策略扩展上下文长度:
    预训练时通常为2048(部分新版小模型已扩展至8192),推理阶段通过无需重新训练的技巧实现了长上下文扩展。

https://blog.csdn.net/weixin_59191169/article/details/148560050

http://www.dtcms.com/a/320393.html

相关文章:

  • [链表]两两交换链表中的节点
  • 【感知机】感知机(perceptron)学习算法的对偶形式
  • aurora rx没有ready信号
  • 哈希表——指针数组与单向链表的结合
  • linux顽固进程查看并清理
  • Java包装类详解与应用指南
  • SupChains技术团队:需求预测中减少使用分层次预测(五)
  • 目标检测数据集 - 眼睛瞳孔检测数据集下载「包含COCO、YOLO两种格式」
  • 菜鸟笔记007 [...c(e), ...d(i)]数组的新用法
  • (数据结构)顺序表实现-增删查改
  • java中override和overload的区别
  • 敏捷总结-上
  • 如果获取Docker镜像
  • Flink与Kafka核心源码详解-目录
  • 中国北极圈战略部署
  • 有密钥保护的物流跟踪、图书馆管理ISO15693标签ICODE SLIX2读写C#源码
  • 跨学科视域下的深层语义分析与人类底层逻辑一致性探索
  • 计数组合学7.15(Schur 函数的经典定义 )
  • 多模态融合(Multimodal Fusion)
  • 神策埋点是什么
  • C语言:单链表学习
  • 城市道路场景下漏检率↓76%:陌讯多模态融合算法在井盖缺失识别中的实践
  • Nestjs框架: 管道机制(Pipe)从校验到转换的全流程解析
  • ROS Launch 文件中的替换参数详解
  • 1.电动汽车动力电池系统技术介绍与分类
  • 在线文档自动化工具有什么
  • 周志华院士西瓜书实战(三)聚类+邻居+PCA+特征选择+半监督学习
  • 【Canvas与徽章】北极星蓝盘玻璃光徽章
  • NumPy库向量的常见运算
  • C++面试9——多继承陷阱与适用场景