当前位置：首页 > news >正文

Qwen2.5模型结构

news 2025/10/30 12:20:29

self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False) 这个是用来干嘛的

输出层，词汇投影层，将模型输出的隐藏状态向量映射回词表空间，用于预测下一个token

# 预测 logits，未经过 softmax

lm_logits = self.lm_head(hidden_states) # shape: [B, L, vocab_size]

之后再通过 softmax 转换为每个 token 的概率。

class Qwen2Model(Qwen2PreTrainedModel):

def __init__(self, config):

super().__init__(config)

self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size)

self.layers = nn.ModuleList([

Qwen2DecoderLayer(config) for _ in range(config.num_hidden_layers)

]) #这里由config文件决定的有很多很多层

self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

每一层结构

class Qwen2DecoderLayer(nn.Module):

def __init__(self, config):

...

self.self_attn = Qwen2Attention(config)

self.mlp = Qwen2MLP(config)

self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

def forward(self, hidden_states, ...):

residual = hidden_states

hidden_states = self.input_layernorm(hidden_states)

hidden_states, _ = self.self_attn(hidden_states, ...)

hidden_states = residual + hidden_states

residual = hidden_states

hidden_states = self.post_attention_layernorm(hidden_states)

hidden_states = self.mlp(hidden_states)

hidden_states = residual + hidden_states

return hidden_states, ...

self.mlp = Qwen2MLP(config) 这个是什么

标准Transformer FFN

class TransformerFFN(nn.Module):

def __init__(self, embed_dim, hidden_dim):

super().__init__()

self.linear1 = nn.Linear(embed_dim, hidden_dim)

self.relu = nn.ReLU()

self.linear2 = nn.Linear(hidden_dim, embed_dim)

def forward(self, x):

return self.linear2(self.relu(self.linear1(x)))

查看全文

http://www.dtcms.com/a/177487.html

【前端笔记】CSS 选择器的常见用法

C++ 析构函数

goland无法debug

源雀SCRM开源·AI企微客服｜RAG知识中枢+自训练闭环

屏蔽力 | 在复杂世界中从内耗到成长的转变之道

在shell中运行RDD程序

layui下拉框输入关键字才出数据

c++中“”符号代表引用还是取内存地址？

手写 Vue 源码 === 完善依赖追踪与触发更新

数组和集合

【CSS】Grid 的 auto-fill 和 auto-fit 内容自适应

NHANES指标推荐：AISI

Qwen2-VL详解

cocos中加入protobuf和编译protobuf的方法

软件设计师2025

SecureCRT SFTP命令详解与实战

Unity3D 游戏内存优化策略

模拟设计中如何减小失配

淘宝按图搜索商品（拍立淘）Java 爬虫实战指南

罗氏线圈抗干扰特性测试方法研究

霍尔传感器与罗氏线圈的对比分析

[D1，2] 贪心刷题

3、Kafka 核心架构拆解和总结

私网IP地址范围解析与应用指南

低代码 x AI，解锁数智化应用的创新引擎

自组织映射SOM

C++_MD5算法

Diamond iO：实用 iO 的第一缕曙光

Java从入门到精通 - 程序流程控制

数字化转型是往哪转？怎么转？

相关文章：