当前位置: 首页 > wzjs >正文

河北邯郸做网站百度搜索排名机制

河北邯郸做网站,百度搜索排名机制,营销网站建设专业公司,如何注册一个app平台self.lm_head nn.Linear(config.hidden_size, config.vocab_size, biasFalse) 这个是用来干嘛的 输出层,词汇投影层,将模型输出的隐藏状态向量映射回词表空间,用于预测下一个token # 预测 logits,未经过 softmax lm_logits self…

self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False) 这个是用来干嘛的

输出层,词汇投影层,将模型输出的隐藏状态向量映射回词表空间,用于预测下一个token

# 预测 logits,未经过 softmax

lm_logits = self.lm_head(hidden_states)  # shape: [B, L, vocab_size]

之后再通过 softmax 转换为每个 token 的概率。

class Qwen2Model(Qwen2PreTrainedModel):

    def __init__(self, config):

        super().__init__(config)

        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size)

        self.layers = nn.ModuleList([

            Qwen2DecoderLayer(config) for _ in range(config.num_hidden_layers)

        ])    #这里由config文件决定的有很多很多层

        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

每一层结构

class Qwen2DecoderLayer(nn.Module):

    def __init__(self, config):

        ...

        self.self_attn = Qwen2Attention(config)

        self.mlp = Qwen2MLP(config)

        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

        self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

    def forward(self, hidden_states, ...):

        residual = hidden_states

        hidden_states = self.input_layernorm(hidden_states)

        hidden_states, _ = self.self_attn(hidden_states, ...)

        hidden_states = residual + hidden_states

        residual = hidden_states

        hidden_states = self.post_attention_layernorm(hidden_states)

        hidden_states = self.mlp(hidden_states)

        hidden_states = residual + hidden_states

        return hidden_states, ...

self.mlp = Qwen2MLP(config) 这个是什么

标准Transformer FFN

class TransformerFFN(nn.Module):

    def __init__(self, embed_dim, hidden_dim):

        super().__init__()

        self.linear1 = nn.Linear(embed_dim, hidden_dim)

        self.relu = nn.ReLU()

        self.linear2 = nn.Linear(hidden_dim, embed_dim)

    def forward(self, x):

        return self.linear2(self.relu(self.linear1(x)))

http://www.dtcms.com/wzjs/411400.html

相关文章:

  • 做艺术文字的网站制作一个网站的费用是多少
  • php网站建设模板seo最新快速排名
  • b2b电子商务网站有发布软文的平台
  • 博达网站建设怎么建立下载代运营一家店铺多少钱
  • wordpress注册完成请检查电子邮件网站优化入门免费教程
  • 徐州网站建设的特点营销神器
  • untitled怎么做网页seo搜索引擎优化推广
  • 辛集做网站公司网站运营公司
  • 钙网logo设计免费seo技术培训课程
  • 网站建设 迅雷下载磁力猫引擎
  • 网上做淘宝优惠券的网站靠谱吗湖南靠谱seo优化公司
  • 网站怎么做微博认证如何做个人网站
  • 域名注册了后怎么建设网站单页网站设计
  • 网页设计有哪些软件重庆网站seo教程
  • wordpress做淘宝客网站网络优化的工作内容
  • 网站建设需要什么教材海外推广方案
  • 广州科技网站建设关键词林俊杰百度云
  • 成都网络推广中联无限上海seo推广整站
  • 网站媒体作风建设年工作总结站长工具中文
  • 北京装饰公司电话seo技术蜘蛛屯
  • 做团购的网站有哪些青岛网站seo
  • 如何用h5自己做网站百度官网客服
  • seo企业网站模板站长工具seo综合查询 分析
  • 网络营销又可以称为seo 资料包怎么获得
  • 体育馆做网站公司建站
  • 360免费建站pomhubseo优化内页排名
  • 好学校平台网站模板下载安装企业网站推广外包
  • 做html5网站互联网营销
  • 商城网站多少钱做品牌推广方式都有哪些
  • 企业高端网站制作搜索引擎营销的英文缩写