当前位置: 首页 > wzjs >正文

河北邯郸做网站windows系统优化软件

河北邯郸做网站,windows系统优化软件,电子产品网站建设分析的摘要,网站建站分辨率self.lm_head nn.Linear(config.hidden_size, config.vocab_size, biasFalse) 这个是用来干嘛的 输出层,词汇投影层,将模型输出的隐藏状态向量映射回词表空间,用于预测下一个token # 预测 logits,未经过 softmax lm_logits self…

self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False) 这个是用来干嘛的

输出层,词汇投影层,将模型输出的隐藏状态向量映射回词表空间,用于预测下一个token

# 预测 logits,未经过 softmax

lm_logits = self.lm_head(hidden_states)  # shape: [B, L, vocab_size]

之后再通过 softmax 转换为每个 token 的概率。

class Qwen2Model(Qwen2PreTrainedModel):

    def __init__(self, config):

        super().__init__(config)

        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size)

        self.layers = nn.ModuleList([

            Qwen2DecoderLayer(config) for _ in range(config.num_hidden_layers)

        ])    #这里由config文件决定的有很多很多层

        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

每一层结构

class Qwen2DecoderLayer(nn.Module):

    def __init__(self, config):

        ...

        self.self_attn = Qwen2Attention(config)

        self.mlp = Qwen2MLP(config)

        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

        self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

    def forward(self, hidden_states, ...):

        residual = hidden_states

        hidden_states = self.input_layernorm(hidden_states)

        hidden_states, _ = self.self_attn(hidden_states, ...)

        hidden_states = residual + hidden_states

        residual = hidden_states

        hidden_states = self.post_attention_layernorm(hidden_states)

        hidden_states = self.mlp(hidden_states)

        hidden_states = residual + hidden_states

        return hidden_states, ...

self.mlp = Qwen2MLP(config) 这个是什么

标准Transformer FFN

class TransformerFFN(nn.Module):

    def __init__(self, embed_dim, hidden_dim):

        super().__init__()

        self.linear1 = nn.Linear(embed_dim, hidden_dim)

        self.relu = nn.ReLU()

        self.linear2 = nn.Linear(hidden_dim, embed_dim)

    def forward(self, x):

        return self.linear2(self.relu(self.linear1(x)))

http://www.dtcms.com/wzjs/188562.html

相关文章:

  • wordpress设置导航菜单长沙官网优化公司
  • 很小众却很惊艳的店名seo价格是多少
  • 网站建设需要的功能百度一下首页官网
  • 一般做个网站多少做网站多少钱最新行业动态
  • 武汉做个网站多少钱新闻今天最新消息
  • 东莞网站建设设计天津seo托管
  • 南京seo关键词优化资讯永州网站seo
  • wordpress导航栏特效插件seo北京公司
  • 北京电商网站开发平台淘客推广怎么做
  • 软件免费下载的网站大全百度竞价专员
  • 做网站卖机械bt磁力搜索
  • 物流网站建设 市场分析上海seo推广服务
  • 微网站开发北京品牌策划案
  • 网站认证主体南昌seo优化公司
  • 企业网站建设文案企业网络营销推广方案
  • 乐清网站建设公司广州seo网络培训课程
  • 政府网站谁来做找人帮忙注册app推广
  • wordpress 渗透框架班级优化大师网页版登录
  • 简单网站设计价格网络推广计划方案
  • 网站建设多少钱明细seo快速排名首页
  • 重庆做网站找谁百度推广助手app下载
  • 汉中网站建设服务深圳网络营销推广招聘网
  • 小说网站建设笺池斋seo英文怎么读
  • 教做月嫂的网站有吗百度ai搜索引擎
  • 网站开发笔记本关键词热度
  • 马云做网站最开始怎么盈利的直通车怎么开
  • 学校英文版网站建设方案郑州官网网站推广优化
  • u网站建设自助建站系统平台
  • 网站常用特效免费代理上网网站
  • 网站销售怎么做国内最好用的免费建站平台