当前位置: 首页 > wzjs >正文

郑州公司做网站广州番禺各镇分布图

郑州公司做网站,广州番禺各镇分布图,专题探索网站开发教学模式的结构,如何查询网站备案时间GQA 是一种在多头注意力中共享 Key/Value,但拥有独立 Query 的结构,用于提升推理效率、减少冗余计算。 ✅ GQA vs 多头注意力 (MHA) • MHA:每个 head 都有独立的 Q/K/V • GQA:每个 head 有独立 Q,但共享组内 K/V&a…

GQA 是一种在多头注意力中共享 Key/Value,但拥有独立 Query 的结构,用于提升推理效率、减少冗余计算。

✅ GQA vs 多头注意力 (MHA)

•	MHA:每个 head 都有独立的 Q/K/V
•	GQA:每个 head 有独立 Q,但共享组内 K/V

🚀 GQA 简易 PyTorch 实现

import torch
import torch.nn as nn
import torch.nn.functional as Fclass GQAAttention(nn.Module):def __init__(self, hidden_size, num_heads, num_kv_groups=1):super().__init__()assert hidden_size % num_heads == 0self.hidden_size = hidden_sizeself.num_heads = num_headsself.head_dim = hidden_size // num_headsself.num_kv_groups = num_kv_groupsassert num_heads % num_kv_groups == 0# 每个 head 的 Q 独立self.q_proj = nn.Linear(hidden_size, hidden_size)# K 和 V 是共享的(Group-wise),因此维度为 num_kv_groups * head_dimself.k_proj = nn.Linear(hidden_size, self.head_dim * num_kv_groups)self.v_proj = nn.Linear(hidden_size, self.head_dim * num_kv_groups)self.out_proj = nn.Linear(hidden_size, hidden_size)def forward(self, x):B, T, _ = x.size()# Q: [B, T, H * D] → [B, H, T, D]q = self.q_proj(x).view(B, T, self.num_heads, self.head_dim).transpose(1, 2)# K/V: [B, T, G * D] → [B, G, T, D]k = self.k_proj(x).view(B, T, self.num_kv_groups, self.head_dim).transpose(1, 2)v = self.v_proj(x).view(B, T, self.num_kv_groups, self.head_dim).transpose(1, 2)# 将 KV 扩展到每个 head(head 与 group 对应)heads_per_group = self.num_heads // self.num_kv_groupsk = k.repeat_interleave(heads_per_group, dim=1)v = v.repeat_interleave(heads_per_group, dim=1)# Attention: [B, H, T, D] x [B, H, D, T] → [B, H, T, T]attn_weights = torch.matmul(q, k.transpose(-2, -1)) / (self.head_dim ** 0.5)attn_probs = F.softmax(attn_weights, dim=-1)attn_output = torch.matmul(attn_probs, v)  # [B, H, T, D]attn_output = attn_output.transpose(1, 2).contiguous().view(B, T, self.hidden_size)return self.out_proj(attn_output)

🧠 参数解释

参数名 含义
hidden_size 模型总隐藏维度
num_heads Query 的数量
num_kv_groups K/V 分组数量(小于 num_heads)
heads_per_group 每组多少个 head 共享一个 KV

📌 举例:设置说明

GQAAttention(hidden_size=768, num_heads=12, num_kv_groups=4)

含义为:
• 有 12 个 Q-head(每个独立)
• 只有 4 个 K/V group(被共享)
• 每 3 个 Q-head 共享 1 个 KV group

✅ GQAAttention 测试函数(PyTorch)

def test_gqa():import torch# 参数设置batch_size = 2seq_len = 10hidden_size = 768num_heads = 12num_kv_groups = 4# 构造 GQA 模块gqa = GQAAttention(hidden_size=hidden_size, num_heads=num_heads, num_kv_groups=num_kv_groups)# 随机构造输入:[B, T, H]dummy_input = torch.randn(batch_size, seq_len, hidden_size)# 执行前向传播output = gqa(dummy_input)# 打印输出维度print("Input shape:", dummy_input.shape)print("Output shape:", output.shape)# 断言输出维度匹配输入assert output.shape == (batch_size, seq_len, hidden_size), "Output shape mismatch!"print("✅ GQA forward pass test passed.")if __name__ == "__main__":test_gqa()

输出

Input shape: torch.Size([2, 10, 768])
Output shape: torch.Size([2, 10, 768])
✅ GQA forward pass test passed.

文章转载自:

http://BgbzN749.kLdtf.cn
http://83e92YO6.kLdtf.cn
http://6K07jt3c.kLdtf.cn
http://3xSFW2Dm.kLdtf.cn
http://R9sYwgcP.kLdtf.cn
http://FZFWmlgD.kLdtf.cn
http://WSbqh9OW.kLdtf.cn
http://PXoHybFq.kLdtf.cn
http://GoUGCjiG.kLdtf.cn
http://90y2fxY4.kLdtf.cn
http://DPOVBHvp.kLdtf.cn
http://kgiAjGUS.kLdtf.cn
http://NFfR7rt1.kLdtf.cn
http://l5SKHeW7.kLdtf.cn
http://Ic1VB2U3.kLdtf.cn
http://6LpaXOXt.kLdtf.cn
http://06zYaJps.kLdtf.cn
http://eGoDy2u4.kLdtf.cn
http://ETkFhChw.kLdtf.cn
http://nzggejx7.kLdtf.cn
http://ItVPVz9c.kLdtf.cn
http://810pwtKf.kLdtf.cn
http://ug0Hl4Zx.kLdtf.cn
http://0MUpWhfZ.kLdtf.cn
http://lOGh56fD.kLdtf.cn
http://tewf5l5N.kLdtf.cn
http://UpAx0Ve4.kLdtf.cn
http://XJ8bjNX9.kLdtf.cn
http://KUXGhqtY.kLdtf.cn
http://xhYBsb5H.kLdtf.cn
http://www.dtcms.com/wzjs/636344.html

相关文章:

  • 北京的网站制作网站排名下降原因
  • 公众号和网站凡科网免费网站怎么样
  • 找人建网站做网站横幅的软件
  • 个人或主题网站建设实验体会超市设计网站
  • 网站无内容 备案梁志天设计公司官网首页
  • 海南澄迈住房和城乡建设厅网站珠海建设工程交易中心网站
  • 英语培训东莞网站建设建设网站如何挂到网上
  • 网站及其建设的心得体会企业管理咨询服务协议
  • cms网站制作seo推广系统排名榜
  • 南京网站开发招聘微信商城如何开通
  • 长春网站建设长春电梯公司抖音餐厅代运营方案
  • 昆山建设银行网站首页合肥百度 网站建设
  • 随州网站推广哪家好查wordpress模板
  • 中国建设银行个人网上银行网站广州建设信息网
  • 无锡网站建设专家无锡网站制作建工网校怎么样
  • 本溪做网站的公司柳州网站建设
  • 网站模板代理电话网站制作营销型
  • wordpress 内网 插件潍坊seo网络推广
  • 企业网站美化做照片书的网站好
  • 鲜花销售网站建设策划表详情页怎么做
  • 网站建设需求范文杭州工程招标网
  • 北京企业网站设计制作公司做年审在哪个网站
  • 网站建设这门课好学吗vs简易新闻建设网站
  • 网站导航界面网站网络推广方法
  • 中英切换的网站咋做甘肃省建设厅执业资格注册网站
  • 网站扁平化结构和树形结构网站运营 网站建设
  • 安国网站建设办公室装修费用会计分录
  • 中山网站建设华联在线wordpress加载进度条
  • 二级域名搭wordpress上海做网站优化的公司
  • 同性恋色做视频网站有哪些有哪些做室内设计好用的网站