当前位置: 首页 > wzjs >正文

怎么判断一个网站是否使用帝国做的移动互联网应用程序信息服务管理规定

怎么判断一个网站是否使用帝国做的,移动互联网应用程序信息服务管理规定,关于建筑建设的网站,wordpress主题乱码使用23w张数据集-vit-打算30轮-内存崩了-改为batch_size 8 我准备用23w张数据集&#xff0c;太大了&#xff0c;这个用不了&#xff0c;所以 是否保留 .stack() 加载所有图片&#xff1f;情况建议✅ 小数据集&#xff08;<2w张&#xff0c;图像小&#xff09;想加快速度可…

使用23w张数据集-vit-打算30轮-内存崩了-改为batch_size = 8  

 我准备用23w张数据集,太大了,这个用不了,所以

是否保留 .stack() 加载所有图片?情况建议
✅ 小数据集(<2w张,图像小)想加快速度可以用
❌ 大数据集(>5w张图)Colab / 本地内存有限❌ 不建议,容易爆 RAM
✅ 你正在用 Dataloader说明已动态加载不需要这段代码

网上经验

模型图片大小batch_size 安全值(Colab Pro)
ViT-B/16224×2248 非常安全(推荐)
ViT-B/16224×224⚠️ 16 可能会炸(尤其 A100/T4)
ViT-S/16224×22416~32 都行
ViT-Tiny / DeiT-Tiny224×22432~64 可尝试

什么是“骨架图”?

我们说“骨架图”,就是指:

  • 神经网络的“结构组成”

  • 包括:每一层的类型(如 Conv2d, Linear, Transformer 等)

  • 每层的参数维度(比如 Linear(768 → 29)

  • 模型的前向传递路线(从输入 → 输出)

ViT-B/16 模型骨架图包含:

模块名内容简介
conv_proj把图像分成 patch(切成小块),变成 768 维向量
encoder12 层 Transformer,每层包括 self-attention + MLP
heads线性分类层:将最终特征 [768] 映射到你要的类别(比如 29)

举个例子(完整流程):

如果你输入一张图片 img = [1, 3, 224, 224]:(1指batch_size)

  1. conv_proj 把它切成 16x16 的 patch(共 196 个 patch),每个 patch 映射为 768 维向量

  2. Transformer 对 768 的向量做注意力建模(12 层)

  3. 取出第一个“分类 token”的输出,传给 Linear(768 → num_classes)num_classes=29,这里

  4. 输出结果为 [1, num_classes],比如 [1, 29]

ViT 是一种用“文字处理的方式”来看图片的模型。

把图像当成一串“小块块”(Patch),就像文本中的“单词”,然后用 Transformer 来分析这些块的关系。

类比图像与文字:

文本(NLP)图像(ViT)
单词 Word图像小块 Patch
词向量Patch 向量(Embedding)
BERT 模型ViT 模型(结构几乎一样)
输入图像:[B, 3, 224, 224]表示你输入的是 batch_size = B 张 RGB 彩色图像,分辨率为 224x224。│
【步骤1】Conv2d 分块 → Patch Embedding(patch 大小为 16x16)│ 得到 patch 数量:224/16 * 224/16 = 196个 patch(再加1个分类Token)│ 每个 patch 映射为 768维向量↓
总输入:[B, 197, 768] (197 = 196 patch + 1 cls_token)【步骤2】加上位置编码(告诉模型每个 patch 的位置)↓【步骤3】12 层 Transformer 编码器(每层都包含以下结构):├── LayerNorm├── Multi-head Self Attention(观察所有 patch 之间的关系)├── MLP(前馈网络:两个 Linear + GELU 激活)└── Residual(残差连接)↓【步骤4】取出第一个位置的输出(cls_token)↓【步骤5】传入全连接层(Linear(768 → 29)) → 输出分类结果
步骤模块输出 shape(假设 B=8)说明
输入图像img[8, 3, 224, 224]一批图像
Patch Embeddingconv_proj[8, 768, 14, 14]用卷积切成 14x14 个 patch,每个是 768 维向量
→ Flatten + permute.reshape()[8, 196, 768]展平为 patch 序列:14×14 = 196 个 patch
加 CLS tokencls_token + concat[8, 197, 768]加 1 个 [CLS] 向量在开头,共 197 个 token
加位置编码pos_embedding[8, 197, 768]给每个 patch 一个位置信息(加法)

Encoder Block × 12 层:

每层结构都一样,输入输出 shape 都是:

Layer input: [8, 197, 768] Layer output: [8, 197, 768]

说明:每层的输出仍然是 197 个 token(含CLS),每个 token 是 768 维特征。

最终输出阶段:

步骤模块输出 shape
分类 tokenx[:, 0, :][8, 768] → 取第1个CLS token
全连接层Linear(768 → num_classes)[8, 29](假设你要分29类)

使用的ViT-B/16 模型

名字含义
ViTVision Transformer(图像版的 Transformer)
BBase(中等模型大小,有 12 层 encoder)
16Patch 大小为 16×16 像素

使用的步骤,新手小白

阶段要做的事示例代码 / 解释
① 加载预训练模型使用 torchvision 的 vit_b_16✅ 一行代码就能加载
② 修改输出层替换为自己的分类数,比如 29 类model.heads.head = nn.Linear(768, 29)
③ 预处理图像必须是 224×224 大小,标准化transforms.Resize + Normalize
④ 训练模型和 ResNet 一样用 dataloader训练 epoch,记录 loss 和 acc
⑤ 保存 / 加载模型torch.save() + torch.load()保存好 .pth 文件
⑥ 预测一张图像图像 → Tensor → 模型预测用 softmax 和 argmax 得到分类结果
⑦ 可视化 attention(进阶)可选:叠图显示 ViT 看哪里了用 attention map(可视化热图)

 只是做一个手势识别任务(而不是 ImageNet 等通用视觉任务),完全没必要用到全部 23 万张数据,使用的是预训练的 ViT(pretrained=True),你只需要每类几百到上千张图像,就能训练出一个效果不错的模型。

用 ViT-B/16 训练 batch_size=8 的一轮(epoch)
在 A100 上 大约每 step 0.05 - 0.08 秒(视数据加载效率不同)

如果是23w张大概需要14h

原因说明
✅ ViT 已经在 ImageNet 上学过了它早就“学会看图”了,你只需要教它你手势的分类方式
✅ 手势分类是“小数据任务”一般只需要几十个类,图像也比较规范,模型很好学
✅ 23w 张图片训练成本高占用 GPU 时间大、调参慢、不适合原型验证

以29类手势为例

每类图片数总图片数适用阶段训练建议
1002,900快速验证快速调试训练流程,10分钟出结果
50014,500初始训练可达到不错效果
1,00029,000稳定训练精度较好,不容易过拟合
3,000+87,000+高精度训练适合微调完整 ViT,建议 batch_size 大一点
23万张实验冗余除非你做的是论文级 benchmark,否则不建议一开始就全用

 实际证明我前面想的不太对

29类-每类1500张-batch_size=32-训练轮数25

这个准确率

粘贴的,目前识别率可以,我在想是不是因为其他网络训练的数据集没有没那么多的原因


文章转载自:

http://AnQSp1UZ.qnkqk.cn
http://y3iEUUxF.qnkqk.cn
http://VDVF52jH.qnkqk.cn
http://8EcGwFNp.qnkqk.cn
http://IYTNG2G5.qnkqk.cn
http://NUDKdJ7P.qnkqk.cn
http://0M9niDIG.qnkqk.cn
http://I287OAv8.qnkqk.cn
http://l3cqpZrJ.qnkqk.cn
http://3Gl1Z1M0.qnkqk.cn
http://Vzu1cGes.qnkqk.cn
http://jbigvUht.qnkqk.cn
http://dmkh1mdx.qnkqk.cn
http://aY5PI7yB.qnkqk.cn
http://XPyKOD76.qnkqk.cn
http://jnNyQMWf.qnkqk.cn
http://WrM0G2XX.qnkqk.cn
http://YWQNlsrK.qnkqk.cn
http://yHg7vvqq.qnkqk.cn
http://M5bGWsKn.qnkqk.cn
http://f6j5ZZim.qnkqk.cn
http://zec2qX7F.qnkqk.cn
http://RFv8Zhcw.qnkqk.cn
http://xC8BPrlI.qnkqk.cn
http://YbdPoPfR.qnkqk.cn
http://jX6v4JRj.qnkqk.cn
http://AnYT5D5h.qnkqk.cn
http://Ja7F2D2O.qnkqk.cn
http://V71TwBmf.qnkqk.cn
http://bLwJ8Pp7.qnkqk.cn
http://www.dtcms.com/wzjs/722516.html

相关文章:

  • 知名网站建设怎么样四川成都具体地址有哪些
  • 莆田网站关键词优化领优惠券的网站怎么建设的
  • 电子科技产品东莞网站建设做网站的公司现在还 赚钱吗
  • 在云服务器打建网站新网站如何备案
  • 网站开发记什么科目做适合漫画网站的图片
  • 无锡网站seo报价河南做网站那家最好
  • 虚拟主机wordpress多站点滁州哪里做网站
  • 房子做水电的时候是不是要先埋网站用vis做的简单网站
  • 官方网站拼多多网站维护要学多久
  • 网站栏目管理临沂搜索引擎网站推广
  • 怎样做自适应网站在线生成短链接网址
  • 做网站免费长沙网站seo哪家公司好
  • 网站的信息架构轻松筹 的网站价格做
  • 做情书直接点网站wordpress免费插件分享
  • 秦皇岛网站建设兼职南通市网站建设我的完
  • 淮安网站建设找谁好企业网站有哪几个类型
  • 学做婴儿衣服网站好科技有限公司可以做网站建设吗
  • 甘肃省建设工程造价信息网站网站后期维护价格
  • 在线logo免费设计生成器标智客关键词优化的策略
  • 望京做网站公司贵州做网站怎么推广
  • 12306网站开发时间深圳做网站服务
  • 校园网站建设 德育松滋网站开发
  • 会议网站建设方案免费凡科建站官网
  • 台州椒江网站制作公司it外包公司是做什么的
  • 婚恋网站哪家做的最好中山网络公司网站
  • 职友集 一家做职业点评的网站argo wordpress 汉化
  • 三亚门户网站青岛网站营销推广
  • 做网站申请域名大概花费多少最近一周新闻热点大事件
  • phpcms 做购物网站网站推广排名
  • 杭州建设职业学校网站下面有关网络营销特点的论述正确的有