当前位置: 首页 > news >正文

image tokenizer 原理和代码

image tokenizer原理步骤:

(1)图像分块:将输入图像划分为N×N(如16×16)的patch
(2)线性投影:通过卷积或全连接层将每个patch展平为embedding
(3)添加位置编码:将position encoding加到patch embedding

huggingface/transformers调用代码:

from transformers import ViTImageProcessor, ViTModel

processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224")
model = ViTModel.from_pretrained("google/vit-base-patch16-224")

inputs = processor(images=image, return_tensors="pt")

参考源码:

github.com/google-research/vision_transformer

github.com/pytorch/vision/blob/main/torchvision/models/vision_transformer.py

github.com/huggingface/transformers/blob/main/src/transformers/models/vit/modeling_vit.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/126104.html

相关文章:

  • C++ 知识笔记
  • 项目整合管理_项目管理计划和项目文件
  • 用css画一条弧线
  • 数据库分表分库
  • 为什么AI系统习惯性“画大饼”?:深度解析算法逻辑与技术瓶颈
  • docker部署postgresql
  • Notepad++安装Markdown实时预览插件
  • 国产Linux统信安装mysql8教程步骤
  • 工厂模式(简单工厂,工厂方法,抽象工厂)
  • 【14】Strongswan watcher详解1
  • P8682 [蓝桥杯 2019 省 B] 等差数列
  • 【C++刷题】二叉树基础OJ题
  • 基于PySide6与pyCATIA的工程图智能文本替换工具开发指南
  • OJ 基础 | 输入处理
  • SDP(一)
  • 鸿蒙HarmonyOS埋点SDK,ClkLog适配鸿蒙埋点分析
  • 深入浅出Redis 缓存使用问题 | 长文分享
  • DeepSeek 教我LLVM(2) : MCTargetDesc 核心模块有哪些?
  • [蓝桥杯]小tips
  • DevOps与功能安全:Perforce ALM通过ISO 26262合规认证,简化安全关键系统开发流程
  • 磁盘存储下红黑树、B 树与 B + 树的原理、操作及对比
  • vue3实现页面端的自适应布局
  • 解决 vite.config.ts 引入scss 预处理报错
  • java学习笔记16——java8的其他新特性
  • 遇到git提交报错:413
  • Nginx常用工具
  • cs224w课程学习笔记-第10课
  • Linux系统使用lshw生成硬件报告方法
  • 循环神经网络 - LSTM 网络的各种变体
  • Go语言中的垃圾回收是如何工作的?