当前位置: 首页 > news >正文

西安市网站搭建北京网站策划联系电话

西安市网站搭建,北京网站策划联系电话,大连模版网站,搜索引擎营销有哪些方式2024年以后大模型开始被大家熟知,同样基于图片的大模型基础框架同时也被大家开始熟知。最早的图片大模型是OpenAI提出的CLIP,他是一套基于图片数据和文本数据对齐的模型。通过文本对图片数据的描述,来对齐和学习图片特征数据。 在使用这种文…

2024年以后大模型开始被大家熟知,同样基于图片的大模型基础框架同时也被大家开始熟知。最早的图片大模型是OpenAI提出的CLIP,他是一套基于图片数据和文本数据对齐的模型。通过文本对图片数据的描述,来对齐和学习图片特征数据。

在使用这种文本和图像数据对齐模型的过程中,就衍生出图生文和文生图的模型。后来被称为多模态大模型。

模型的实现原理是通过提取和训练图像的特征数据,和文本数据。通过强化学习实现两者数据特征的对齐。在对齐的过程中模型对图像特征数据细节也越来越具体,所以在把多模态的基础模型衍生到传统的视觉模型后,很明显提升准确率。最突出的结论是,目前分类,目标检测,分割模型的TOP1都是多模态的基础模型开发的。

2025年4月为止,在近两年的发展过程中,多模态基础模型也百花齐放,目前主流的除了CLIP以外,还有BLIP2和DINOv2等主流的模型。同样多模态基础模型图像数据特征也使用越来广泛,图片数据的特征提取方法如下:

        特征的提取都是基于VIT的基础网络,把图片切割成Patch(补丁),通过大模型的推理获取关于每个Patch的位置和图片数据的描述特征。模型大小和训练方式的不一样,获取的Patch描述维度也不一样。BLIP2单个Patch描述维度是768,CLIP单个Patch的描述维度是512,DINOv2根据模型大小不一样分为384,768,1024三种维度,对应不同大小的模型

BLIP2图片特征数据提取代码:

#添加Pytorch依赖
import torch
from PIL import Image
#添加多态依赖库
from lavis.models import load_model_and_preprocess
#获取GPU
device = torch.device("cuda") if torch.cuda.is_available() else "cpu"
#加载预训练多模态大模型
model, vis_processors, txt_processors = load_model_and_preprocess(name="blip2_feature_extractor", model_type="pretrain", is_eval=True, device=device)
#读取图片数据
image = Image.open("image.bmp").convert("RGB")
#图片数据Patch编码
image_tensor = vis_processors["eval"](image).unsqueeze(0).to(device)
#通过模型获取编码特征
features = model.extract_features(sample, mode="image")#环境依赖pytorch和lavis

CLIP图片特征提取代码:

import torch
from PIL import Image
from transformers import CLIPProcessor, CLIPModel# 加载预训练的CLIP模型和处理器
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")#加载模型到GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)#加载图片
image = Image.open("Image.bmp").convert("RGB")
#对图片进行Patch编码
inputs = processor(images=image, return_tensors="pt").to(device)
with torch.no_grad():#获取图片特征数据features= model.get_image_features(**inputs).cpu().numpy()#环境依赖pytorch和transformers,PIL

DINOv2图片特征提取代码:

import torch
from PIL import Image
from torchvision import transforms#设置模型图片尺寸
image_w = 1120
image_h = 1120
#加载模型
model = torch.hub.load('facebookresearch/dinov2', self.model_name)
model.eval()
#图片数据预处理方法设置
Transform = transforms.Compose([transforms.Resize(size=self.smaller_edge_size,                 interpolation=transforms.InterpolationMode.BICUBIC, antialias=True),transforms.ToTensor(),transforms.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)), # imagenet defaults])#读取图片函数
img = Image.open(img).convert("RGB")
img = img.resize(1120,1120)
#图片预处理
image_tensor = transform(img)
#图片迁移到GPU
image_batch = image_tensor.unsqueeze(0).to(self.device)
#获取图片特征数据
features = model.get_intermediate_layers(image_batch)[0].squeeze()#环境依赖pytorch和transformers,torchvision ,PIL

体验大模型在工业检测的应用方法,DY搜索'军哥讲视觉',或者WX搜索军哥讲视觉',关注留言

http://www.dtcms.com/a/472144.html

相关文章:

  • 网站内容策划方案网站搭建怎么收费呀
  • 南宁哪些公司专业做网站微信分销系统多层
  • 新手制作网站制作网页时什么是错误的做法
  • 香洲区建设局网站wordpress听歌插件
  • 整数规划经典问题类型
  • 网站的功能模块国外做动运服装的网站
  • 申请一个域名可以建设一个网站吗简述网站开发的5个步骤
  • 合肥建设工程质量监督局网站网站建设书籍推荐
  • 如何做热词网站有哪些做外贸免费的网站
  • 百度网站的目标做动漫的网站
  • 攀枝花网站开发长春网站建设新格
  • 黄石规划建设局网站如何增加企业网站被收录的几率
  • 人力资源网站模板ps软件官方下载
  • 手机可以登录国家开发银行网站吗seo短视频网页入口引流方法是什么
  • 智恒企业网站管理系统google关键词工具
  • 中山金舜家庭用品有限公司怎样网站地图休闲农庄展示网站
  • 北京建设监理协会官方网站山东嘉祥做网站的有哪几家
  • 百度站长工具抓取诊断企业网络推广平台公司
  • 网站建设详细需求文档网站什么做的
  • 学校资源网站建设目标未被列入失信被执行人名单查询
  • 做网站后台维护的岗位叫什么全网浏览器
  • 开通招聘网站如何做分录长沙互联网公司在哪个区
  • 做企业网站类型wordpress 默认文本编辑器
  • 怎么建设像天猫的网站小程序商城哪的服务好
  • Web 开发 28
  • 遵义仁怀网站建设做暧在线观看网站
  • 灰色的网站网站不备案能解析吗
  • 帮做网站设计与规划作业网站降权了怎么办
  • 常州网站制作工具杭州seo的优化
  • 网站建设在哪里找人软文什么意思