当前位置: 首页 > wzjs >正文

长沙做网站建设优秀营销软文范例300字

长沙做网站建设,优秀营销软文范例300字,用照片做的ppt模板下载网站,淘宝客不建立网站怎么做论文网址:pdf 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…

论文网址:pdf

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Background and Motivation

2.3.1. Motivation

2.4. CLIP-ViL

2.4.1. Visual Question Aswering

2.4.2. Image Captioning

2.4.3. Vision-and-Language Navigation

2.5. Vision-and-Language Pre-training

2.5.1. CLIP-VIL_p

2.5.2. Experiments

2.6. Analysis

2.7. Conclusions

1. 心得

(1)?非常简单的一篇文章,感觉在测试CLIP?

2. 论文逐段精读

2.1. Abstract

        ①Model pre-trained on large number of data brings better performance

        ②Scenarios suitable for CLIP: plug and fine-tune, or combining with V&L

2.2. Introduction

        ①Bottleneck of vision-and-language (V&L) tasks: visual representation and scarce labled data

        ②Most V&L tasks require complex reasoning, which can not use visual model directly

        ③They define two scenarios:

CLIP_ViLCLIP in direct task-specific fine-tuning
CLIP_ViL_pintegrate CLIP with V&L pre-training on image-text pairs and transfer to downstream tasks

        ④Tasks: Visual Question Answering, Image Captioning, and Vision-and-Language Navigation

2.3. Background and Motivation

        ①Training stage: 

visual encoder pretrianing, alignment (opt), downstream task

        ②Different types of model:

region based, network based, and CLIP (contrastive)

2.3.1. Motivation

        ①就是说直接把CLIP用在不同复杂视觉任务上性能一般般所以要小改一下

2.4. CLIP-ViL

2.4.1. Visual Question Aswering

        ①Performance of models on VQA v2.0 dataset:

2.4.2. Image Captioning

        ①Image captioning comparison table on COCO dataset:

2.4.3. Vision-and-Language Navigation

        ①The model performance on Room-to-Room (R2R) dataset:

        ②Changing ResNet to CLIP, the performance table:

2.5. Vision-and-Language Pre-training

2.5.1. CLIP-VIL_p

        ①For text segment T, tokenize it into subwords \{w_{1},w_{2},...,w_{k}\} and further embedded as the sum of its token, position and segment embeddings \{\textbf{w}_{1},\textbf{w}_{2},...,\textbf{w}_{k}\}

        ②Image I is is embedded as \{\textbf{v}_{1},\textbf{v}_{2},...,\textbf{v}_{m}\}

        ③Concatenate them two as \{\textbf{w}_{1},\textbf{w}_{2},...,\textbf{w}_{n},\textbf{v}_{1},\textbf{v}_{2},...,\textbf{v}_{m}\}

        ④Reconstruct sentence with 15% mask ratio, match text and image with the 50% correct sentence ratio, then execute visual question answering

2.5.2. Experiments

        ①Two variants of CLIP as visual encoder: CLIP-Res50andCLIP Res50x4

        ②Datasets: MSCOCOCaptions, VisualGenomeCaptions, VQA,GQA, and VG-QA  for pre-training

        ③Patch number for each image: 100

        ④Epoch of pretraining: 20

        ⑤Fine tune pretrained model on evaluation stage

        ⑥Dataset of tasks: VQAv2.0, visual entailment SNLI-VE, and GQA

        ⑦Results:

2.6. Analysis

        ①Zero-shot performance of CLIP on VQA v2.0 mini-eval:

        ②Influence of V&L pre-training:

        ③Visualization of feature positioning of different models:

2.7. Conclusions

        ~

http://www.dtcms.com/wzjs/507608.html

相关文章:

  • 网站建设谈单思路营销渠道名词解释
  • 丰台广州网站建设中文域名的网站
  • 网站设计用什么软件做免费网站排名优化在线
  • 单片机项目外包网站什么是seo关键词
  • 佳木斯 网站建设优化技术基础
  • 成都专业网站建设优化团队百度客服电话4001056
  • 一级a做爰片软件网站制作网页教程
  • 注册个体可以做网站吗b2b免费发布平台
  • 网站cms相关知识网络推广代理平台
  • 400网站推广爱站网关键词查询工具
  • 宁波网站开发制作重庆网页优化seo
  • 成都手机网站建设开发郑州网站设计
  • 宁波网站设计方案全网最全搜索引擎app
  • wordpress 地址转换南京seo网络优化公司
  • FPGA毕业设计代做网站湖南最新消息今天
  • 网站建设谈单情景对话sem推广软件哪家好
  • 做网站优化有必要搜索引擎技术优化
  • wordpress用户中心汉化seo学校
  • 关于建设网站业务系统的请示济南网络seo公司
  • 免费做网站手机软件温州云优化seo
  • 卖渔具的亲戚做网站百度的网站
  • 网站怎么做外链接地址西安网站制作费用
  • 得力企业网站建设苏州seo安严博客
  • 网络调查问卷在哪个网站做网站站长seo推广
  • kkday是哪里做的网站网络推广员的日常工作
  • 有没有做机械加工的网站外贸是做什么的
  • 合肥怎么做网站东莞今日头条最新消息
  • 投资公司取名字大全南京百度搜索优化
  • 装饰网站建设策划书今日小说百度搜索风云榜
  • wordpress隐藏图片链接北京网站优化公司哪家好