Vision Transformer (ViT) :Transformer在computer vision领域的应用(三)
Experiment
上来的一段话就概括了整章的内容。
We evaluate the representation learning capabilities of ResNet, Vision Transformer (ViT), and the hybrid.
章节的一开头就说明了,对比的模型就是
- ResNet,CNN领域中的代码模型。
- ViT。
- 上一篇中提到的Hybrid模型,也就是CNN来做特征提取,Transformer做全局整合。
To understand the data requirements of each model, we pre-train on datasets of varying size and evaluate many benchmark tasks.
第二句说的就是数据集的选用:
- ILSVRC-2012 ImageNet,论文挑选的小规模数据集,21k classes and 14M images。
- ImageNet-21k,论文认为的中等规模的数据集,21k classes and 14M images。
- JFT,Google内部的大型图形数据库,18k classes and
303M high-resolution images。
When considering the computational cost of pre-training the model, ViT performs very favourably,