当前位置: 首页 > news >正文

QwenVL - 202310版-论文阅读

文章的贡献:

1. 开源:此前开源的明显落后闭源的
2. 三阶段训练方案:
3. 网络架构: ViT+VL Adapter + LLM

1. Qwen-VLs are a series of highly performant and versatile vision-language foundationmodels based on Qwen-7B (Qwen, 2023) language model.

 We empower the LLM basement with visualcapacity by introducing a new visual receptor including a language-aligned visual encoder and a position-aware adapter.

一些训练细节:

一共分为三个训练阶段,如下图所示,火代表参数可更新,冰代表冷冻住了不可更新。

第一个阶段-预训练:训练损失函数是生成的文本的交叉熵,本质是一个图生文任务感觉不直接训练三个模块是为了降低训练难度?QwenLM里面7B的参数是不动的,这样只需要训剩下的1.98B

第二个阶段-多任务预训练:训练损失函数还是生成的文本的交叉熵,和第一阶段很像。区别在于把QWen-7B解冻了,也会去训练。还有就是数据不一样。数据中还有纯文本数据。感觉是为了让ViT和Qwen-7B融合得更好

第三个阶段-微调:为了让模型有更好的指令跟随能力和推理能力。这里把ViT冻住了。没说损失函数。这里会用强化学习吗?这里叫微调感觉主要是数据量少(350k),且模型已经具备一定能力,这里是让输出更符合人的习惯。和前面两个阶段还有一个很大不同的是,数据格式不一样,会加上图片标识,且计算损失函数时候不会把人提问的内容加进去(前面两个阶段没有人提问的prompt)

1. 第一阶段预训练数据量:公开数据及+爬下来的图+内部数据50亿张图,清洗后保留到14亿张

 第一阶段训练超参:

图像被下采样成224*224的图片。

训练时batch_size是30720=3×5x2^11,step是50,000,乘起来恰好是15亿左右(15.36亿

2第二阶段多任务预训练

数据量。不同任务有不同数据,怎么决定这些数量的顺序?随机打乱?竟然还有纯文本数据,纯文本只训练Qwen-7B?

这里图片的大小变成448*448。并且为了降低模型数据量,附件3说采用了window attention。window attention会改变网络结构吗?感觉并没有采用window attention吧

3. 第三阶段数据集

http://www.dtcms.com/a/469677.html

相关文章:

  • 如何从 FastReport .NET 将报表导出为 JPEG / PNG / BMP / GIF / TIFF / EMF
  • .NET MCP Server 开发教程
  • LeetCode 124. 二叉树中的最大路径和(困难)
  • 建设南大街小学网站wordpress首页调用指定文章列表
  • 大型语言模型(LLM)基础:从原理到核心概念详解(GPT-4 / 文心一言 / 通义千问)
  • python高级03——多任务编程
  • 树模型优劣大比拼xgboost/lightgbm/RF/catboost,股价预测怎么选模型
  • 哈尔滨快速建站公司推荐营销型网站建设实战》
  • 4.3-中间件之Kafka
  • 方寸之间见天地:新兴高端印章的当代破局与价值重构
  • 如何改善基于深度学习的场重构
  • Maven 进行项目构建settings.xml 配置教程
  • 磁力搜索网站怎么做的网站和app设计区别
  • 西安网站建设公司都有哪些网站设计开发文档模板下载
  • C++设计模式_结构型模式_桥接模式Bridge
  • 关于flutter插件的存储位置问题
  • 把“Mixed Content”吃干抹净——一次 https→http 踩坑实录
  • 中山大学联合项目 论文解读 | iManip:面向机器人操作的技能增量学习
  • Unity:Json笔记——Json文件格式、JsonUtlity序列化和反序列化
  • 第八章 惊喜15 小萍收获初会
  • RabbitMQ基础知识与Spring Boot 3.x集成案例
  • 租房网站建设多少钱网站域名怎么改
  • Redis CPU高负载案例分析
  • ARMv9 CCA机密计算架构演进技术解析:重塑云原生时代的数据安全基石
  • 湖州网站设计浙北数据最新发布的手机有哪些
  • AD加域账号权限设置
  • 解决idea报错:Error running TrustApexCrmApplication. Command line is too long
  • 网站开发淄博进口商品代理平台
  • systme V共享内存(version1)
  • 万网网站制作wordpress投稿管理系统