当前位置: 首页 > wzjs >正文

软件开发外包哪个公司的好seo投放

软件开发外包哪个公司的好,seo投放,wordpress隐藏登录链接,深汕特别合作区天气预报Qwen-VL Qwen2-VL 1. 模型结构对比 Qwen 的模型结构 核心组件: 大语言模型:基于 Qwen-7B 的预训练权重。视觉编码器:使用 Openclip 的 ViT-bigG(Vision Transformer)。视觉语言适配器:单层交叉注意力模块…

Qwen-VL

 

Qwen2-VL

1. 模型结构对比

Qwen 的模型结构
  • 核心组件
    1. 大语言模型:基于 Qwen-7B 的预训练权重。
    2. 视觉编码器:使用 Openclip 的 ViT-bigG(Vision Transformer)。
    3. 视觉语言适配器:单层交叉注意力模块,用于压缩长图像特征序列。
  • 特点
    • 固定分辨率输入(224×224)。
    • 通过绝对位置编码处理图像位置信息。
    • 仅支持图像输入,不支持视频。
Qwen2 的模型结构
  • 核心组件
    1. 大语言模型:基于 Qwen2 系列,参数规模更大(如 Qwen2-VL-72B)。
    2. 视觉编码器:675M 参数的 ViT,支持图像和视频输入。
    3. 多模态旋转位置嵌入(M-RoPE):分解位置编码为时间、高度、宽度三部分,增强多模态位置建模。
    4. 朴素动态分辨率支持:处理任意分辨率图像,动态生成视觉标记。
  • 特点
    • 动态分辨率输入(如 448×448),减少信息损失。
    • 支持视频处理(3D 卷积和帧采样)。
    • 引入 MLP 层压缩视觉标记,提升效率。
模型结构异同
特性QwenQwen2
视觉编码器ViT-bigG675M 参数的 ViT
语言模型Qwen-7BQwen2 系列(更大规模)
位置编码绝对位置编码2D-RoPE 与 M-RoPE
输入支持图像图像 + 视频
动态分辨率不支持支持(任意分辨率)
视频处理不支持支持(3D 卷积、帧采样)
标记压缩单层交叉注意力模块MLP 压缩(2×2 标记合并)

2. 训练方式对比

Qwen 的训练方式
  • 训练阶段
    1. 预训练:冻结语言模型,优化视觉编码器和适配器,使用 14 亿图像-文本对。
    2. 多任务预训练:解冻所有参数,引入高质量数据(VQA、OCR 等)。
    3. 指令微调:冻结视觉编码器,优化语言模型和适配器,使用 35 万指令数据。
  • 特点
    • 固定分辨率训练(224×224)。
    • 强调图像-文本对齐,未涉及视频数据。
Qwen2 的训练方式
  • 训练阶段
    1. ViT 训练:专注于视觉编码器的训练,使用大规模图像-文本对。
    2. 全面训练:解冻所有参数,整合多模态数据(视频、OCR、视觉问答等)。
    3. 指令微调:锁定 ViT 参数,优化语言模型,引入多模态对话数据(视频流、多图对比)。
  • 特点
    • 动态分辨率训练(如 448×448)。
    • 混合图像和视频数据,支持长视频处理(总标记数限制为 16384)。
    • 使用 3D 并行策略(数据并行、张量并行、流水线并行)优化训练效率。
训练方式异同
特性QwenQwen2
训练阶段三阶段(预训练、多任务、微调)三阶段(ViT 训练、全面训练、微调)
分辨率调整固定分辨率(224→384)动态分辨率(224→448)
视频训练不支持支持(视频帧采样、3D 卷积)
并行策略基础并行3D 并行 + 序列并行
数据规模14 亿图像-文本对1.4 万亿标记(含图像和视频)

3. 数据组成与处理对比

Qwen 的数据处理
  • 数据集
    • 主要来源:LAION-en、LAION-zh、DataComp、Coyo、CC12M、CC3M 等。
    • 类型:图像-文本对(77.3% 英文,22.7% 中文)。
  • 处理方式
    • 图像分辨率固定为 224×224。
    • 使用特殊标记(<img></img>)区分图像特征。
    • 边界框归一化为字符串格式((X,Y) 坐标),并用 <box> 标记标注。
Qwen2 的数据处理
  • 数据集
    • 扩展数据:视频对话、视频流、多图像对比、OCR 合成数据。
    • 类型:图像-文本对 + 视频-文本对 + 多模态交互数据。
  • 处理方式
    • 动态分辨率图像处理(如 448×448)。
    • 视频帧采样(2 帧/秒),3D 卷积处理。
    • 使用特殊标记(<|vision_start|><|box_start|>)区分多模态输入。
    • 边界框与文本关联标记(<ref></ref>)。
数据处理异同
特性QwenQwen2
数据类型图像-文本对图像 + 视频 + 多模态交互
分辨率处理固定分辨率动态分辨率
视频支持不支持支持(帧采样、3D 卷积)
标记机制基础视觉-文本标记多模态标记(视频、边界框、交互)
数据规模14 亿图像-文本对1.4 万亿标记(含视频)

总结

模型结构
  • Qwen:基础多模态架构,专注于图像-文本对齐,结构简单但功能明确。
  • Qwen2:全面升级,支持动态分辨率、视频输入和多模态位置编码(M-RoPE),显著提升灵活性和任务覆盖范围。
训练方式
  • Qwen:传统三阶段训练,强调图像-文本对齐。
  • Qwen2:引入视频训练和动态分辨率优化,结合 3D 并行策略,显著提升训练效率和模型容量。
数据处理
  • Qwen:以静态图像-文本对为主,处理流程标准化。
  • Qwen2:扩展至视频和多模态交互数据,支持动态输入和复杂任务(如视觉代理、多图推理)。

Qwen2 在 Qwen 的基础上,通过动态分辨率、视频支持、多模态位置编码和高效并行训练策略,实现了从单一图像处理到复杂多模态任务的全面升级,尤其在视频理解和交互能力上表现突出。

http://www.dtcms.com/wzjs/248735.html

相关文章:

  • 湖南seo网站多少钱seozou是什么意思
  • 如何在本地发布自己做的网站学百度推广培训
  • 网站做超链接薪资多少一个月百度一下你就知道下载
  • 向客户介绍网站建设的话术企业seo职位
  • 商业网站开发入门选课网络推广运营优化
  • 用哪个网站做首页比较好矿产网站建设价格
  • 长沙网站建设有哪些百度网址
  • 寻找郑州网站建设晚上国网app
  • 深圳小程序app定制开发seo网上课程
  • 做php网站教程视频教程如何创建一个网页
  • 专做批发的网站电子可以营销的十大产品
  • 品牌建设规划品牌意向网站怎么优化推广
  • 小程序模板大全aso优化平台
  • 安徽合肥做网站的公司有哪些附近有学电脑培训班吗
  • 云南建设人才网站首页淄博做网站的公司
  • 重庆响应式网站建设公司全网营销平台有哪些
  • 汕头市网络科技有限公司北京seo百科
  • 建设网站免费模板网上怎么找人去推广广告
  • 江浦做网站网络营销的现状分析
  • 最专业汽车网站建设学生网页制作成品
  • 静态企业网站模板百度爱采购怎么优化排名
  • 过期网站.百度在西安有分公司吗
  • 网页网站设计价格搜索排名查询
  • wordpress怎么生成网站地图中国国家培训网正规吗
  • 网站运营方案书直播发布会
  • 网站怎么做构成企业软文营销发布平台
  • 黑龙江网站建设com域名多少钱一年
  • 怎么看一个网站用什么程序做的免费b2b信息发布网站
  • 建设跨境网站百度竞价seo排名
  • 柳州企业网站建设公司网站做优化一开始怎么做