多模大模型
<原力值失效>...
今天打开了csdn,惊喜(jingkong)的发现原力值失效了, 本来以为我怎么也能每年有个几篇文章的, 结果一看, 自从换了工作, 文章数断崖下降,23 24年居然一篇没有... 一定是因为被资本主义(gongsidalao)持续压榨中,真是天天都心力交瘁啊....
不多说废话了,简单总结下最近比较火的 qwen-vl, 先不说算法, 先说下怎么用起来~
现在有很多框架, 都支持各种大模型, vl的文本的都是支持的
说一种比较通用的方式:
step1: 拉取 llama factory最新代码到自己的分支下面 LLaMA Factory
然后,从魔塔下载对应的模型文件 魔搭社区
按照 llama factory 给的示例 写一个shell脚本调用就行
多模对应的数据大部分都是mllm打头,比较好找,注意vl的文件需要处理对应的训练数据, 图片需要下载到本地,并且在训练文件中img_url 写入对应的图片地址
模型对比: qwen2.5效果比qwen2 好很多,具体可以参考这篇文章 https://zhuanlan.zhihu.com/p/11442714235,总结下就是qwen2还是初版小白的多模大模型, qwen2.5强化了很多文本侧的能力。模型大小的话,7b对比效果差距已经很明显了, 72b肯定是最惊艳的,7b一些基础任务效果已经很不错了,大家有兴趣可以尝试下看看~
先水一篇,要继续搬砖去了,有问题欢迎讨论, 后续会继续补充丰富内容~