当前位置：首页 > news >正文

多模大模型

news 2025/11/1 9:19:41

<原力值失效>...

今天打开了csdn，惊喜（jingkong）的发现原力值失效了，本来以为我怎么也能每年有个几篇文章的，结果一看，自从换了工作，文章数断崖下降，23 24年居然一篇没有... 一定是因为被资本主义（gongsidalao）持续压榨中，真是天天都心力交瘁啊....

不多说废话了，简单总结下最近比较火的 qwen-vl, 先不说算法，先说下怎么用起来～

现在有很多框架，都支持各种大模型， vl的文本的都是支持的

说一种比较通用的方式：

step1: 拉取 llama factory最新代码到自己的分支下面 LLaMA Factory

然后，从魔塔下载对应的模型文件魔搭社区

按照 llama factory 给的示例写一个shell脚本调用就行

多模对应的数据大部分都是mllm打头，比较好找，注意vl的文件需要处理对应的训练数据，图片需要下载到本地，并且在训练文件中img_url 写入对应的图片地址

模型对比： qwen2.5效果比qwen2 好很多，具体可以参考这篇文章 https://zhuanlan.zhihu.com/p/11442714235，总结下就是qwen2还是初版小白的多模大模型， qwen2.5强化了很多文本侧的能力。模型大小的话，7b对比效果差距已经很明显了， 72b肯定是最惊艳的，7b一些基础任务效果已经很不错了，大家有兴趣可以尝试下看看～

先水一篇，要继续搬砖去了，有问题欢迎讨论，后续会继续补充丰富内容～

查看全文

http://www.dtcms.com/a/92046.html