当前位置：首页 > news >正文

主流多模态大模型使用总结

news 2025/10/7 5:29:21

多模态大模型（视觉 - 语言模型）是当前人工智能领域的研究热点，能够同时理解图像和文本信息，实现图文问答、图像描述、视觉推理等复杂任务。我对当前主流的一些多模态大模型进行了推理试用，推理任务为图像理解描述，两张V100 32G。以下是我的一个参数、显存记录，仅供参考。其中显存仅仅代表模型加载所占用的显存，如果进行推理，其显存占用还要再增加2到6G。
4060 8G的显卡最多加载2-3B的模型，有可能还会迁移部分到内存中。
V100 32G的单卡最多加载13-14B（130亿到140亿参数的模型），对于Qwen-72B的4bit量化版本需要使用两张卡（64G）加载，差不多50G，推理就要快60G了，所以更大的32B、72B我就没尝试了。

models_to_test = [# -------------------------------Qwen2.5-VL 系列-------------------------------{"id": "Qwen/Qwen2.5-VL-3B-Instruct","class": Qwen2_5_VLForConditionalGeneration,"cache": "pretrained_model/Qwen2.5-VL-3B-Instruct","device": "cuda"},{"id": "Qwen/Qwen2.5-VL-3B-Instruct-AWQ","class": Qwen2_5_VLForConditionalGeneration,"cache": "pretrained_model/Qwen2.5-VL-3B-Instruct-AWQ","device": "cuda"},{"id": "Qwen/Qwen2.5-VL-7B-Instruct","class": Qwen2_5_VLForConditionalGeneration,"cache": "pretrained_model/Qwen2.5-VL-7B-Instruct","device": "cuda"},{"id": "Qwen/Qwen2.5-VL-7B-Instruct-AWQ","class": Qwen2_5_VLForConditionalGeneration,"cache": "pretrained_model/Qwen2.5-VL-7B-Instruct-AWQ","device": "cuda"},{"id": "Qwen/Qwen2.5-VL-32B-Instruct-AWQ","class": Qwen2_5_VLForConditionalGeneration,"cache": "pretrained_model/Qwen2.5-VL-32B-Instruct-AWQ","device": "cuda"},{"id": "Qwen/Qwen2.5-VL-72B-Instruct-AWQ","class": Qwen2_5_VLForConditionalGeneration,"cache": "pretrained_model/Qwen2.5-VL-72B-Instruct-AWQ","device": "auto"},# -------------------------------LLaVA 系列-------------------------------{"id": "llava-hf/llama3-llava-next-8b-hf","class": LlavaNextForConditionalGeneration,"cache": "pretrained_model/llama3-llava-next-8b-hf","device": "cuda"},{"id": "llava-hf/llava-v1.6-vicuna-13b-hf","class": LlavaNextForConditionalGeneration,"cache": "pretrained_model/llava-v1.6-vicuna-13b-hf","device": "cuda"},# -------------------------------BLIP2 系列-------------------------------{"id": "Salesforce/blip2-opt-2.7b","class": Blip2ForConditionalGeneration,"cache": "pretrained_model/blip2-opt-2.7b","device": "cuda"},{"id": "Salesforce/blip2-opt-6.7b","class": Blip2ForConditionalGeneration,"cache": "pretrained_model/blip2-opt-6.7b","device": "cuda"},{"id": "Salesforce/blip2-flan-t5-xl","class": Blip2ForConditionalGeneration,"cache": "pretrained_model/blip2-flan-t5-xl","device": "cuda"},{"id": "Salesforce/blip2-flan-t5-xxl","class": Blip2ForConditionalGeneration,"cache": "pretrained_model/blip2-flan-t5-xxl","device": "cuda"},# -------------------------------InstructBLIP 系列-------------------------------{"id": "Salesforce/instructblip-flan-t5-xl","class": InstructBlipForConditionalGeneration,"cache": "pretrained_model/instructblip-flan-t5-xl","device": "cuda"},{"id": "Salesforce/instructblip-flan-t5-xxl","class": InstructBlipForConditionalGeneration,"cache": "pretrained_model/instructblip-flan-t5-xxl","device": "cuda"},{"id": "Salesforce/instructblip-vicuna-7b","class": InstructBlipForConditionalGeneration,"cache": "pretrained_model/instructblip-vicuna-7b","device": "cuda"},{"id": "Salesforce/instructblip-vicuna-13b","class": InstructBlipForConditionalGeneration,"cache": "pretrained_model/instructblip-vicuna-13b","device": "cuda"},
]

在这里插入图片描述

一、Qwen2.5-VL 系列（阿里达摩院）

Qwen2.5-VL 是阿里巴巴达摩院开发的新一代视觉 - 语言多模态模型，主打高效的视觉 - 语言理解与生成能力。

1. 核心模型及参数信息（代码实测，仅供参考）

模型名称	总参数量	显存占用	关键特性
Qwen2.5-VL-3B-Instruct	3,754,625,364 (3.75B)	7830.00 MiB (7.65 GB)	基础指令版
Qwen2.5-VL-3B-Instruct-AWQ	1,351,295,316 (1.35B)	3322.00 MiB (3.24 GB)	AWQ 量化版
Qwen2.5-VL-7B-Instruct	8,292,168,532 (8.29B)	15820.00 MiB (15.45 GB)	中参数量指令版
Qwen2.5-VL-7B-Instruct-AWQ	2,639,892,308 (2.64B)	6680.00 MiB (6.52 GB)	7B 量化版
Qwen2.5-VL-32B-Instruct-AWQ	6,422,071,636 (6.42B)	19898.00 MiB (19.43 GB)	高参数量量化版
Qwen2.5-VL-72B-Instruct-AWQ	12,625,487,188 (12.63B)	42714.00 MiB (41.71 GB)	超大参数量量化版

在这里插入图片描述

2. 详细解析

出现时间：Qwen2.5-VL 系列于 2025 年 1 月发布（Qwen-VL 于 2023 年发布，Qwen2-VL 于2024年发布，2.5-VL是目前最新的VL版本）。
报告链接：https://qwenlm.github.io/zh/blog/qwen2.5-vl/
开发者：阿里巴巴达摩院（DAMO Academy）。
名称含义：
- Qwen：通义千问的英文名（阿里大模型品牌）；
- 2.5：版本号，代表在 2.0 基础上的优化；
- VL：Vision-Language（视觉 - 语言），表示支持多模态任务；
- Instruct：表示经过指令微调（用人类指令数据训练，提升任务遵循能力）；
- AWQ：Activation-Aware Weight Quantization（激活感知权重量化），一种模型压缩技术，在减少参数量和显存占用的同时保持性能。
核心架构：
- 视觉部分：
  采用高效视觉编码器，常见基于 Vision Transformer（ViT）变体设计。ViT 将图像划分为固定大小的图像块（patch），通过线性映射将每个图像块转换为嵌入向量，结合位置编码后输入到 Transformer 的多头注意力机制和多层感知机（MLP）层中，以提取图像的局部和全局特征。这种结构相比传统卷积神经网络（CNN），能够更高效地捕捉图像中的长距离依赖关系，且在计算资源利用上更具优势，适合处理复杂的视觉信息。通过从头开始训练原生动态分辨率ViT并结合窗口注意力机制，使得模型在保持原生分辨率的同时减少了计算开销。
语言部分：
基于 Qwen2.5 大语言模型，该模型采用 Transformer 架构。Transformer 的核心在于自注意力机制，能够让模型在处理序列数据（如文本）时，动态地关注输入序列的不同部分，从而更好地理解上下文语义。Qwen2.5 通过多层 Transformer 编码器堆叠，学习到词与词之间的复杂语义关联，具备强大的自然语言理解与生成能力，可以完成文本问答、语义解析、文本生成等多种任务。
跨模态融合：
通过专门设计的视觉 - 语言交互层实现图文信息融合，最常用的方式是交叉注意力机制。在交叉注意力计算中，语言特征作为查询（Query），视觉特征作为键（Key）和值（Value），通过计算查询与键的相似度，选择性地聚合对应视觉特征，从而实现图像信息与文本信息的交互，使模型能够理解图像与文本之间的语义关联，支持图文互理解，例如根据文本描述理解图像内容，或用文本描述解释图像信息。
创新方法：
- 优化了视觉特征与语言模型的对齐精度，支持更细粒度的图像理解（如局部物体识别、场景描述）；
- 结合 AWQ 量化技术，在降低显存需求（如 3B 模型从 7830.00 MiB 降至 3322.00 MiB）的同时，保持 95% 以上的原始性能；
- 强化了指令跟随能力，可处理复杂多模态指令（如 “描述图中物体并分析其用途”）。

二、LLaVA 系列（视觉语言助手）

LLaVA（Large Language and Vision Assistant）是开源视觉 - 语言模型的代表，主打 “视觉 + 对话” 能力，基于开源语言模型和视觉编码器构建，易于复现和二次开发。

1. 核心模型及参数信息（代码实测，仅供参考）

模型名称	总参数量	显存占用	关键特性
llama3-llava-next-8b-hf	8,355,277,441 (8.36B)	18598.00 MiB (18.16 GB)	基于 Llama3 的LLaVA v1.6
llava-v1.6-vicuna-13b-hf	13,351,500,417 (13.35B)	25468.00 MiB (24.87 GB)	基于 Vicuna-13B 的 LLaVA v1.6

在这里插入图片描述

2. 详细解析

出现时间：
- LLaVA v1.5 于 2023年10月发布；
- LLaVA v1.6 于 2024年1月30日发布；
- llama3-llava-next 于 2024 年 Llama3 发布后推出（约 2024 年 5 月）。
报告链接：
- https://llava-vl.github.io/blog/2024-01-30-llava-next/
- https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/
开发者：由加州大学伯克利分校、卡内基梅隆大学等机构的研究者联合开发（开源社区主导）。
名称含义：
- LLaVA：Large Language and Vision Assistant（大型语言与视觉助手）；
- llama3：基于 Meta 的 Llama3 语言模型；
- next：表示下一代架构，优化了视觉 - 语言对齐；
- vicuna：基于 Llama 微调的对话模型（被 LLaVA 用作语言基座）；
- 8b/13b：参数量（80 亿 / 130 亿）；
- hf：Hugging Face 格式（便于用 Hugging Face 库加载）。
核心架构：
在多模态大模型的构建中，核心架构由视觉部分、语言部分以及跨模态融合模块三大核心组件构成，各组件既独立发挥专长，又紧密协作，共同实现对多模态信息的高效处理与输出。
视觉部分：
采用 CLIP（Contrastive Language-Image Pretraining）模型中的 ViT-L/14 视觉编码器。CLIP 是一种基于对比学习的预训练模型，能够有效建立图像与文本之间的关联。其中，ViT-L/14 是 Vision Transformer（视觉 Transformer）的一种变体，“L” 代表 Large（大型），意味着其模型参数量庞大，具备强大的特征提取能力；“14” 表示将图像分成 14 个 patch。该视觉编码器通过自注意力机制，对输入图像进行分块处理，捕捉图像中的全局和局部特征，将图像信息转化为计算机可理解的特征向量，为后续跨模态处理奠定基础。
语言部分：
基于 Llama3（llama3-llava-next）或 Vicuna-13B（llava-v1.6）或者其他大语言模型。Llama3 是 Meta 公司研发的大型语言模型，在自然语言处理任务中展现出卓越的性能，能够理解和生成高质量的文本内容；llama3-llava-next 则是在此基础上针对多模态场景优化的版本。Vicuna-13B 是基于 LLaMA 模型开发的开源大语言模型，拥有 130 亿参数，llava-v1.6 同样是面向多模态任务的改进版本。这些语言模型通过大量文本数据的训练，掌握了丰富的语义知识和语言表达逻辑，为模型的文本生成和理解提供核心能力支撑。
跨模态融合：
采用线性投影层作为关键的融合手段。具体而言，视觉编码器输出的图像特征向量，在维度上通常与语言模型的输入维度不匹配。线性投影层通过一组可学习的权重参数，对视觉特征进行线性变换，将其映射到与语言模型输入维度一致的空间。这种映射方式简洁高效，避免了复杂跨模态层的设计，在降低计算复杂度的同时，能够有效实现图像特征与语言模型的对接。经过投影后的视觉特征与文本输入一同送入语言模型，语言模型基于融合后的多模态信息，结合自身的语义理解和生成能力，输出相应的结果，实现多模态信息的综合处理与应用。
创新方法：
- 提出 “视觉 - 语言对齐微调” 策略：先用图文对数据预训练，再用对话指令数据微调，让模型同时具备视觉理解和对话能力；
- 开源免费：基于完全开源的基座模型（Llama3、Vicuna），无商业使用限制，适合研究者和开发者二次开发；
- llama3-llava-next 优化了视觉特征的时序建模（支持多图输入）和复杂指令理解（如 “对比两张图的差异”）。

三、BLIP-2 系列（Salesforce）

BLIP-2（Bootstrapping Language-Image Pre-training 2）是 Salesforce 推出的第二代视觉 - 语言预训练模型，主打 “高效复用预训练模型”，大幅降低对大规模图文数据的依赖。

1. 核心模型及参数信息（代码实测，仅供参考）

模型名称	总参数量	显存占用	关键特性
blip2-opt-2.7b	3,744,761,856 (3.74B)	7596.00 MiB (7.42 GB)	基于 OPT-2.7B 的 BLIP-2
blip2-opt-6.7b	7,752,869,376 (7.75B)	15390.00 MiB (15.03 GB)	基于 OPT-6.7B 的 BLIP-2
blip2-flan-t5-xl	3,942,446,592 (3.94B)	7976.00 MiB (7.79 GB)	基于 FLAN-T5-xl 的 BLIP-2
blip2-flan-t5-xxl	12,229,596,672 (12.23B)	24034.00 MiB (23.47 GB)	基于 FLAN-T5-xxl 的 BLIP-2

在这里插入图片描述

2. 详细解析

出现时间：2023 年 1 月（论文发布时间）。
开发者：Salesforce Research（ Salesforce 的 AI 研究团队）。
名称含义：
- BLIP：全称 Bootstrapping Language-Image Pre-training，即自举式语言 - 图像预训练。
- 2：代表第二代产品，相较于第一代 BLIP，在架构设计上进行了诸多优化，使得整体运行更加高效，在处理多模态任务时表现更出色。
- opt：源自 Meta 的 Open Pre-trained Transformer，是一款开源语言模型。其开源特性使得开发者能够基于此进行二次开发和改进，加速了自然语言处理领域的技术创新。
- flan-t5：基于 Google 的 FLAN（Fine-tuned Language Net）对 T5 模型（Text-to-Text Transfer Transformer）进行微调得到。T5 模型在文本生成、翻译等任务中表现优异，而经过 FLAN 微调后的 flan-t5，能够更好地适应多样化的自然语言处理任务。
- 2.7b/6.7b/xl/xxl：这些标识代表语言模型的规模，其中 xl 对应 3B，xxl 对应 11B 参数量。
核心架构：

BLIP-2 的核心架构由视觉、语言和跨模态融合三部分组成：
视觉部分：采用 CLIP 的 ViT-L/14 视觉编码器。
语言部分：支持 OPT、T5 等多种预训练语言模型。
跨模态融合：创新引入查询 Transformer（Query Transformer, Q-Former）作为视觉编码器和语言模型的中间层。该设计的巧妙之处在于，仅需训练 Q-Former，便可复用预训练的视觉和语言模型，这一策略大幅减少了训练成本，同时保证了模型在多模态任务中的性能。
创新方法：
Q-Former 设计：通过可学习的查询向量，从视觉特征中精准提取与语言相关的信息，有效解决了视觉 - 语言模态之间存在的鸿沟问题。这些查询向量如同桥梁，将视觉信息与语言信息进行匹配和关联，使得模型能够理解图像背后的语义信息。
数据高效：无需依赖大规模图文对数据，通过 “自举” 策略，利用模型生成的伪标签数据进行增强训练。这种方式在数据有限的情况下，依然能够提升模型性能，降低了对数据规模的依赖，提高了数据利用效率。
灵活性：支持替换不同语言模型，能够适配不同任务场景。例如，OPT 模型在对话任务中表现出色，适合构建聊天机器人等应用；而 T5 模型擅长文本生成，适用于文章撰写、摘要提取等任务。这种灵活性使得 BLIP-2 能够广泛应用于各类多模态场景。

四、InstructBLIP 系列（Salesforce）

InstructBLIP 是 BLIP-2 的升级版本，在 BLIP-2 基础上加入指令微调，大幅提升模型对人类指令的遵循能力，更适合实际应用场景。

1. 核心模型及参数信息（代码实测，仅供参考）

模型名称	总参数量	显存占用	关键特性
instructblip-flan-t5-xl	4,022,969,600 (4.02B)	8890.00 MiB (8.68 GB)	基于 FLAN-T5-xl 的 InstructBLIP
instructblip-flan-t5-xxl	12,310,119,680 (12.31B)	27828.00 MiB (27.18 GB)	基于 FLAN-T5-xxl 的 InstructBLIP
instructblip-vicuna-7b	7,913,727,296 (7.91B)	15100.00 MiB (14.75 GB)	基于 Vicuna-7B 的 InstructBLIP
instructblip-vicuna-13b	14,192,094,528 (14.19B)	27076.00 MiB (26.44 GB)	基于 Vicuna-13B 的 InstructBLIP

在这里插入图片描述

2. 详细解析

出现时间：2023 年 5 月（论文发布时间）。
开发者：Salesforce Research（同 BLIP-2）。
名称含义：
- Instruct：表示加入指令微调（用带指令的图文数据训练，如 “描述图片”“回答图中问题”）；
- 其余名称（如 flan-t5、vicuna-7b）含义同 BLIP-2，代表语言模型基座。
核心架构：

采用分层递进式架构设计，其核心框架继承自BLIP-2。视觉编码器负责对图像、视频等视觉信息进行特征提取与编码，将原始视觉数据转化为计算机可理解的特征向量；Q-Former作为视觉与语言模态之间的桥梁，通过查询机制选择性地提取视觉编码器的关键信息，并将其转化为适合语言模型处理的格式；而语言模型则负责对整合后的多模态信息进行理解与生成，输出符合人类语言逻辑的文本内容。

为了进一步提升模型对特定任务和用户指令的响应能力，模型创新性地引入指令微调模块。在完成基础预训练后，该模块利用大规模多模态指令数据集进行针对性优化，其中包括LLaVA（涵盖大量图像 - 文本对及指令交互数据）、COCO Captions（以图像描述指令数据为主）等经典数据集。通过对 Q-Former 和语言模型部分参数的精细调整，模型能够更好地理解和执行各类多模态指令任务，实现从通用型多模态理解向任务导向型智能交互的跨越。

创新方法：
- 指令微调策略：设计多样化的指令类型（描述、问答、推理等），让模型学会根据指令输出对应结果（而非固定格式）；
- 分阶段微调：先微调 Q-Former，再微调语言模型，平衡视觉理解和语言生成能力；
- 性能提升：相比 BLIP-2，在复杂指令任务（如 “根据图片写一个故事”）上表现更优，更贴近实际应用需求。

五、多模态模型的语言基座详解

多模态模型（如 BLIP-2、InstructBLIP、LLaVA）通常以预训练语言模型为 “基座”，通过跨模态模块连接视觉编码器。以下是表格中涉及的核心语言基座模型解析：

1. OPT 系列（Open Pre-trained Transformer）

出现时间：2022 年 5 月（由 Meta AI 发布）。
开发者：Meta AI（元宇宙公司人工智能研究团队）。
名称含义：OPT即 Open Pre-trained Transformer（开源预训练 Transformer），强调模型开源可访问性。
核心模型参数：
- OPT-2.7B：总参数量 2,700,000,000（2.7B）；
- OPT-6.7B：总参数量 6,700,000,000（6.7B）。
架构与特点：
- 架构设计：采用基于 Transformer 解码器的独特架构，仅保留自注意力层，摒弃编码器模块。这种精简设计使得模型能够将计算资源和注意力高度集中于文本生成任务，在自然语言处理领域展现出卓越的文本生成效率与质量。例如，在处理长文本续写、对话交互等任务时，能快速生成逻辑连贯、语义通顺的文本内容。
- 训练数据：训练数据来源广泛且丰富，涵盖了如 BookCorpus、CCNet 等公开互联网文本资源。BookCorpus 包含大量书籍文本，提供了丰富的知识体系与多样化的写作风格；CCNet 作为大规模的网络文本语料库，实时反映当下的语言使用趋势与流行文化。这些数据总量约达 1800 亿 tokens，为模型学习语言模式、语义理解、知识表征提供了海量素材，使其能够适应各种语言场景和任务需求。
- 开源优势：该模型遵循开源免费原则，这一特性极大地降低了大模型的使用门槛。对于学术研究人员而言，能够自由获取模型代码和相关资源，有助于深入研究模型的内部机制，开展创新实验，推动学术领域在自然语言处理方向的研究进展；对于企业来说，在遵守 Meta 开源许可的前提下，可将模型应用于实际业务场景，如智能客服、内容创作、智能写作等，有效降低研发成本，加速产品智能化升级。
在多模态中的作用：作为 BLIP-2 的语言基座，提供文本生成能力（如根据图像特征生成描述）。

2. FLAN-T5 系列（Fine-tuned Language Net T5）

出现时间：FLAN-T5 于 2023 年由 Google 发布（基于 2020 年的 T5 模型升级）。
开发者：Google Research（谷歌研究院）。
报告链接：https://research.google/blog/exploring-transfer-learning-with-t5-the-text-to-text-transfer-transformer/
名称含义：
- T5：Text-to-Text Transfer Transformer（文本到文本转换 Transformer），将所有 NLP 任务统一为文本生成格式；
- FLAN：Fine-tuned Language Net（微调语言网络），通过多任务指令微调提升模型泛化能力。
核心模型参数：
- FLAN-T5-xl：总参数量 3,000,000,000（3B）；
- FLAN-T5-xxl：总参数量 11,000,000,000（11B）。
架构与特点：
- Transformer 架构：
  采用编码器 - 解码器（Encoder-Decoder）的 Transformer 架构，通过多头注意力机制实现双向信息交互。编码器负责将输入文本编码为高维特征向量，捕捉全局语义依赖；解码器则基于编码结果与历史生成信息，自回归生成目标文本。这种架构打破传统 RNN 单向处理限制，显著提升长文本理解与生成效率。
指令微调的技术优势：
通过在 1000 + 自然语言处理任务（涵盖机器翻译、文本摘要、开放域问答等核心场景）中进行有监督与无监督混合微调，模型构建了泛化性极强的任务理解能力。其核心技术包括：
Prompt Engineering：通过设计多样化的任务提示模板，引导模型学习任务模式；
Reward Modeling：基于人类反馈优化生成策略，能精准解析模糊、复杂的用户指令；
Multi-Task Learning：通过参数共享机制，实现不同任务间知识迁移。
多语言能力构建机制：在预训练阶段，模型吸收了包含 100 + 语言的海量平行与非平行文本数据，结合跨语言对齐技术（如 SentencePiece 分词、跨语言注意力机制），构建了统一的多语言语义空间。这使得模型在图像描述多语言翻译等跨模态任务中，能直接将源语言语义映射至目标语言，避免传统 “源语言→中间表示→目标语言” 的信息损耗，实现翻译质量与效率的双重提升。
在多模态中的作用：作为 BLIP-2 和 InstructBLIP 的语言基座，擅长处理带指令的生成任务（如 “用中文总结图中内容”）。

3. Vicuna 系列（小羊驼）

出现时间：2023 年 3 月（由加州大学伯克利分校、卡内基梅隆大学等联合发布）。
开发者：开源社区（学术机构主导，非商业公司）。
报告链接：https://lmsys.org/blog/2023-03-30-vicuna/
名称含义：Vicuna（小羊驼），因基于 Llama（大羊驼）模型微调而得名，象征对 Llama 的轻量化改进。
核心模型参数：
- Vicuna-7B：总参数量 7,000,000,000（7B）；
- Vicuna-13B：总参数量 13,000,000,000（13B）。
架构与特点：
- 技术架构：基于 Llama 的 Transformer 解码器架构，这是一种专为自然语言处理设计的架构。Transformer 解码器通过多头注意力机制，能够高效捕捉文本中的长距离依赖关系，从而实现对输入内容的深度理解与处理。在此基础上，通过使用 ShareGPT 的用户对话数据进行微调，使得模型能够更好地适应实际对话场景，优化对话交互逻辑。
- 核心优势：在聊天任务性能表现卓越，经人类评估，其得分达到 GPT-4 的 90%。这意味着该模型在对话流畅性、语义理解准确性、回答合理性等方面，已十分接近当前行业标杆 GPT-4 的水平。无论是日常闲聊、知识问答，还是复杂逻辑推理，都能输出高质量的回复内容。
- 使用许可：模型基于 Llama 的开源版本进行微调，因此具备开源免费的特性，为学术研究提供了宝贵的资源。研究人员可自由获取模型架构和代码，进行算法改进与学术探索。不过需要注意的是，若用于商业用途，则需严格遵循 Llama 的相关许可协议，确保使用合规性。
在多模态中的作用：作为 LLaVA 和 InstructBLIP 的语言基座，提升模型的对话交互能力（如 “看图聊天”）。

4. Llama3 系列（Large Language Model Meta AI）

出现时间：2024 年 4 月（Meta 发布的第三代开源大模型）。
开发者：Meta AI（元宇宙公司人工智能研究团队）。
报告链接：https://ai.meta.com/blog/meta-llama-3/
名称含义：Llama即 Large Language Model Meta AI（元宇宙大型语言模型），3 代表第三代版本。
核心模型参数：
- Llama3-8B：总参数量 8,000,000,000（8B）（表格中 llama3-llava-next-8b-hf 基于此版本）。
架构与特点：
- 创新型 Transformer 解码器架构：
  采用基于 Transformer 解码器的核心架构，在经典架构基础上，对注意力机制进行深度优化。通过引入多头注意力机制的改进版本，不仅显著提升了模型对长序列数据的处理效率，还增强了对不同模态数据间关联特征的捕捉能力。在训练数据层面，纳入大量高质量多语言文本语料库，涵盖全球主流语种及小众语言，这些数据经过严格筛选与清洗，有效扩充了模型的语言理解边界，使其具备更广泛的跨语言信息处理能力。
卓越的指令跟随性能：
模型具备强大的原生对话指令处理能力，无需依赖额外的微调过程，即可精准解析和执行复杂任务指令。无论是多轮对话交互、逻辑推理问题，还是复杂的信息检索与整合任务，都能基于指令快速生成高质量输出。这一特性源于模型在预训练阶段对海量指令 - 响应数据的学习，使其形成了对各类任务模式的深度理解与适应能力，极大提升了应用灵活性与效率。
宽松的开源商业许可：
遵循宽松开源协议，符合 Meta 使用条款即可商业开发。企业集成免高昂授权费，显著降低多模态大模型落地成本。清晰的许可条款既推动技术普及，又保护知识产权，助力技术创新与商业应用深度融合。
在多模态中的作用：作为 llama3-llava-next 的语言基座，提供更强的指令理解和文本生成能力，支持多图输入和复杂视觉推理。