多模态的大模型文本分类模型代码(一)——准备阶段
一、核心模型预备
本文使用的模型包括三个:提取文本语义的deepseek-R1、提取文本情感的BERT和提取文本的swin_transformer,三个模型分工明确,分别对应文本特征、情感特征和图像特征的提取,覆盖了文本与图像两大模态。
1. deepseek-R1(文本特征提取)
本质是一款大语言模型(LLM) ,由深度求索(DeepSeek)研发,核心优势在中文文本理解和通用语义建模。
用于文本特征提取时,能将文字(如句子、段落)转化为计算机可识别的向量,捕捉文本的语义、逻辑关联等深层信息,而非简单的关键词匹配。
常见场景包括文本分类、信息检索、多模态任务中的文本端输入处理。
2. BERT 模型(情感特征提取)
全称是Bidirectional Encoder Representations from Transformers,由谷歌提出,是自然语言处理领域的经典模型。
核心特点是 “双向注意力机制”,能同时从句子的前后文理解语义,尤其擅长细粒度的情感分析(如判断文本是正面、负面还是中性)。
用于情感特征提取时,可从评论文本、对话内容中提炼出情感倾向向量,为后续情感相关任务(如舆情分析、用户反馈判断)提供支持。
3. swin_transformer 模型(图像特征提取)
是基于Transformer 架构的图像分类 / 特征提取模型,由微软亚洲研究院提出,解决了传统 Transformer 在处理高分辨率图像时计算量过大的问题。
核心设计是 “滑动窗口注意力(Swin Window Attention)”,通过分窗口计算注意力,在保证提取图像细节(如物体边缘、纹理)的同时,降低计算成本。
能将图像转化为向量特征,捕捉图像的视觉信息,常用于图像分类、目标检测、多模态任务中的图像端输入处理。
二、数据集介绍
链接:https://huggingface.co/datasets/vector-institute/VLDBench
VLDBench 是一个用于新闻虚假信息检测的多模态数据集,包含从各种新闻来源中提取的文本、图像和元数据。该数据集包括标题、文章文本、图像描述以及以字节数组形式存储的图像,确保与Hugging Face的数据集查看器兼容。
| 列名 | Type | 描述 |
|---|---|---|
outlet | string | chuban |
headline | string | News headline |
article_text | string | Full article content |
image_description | string | Textual summary of the image |
image | Image(bytes) | Image in byte format (displayed in HF Viewer) |
date_published | string | Date of article publication |
source_url | string | URL of the original article |
news_category | string | Predicted category |
news_category_score | float | Confidence score for category prediction |
三、微调训练方案
1、核心优化逻辑:先解决 “特征有效性”,再强化 “融合与分类能力”
虚假新闻检测的核心是让模型从文本、情感、图像中捕捉到 “真实 / 虚假” 的区分性特征,再通过有效融合与分类输出结果。当前框架的关键问题是 “特征提取模型未适配任务”(未微调),导致原始特征可能与 “虚假新闻检测” 无关;其次是 “融合 / 分类模块未调优”,即使有有效特征也无法高效利用。因此优化需遵循 “先让特征‘有用’,再让融合‘高效’,最后让分类‘精准’” 的顺序。
2、具体优化顺序及操作建议
第一步:微调 3 个特征提取模型(优先级最高)
当前 3 个模型均未微调,输出的特征是 “通用特征”(如 BERT-emotions 仅输出通用情感特征,而非 “虚假新闻场景下的情感异常特征”;deepseek-R1 输出通用文本语义,而非 “虚假新闻的文本矛盾 / 夸张特征”),无法支撑虚假新闻检测任务,这是最核心的瓶颈。
需按 “特征对任务的贡献度” 排序微调,建议顺序:
- 优先微调:deepseek-R1(文本特征提取)
虚假新闻的核心区分信息多藏于文本(如事实性错误、来源造假、逻辑矛盾),文本特征是任务的 “主特征”。
操作:用 “虚假新闻标注数据集”(如 LIAR、FakeNewsNet)微调 deepseek-R1,让其学习 “虚假新闻文本的语义模式”(如 “无权威来源”“夸大表述”“时间线冲突” 等),输出适配任务的文本特征。
- 其次微调:BERT-emotions(情感特征提取)
虚假新闻常通过 “极端情感诱导”(如过度愤怒、恐慌)传播,需让 BERT 聚焦 “虚假新闻特有的情感偏差”(如真实新闻情感更中立,虚假新闻情感更极端)。
操作:基于虚假新闻数据集,将 BERT 的任务从 “通用情感分类” 调整为 “区分真实 / 虚假新闻的情感特征提取”,冻结底层语义层,微调顶层情感适配层。
- 最后微调:Swin-Transformer(图像特征提取)
虚假新闻的图像特征多为 “拼接篡改、来源不明、与文本不匹配”,需让 Swin 从 “通用图像识别” 转向 “虚假新闻图像的篡改特征捕捉”(如边缘模糊、光影不一致)。
操作:使用含 “虚假新闻篡改图像” 的数据集(如 CASIA-WebFace 篡改子集),微调 Swin 的中层特征层,强化对 “篡改痕迹、文本 - 图像不匹配” 的特征提取能力。
第二步:优化交叉注意力融合网络(次优先级)
特征提取模型微调后,需确保 “文本、情感、图像特征” 能高效互补(如文本的 “事实矛盾” 与图像的 “篡改痕迹” 需关联融合),而当前交叉注意力仅为 “基础网络”,未适配任务特征的关联性。
优化方向:
- 增强 “任务导向的注意力权重”:在交叉注意力层加入 “虚假新闻特征权重因子”,让模型自动提升 “高区分度特征” 的权重(如文本中的 “来源造假关键词”、图像中的 “篡改区域”)。
- 解决 “特征异构性问题”:文本 / 情感特征是序列型,图像特征是网格型,需在交叉注意力前加入 “特征对齐模块”(如将图像特征 flatten 为序列型,或用投影层将三者映射到同一维度空间)。
- 加入 “特征一致性约束”:在融合过程中增加 “文本 - 图像一致性损失”(如真实新闻文本与图像描述一致,虚假新闻不一致),让融合特征更能反映 “多模态矛盾” 这一虚假新闻核心特征。
第三步:调优 MLP 分类器(最后优先级)
MLP 是最终的 “决策层”,需在 “有效特征 + 高效融合” 的基础上优化,否则调优无意义(若输入特征无区分度,MLP 再复杂也无法精准分类)。
调优方向:
- 简化或调整 MLP 结构:基础 MLP 可能存在 “过拟合” 或 “欠拟合”,需根据数据集规模调整层数(如小数据集用 2-3 层,大数据集可加 1 层隐藏层),并加入 Dropout 层抑制过拟合。
- 优化损失函数与优化器:虚假新闻数据集多存在 “类别不平衡”(虚假新闻样本可能更少),需将默认的 “交叉熵损失” 改为 “加权交叉熵损失” 或 “Focal Loss”,提升对少数类(虚假新闻)的识别能力;优化器可从 Adam 改为 AdamW,加入权重衰减抑制过拟合。
- 结合任务指标调优:虚假新闻检测更关注 “召回率”(尽可能不漏判虚假新闻),需在调优时以 “F1-score”“召回率” 为核心指标,而非仅关注准确率。
3、关键注意点:每步优化后需验证效果,避免 “无效迭代”
- 每完成一步优化(如微调完文本模型),需固定该模块,用 “验证集” 测试当前框架的虚假新闻检测效果(如 F1-score、召回率),确认特征 / 融合 / 分类能力有提升后,再进入下一步;
- 若某一步优化后效果无提升(如微调图像模型后效果不变),需回溯检查:是数据集缺乏图像标注?还是图像特征对当前任务贡献度低?再决定是否调整优化方向(如暂不深入微调图像模型,优先强化文本 + 情感特征)。
