当前位置：首页 > news >正文

多模态的大模型文本分类模型代码(一)——准备阶段

news 2025/10/29 8:30:55

一、核心模型预备

本文使用的模型包括三个：提取文本语义的deepseek-R1、提取文本情感的BERT和提取文本的swin_transformer，三个模型分工明确，分别对应文本特征、情感特征和图像特征的提取，覆盖了文本与图像两大模态。

1. deepseek-R1（文本特征提取）

本质是一款大语言模型（LLM），由深度求索（DeepSeek）研发，核心优势在中文文本理解和通用语义建模。

用于文本特征提取时，能将文字（如句子、段落）转化为计算机可识别的向量，捕捉文本的语义、逻辑关联等深层信息，而非简单的关键词匹配。

常见场景包括文本分类、信息检索、多模态任务中的文本端输入处理。

2. BERT 模型（情感特征提取）

全称是Bidirectional Encoder Representations from Transformers，由谷歌提出，是自然语言处理领域的经典模型。

核心特点是 “双向注意力机制”，能同时从句子的前后文理解语义，尤其擅长细粒度的情感分析（如判断文本是正面、负面还是中性）。

用于情感特征提取时，可从评论文本、对话内容中提炼出情感倾向向量，为后续情感相关任务（如舆情分析、用户反馈判断）提供支持。

3. swin_transformer 模型（图像特征提取）

是基于Transformer 架构的图像分类 / 特征提取模型，由微软亚洲研究院提出，解决了传统 Transformer 在处理高分辨率图像时计算量过大的问题。

核心设计是 “滑动窗口注意力（Swin Window Attention）”，通过分窗口计算注意力，在保证提取图像细节（如物体边缘、纹理）的同时，降低计算成本。

能将图像转化为向量特征，捕捉图像的视觉信息，常用于图像分类、目标检测、多模态任务中的图像端输入处理。

二、数据集介绍

链接：https://huggingface.co/datasets/vector-institute/VLDBench

VLDBench 是一个用于新闻虚假信息检测的多模态数据集，包含从各种新闻来源中提取的文本、图像和元数据。该数据集包括标题、文章文本、图像描述以及以字节数组形式存储的图像，确保与Hugging Face的数据集查看器兼容。

列名	Type	描述
`outlet`	string	chuban
`headline`	string	News headline
`article_text`	string	Full article content
`image_description`	string	Textual summary of the image
`image`	Image(bytes)	Image in byte format (displayed in HF Viewer)
`date_published`	string	Date of article publication
`source_url`	string	URL of the original article
`news_category`	string	Predicted category
`news_category_score`	float	Confidence score for category prediction

三、微调训练方案

1、核心优化逻辑：先解决 “特征有效性”，再强化 “融合与分类能力”

虚假新闻检测的核心是让模型从文本、情感、图像中捕捉到 “真实 / 虚假” 的区分性特征，再通过有效融合与分类输出结果。当前框架的关键问题是 “特征提取模型未适配任务”（未微调），导致原始特征可能与 “虚假新闻检测” 无关；其次是 “融合 / 分类模块未调优”，即使有有效特征也无法高效利用。因此优化需遵循 “先让特征‘有用’，再让融合‘高效’，最后让分类‘精准’” 的顺序。

2、具体优化顺序及操作建议

第一步：微调 3 个特征提取模型（优先级最高）

当前 3 个模型均未微调，输出的特征是 “通用特征”（如 BERT-emotions 仅输出通用情感特征，而非 “虚假新闻场景下的情感异常特征”；deepseek-R1 输出通用文本语义，而非 “虚假新闻的文本矛盾 / 夸张特征”），无法支撑虚假新闻检测任务，这是最核心的瓶颈。

需按 “特征对任务的贡献度” 排序微调，建议顺序：

优先微调：deepseek-R1（文本特征提取）

虚假新闻的核心区分信息多藏于文本（如事实性错误、来源造假、逻辑矛盾），文本特征是任务的 “主特征”。

操作：用 “虚假新闻标注数据集”（如 LIAR、FakeNewsNet）微调 deepseek-R1，让其学习 “虚假新闻文本的语义模式”（如 “无权威来源”“夸大表述”“时间线冲突” 等），输出适配任务的文本特征。

其次微调：BERT-emotions（情感特征提取）

虚假新闻常通过 “极端情感诱导”（如过度愤怒、恐慌）传播，需让 BERT 聚焦 “虚假新闻特有的情感偏差”（如真实新闻情感更中立，虚假新闻情感更极端）。

操作：基于虚假新闻数据集，将 BERT 的任务从 “通用情感分类” 调整为 “区分真实 / 虚假新闻的情感特征提取”，冻结底层语义层，微调顶层情感适配层。

最后微调：Swin-Transformer（图像特征提取）

虚假新闻的图像特征多为 “拼接篡改、来源不明、与文本不匹配”，需让 Swin 从 “通用图像识别” 转向 “虚假新闻图像的篡改特征捕捉”（如边缘模糊、光影不一致）。

操作：使用含 “虚假新闻篡改图像” 的数据集（如 CASIA-WebFace 篡改子集），微调 Swin 的中层特征层，强化对 “篡改痕迹、文本 - 图像不匹配” 的特征提取能力。

第二步：优化交叉注意力融合网络（次优先级）

特征提取模型微调后，需确保 “文本、情感、图像特征” 能高效互补（如文本的 “事实矛盾” 与图像的 “篡改痕迹” 需关联融合），而当前交叉注意力仅为 “基础网络”，未适配任务特征的关联性。

优化方向：

增强 “任务导向的注意力权重”：在交叉注意力层加入 “虚假新闻特征权重因子”，让模型自动提升 “高区分度特征” 的权重（如文本中的 “来源造假关键词”、图像中的 “篡改区域”）。
解决 “特征异构性问题”：文本 / 情感特征是序列型，图像特征是网格型，需在交叉注意力前加入 “特征对齐模块”（如将图像特征 flatten 为序列型，或用投影层将三者映射到同一维度空间）。
加入 “特征一致性约束”：在融合过程中增加 “文本 - 图像一致性损失”（如真实新闻文本与图像描述一致，虚假新闻不一致），让融合特征更能反映 “多模态矛盾” 这一虚假新闻核心特征。

第三步：调优 MLP 分类器（最后优先级）

MLP 是最终的 “决策层”，需在 “有效特征 + 高效融合” 的基础上优化，否则调优无意义（若输入特征无区分度，MLP 再复杂也无法精准分类）。

调优方向：

简化或调整 MLP 结构：基础 MLP 可能存在 “过拟合” 或 “欠拟合”，需根据数据集规模调整层数（如小数据集用 2-3 层，大数据集可加 1 层隐藏层），并加入 Dropout 层抑制过拟合。
优化损失函数与优化器：虚假新闻数据集多存在 “类别不平衡”（虚假新闻样本可能更少），需将默认的 “交叉熵损失” 改为 “加权交叉熵损失” 或 “Focal Loss”，提升对少数类（虚假新闻）的识别能力；优化器可从 Adam 改为 AdamW，加入权重衰减抑制过拟合。
结合任务指标调优：虚假新闻检测更关注 “召回率”（尽可能不漏判虚假新闻），需在调优时以 “F1-score”“召回率” 为核心指标，而非仅关注准确率。

3、关键注意点：每步优化后需验证效果，避免 “无效迭代”

每完成一步优化（如微调完文本模型），需固定该模块，用 “验证集” 测试当前框架的虚假新闻检测效果（如 F1-score、召回率），确认特征 / 融合 / 分类能力有提升后，再进入下一步；
若某一步优化后效果无提升（如微调图像模型后效果不变），需回溯检查：是数据集缺乏图像标注？还是图像特征对当前任务贡献度低？再决定是否调整优化方向（如暂不深入微调图像模型，优先强化文本 + 情感特征）。

查看全文

http://www.dtcms.com/a/540770.html