恶意软件行为图像数据集
本数据集包含六类恶意软件样本:病毒(Virus)、蠕虫(Worm)、特洛伊木马(Trojan)、间谍软件(Spyware)、广告软件(Adware)和勒索软件(Ransomware)。该数据集旨在构建高精度的分类模型,实现对不同类型恶意软件行为的自动识别与检测,为网络安全分析和威胁防御提供辅助决策依据,推动深度学习与人工智能技术在恶意软件分析与网络安全防护中的应用。
整理:Bob
数据集概览
数据图像:
图1 恶意软件行为图像
数据类型:
表1 数据类型与格式
数据规模:
(1)数据集划分饼图
图2 数据集划分饼图
(2)数据集数量
图2 数据集数量
数据集类别
表3 类别定义
数据集来源
表4 数据集来源与说明
数据集用途
本数据集用于恶意软件行为分类模型的训练与验证,包含六类恶意软件样本:广告软件(Adware)、勒索软件(Ransomware)、间谍软件(Spyware)、特洛伊木马(Trojan)、病毒(Virus)和蠕虫(Worm)。可应用于以下研究与开发方向:
(1)模型训练:支持卷积神经网络、视觉Transformer(ViT)等深度学习模型的恶意软件行为特征学习。
(2)性能评估:用于测试模型的分类准确率、召回率、F1值等指标。
(3)特征分析:可用于研究不同恶意软件类型在行为模式、传播方式、危害程度等方面的差异。
(4)系统开发:为恶意软件检测与防护系统、网络安全监测平台提供数据支撑。
数据集须知
(1)数据来源:基于公开或采集的恶意软件行为图像数据,仅限科研与教学用途。
(2)数据结构:包含训练集与测试集,分为六类恶意软件样本。
(3)文件格式:文件为 .jpg 图像格式,文件命名与类别对应。
(4)使用要求:需遵守个人隐私与数据保护相关规定,引用时须注明数据来源。
(5)适用范围:适用于恶意软件行为识别、分类、行为分析及网络安全防护研究。
数据集性能
训练与验证准确率和损失曲线:
图4 VGG16和ResNet50训练与验证准确率和损失曲线线
从这两张训练和验证的准确率与损失曲线图来看,ResNet50 的训练与验证准确率几乎始终保持在 99%–100% 之间,且验证损失接近 0,模型稳定性更高、泛化能力更强;而 VGG16 在前几个 epoch 虽然快速收敛,但验证曲线存在轻微波动,说明其在复杂特征提取上略逊一筹。ResNet50 在恶意软件分类任务中表现更优,具有更高的准确性和更好的收敛稳定性。
混淆矩阵热力图:
图5 VGG16与ResNet50精度与损失总结表
从混淆矩阵(Confusion Matrix Heatmap)结果来看,ResNet50 的性能略优于 VGG16。两种模型在六类恶意软件(Adware、Ransomware、Spyware、Trojan、Virus、Worm)分类中均表现出极高的准确率,混淆矩阵几乎呈现完美对角线结构,表明模型能够准确区分各类样本。然而,ResNet50 的分类结果更加稳定、泛化能力更强,其预测值全部精确集中在对角线上(值为1.0),无任何误分类,而 VGG16 虽然整体精度也高,但在训练初期存在轻微波动。综合来看,ResNet50 在恶意软件分类任务中整体表现更佳,准确率更高且鲁棒性更强。