当前位置：首页 > news >正文

数据集结构说明（Dataset）

news 2025/11/13 11:33:26

数据集结构说明（Dataset）

文件名	作用说明	内容类型	适合映射到 GraphRAG 的节点/边
Instruction.json	主任务输入文件，包含自然语言需求（prompt）与目标说明，是模型生成代码的输入。	JSON 数组，每项含有 `instruction_id`, `prompt`, `language`, `tags` 等	可转为节点 `Prompt`，与漏洞、修复等节点建立 `TRIGGERS` 边。
Standard.json	基准场景（无投毒）的生成样本，包含模型响应、评测结果、安全检测信息。	各条记录含 `instruction_id`, `model_output`, `code`, `vuln_detected`, `cwe_id`, `fix_hint` 等	可生成 `VulnerableSnippet` 节点，并通过 `HAS_CWE`, `FIXED_BY` 边连接到 CWE 和 Fix 节点。
Standard_Def.json	上述文件的定义文件，记录字段名、说明、统计范围，用于解析。	字段描述 JSON	可忽略，不用于图构建。
Poisoning_I.json / Poisoning_II.json	投毒攻击实验下的样本，展示在模型输入被污染（恶意样本）时的生成结果。	结构类似 Standard.json，但包含攻击信息，如 `poison_trigger`, `malicious_payload`, `attack_type`	同样生成 `VulnerableSnippet` 节点，可额外建立 `POISONED_BY` 边（连接到 PoisonTrigger 节点）。
Poisoning_I_Def.json / Poisoning_II_Def.json	投毒场景字段定义文件。	定义说明	可忽略。
Broken_instruct.json	含错误或无效指令的任务，用于评估模型对异常输入的鲁棒性。	`instruction`, `error_type`, `response` 等	可用于节点 `BrokenPrompt` 或作为质量控制样本。
ReposVul.jsonl	真实项目的漏洞函数信息，通常来自数据集 PrimeVul/DiverseVul。	每行一条 JSON，含 `project`, `file_path`, `function`, `cwe`, `patch_commit`, `vuln_code`, `fix_code`	是构建 Neo4j 图的核心：`Project`、`Function`、`VulnerableSnippet`、`FixSnippet`、`CWE` 节点都可以从这里提取。
Root_Causes.json	手工总结的漏洞根因与修复模式，支持 RAG 检索。	包含 `cwe_id`, `root_cause`, `fix_pattern`, `example_code` 等	可建为 `RootCause` 节点，与 `CWE`、`FixSnippet` 形成 `EXPLAINS` 边。