| Instruction.json | 主任务输入文件,包含自然语言需求(prompt)与目标说明,是模型生成代码的输入。 | JSON 数组,每项含有 instruction_id, prompt, language, tags 等 | 可转为节点 Prompt,与漏洞、修复等节点建立 TRIGGERS 边。 |
| Standard.json | 基准场景(无投毒)的生成样本,包含模型响应、评测结果、安全检测信息。 | 各条记录含 instruction_id, model_output, code, vuln_detected, cwe_id, fix_hint 等 | 可生成 VulnerableSnippet 节点,并通过 HAS_CWE, FIXED_BY 边连接到 CWE 和 Fix 节点。 |
| Standard_Def.json | 上述文件的定义文件,记录字段名、说明、统计范围,用于解析。 | 字段描述 JSON | 可忽略,不用于图构建。 |
| Poisoning_I.json / Poisoning_II.json | 投毒攻击实验下的样本,展示在模型输入被污染(恶意样本)时的生成结果。 | 结构类似 Standard.json,但包含攻击信息,如 poison_trigger, malicious_payload, attack_type | 同样生成 VulnerableSnippet 节点,可额外建立 POISONED_BY 边(连接到 PoisonTrigger 节点)。 |
| Poisoning_I_Def.json / Poisoning_II_Def.json | 投毒场景字段定义文件。 | 定义说明 | 可忽略。 |
| Broken_instruct.json | 含错误或无效指令的任务,用于评估模型对异常输入的鲁棒性。 | instruction, error_type, response 等 | 可用于节点 BrokenPrompt 或作为质量控制样本。 |
| ReposVul.jsonl | 真实项目的漏洞函数信息,通常来自数据集 PrimeVul/DiverseVul。 | 每行一条 JSON,含 project, file_path, function, cwe, patch_commit, vuln_code, fix_code | 是构建 Neo4j 图的核心:Project、Function、VulnerableSnippet、FixSnippet、CWE 节点都可以从这里提取。 |
| Root_Causes.json | 手工总结的漏洞根因与修复模式,支持 RAG 检索。 | 包含 cwe_id, root_cause, fix_pattern, example_code 等 | 可建为 RootCause 节点,与 CWE、FixSnippet 形成 EXPLAINS 边。 |