当前位置: 首页 > news >正文

【DeepResearch调研】基于知识图谱与数据合成的大语言模型幻觉缓解研究前沿

【声明:本博客由Google Gemini 2.5 Flash结合DeepResearch生成(2025-08-23)】

基于知识图谱与数据合成的大语言模型幻觉缓解研究前沿

1 引言:大语言模型幻觉问题的挑战与研究背景

语言模型(LLM)以其卓越的语言理解与生成能力,在多个领域展现出变革性潜力。然而,其固有的“幻觉”问题,即模型生成看似合理但与事实不符或与给定上下文矛盾的内容,严重制约了其在医疗、法律、金融等关键应用场景的可靠性与可信度 1。幻觉并非简单的随机错误,它可能以极高的自信度呈现,使得用户在没有外部验证的情况下难以察觉,从而导致信任危机乃至法律风险 2

随着研究的深入,学术界对幻觉的理解已从一个单一的“事实错误”概念演变为一个更为复杂的、多维度的现象。例如,新的评估框架开始将幻觉细致地划分为不同类别。其中,HalluLens基准提出了“内源性幻觉”与“外源性幻觉”的明确区分 3内源性幻觉指生成内容与输入上下文不一致,而外源性幻觉则指生成内容与模型自身的训练数据不一致。这种分类的出现表明,研究范式正从简单的“事实核查”转向对幻觉根源的深层剖析。针对不同类型的幻觉,所需的缓解策略也各不相同:例如,要解决内源性幻觉,可能需要提升模型对上下文的依赖与推理能力;而要解决外源性幻觉,则可能需要更精准的外部知识注入。这种对幻觉性质的深入辨析,为后续研究提供了更具针对性的方向。

本报告旨在全面梳理并深入分析两种主流的幻觉缓解技术:基于知识图谱(Knowledge Graph, KG)的方法和基于数据合成(Data Synthesis)的方法。报告将重点关注计算机人工智能领域的顶会,尤其是中国计算机学会(CCF)推荐的B类及以上级别的会议(如NeurIPS、ICLR、ACL、NAACL、AAAI、EMNLP),并详细阐述每种方法的SOTA工作、核心思想、适用的基准以及其内在的优势与局限性。

【此处由博主编辑】

“内源性幻觉”与“外源性幻觉”举例

1、内源性幻觉例子
输入:阿尔伯特·爱因斯坦是一位著名的物理学家,他出生于1879年,在1955年去世,最著名的贡献是相对论。
模型输出:阿尔伯特·爱因斯坦是相对论的创始人,他出生于1879年。然而,他于1956年在普林斯顿去世。
分析:你明确告诉了模型爱因斯坦是在1955年去世的,但模型在生成时却写成了1956年。

2、外源性幻觉例子
输入:阿尔伯特·爱因斯坦是一位著名的物理学家,他的贡献包括相对论。
模型输出:阿尔伯特·爱因斯坦是相对论的创始人,他还曾获得诺贝尔文学奖。
分析:模型的训练数据中包含了大量关于诺贝尔奖和爱因斯坦的信息,它应该“知道”爱因斯坦获得的是诺贝尔物理学奖,而不是文学奖。但它在这里生成了错误的信息,与它所学到的事实不符。它编造了一个在它知识库中并不存在的事实。

2 幻觉评估基准与方法综述

探索幻觉缓解技术之前,建立可靠、全面的评估基准是衡量进展的基础。近年来,学术界已开发出多个旨在更精确、更全面地捕捉LLM幻觉的基准,这些基准不仅反映了模型性能,也揭示了幻觉问题的复杂性。

2.1 FELM:面向多领域的事实性评估

FELM(Factuality Evaluation of Large Language Models)是一个创新的元基准,其独特之处在于它并非直接评估LLM的性能,而是用于评估LLM事实性评估工具的有效性 5该基准通过收集ChatGPT等模型在多种情境下的回答,并对其进行细粒度的人工标注。值得注意的是,其标注的粒度达到了“文本片段”级别,这使得研究者能够精确地定位具体的错误点,而非仅对整个回答进行笼统的对错判断 6

FELM覆盖了五个核心领域,包括世界知识、科学/技术、写作/推荐、推理和数学,这些领域的提示来自标准数据集(如TruthfulQA)、GitHub仓库以及通过ChatGPT生成或由作者手动撰写 5。这种多领域、细粒度的设计,使得FELM能够全面衡量评估工具在不同类型事实错误上的表现。GPT-4在此基准上的表现领先,F1分数为48.3,平衡准确率为67.1 5

这种元基准的出现,标志着幻觉评估研究正进入一个更高级的阶段:即“评估评估者”。传统的基准如TruthfulQA侧重于评估模型本身,而FELM则进一步提供了“黄金标准”,用以衡量其他自动化或半自动化评估工具(如FactScore, SelfCheckGPT)的可靠性 7。这一演变反映出,领域焦点已从单纯的模型性能竞赛,转向对评估方法本身一致性与可靠性的深层探索。

类别

数据量(实例数)

领域

总分段数

事实性(正向)

幻觉(负向)

FELM

847

世界知识,科学/技术,写作/推荐,推理,数学

4427

3642

785

细分

世界知识

532

385

147

推理

1025

877

148

数学

599

477

122

科学/技术

683

582

101

写作/推荐

1588

1321

267

2.2 HalluLens:区分内源性与外源性幻觉

HalluLens是一个旨在解决当前幻觉基准定义不一致问题的综合性评估框架 3。该基准的核心贡献在于其所提出的幻觉分类体系,它明确区分了内源性幻觉(与输入上下文不一致)和外源性幻觉(与训练数据不一致)4。HalluLens强调,随着LLM能力的不断发展,外源性幻觉问题变得愈发突出。

为了应对数据泄露(data leakage)这一困扰现有基准的普遍挑战,HalluLens引入了“动态测试集生成”方法 3。这种机制可以持续生成新颖、未曾见过的测试样本,从根本上防止模型通过记忆基准数据来取得高分。这种动态生成方法不仅是一种数据合成技术,更是一种强大的反“过拟合”策略,确保评估的鲁棒性与持久性。这表明,数据合成技术与基准评估方法之间存在着深刻的联动关系,前者为后者提供了抵御“数据污染”的有效工具。

2.3 HaluEval-Wild:面向真实世界交互的挑战

HaluEval-Wild是首个专门用于评估LLM在“野外”(in the wild),即真实世界动态交互环境中幻觉的基准 9它有别于传统的、基于标准NLP任务的基准,而是从ShareGPT等真实用户对话数据中筛选出500个高挑战性查询,并将其划分为五种精细类别:范围外信息、复杂推理、不当内容、超越模态交互和混淆/错误查询 11。这种设计使其能够更真实地反映LLM在实际应用中可能遇到的幻觉问题。

HaluEval-Wild的一项重要发现是,尽管知识蒸馏模型(如Vicuna)在传统的聊天机器人基准上表现优异,但在HaluEval-Wild基准上的幻觉倾向却更高 9。这一发现具有重要启示意义。它揭示了一种潜在的权衡:在追求模型小型化和通用对话能力时,知识蒸馏过程可能会无意中牺牲模型的事实性与可靠性。这提示研究者,在开发开源或轻量化模型时,需要特别关注其在真实世界复杂情境下的事实性表现。

3 基于知识图谱的幻觉缓解方法

基于知识图谱的方法旨在将LLM与外部的、结构化的事实知识源相连接,从而为模型提供一个可靠的“真理之源”。这一系列方法可以根据知识与模型的融合时机,分为知识增强推理、知识增强学习和知识增强验证三种主要范式。

3.1 知识增强推理:SOTA方法与实现范式

知识增强推理方法将知识图谱作为LLM推理过程中的外部知识库。这类方法可以被视为高级版的检索增强生成(Retrieval-Augmented Generation, RAG)。与传统RAG从非结构化文档中检索信息不同,基于KG的方法从结构化的知识图谱中检索三元组或推理路径 12。这种结构化的数据源带来了多重优势:首先,它提供了天然的可追溯性,可以清晰地展示答案的来源;其次,通过检索KG中的实体和关系,可以生成人类可理解的推理路径,从而提升模型生成的可解释性;最后,KG支持多跳推理,能够解决需要跨多个事实进行逻辑联结的复杂问题 13

以下是该领域的代表性SOTA方法:

  • Reasoning on Graphs (RoG): ICLR 2024, CCF A。该方法提出一个“规划-检索-推理”(Planning-Retrieval-Reasoning)框架 15。其核心思想是,RoG首先让LLM在知识图谱上生成可能的推理路径作为“规划”,然后检索出有效的路径,最终基于这些路径进行忠实推理。这种方法将LLM的语言能力与KG的结构化知识紧密结合,显著提升了推理的忠实性与可解释性。该方法在WebQSP和CWQ等知识图谱问答基准上取得了优异表现 15
  • Think-on-Graph (ToG): ICLR 2023, CCF A。ToG将LLM视为一个Agent,使其能够以交互式的方式在知识图谱上执行束搜索(beam search),从而发现最有前景的推理路径 16。该方法不仅在多跳问答任务上表现出色,还展示了其知识可追溯性和可修正性。ToG的有效性在CWQ, WebQSP, GrailQA, Simple Questions等多样化的基准上得到了验证 16
  • StructGPT: EMNLP 2023, CCF B。StructGPT是一个通用的、无需训练的框架,旨在增强LLM对结构化数据(如知识图谱、数据库、表格)的推理能力 18。它采用一种迭代的“读取-推理”(Iterative Reading-then-Reasoning, IRR)方法,首先从结构化数据中收集相关证据(读取),然后让LLM专注于基于这些信息进行推理。该方法在WebQSP、TabFact和Spider等基准上,显著提升了ChatGPT的性能 18
  • KAPING: NLRSE 2023。KAPING(Knowledge-Augmented language model PromptING)是一种零样本方法,无需对模型进行任何训练 20。它通过在KG中检索与问题相关的三元组,并将其作为提示(prompt)的一部分预置到输入中,从而增强LLM的问答能力。该方法尤其适用于需要从外部知识库中获取精确事实的问答任务,并在相关问答基准上表现出显著的性能提升 20
  • KnowGPT: NeurIPS 2024, CCF A。KnowGPT是一个GraphRAG框架,其独特之处在于它包含一个知识提取模块和一个上下文感知提示构建模块 22。这个框架能够自动从KG中提取最有用的知识,并将其转化为对LLM有效的提示,从而高效、有效地整合KG知识。

3.2 知识增强学习:训练阶段的知识注入

这类方法旨在通过在模型的预训练或微调阶段,将知识图谱的结构信息或三元组直接注入到模型参数中,从而从根本上增强LLM的知识基础。

  • SKILL: NAACL 2022, CCF B。SKILL(Structured Knowledge Infusion for Large Language Models)通过直接在KG的三元组上训练T5模型,将结构化知识注入LLM 23。该方法的一大优势在于它无需KG与文本语料库之间的对齐,这使得它在处理工业级规模的知识图谱时特别有效。SKILL在多跳推理基准上展示了显著的性能提升 24
  • ERNIE 3.0: ArXiv 2021。ERNIE 3.0是一个大规模知识增强的预训练框架,其核心是一个融合了自回归和自编码网络的统一模型。这种设计使得模型能够同时学习理解和生成任务。ERNIE 3.0的扩展版本ERNIE 3.0 Titan,参数量高达2600亿,是当时最大的中文稠密预训练模型,并在68个NLP数据集上超越了SOTA模型 25

3.3 知识增强验证:生成后的事实核查

除了在推理和学习阶段注入知识外,利用知识图谱进行生成后的事实核查也是缓解幻觉的重要途径。例如,GraphEval是一个基于KG的幻觉评估框架 27。它不仅能够识别KG中可能导致幻觉的特定三元组,还可以利用KG的结构来纠正幻觉,提供了一种可解释的幻觉校正机制。

4 基于数据合成的幻觉缓解方法

数据合成技术通过自动化生成训练数据,为LLM的微调和能力增强提供了高效且可控的手段。这项技术在弥补数据稀缺性、规避隐私风险以及定向训练模型特定能力方面具有独特优势 28。随着LLM的发展,数据合成正从简单的“量变”走向“质变”。早期,研究者利用GPT-4等强大模型生成海量指令数据来微调小模型,主要目的是弥补训练数据量的不足 29。然而,最新的研究表明,数据合成已演变为一种控制模型特定能力、甚至纠正其内在缺陷的“手术刀”。

例如,Prereq-Tune的工作提出了一个更激进的理念:使用“虚构的”(fictitious)合成数据 30。这种数据的目的并非教模型新的知识,而是训练它一种“技能”——将知识与技能解耦,确保模型能将其生成内容牢固地锚定在其内部或外部知识上。这表明数据合成的未来是高度定向的、技能导向的,能够从根本上解决模型在微调过程中因知识不一致而产生的幻觉问题。

以下是该领域的代表性方法:

  • Prereq-Tune: ArXiv 2024。Prereq-Tune是一种新颖的微调策略,旨在通过解决预训练和微调阶段的知识不一致问题来减少幻觉 31。该方法引入了一个“先决条件学习”(prerequisite learning)阶段,让模型预先学习必要的知识,从而使随后的微调专注于任务技能。更重要的是,它能够利用“虚构合成数据”来增强模型对其内部知识的锚定,使其在生成内容时更加忠实。实验证明,该方法在短问答和长文本生成任务上显著优于现有基线 30
  • Oasis: ArXiv 2025。Oasis是一种简单高效的多模态数据合成方法,它仅以图像作为输入,即可生成大规模、高质量的多模态指令数据 29。通过将这些合成数据融入训练集,Oasis能够显著提升LLM在14个不同多模态基准上的性能,并优于其他现有的合成方法。这为多模态LLM的幻觉缓解提供了新的途径。
  • VCR (Virtual ClassRoom): AAAI 2024, CCF A。VCR是一个多智能体环境,通过LLM驱动的智能体模拟“虚拟课堂”,以生成高质量、多样化的数学推理合成数据 32。该方法通过模拟人类学习的三个阶段(做、思考、反思),专注于生成LLM难以解决的挑战性问题数据。实验证明,VCR生成的合成数据具有更高的“质量密度”和泛化能力,为LLM提供了卓越的数学推理能力 32

5 综合分析、SOTA比较与未来方向

5.1 核心方法对比概览

以下表格对本报告中讨论的核心方法进行了系统性对比,旨在为读者提供一个一站式的知识地图,帮助其快速理解不同技术路线的战略选择与权衡。

方法名称

刊物缩写

年份

CCF分区

核心思想

常用基准

优点

缺点

RoG

ICLR

2024

A

规划-检索-推理,利用KG路径进行忠实推理

WebQSP, CWQ

强推理能力,高可解释性,忠实性高

需构建KG,成本较高,推理过程复杂

ToG

ICLR

2023

A

LLM作为Agent,在KG上交互式地进行束搜索

CWQ, WebQSP, GrailQA, Simple Questions

深度推理能力强,可追溯,可修正

对LLM控制要求高,计算成本大

StructGPT

EMNLP

2023

B

迭代的“读取-推理”框架,通用推理结构化数据

WebQSP, TabFact, Spider

框架通用,无需训练,可扩展至多类型数据

性能受限于底层LLM,可能存在幻觉传播

KAPING

NLRSE

2023

零样本,通过prompt增强LLM问答

KGQA任务

无需训练,成本低,简单有效

仅限问答任务,对KG依赖高

SKILL

NAACL

2022

B

训练阶段直接将KG三元组注入LLM参数

多跳推理基准

从根本上增强知识,无需KG与文本对齐

需重新训练/微调,成本较高

ERNIE 3.0

ArXiv

2021

B(参考)

统一知识增强预训练框架,融合自编码与自回归

68个NLP数据集

泛化能力强,同时提升理解与生成能力

需大规模计算资源进行预训练

Prereq-Tune

ArXiv

2024

先决条件学习与虚构数据,将知识与技能解耦

短问答与长文本生成

精准控制模型能力,数据成本低

虚构数据生成质量难控制,方法新颖

Oasis

ArXiv

2025

仅以图像为输入,生成高质量多模态合成数据

14个多模态基准

高效,数据多样性强,成本低

仅适用于多模态领域

VCR

AAAI

2024

A

多智能体环境,生成高质量数学推理合成数据

MATH, GSM8K

合成数据质量高,可定向训练特定技能

领域受限,生成过程可能复杂

5.2 两种方法的优劣与权衡

知识图谱方法和数据合成方法是两种截然不同的幻觉缓解路径,各有其优劣与适用场景。

知识图谱方法的优势在于其天然的可靠性、可解释性和强推理能力。 KG作为结构化的事实知识库,为LLM提供了坚实的事实基础,从而显著减少了幻觉 15。它通过明确的实体和关系,能够展示答案的推导过程,这对于需要可信度与可追溯性的高风险领域至关重要 13。然而,构建和维护一个大规模、高质量的知识图谱成本高昂,且难以实时更新以捕捉动态变化的知识 12

数据合成方法的优势在于其灵活性、成本效益和可控性。 研究者可以通过设计精巧的生成策略,定向地训练LLM以弥补其在特定技能(如数学推理、事实锚定)上的短板,且能有效规避现实数据中的隐私问题 28。该方法能够大规模、高效地生成训练数据,为LLM的持续改进提供了源源不断的燃料 30。然而,其主要挑战在于如何确保生成数据的质量和多样性,并避免因模型“自我复制”而导致的“模型崩溃”或“自洽性陷阱” 28

两种方法各有侧重,知识图谱方法更关注“知识的忠实性”,而数据合成方法则更关注“能力的精准性”与“训练的成本效益”。

5.3 前沿挑战与未来研究展望

尽管研究取得了显著进展,但该领域仍面临核心挑战,也蕴藏着巨大的未来研究机遇。

一个关键的挑战是两种方法的融合。知识图谱和数据合成并非相互独立的竞争关系,而是互补的。未来最有前景的方向可能在于探索一个混合范式:例如,利用数据合成技术生成用于KG构建或更新的高质量训练数据;反之,利用KG的结构化知识来验证和筛选合成数据的质量,以避免生成错误的“虚假”知识。这种协同工作将有助于构建更鲁棒、更全面的系统。

另一个挑战是评估的标准化。尽管FELM、HalluLens和HaluEval-Wild等优秀基准相继问世,但评估指标和方法仍缺乏统一标准。不同的基准关注幻觉的不同侧面,使得跨方法和跨模型的性能比较仍然困难。未来的工作应致力于建立一套被学术界和工业界广泛接受的、能够全面衡量不同类型幻觉的基准体系,从而推动整个领域的健康发展。

展望未来,可以探索更复杂的混合Agent框架,借鉴VCR和ToG的思想。这样的框架将使LLM在推理时能同时调用多个“工具”——知识图谱用于事实核查,搜索引擎用于实时信息检索,合成数据生成模块用于自我生成学习样本。这种闭环系统将使LLM具备自我规划、自我修正和自我学习的能力,从而从根本上缓解幻觉问题,迈向真正自主、可信赖的人工智能。

6 结论

本报告对基于知识图谱和数据合成的LLM幻觉缓解研究进行了全面而深入的分析。研究表明,知识图谱通过提供可追溯、可解释的结构化事实,是构建可信赖AI的坚实基石;而数据合成则通过其成本效益和精准控制能力,为模型能力的定向增强提供了高效途径。两种方法各具优势,但并非相互排斥,其间的融合与互补将是未来的关键研究方向。

通过对SOTA方法和前沿基准的系统性审视,我们发现,LLM幻觉问题的解决,需要从定义、评估、方法论等多个维度进行持续探索。从元基准的出现到动态数据生成方法的应用,再到对知识蒸馏模型潜在缺陷的揭示,每一个进展都反映出领域研究的日益成熟。最终,构建真正可靠、可信赖的LLM,需要研究者们共同努力,在不同技术范式之间架起桥梁,推动AI技术向更安全、更负责任的方向发展。

参考文献

  1. Magnitude and Impact of Hallucinations in Tabular Synthetic Health Data on Prognostic Machine Learning Models: Validation Study, accessed August 23, 2025, https://www.jmir.org/2025/1/e77893
  2. AI Hallucination: Comparison of the Popular LLMs in 2025 - Research AIMultiple, accessed August 23, 2025, https://research.aimultiple.com/ai-hallucination/
  3. HalluLens: LLM Hallucination Benchmark - ACL Anthology, accessed August 23, 2025, HalluLens: LLM Hallucination Benchmark - ACL Anthology
  4. HalluLens: LLM Hallucination Benchmark - ACL Anthology, accessed August 23, 2025, https://aclanthology.org/2025.acl-long.1176.pdf
  5. FELM: Benchmarking Factuality Evaluation of Large Language Models, accessed August 23, 2025, https://hkust-nlp.github.io/felm/
  6. FELM: Benchmarking Factuality Evaluation of Large Language Models - NIPS, accessed August 23, 2025, https://proceedings.neurips.cc/paper_files/paper/2023/file/8b8a7960d343e023a6a0afe37eee6022-Paper-Datasets_and_Benchmarks.pdf
  7. Factuality in LLMs: Key Metrics and Improvement Strategies - Turing, accessed August 23, 2025, https://www.turing.com/resources/llm-factuality-guide
  8. Related papers: HalluLens: LLM Hallucination Benchmark - Fugu Machine Translator, accessed August 23, 2025, Related papers: HalluLens: LLM Hallucination Benchmark
  9. HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild - OpenReview, accessed August 23, 2025, https://openreview.net/forum?id=sjwX4Vif03&referrer=%5Bthe%20profile%20of%20Zhiqing%20Sun%5D(%2Fprofile%3Fid%3D~Zhiqing_Sun1)
  10. HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild - arXiv, accessed August 23, 2025, HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild
  11. HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild - arXiv, accessed August 23, 2025, HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild
  12. NeurIPS Poster GraphVis: Boosting LLMs with Visual Knowledge Graph Integration, accessed August 23, 2025, NeurIPS Poster GraphVis: Boosting LLMs with Visual Knowledge Graph Integration
  13. Paths-over-Graph: Knowledge Graph Enpowered Large Language Model Reasoning, accessed August 23, 2025, https://openreview.net/forum?id=ICJysB6LdA&referrer=%5Bthe%20profile%20of%20Xin%20Yuan%5D(%2Fprofile%3Fid%3D~Xin_Yuan8)
  14. Mitigating Hallucination by Integrating Knowledge ... - ACL Anthology, accessed August 23, 2025, https://aclanthology.org/2025.acl-srw.53.pdf
  15. REASONING ON GRAPHS: FAITHFUL AND INTER ... - OpenReview, accessed August 23, 2025, https://openreview.net/pdf?id=ZGNWW7xZ6Q
  16. Think-on-Graph: Deep and Responsible Reasoning of Large ..., accessed August 23, 2025, [2307.07697] Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph
  17. Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph - Semantic Scholar, accessed August 23, 2025, [PDF] Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph | Semantic Scholar
  18. StructGPT: A General Framework for Large Language Model to ..., accessed August 23, 2025, [2305.09645] StructGPT: A General Framework for Large Language Model to Reason over Structured Data
  19. The code and data for "StructGPT: A general framework for Large Language Model to Reason on Structured Data" - GitHub, accessed August 23, 2025, https://github.com/RUCAIBox/StructGPT
  20. [2306.04136] Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering - arXiv, accessed August 23, 2025, [2306.04136] Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering
  21. Knowledge-Augmented Language Model ... - ACL Anthology, accessed August 23, 2025, https://aclanthology.org/2023.nlrse-1.7.pdf
  22. NeurIPS Poster KnowGPT: Knowledge Graph based Prompting for Large Language Models, accessed August 23, 2025, NeurIPS Poster KnowGPT: Knowledge Graph based Prompting for Large Language Models
  23. SKILL: Structured Knowledge Infusion for Large Language Models ..., accessed August 23, 2025, SKILL: Structured Knowledge Infusion for Large Language Models - ACL Anthology
  24. SKILL: Structured Knowledge Infusion for Large Language Models | Request PDF, accessed August 23, 2025, https://www.researchgate.net/publication/362255613_SKILL_Structured_Knowledge_Infusion_for_Large_Language_Models
  25. [2112.12731] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation - arXiv, accessed August 23, 2025, [2112.12731] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
  26. [PDF] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for ..., accessed August 23, 2025, [PDF] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Semantic Scholar
  27. GraphEval: A knowledge-graph based LLM hallucination evaluation framework - Amazon Science, accessed August 23, 2025, GraphEval: A knowledge-graph based LLM hallucination evaluation framework - Amazon Science
  28. [D] Is Synthetic Data a Reliable Option for Training Machine Learning Models? - Reddit, accessed August 23, 2025, https://www.reddit.com/r/MachineLearning/comments/1bosj2t/d_is_synthetic_data_a_reliable_option_for/
  29. Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis - arXiv, accessed August 23, 2025, Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis
  30. Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning - arXiv, accessed August 23, 2025, Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning
  31. Paper page - Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning, accessed August 23, 2025, https://huggingface.co/papers/2410.19290
  32. VCR: A “Cone of Experience” Driven Synthetic Data Generation Framework for Mathematical Reasoning - AAAI Publications, accessed August 23, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/34645/36800
http://www.dtcms.com/a/348252.html

相关文章:

  • C++ Core Guidelines: 最佳实践与深入解析
  • 服务器硬件电路设计之 SPI 问答(五):服务器场景下的ESD防护策略与通信故障诊断指南
  • Flink元空间异常深度解析:从原理到实战调优指南
  • LLM实践系列:利用LLM重构数据科学流程07 - 工程化实践与挑战
  • 计算机网络基础(三) --- TCP/IP网络结构(运输层)
  • 实时操作系统FreeRTOS移植到STM32VGT6
  • Axure RP 9的安装
  • 2025年渗透测试面试题总结-31(题目+回答)
  • leetcode 1504. 统计全 1 子矩形 中等
  • `malloc` 内存分配函数
  • fastdds:topic instance
  • 【嵌入式】【搜集】状态机、状态迁移图及状态模式材料
  • 【线性代数】常见矩阵类型
  • 【Nginx系列】查看 Nginx 的日志
  • Building Systems with the ChatGPT API 使用 ChatGPT API 搭建系统(第八章学习笔记及总结)
  • Hibernate详解
  • GaussDB 数据库架构师修炼(十八) SQL引擎-分布式计划
  • 保姆级Maven安装与配置教程(Windows版)
  • SpringCloud Alibaba核心知识点
  • MIT 6.5840 (Spring, 2024) 通关指南——入门篇
  • 项目学习总结(4)
  • Java内存泄漏详解:检测、分析与预防策略
  • 大语言模型的自动驾驶 LMDrive/DriveVLM-Dual
  • 电动车运行原理与最新人工智能驾驶技术在电动车上的应用展望:从基础动力系统到L5级完全自动驾驶的技术深度解析
  • EndNote 2025 Mac 文献管理工具
  • Multitouch for mac 触控板手势增强软件
  • Multi-output Classification and Multi-label Classification|多输出分类和多标签分类
  • 跨语言文化的统一语义真理:存在性、形式化及其对自然语言处理(NLP)深层语义分析的影响
  • 什么是大模型的指令跟随
  • Preprocessing Model in MPC 3 - 基于同态加密的协议 - Over Fields 有限域