当前位置：首页 > news >正文

构建特定领域的大模型

news 2025/7/31 17:22:42

为什么需要领域特定的LLM

随着大语言模型（LLM）在各行业的广泛应用，企业和研究团队面临将通用模型适配特定领域的迫切需求。目前主要是三个挑战：

在实际项目中，常见的方法是两种：微调和检索增强生成。

对于微调：通过持续预训练、监督微调和偏好对齐，直接更新模型参数，使其掌握特定领域知识和任务模式。微调具有两个潜在缺点，一个是高计算成本，一个是灾难性遗忘。
对于RAG：构建领域知识库，在推理阶段检索相关文档，辅助模型生成更准确的回答，无需直接改变模型参数。RAG具有三个潜在缺点：第一是依赖知识库质量，检索到的文档质量直接影响回答质量。第二是推理速度，检索过程可能增加推理延迟，并且需要更多的 token。第三是知识覆盖有限，模型内部知识仍受限于基座模型的预训练数据。

基座模型以Llama3为例，Llama 3 系列涵盖从 1B 到 405B 参数的模型，广泛支持多语言处理、代码生成、推理，以及视觉和文本任务。小型模型（1B 和 3B）经过专门优化，适合边缘和移动设备，支持最大 128K 的上下文窗口，可高效处理本地任务，例如摘要生成、指令执行和文本重写。

Llama 3 的视觉模型（11B 和 90B 参数）在图像理解任务上的表现优于许多封闭模型，同时支持图像、视频和语音的多模态处理。所有模型均支持微调，便于针对特定领域进行定制化开发。

训练LLM需要强大的计算资源：

数据规模
建议使用至少数亿到数十亿个 token，以确保模型能够充分学习领域知识。当数据量不足时，模型效果可能受限，建议采用数据增强的方法来补充数据。

数据处理
数据预处理：对来自多个数据源的无标注大量语料进行处理，确保其格式一致。推荐使用高效的存储格式，如 Parquet，以提高数据读取和处理的效率。

数据去重：使用 MinHash、SimHash 或余弦相似度等算法进行近似重复检测。可选择按句子、段落或文档级别去重，根据任务需求灵活调整。设定合理的相似度阈值（如 0.9），删除重复度高于阈值的文本，确保数据多样性。

数据清洗：结合规则和模型评分器（如 BERT/RoBERTa）去除乱码、拼写错误和低质量文本。最后使用 JSON 格式处理数据，确保代码、Markdown 和 LaTeX 等特殊格式的准确性。

数据脱敏：匿名化或去除人名、电话号码、邮箱、密码等敏感信息，确保数据合规。剔除含有违法、色情或种族歧视等内容的数据块。

数据混合与配比：将 70% 的领域特定数据与 30% 的通用数据相结合，避免模型遗忘通用能力。其次，确保数据中包含代码生成、问答对话、文档摘要、多轮对话和数学推理等多种任务类型。

数据顺序：可以采用逐步引导的方式，采用课程学习（Curriculum Learning）方法，从简单、干净的数据开始训练，逐步引入更复杂或噪声较高的数据，优化模型的学习效率和收敛路径。

课程学习 Curriculum Learning：模仿人类学习课程的过程，从简单问题开始，再到学习困难问题。对于问题的简易程度区分，可以手工规则来看（比如序列长短），也可以从模型学习的表现来看（比如困惑度指标）。

对于数据格式，可采用 Alpaca 或 Vicuna 风格，比如结构化为 [instruction, input, output] 的单轮和多轮对话。

在数据构建过程中，我们首先收集日常业务数据，并与业务专家共同构建基础问题。随后，利用大语言模型进行数据增强，以提升数据的多样性和鲁棒性。

在利用外部LLM时，推理任务可先用 COT 生成过程性答案，提高准确率，或者像DeepSeek-R1那样，在提示阶段强调需要<think>

对于偏好数据，可以使用三元组结构：[prompt, chosen answer, rejected answer]，用于DPO对齐偏好。

一个完整的特定领域大语言模型训练流程通常包括：继续预训练 (CPT) → 监督微调 (SFT) → 直接偏好对齐 (DPO) 三个主要步骤，最终实现模型的部署与持续优化。

fig1

对于CPT，在资源允许的情况下，优先进行全参数微调，以确保模型能够全面掌握新知识。

对于SFT，一般在数据量充足的情况下通常 1 ~ 4 个 epoch 即可见到显著效果。并且需要确保训练数据涵盖多种任务类型和指令表达方式，提升模型的泛化能力。以及包含多轮对话数据，增强模型应对真实用户场景的能力。

重复输出
模型生成内容重复，连续打印不会停下，解决方案为：

数据去重与清洗：确保训练数据不含大量重复内容。
检查 EOT（End-of-Token）设置：防止模型连接打印无法停止。
再次通过 SFT/DPO 进行对齐：优化模型输出质量。
调整解码策略：如增加 top_k + repetition penalty（保留概率上的前k token，并结合历史出现频率对k个token的概率重新打折）和 temperature 参数。

灾难性遗忘
模型在微调过程中遗忘原有的通用能力，可以看作是在新的数据集上过拟合，原本模型参数空间变化过大。解决方案为：