当前位置：首页 > news >正文

山东大学项目实训——基于DeepSeek的智能写作与训练平台（十二）

news 2025/8/24 20:44:05

LangChain开发阶段总结：从模型接入到全文连续检索生成

一、为什么选择langchain

在项目实训前期，我们构建了用于作文智能生成与优化的部分系统。为了提升AI生成作文的质量、连贯性与素材利用效率。为实现这一目标，我们引入了LangChain这一面向大模型应用开发的高级框架。

LangChain不仅提供了统一的模型调用、数据链构建和运行管理能力，还通过其表达式语言LCEL支持复杂流程的异步、流式与模块化编排，极大地提升了我们的开发效率与系统可维护性。

二、阶段一：DeepSeek模型接入LangChain

LangChain内置了OpenAI等主流模型接口，但我们的项目采用学院提供的DeepSeek API，因此必须通过自定义LLM类方式完成接入。

1. 自定义模型类结构

我们继承了BaseChatModel与LangChain的LLM接口，构造了如下类：

此类实现了 _call() 方法，将 DeepSeek 的 API 请求与 LangChain 的运行机制集成，核心包括：

消息格式转换（LangChain消息类 ↔ DeepSeek格式）

请求构造与响应解析与推理中冗余内容清理（如 <think> 标签）

2. 实现效果

完成后，系统即可将 LangChain 中任意 PromptTemplate 输出传入 DeepSeek 模型，作为后续检索-生成流程的基础。

三、阶段二：基于LCEL构建检索问答链（RAG）

模型接入后，我们进入系统的主体功能开发阶段：构建基于语料库的检索问答链。这一阶段的核心是使用LangChain的LCEL（LangChain Expression Language），实现作文素材的智能检索与结合式生成。

1. 向量数据库构建

前期，我们完成了向量数据库模块，支持：

本地文档的embedding向量化

向量检索器retriever生成

素材持久化与初始化逻辑判断

以及大模型的封装，deepseek 模型接入LangChain 并继承 BaseChatModel

2. LCEL链式编排逻辑

LCEL以数据流的形式构造链条，其中每个组件均需实现Runnable接口。我们的检索问答链由如下部分构成：

retrieval_chain = retriever | combiner

qa_chain = (

RunnableParallel({

"context": retrieval_chain,

"input": RunnablePassthrough()

})

| prompt

| llm

| StrOutputParser()

)

这段代码完成了：

retriever：从向量数据库中获取与当前段落主旨最相似的素材

combiner：合并素材内容，构造上下文context

RunnableParallel：并行输入用于检索的context与大模型输入

PromptTemplate：构造问答Prompt

llm & Parser：调用模型并解析结构化输出

通过这种方式，我们构建了基于高效的基于素材库的动态问答能力，使生成结果与已有内容更加契合。

四、阶段三：使用ChatPromptTemplate实现全文连续生成

尽管检索问答链显著提升了局部语句生成质量，但我们很快意识到一个更深层次的问题——生成结果缺乏结构连贯性与全文主旨一致性。为此，我们引入了LangChain的ChatPromptTemplate，结合上下文状态设计，构建出真正支持“全文连贯写作”的流水线。

1. 写作上下文状态管理

我们设定了三大关键上下文变量：

full_topic：整篇文章主旨，决定全文语境

paragraph_topic：当前段落主旨，控制局部生成方向

paragraph_text：当前段落内容，驱动检索内容和Prompt构建

这些变量在每次写作迭代中更新，并作为Prompt输入，持续强化全文一致性。

2. ChatPromptTemplate驱动的RAG链构建

结合状态变量和LCEL，我们构造如下生成链：

self.rag_prompt 是一个 ChatPromptTemplate 实例，具备如下优势：

结构模板化：保证每次生成都遵循统一结构

语义嵌入式提示：动态注入主旨与段落信息

可持续扩展：支持多轮上下文生成链整合

部分调试结果截取：

3. 写作流程控制入口

最终我们构建了主控方法 generate_with_rag()，实现从输入语句到输出推荐句的完整流程：

1.状态刷新：判断输入是否为新段落，更新当前段落文本；

2.素材检索：根据段落主旨（字段非空时）或内容，向量检索相关语料；

3.生成提示构建：使用 ChatPromptTemplate 填充全文主旨、段落主旨、段落文本；

4.大模型调用：输入构造好的 Prompt，返回结构化 JSON 含：生成句子、推荐理由、段落，全文主旨修改建议；

主旨更新：若段落结束，自动更新全文主旨，重置段落内容，提升连贯性；

流程图

这让系统不仅可以“写一段好句子”，更能写一整篇结构合理、主旨连贯的文章。

查看全文

http://www.dtcms.com/a/238233.html

Secs/Gem第十讲(基于secs4net项目的ChatGpt介绍)

Python训练营打卡Day48(2025.6.8）

大模型外挂MCP教程(8): 飞算JavaAI智能分析搭建自己的MCP Server

Σ∆ 数字滤波

Java设计模式面试题详解

内存分配基础：修改SCT文件的简单例子

HBM 读的那些事

网络编程（TCP编程）

UDP与TCP通信协议技术解析

GD图像处理与SESSiON

禅道18.2集成LDAP

Linux 文件系统底层原理笔记：磁盘结构、ext2 文件系统与软硬链接解析

C++----剖析list

前沿探索：可视化助力设备运维实现跨越式发展

分析 java 的 Map＜String,Map＜String, List＜Map＜String,Integer＞＞＞＞

初入 python Django 框架总结

Reasoning over Uncertain Text by Generative Large Language Models

《Spring Boot 微服务架构下的高并发活动系统设计与实践》

webstorm 配置Eslint

量子计算导论课程设计之 PennyLane环境搭建

深入了解linux系统—— 共享内存

【每天学点 Go 知识】Go 基础知识 + 基本数据类型快速入门

【Hot 100】139. 单词拆分

arduino Nano+asrpro2.0制作桌面宠物

（javaEE）网络原理-初识局域网和广域网 ip地址和端口号协议五元组协议分层 OSI七层模型网络数据通信的基本流程

全球人工智能技术大会（GAITC 2025）：技术前沿与产业融合的深度交响

Go内存池设计与实现：减少GC压力

**解锁 C++ std::map 的力量**

26考研——数据的表示和运算_整数和实数的表示（2）

2025-06-01-Hive 技术及应用介绍