当前位置: 首页 > news >正文

第4章:在LangChain中如何实现响应式流(Response Streaming)

文章介绍了 LangChain4j 中的 响应流式传输(Response Streaming) 功能,展示了如何通过低层次的 LLM(大语言模型)API 实现逐个令牌(token)的流式响应。

响应式流(Response Streaming)

注意: 本页面描述的是使用低级LLM API实现响应式流。如果需要使用高级LLM API,请参考AI服务部分。

语言模型(LLM)是逐token生成文本的,因此许多LLM提供商提供了逐token流式传输响应的功能,而不是等待整个文本生成完成。这种机制显著提升了用户体验,因为用户无需等待未知的时间,几乎可以立即开始阅读响应内容。

概述

对于ChatLanguageModel和LanguageModel接口,LangChain4j提供了对应的StreamingChatLanguageModel和StreamingLanguageModel接口。这些接口的API类似,但支持流式传输响应。它们接受一个实现了StreamingResponseHandler接口的对象作为参数。

public interface StreamingResponseHandler<T> {
    void onNext(String token);  // 当生成下一个token时调用

    default void onComplete(Response<T> response) {}  // 当LLM完成生成时调用

    void onError(Throwable error);  // 当发生错误时调用
}

基于Model的实现

通过实现StreamingResponseHandler接口,你可以定义以下事件的行为:

  • 生成下一个token时:调用onNext(String token)方法。例如,你可以立即将token发送到用户界面。
  • LLM完成生成时:调用onComplete(Response response)方法。其中,T在StreamingChatLanguageModel中代表AiMessage,在StreamingLanguageModel中代表String。Response对象包含完整的响应内容。
  • 发生错误时:调用onError(Throwable error)方法。

以下是一个使用StreamingChatLanguageModel实现流式响应的示例:

StreamingChatLanguageModel model = OpenAiStreamingChatModel.builder()
    .apiKey(System.getenv("OPENAI_API_KEY"))  // 设置API密钥
    .modelName(GPT_4_O_MINI)  // 设置模型名称
    .build();

String userMessage = "Tell me a joke";  // 用户消息

model.generate(userMessage, new StreamingResponseHandler<AiMessage>() {
    @Override
    public void onNext(String token) {
        System.out.println("onNext: " + token);  // 每次生成token时打印
    }

    @Override
    public void onComplete(Response<AiMessage> response) {
        System.out.println("onComplete: " + response);  // 完成时打印完整响应
    }

    @Override
    public void onError(Throwable error) {
        error.printStackTrace();  // 发生错误时打印堆栈
    }
});

使用Lambda表达式简化流式响应

为了更简洁地实现流式响应,LangChain4j提供了一个工具类LambdaStreamingResponseHandler。这个类提供了静态方法,可以通过Lambda表达式创建StreamingResponseHandler。使用Lambda表达式实现流式响应非常简单,只需调用onNext()静态方法,并定义如何处理token:

import static dev.langchain4j.model.LambdaStreamingResponseHandler.onNext;

model.generate("Tell me a joke", onNext(System.out::print));  // 使用Lambda表达式直接打印token

此外,onNextAndError()方法允许同时定义onNext()和onError()事件的行为:

import static dev.langchain4j.model.LambdaStreamingResponseHandler.onNextAndError;

model.generate("Tell me a joke", onNextAndError(System.out::print, Throwable::printStackTrace));

总结

这篇文章介绍了LangChain4j中如何实现响应式流(Response Streaming),即逐token接收LLM生成的内容,而不是等待整个响应完成。这种方式显著提升了用户体验,尤其是在处理长文本生成时。文章的核心内容包括:

  • 响应式流的原理:LLM逐token生成文本,通过流式传输可以立即向用户展示部分结果。
  • StreamingResponseHandler接口:通过实现这个接口,可以定义如何处理每个token、完成事件和错误事件。
  • 实现示例:展示了如何使用StreamingChatLanguageModel和StreamingResponseHandler实现流式响应。
  • Lambda表达式简化:通过LambdaStreamingResponseHandler,可以使用Lambda表达式更简洁地实现流式响应。
    这种流式传输机制特别适用于需要实时展示生成内容的场景,例如聊天机器人、实时翻译或内容生成应用。

相关文章:

  • 数据结构系列一:初识集合框架+复杂度
  • Py2学习笔记
  • Golang学习笔记_36——装饰器模式
  • 臻识相机,华夏相机,芊熠车牌识别相机加密解密
  • 【C++复习专题】—— 类和对象,包含类的引入、访问限定符、类的6个默认成员函数等
  • 通过例子学 rust 个人精简版 5-all
  • 【C语言】指针(5)
  • 小米AX3000T 路由器如何开启 SSH 安装 OpenWRT 系统,不需要降级 v1.0.91 (2025)
  • C++ unordered_map和unordered_set的使用,哈希表的实现
  • One-Prompt-One-Story:无须训练即可保持身份一致性
  • 量子计算的威胁,以及企业可以采取的措施
  • Android Studio SVN下载安装
  • Denoising Diffusion Restoration Models论文解读
  • 解释器vs编译器
  • 前端利器:DateUtils 日期时间工具深度剖析
  • 用openresty和lua实现壁纸投票功能
  • Linux运维_Dockerfile_打包Moby-26.1.4编译dockerd环境
  • 【AI】VS Code中使用GitHub Copilot
  • 常用电脑,护眼软件推荐 f.lux 3400K | 撰写论文 paper
  • Ext系列文件系统(一)
  • wordpress和织梦架构/神马搜索seo优化排名
  • 大足网站建设/泉州网站关键词排名
  • 电商网站定制/什么是竞价推广
  • 天津卓荣建设集团网站/googleplay
  • 2015年做那个网站能致富/免费推广网站推荐
  • 梁山做网站的公司/推广运营公司哪家好