当前位置: 首页 > news >正文

Text2SQL智能问答系统开发(一)

开发一个面向企业的chatBI工作流

已完成

  1. 基础 Text2SQL 功能实现
    实现用户输入自然语言问题后,系统能够自动生成 SQL 并执行返回结果。
  2. 用户交互优化
    支持用户通过补充信息对查询进行调整,提升易用性。
  3. 模糊时间处理机制
    对“最近”“近期”等模糊时间关键词进行补全或引导,提升时间表达准确性。

后续优化

  1. 预定义高频问题与回答
    对一些可预见的问题设置高质量回复,提高响应质量和效率。
  2. 构建高质量知识库
    针对数据结构、字段定义、样例问题等,持续完善知识库,确保 SQL 生成的准确率。
  3. 引入持续学习机制
    通过用户反馈和历史数据,不断优化模型能力与表现。

核心能力分析:用户问题分类

Text2SQL 的核心是理解用户意图。为此,我设计了一个问题分类机制,以便动态路由不同类型的问题到合适的处理流程中:

1. 直接提问类(Direct Ask)

例子:“今年公司订单销量为多少?”
处理流程:自然语言 → 表名识别 → SQL 生成 → 执行 → 返回结果


2. 补充或修正类(Refine or Clarify)

例子:“我指的是3月的订单”“只看前5个客户”
处理流程

  • 获取上次提问或SQL上下文
  • 添加或替换时间、字段、过滤条件
  • 重新生成SQL或进行增量修正
  • 执行并返回

3. 异常反馈类(Error Feedback)

例子:“SQL 报错了”“字段错了”“PG 不支持这个写法”
处理流程

  • 判断是语法错误还是逻辑错误
    • 语法错误:尝试修复 SQL,确保符合数据库类型(MySQL/PostgreSQL 等)
    • 逻辑错误:引导用户澄清查询意图
  • 附带错误上下文,重新生成 SQL

4. 格式要求类(Result Formatting)

例子:“生成表格”“我要柱状图”“只返回数字”
处理流程

  • 保持 SQL 不变,仅调整输出格式
  • 根据用户偏好选择展示方式(图表、表格、纯文本等)

最终分类汇总

分类标签描述处理备注
direct_query用户提出独立的新查询问题走完整 SQL 生成流程
refine_query补充时间/字段/条件等限制结合对话上下文再生成 SQL
sql_error_feedback用户反馈 SQL 错误修复或引导重新提问
format_request用户要求以特定格式展示结果格式包装,不重生 SQL
reset_or_abort用户中断或重启对话清除上下文,重置状态
other暂不归类的其他问题等待进一步分析或澄清

工作流核心流程图

🔁 用户意图识别模块

为实现分类判断,系统中设计了一段 prompt 用于意图识别:

你是一个精确的用户意图识别助手,专门用于一个多轮问答的 SQL 生成系统。
请你阅读用户的当前输入,并判断这句话的意图属于以下哪一种(只返回标签,不要解释):
- direct_query
- refine_query
- sql_error_feedback
- format_request
- reset_or_abort
- other
当前用户输入是:
""" 开始 / sys.query """

智能补全用户问题

当用户问题不完整时,我们使用另一个 prompt 完成补全:

你是一个智能助手,擅长将不完整的查询补全为简洁、自然的提问句。
请根据以下内容补全提问:
用户原始问题:会话变量 / last_question;
附加信息:开始 / sys.query;
将附加信息融合到用户问题中,若是词语解释,请替换原词;若是限制条件,请补充进问题中。
仅返回最终补全后的提问句,不要解释、不加修饰。

例如:

  • 原始问题:“查询最近的信息”
  • 补充信息:“2020年前”
  • 输出:“查询2020年前的信息”

工具与参考

  • 会话变量机制:用于保存用户上下文,如 last_questionlast_sqllast_result 等,支持多轮对话。
  • 插件工具:参考 Dify 插件系统
    Dify Database 插件

测试示例

模糊时间处理:

  • user:查询最近工单量
  • sys:请明确时间
  • usr:2020年前
  • sys:生成并执行 SQL

多轮提问:

  • usr:系统中每年的订单数分别是多少
  • sys:直接生成 SQL 并返回图表

结果格式修改:

  • usr:我要折线图返回结果
  • sys:直接返回图表结果


如果你对 Text2SQL、意图识别或多轮问答系统有兴趣,欢迎交流探讨!

http://www.dtcms.com/a/295535.html

相关文章:

  • 成品电池综合测试仪:保障电池品质与安全的核心工具|深圳鑫达能
  • C++抽象类完全指南
  • 三坐标测量仪高效批量检测轴类传动零件
  • 基于深度学习的图像分类:使用EfficientNet实现高效分类
  • 基础NLP | 常用工具
  • DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成
  • 机器翻译编程
  • Unity是如何把3D场景显示到屏幕上的——Unity的渲染过程
  • 实战演练—基于Transformers的NLP解决方案总结
  • Python实现PDF按页分割:灵活拆分文档的技术指南
  • 【Rust线程】Rust高并发编程之线程原理解析与应用实战
  • K8s WebUI 选型:国外 Rancher vs 国内 KubeSphere vs 原生 Dashboard,从部署到使用心得谁更适合企业级场景?
  • 【REACT18.x】CRA+TS+ANTD5.X封装自定义的hooks复用业务功能
  • 初识opencv03——图像预处理2
  • C++vector(2)
  • TreeMap一致性哈希环设计与实现 —— 高可用的数据分布引擎
  • 【RAG优化】RAG应用中图文表格混合内容的终极检索与生成策略
  • 【AI】Jupyterlab中打开文件夹的方式
  • 元宇宙工厂网页新形态:3D场景嵌入与WebGL交互的轻量化实现
  • MySQL 表的操作
  • 奇异值分解(Singular Value Decomposition, SVD)
  • 武汉火影数字|数字党建展厅制作 VR红色数字纪念馆 党史馆数字化打造
  • Windows 10 远程桌面(RDP)防暴力破解脚本
  • Linux内核中动态内存分配函数解析
  • 滑动窗口机制及其应用
  • 云渲染的算力困局与架构重构:一场正在发生的生产力革命
  • Apache POI 实战应用:企业级文档处理解决方案
  • 5.7 input子系统
  • uboot FPGA调试环境搭建
  • C++ <多态>详解:从概念到底层实现