当前位置: 首页 > news >正文

【第5篇】向量化处理步骤

返回目录

向量化处理步骤

比赛相关介绍参见 《2025年羊城工匠杯nl2sql比赛介绍》。

开发环境配置参见《nl2sql2025开发环境配置》

本文介绍数据预处理阶段的参数化、向量化处理逻辑。

主要程序逻辑简介和运行效果

1. 激活python运行环境

在这里插入图片描述

2. /src/vector/excel2sql.py : 程序根据 /data/表结构.xlsx 文件,生成建表语句DDL

在这里插入图片描述

3. src/tools/scan_columns.py:程序根据excel表格中字段描述标记了*前缀字段,从data/data.db数据库对应字段提取字段值,生成 data/parameters.txt文件

在这里插入图片描述

在这里插入图片描述

4. src/vector/question2table.py:程序读取data/samples.jsonl文件,对question进行参数化处理后,建立问题模板与库表的对应关系,生成 tmp_question2sql.json

在这里插入图片描述

5. src/vector/template2sql.py : 程序读取data/samples.jsonl文件,对question进行参数化处理后,建立问题模板、典型问题与SQL脚本的对应关系,生成 tmp_template2sql.json

在这里插入图片描述

6. src/vector/sql_markdown.py: 程序扫描sql_output下的库表json文件,把库表对应的问题模板附加到对应json文件上

在这里插入图片描述

7. src/vector/sqls_embedding.py:程序扫描sql_output下的库表json文件,调用嵌入模型接口,生成N维的向量数据并写入 tmp_embedding_waiting.txt文件

在这里插入图片描述

8. src/vector/vector2chroma.py :程序逐行读取tmp_embedding_waiting.txt文件,在chroma向量数据库写入库表的文本信息

在这里插入图片描述

问题模板处理逻辑

1. src/tools/clean_question.py: 通过正则表达式,删除日期条件相关的内容

2. src/tools/clean_value.py:通过data/parameters.txt文件,匹配问题关键字压缩问题模板数量

比如:请问2022年5月公卫医疗专题工单反馈的工单量排名前4的事项的满意数分别是多少?
模板化后:{专题名称}专题工单反馈的工单量排名前4的事项的满意数分别是多少?

【本文结束】

http://www.dtcms.com/a/492221.html

相关文章:

  • 打靶场的练习
  • 绍兴网站关键词优化免费的行情软件网站在线使用
  • 河南省台前县建设局网站公司展示型网站
  • 嘉兴平湖网站建设公司官网设计公司
  • 做高仿表网站容易被k吗在贸易网站怎么做贸易
  • 手机商城网站如何医学ppt模板免费下载
  • 辽阳网站seo南京网站销售
  • 做网站为什么一定要去国外企业管理培训公司排行榜
  • AOSP之Android Automotive
  • Flink ProcessFunction 与低层级 Join 实战手册:实时画像秒级更新系统
  • 公司网站后台维护wordpress 附件 标签
  • 全国网站建设企业信息管理与信息系统专业
  • 电商网站建设教案桂林阳朔楼盘最新价格
  • 四川建设信息共享网站网站根目录验证文件在哪里
  • 全球首个真实物理环境机器人基准测试发布,具身智能迎来统一评测标准
  • 菏泽郓城住房和城乡建设局网站wordpress付费制插件
  • QT/C++ TCP/IP服务端程序
  • Linux-> TCP 编程3
  • 前端的学习与实战(一)
  • 优惠的网站建设百度竞价推广开户多少钱
  • LeNet网络
  • vivo官网网站服务中心庆阳网警
  • 闽清县城乡建设局网站网站访客qq统计系统
  • 使用NVIDIA cuVS优化向量搜索:从索引构建到实时检索
  • 高端网站制作物流案例网站
  • MySQL触发器
  • 无备案网站广告如何做seo优化排名营销
  • 做国际网站每年要多少钱这么注册免费网站
  • Linux中异常初始化和门设置函数的实现
  • tritonserver的docker镜像中运行onnxruntime-gpu,报错segmentationfault