当前位置：首页 > news >正文

【第5篇】向量化处理步骤

news 2025/10/17 13:03:18

返回目录

向量化处理步骤

比赛相关介绍参见《2025年羊城工匠杯nl2sql比赛介绍》。

开发环境配置参见《nl2sql2025开发环境配置》

本文介绍数据预处理阶段的参数化、向量化处理逻辑。

主要程序逻辑简介和运行效果

1. 激活python运行环境

在这里插入图片描述

2. /src/vector/excel2sql.py : 程序根据 /data/表结构.xlsx 文件，生成建表语句DDL

在这里插入图片描述

3. src/tools/scan_columns.py：程序根据excel表格中字段描述标记了*前缀字段，从data/data.db数据库对应字段提取字段值，生成 data/parameters.txt文件

在这里插入图片描述

4. src/vector/question2table.py：程序读取data/samples.jsonl文件，对question进行参数化处理后，建立问题模板与库表的对应关系，生成 tmp_question2sql.json

在这里插入图片描述

5. src/vector/template2sql.py : 程序读取data/samples.jsonl文件，对question进行参数化处理后，建立问题模板、典型问题与SQL脚本的对应关系，生成 tmp_template2sql.json

在这里插入图片描述

6. src/vector/sql_markdown.py: 程序扫描sql_output下的库表json文件，把库表对应的问题模板附加到对应json文件上

在这里插入图片描述

7. src/vector/sqls_embedding.py：程序扫描sql_output下的库表json文件，调用嵌入模型接口，生成N维的向量数据并写入 tmp_embedding_waiting.txt文件

在这里插入图片描述

8. src/vector/vector2chroma.py ：程序逐行读取tmp_embedding_waiting.txt文件，在chroma向量数据库写入库表的文本信息

在这里插入图片描述

问题模板处理逻辑

1. src/tools/clean_question.py: 通过正则表达式，删除日期条件相关的内容

2. src/tools/clean_value.py：通过data/parameters.txt文件，匹配问题关键字压缩问题模板数量

比如：请问2022年5月公卫医疗专题工单反馈的工单量排名前4的事项的满意数分别是多少？
模板化后：{专题名称}专题工单反馈的工单量排名前4的事项的满意数分别是多少？

【本文结束】

查看全文

http://www.dtcms.com/a/492221.html

打靶场的练习

绍兴网站关键词优化免费的行情软件网站在线使用

河南省台前县建设局网站公司展示型网站

嘉兴平湖网站建设公司官网设计公司

做高仿表网站容易被k吗在贸易网站怎么做贸易

手机商城网站如何医学ppt模板免费下载

辽阳网站seo南京网站销售

做网站为什么一定要去国外企业管理培训公司排行榜

AOSP之Android Automotive

Flink ProcessFunction 与低层级 Join 实战手册：实时画像秒级更新系统

公司网站后台维护wordpress 附件标签

全国网站建设企业信息管理与信息系统专业

电商网站建设教案桂林阳朔楼盘最新价格

四川建设信息共享网站网站根目录验证文件在哪里

全球首个真实物理环境机器人基准测试发布，具身智能迎来统一评测标准

菏泽郓城住房和城乡建设局网站wordpress付费制插件

QT/C++ TCP/IP服务端程序

Linux-＞ TCP 编程3

前端的学习与实战（一）

优惠的网站建设百度竞价推广开户多少钱

LeNet网络

vivo官网网站服务中心庆阳网警

闽清县城乡建设局网站网站访客qq统计系统

使用NVIDIA cuVS优化向量搜索：从索引构建到实时检索

高端网站制作物流案例网站

MySQL触发器

无备案网站广告如何做seo优化排名营销

做国际网站每年要多少钱这么注册免费网站

Linux中异常初始化和门设置函数的实现

tritonserver的docker镜像中运行onnxruntime-gpu，报错segmentationfault

向量化处理步骤

比赛相关介绍参见 《2025年羊城工匠杯nl2sql比赛介绍》。

开发环境配置参见《nl2sql2025开发环境配置》

本文介绍数据预处理阶段的参数化、向量化处理逻辑。

主要程序逻辑简介和运行效果

1. 激活python运行环境

2. /src/vector/excel2sql.py : 程序根据 /data/表结构.xlsx 文件，生成建表语句DDL

3. src/tools/scan_columns.py：程序根据excel表格中字段描述标记了*前缀字段，从data/data.db数据库对应字段提取字段值，生成 data/parameters.txt文件

4. src/vector/question2table.py：程序读取data/samples.jsonl文件，对question进行参数化处理后，建立问题模板与库表的对应关系，生成 tmp_question2sql.json

5. src/vector/template2sql.py : 程序读取data/samples.jsonl文件，对question进行参数化处理后，建立问题模板、典型问题与SQL脚本的对应关系，生成 tmp_template2sql.json

6. src/vector/sql_markdown.py: 程序扫描sql_output下的库表json文件，把库表对应的问题模板附加到对应json文件上

7. src/vector/sqls_embedding.py：程序扫描sql_output下的库表json文件，调用嵌入模型接口，生成N维的向量数据并写入 tmp_embedding_waiting.txt文件

8. src/vector/vector2chroma.py ：程序逐行读取tmp_embedding_waiting.txt文件，在chroma向量数据库写入库表的文本信息

问题模板处理逻辑

1. src/tools/clean_question.py: 通过正则表达式，删除日期条件相关的内容

2. src/tools/clean_value.py：通过data/parameters.txt文件，匹配问题关键字压缩问题模板数量

相关文章：

比赛相关介绍参见《2025年羊城工匠杯nl2sql比赛介绍》。