当前位置: 首页 > news >正文

vanna+deepseekV3+streamlit本地化部署

文章目录

  • 1、vanna介绍
    • 1.1、基本介绍
    • 1.2、工作原理
    • 1.3、优点
  • 2、vanna+deepseekV3+mysql+streamlit本地化部署
    • 2.1、创建conda环境,安装依赖
    • 2.2、Mysql数据准备
    • 2.3、新建pycharm项目
    • 2.4、封装deepseek大模型
    • 2.5、定义MyVanna
    • 2.6、构建streamlit的app
    • 2.7、app演示

1、vanna介绍

1.1、基本介绍

vanna是一个基于 MIT 许可的开源 Python RAG(检索增强生成)框架,专注于 SQL 生成和相关功能。它利用大型语言模型(LLM)和检索增强生成技术,将自然语言输入转换为 SQL 查询,允许用户通过自然语言与数据库交互,无需精通 SQL 语法即可提取数据中的有价值信息。Vanna 的核心目标是简化数据库交互,降低数据查询的技术门槛,适用于数据分析师、业务专家以及普通用户。

1.2、工作原理

Vanna 的工作流程主要分为以下步骤:

  • 训练 RAG 模型
    基于用户的数据库模式(DDL)、元数据、文档和示例 SQL 查询,训练一个 RAG 模型,用于理解数据库结构和用户意图。
  • 语义检索
    用户提出自然语言问题后,Vanna 通过向量数据库进行语义检索,匹配相关信息。
  • 生成 SQL 查询
    结合检索到的上下文,利用 LLM 生成对应的 SQL 查询。
  • 执行与反馈
    在数据库中执行生成的 SQL 查询,并以表格或图表形式展示结果。同时,Vanna 支持自我学习,用户反馈和成功查询可进一步优化模型。

1.3、优点

  • 开源与可定制
    • 作为 MIT 许可的开源框架,Vanna 允许用户根据需求进行定制和集成,适应不同业务场景。
    • GitHub 星标已超 7200,社区活跃,持续优化潜力大。
  • 数据可视化
    查询结果以易于理解的表格、Pandas DataFrame 直观的可视化图表呈现,帮助用户快速获取洞察。

2、vanna+deepseekV3+mysql+streamlit本地化部署

2.1、创建conda环境,安装依赖

  • 创建conda环境
conda create -n vanna-learn python=3.10
conda activate vanna-learn
  • 安装依赖包
pip3 install 'vanna[chromadb,mysql]'
pip3 install openai
pip3 install streamlit

2.2、Mysql数据准备

  • 创建数据库
CREATE SCHEMA `test_vn` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
  • 创建表
CREATE TABLE `user` (
  `id` SERIAL COMMENT '用户ID',
  `name` varchar(64) DEFAULT NULL COMMENT '姓名',
  `age` INT(10) NULL DEFAULT NULL COMMENT '年龄',
  `gender` enum('MALE','FEMALE') NULL DEFAULT NULL COMMENT '性别',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
  • 插入测试数据
drop procedure if exists insert_emp; 
delimiter ;;
create procedure insert_emp()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=1000)do                 
    insert into user(name,age,gender) values(CONCAT('tacy',i), FLOOR(RAND() * 100) + 1, IF(i % 3 = 0 , 'FEMALE', 'MALE')); 
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_emp();

2.3、新建pycharm项目

在这里插入图片描述

2.4、封装deepseek大模型

新建deepseek_chat,py

from vanna.base import VannaBase
from openai import OpenAI

class DeepSeekChat(VannaBase):
    def __init__(self, config=None):
        if config is None:
            raise ValueError(
                "For DeepSeek, config must be provided with an api_key and model"
            )
        if "api_key" not in config:
            raise ValueError("config must contain a DeepSeek api_key")

        if "model" not in config:
            raise ValueError("config must contain a DeepSeek model")

        api_key = config["api_key"]
        model = config["model"]
        self.model = model
        self.client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com/v1")

    def system_message(self, message: str) -> any:
        return {"role": "system", "content": message}

    def user_message(self, message: str) -> any:
        return {"role": "user", "content": message}

    def assistant_message(self, message: str) -> any:
        return {"role": "assistant", "content": message}

    def generate_sql(self, question: str, **kwargs) -> str:
        # 使用父类的 generate_sql
        sql = super().generate_sql(question, **kwargs)

        # 替换 "\_" 为 "_"
        sql = sql.replace("\\_", "_")

        return sql

    def submit_prompt(self, prompt, **kwargs) -> str:
        chat_response = self.client.chat.completions.create(
            model=self.model,
            messages=prompt,
        )

        return chat_response.choices[0].message.content

2.5、定义MyVanna

新建my_vanna,py

from vanna.chromadb import ChromaDB_VectorStore
from deepseek_chat import DeepSeekChat

class MyVanna(ChromaDB_VectorStore, DeepSeekChat):
    def __init__(self, config=None):
        ChromaDB_VectorStore.__init__(self, config=config)
        DeepSeekChat.__init__(self, config=config)

2.6、构建streamlit的app

新建app.py

  1. 实例化MyVanna
import streamlit as st
from my_vanna import MyVanna
import os
# DEEPSEEK_API_KEY在环境变量中设置
vn = MyVanna({'api_key': os.getenv('DEEPSEEK_API_KEY'), 'model': "deepseek-chat"})
  1. 连接数据库MYSQL
vn.connect_to_mysql(host='localhost', port=3306, dbname='test_vn', user='root', password='password')
  1. train
  • ddl表数据: 有多张表,分多个ddl,分次调用train()
DDL_USER="""
CREATE TABLE `user` (
  `id` SERIAL COMMENT '用户ID',
  `name` varchar(64) DEFAULT NULL COMMENT '姓名',
  `age` INT(10) NULL DEFAULT NULL COMMENT '年龄',
  `gender` enum('MALE','FEMALE') NULL DEFAULT NULL COMMENT '性别',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
"""
vn.train(ddl=DDL_USER)
  • documentation
vn.train(documentation='"即将失业的人"是指age>=35岁,也就是大于35岁的人会面临就业危机')
  • 存储sql到向量数据库
# 只传sql,让大模型根据SQL构造一个question
vn.train(sql='select name from user where age between 35 and 60')

# question-sql
vn.train(question='tacy18的年龄', sql='select age from user where name="tacy18"')
  1. 编写stream lit页面
st.header("你好,我是你的图表AI助理")
my_question = st.text_input("请问你要查询什么数据?")
if st.button("发送"):
    if my_question:
    	# 大模型根据自然语言描述的问题生成SQL
        sql = vn.generate_sql(my_question)
        # 执行SQL获取数据
        df = vn.run_sql(sql)
        # 调用大模型生成绘制图表的代码
        code = vn.generate_plotly_code(question=my_question, sql=sql, df=df)
        # 绘制图表
        fig = vn.get_plotly_figure(plotly_code=code, df=df)
        # 显示结果
        st.plotly_chart(fig, use_container_width=True)
  1. 启动应用
streamlit run app.py

2.7、app演示

在这里插入图片描述

相关文章:

  • harmony Next 基础知识点1
  • 以太网 MAC 帧格式
  • P1540 [NOIP 2010 提高组] 机器翻译
  • RTDETR融合[CVPR2025]ARConv中的自适应矩阵卷积
  • .NET Framework华为云流水线发布
  • MKS HA-MFV:半导体制造中的高精度流量验证技术解析
  • 如何撰写一份清晰专业的软件功能测试报告
  • Next.js项目MindAI教程 - 第一章:环境准备与项目初始化
  • 硬件与软件的边界-从单片机到linux的问答详解
  • python速通小笔记-------1.容器
  • 全网第一提出:WIFI 透传串口模块都可以用于px4连接QGC上位机调试。
  • 论Linux进程间通信
  • Lora本地微调实战 --deepseek-r1蒸馏模型
  • 校园安全用电怎么保障?防触电装置来帮您
  • [C语言基础] 第1章 程序设计与C语言
  • ImGui 学习笔记(四)—— 实现每窗口背景色
  • DQN 玩 2048 实战|第一期!搭建游戏环境(附 PyGame 可视化源码)
  • 洛谷 P2801 教主的魔法 题解
  • Vulkan视频解码decode显示display之同步
  • 贪吃蛇小游戏-简单开发版
  • 商务部:中方将适时发布中美经贸磋商相关消息
  • 有人倒卖试运营门票?上海乐高乐园:这些票存在无法入园风险
  • 普京确定俄乌谈判俄方代表团名单
  • 科技部等七部门:优先支持取得关键核心技术突破的科技型企业上市融资
  • 媒体:“西北大学副校长范代娣成陕西首富”系乌龙,但她的人生如同开挂
  • 广东省原省长卢瑞华逝世,享年88岁