当前位置: 首页 > news >正文

利用大模型和聚类算法找出 Excel 文件中重复或相似度高的数据,并使用 FastAPI 进行封装的详细方案

以下是一个利用大模型和聚类算法找出 Excel 文件中重复或相似度高的数据,并使用 FastAPI 进行封装的详细方案:

方案流程

  1. 数据读取:从 Excel 文件中读取数据。
  2. 文本向量化:使用大模型将文本数据转换为向量表示。
  3. 聚类分析:运用聚类算法对向量进行分组,将相似度高的数据归为一组。
  4. 结果返回:将聚类结果返回,供人工筛选。
  5. API 封装:使用 FastAPI 封装上述功能,方便调用。

开发平台

  • 编程语言:Python
  • 主要库pandas 用于数据处理,transformers 用于大模型调用,scikit-learn 用于聚类分析,fastapi 用于构建 API,uvicorn 用于运行服务器。

具体开发情况

下面是实现该功能的代码:

import pandas as pd
from transformers import AutoTokenizer, AutoModel
import torch
from sklearn.cluster import DBSCAN
from fastapi import FastAPI, File, UploadFile
import uvicorn

# 初始化 FastAPI 应用
app = FastAPI()

# 加载预训练的模型和分词器
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained('bert-base-chinese')

def get_embeddings(texts):
    """
    将文本转换为向量表示
    """
    inputs = tokenizer(texts, return_tensors='pt', padding=True, truncation=True)
    with torch.no_grad():
        outputs = model(**inputs)
    embeddings = outputs.last_hidden_state.mean(dim=1).numpy()
    return embeddings

def cluster_data(embeddings):
    """
    使用 DBSCAN 进行聚类分析
    """
    clustering = DBSCAN(eps=0.5, min_samples=2).fit

相关文章:

  • 网页模板下载网站知乎网站哪里买外链
  • 益阳哪里做网站种子搜索在线 引擎
  • 做视频网站违法吗网站模板之家免费下载
  • 做签到的网站外贸网络推广
  • 网站开发 会费管理 模块宁德市住房和城乡建设局
  • 全国中小企业网站汕头seo推广
  • 【学生管理系统升级版】
  • 河北邯郸进入万兆时代:实测下载破10Gbps 比千兆快10倍
  • debian系统中文输入法失效解决
  • Python串口接收数据并实时显示波形 - Windows
  • 机器学习详解(19):长短期记忆网络LSTM原理详解
  • 25年时代电服社招入职Verify测评SHL题库语言理解数字推理考什么?
  • DP扰码模块verilog仿真
  • 07-CompletableFuture异步编程实战与陷阱规避
  • 【MySQL】001.MySQL安装
  • 【11408学习记录】英语语法精讲:主从复合句之状语从句全解析——以时间状语从句为例
  • go打包配置文件
  • 【自然语言处理】深度学习中文本分类实现
  • 鸿蒙5.0 非桌面页面,设备来电后挂断,自动返回桌面
  • 计算机网络起源
  • lanqiaoOJ 2489 进制
  • LangChain-记忆系统 (Memory)
  • 【JAVA】JVM 堆内存“缓冲空间”的压缩机制及调整方法
  • 前端-Vue2组件化编程
  • 电脑卡顿严重怎么办 电脑卡顿的处理指南
  • WPF 五子棋项目文档