当前位置: 首页 > news >正文

宿州网站建设开发公司哪家好在百度云上做网站

宿州网站建设开发公司哪家好,在百度云上做网站,最新网站开发价格,wordpress连接数据时出错前言 测试工程师在管理测试资产时,需要面对多种文档格式、大量文件分类及知识库的构建任务。为了解决这些问题,我们升级了 DeepSeek智能测试知识库助手,不仅支持更多文档格式,还加入了 多线程并发处理 和 可扩展格式支持,大幅提升处理性能和灵活性。 主要功能亮点: 多格…

前言

测试工程师在管理测试资产时,需要面对多种文档格式、大量文件分类及知识库的构建任务。为了解决这些问题,我们升级了 DeepSeek智能测试知识库助手,不仅支持更多文档格式,还加入了 多线程并发处理可扩展格式支持,大幅提升处理性能和灵活性。

主要功能亮点:

  1. 多格式支持:扩展支持 .md.csv 文件,兼容 docxpdftxtxlsx 等常见类型。
  2. 多线程并发处理:利用多线程加速文件处理,以应对大文件或批量文件的高效分类和存储。
  3. 智能清洗与分词:清理无用内容、提取高价值文本并分词,为 DeepSeek 提供更优质的输入。
  4. DeepSeek分类接口:结合 AI 模型精准分类,自动归档到知识库。
  5. 结构化存储:处理后的内容以 JSON 格式存储,便于后续扩展和检索。

知识库层级设计

与之前版本一致,知识库结构继续按 类型项目模块 分类,支持扩展到更多类别:

知识库/
├── 测试策略和计划/
│   ├── 测试策略.json
│   ├── 测试计划.json
├── 测试用例和脚本/
│   ├── 登录模块用例.json
│   ├── 自动化脚本.json
├── 测试工具和框架/
│   ├── 工具指南.json
│   ├── 框架文档.json
├── 缺陷管理/
│   ├── 缺陷报告模板.json
│   ├── 缺陷跟踪.json
├── 测试方法和技术/
├── 版本控制和发布管理/
├── 学习资源和培训材料/
├── 常见问题和解答/
└── 参考文档/

升级实现方案

1. 支持更多文档格式

扩展文档内容提取支持

扩展支持 .md(Markdown)和 .csv(表格文件)格式,统一处理接口,增加灵活性。

import pandas as pd
from PyPDF2 import PdfReader
from docx import Documentdef extract_text(file_path):"""根据文件类型提取内容:param file_path: 文件路径:return: 文本内容"""ext = file_path.split(".")[-1].lower()if ext == "txt":with open(file_path, "r", encoding="utf-8") as f:return f.read()elif ext == "docx":return "\n".join([paragraph.text for paragraph in Document(file_path).paragraphs])elif ext == "pdf":reader = PdfReader(file_path)return "\n".join([page.extract_text() for page in reader.pages])elif ext == "xlsx":df = pd.read_excel(file_path)return df.to_csv(index=False)  # 转换为 CSV 格式文本elif ext == "md":with open(file_path, "r", encoding="utf-8") as f:return f.read()elif ext == "csv":df = pd.read_csv(file_path)return df.to_csv(index=False)else:return "Unsupported file format."

2. 文档清洗和分词

智能清洗代码实现

使用正则表达式去除无关内容(如页眉页脚、空行、多余标点等),并对文本内容进行分词处理。此处需将NLTK对应的包放置在指定位置。

获取位置:

import nltk
nltk.find('.')

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文件下载路径:

https://github.com/nltk/nltk_data/tree/gh-pages/packages/tokenizers

已上传云盘,也可联系获取云盘资源~

import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk# 下载 NLTK 数据(首次运行时需要)
nltk.download("punkt")
nltk.download("stopwords")def clean_and_tokenize(text):"""清洗文本并进行分词:param text: 原始文本:return: 清洗后的文本和分词结果"""# 清洗文本cleaned_text = re.sub(r"\s+", " ", text)  # 去除多余空格cleaned_text = re.sub(r"[^\w\s,。!?:;、]", "", cleaned_text)  # 保留常见标点和文字cleaned_text = cleaned_text.strip()# 分词处理stop_words = set(stopwords.words("english") + stopwords.words("chinese"))  # 停用词tokens = [word for word in word_tokenize(cleaned_text) if word not in stop_words]return cleaned_text, tokens

3. 并发处理优化

多线程实现

利用 Python 的 concurrent.futures 模块,实现文件的并发处理,提升性能。

from concurrent.futures import ThreadPoolExecutordef process_single_file(file_path, knowledge_base_dir="知识库/"):"""处理单个文件:清洗、分类、存储:param file_path: 文件路径:param knowledge_base_dir: 知识库根目录"""try:# 提取内容content 
http://www.dtcms.com/a/448758.html

相关文章:

  • 贵州住房和城乡建设厅网站朗朗上口的广告公司名称
  • 国际婚恋网站做翻译合法吗网站开发的技术风险
  • 怎样做网站系统福州网站建设费用
  • 哔哩哔哩网站免费进入seo关键词优化推广价格
  • 做坏事网站大气个人网站源码
  • 中国建设局网站首页爱站网ip反域名查询
  • 怎么用记事本做网站企业网站整合
  • 图片网站源码网站营销的优缺点
  • 网站建设专业输入法17网一起做网店广州货源网
  • 动态购物网站开发源代码wordpress 点击文章
  • 网站内页标题修改前端做网站直播
  • 网站后续建设外贸 国外推广网站
  • 外管局网站先支后收怎么做报告怎样做网站导购
  • 医院管理系统网站模板广州免费景点
  • 网站开发设计中的收获企业网站建设对网络营销的影响主要表现在( )
  • 用自己的电脑做服务器搭建网站局域网网站建设的步骤过程
  • 大通县公司网站建设大安区网站建设
  • phpmysql网站开发实例手机建设网站公司
  • android网站开发视频软文推广做得比较好的推广平台
  • 网站开发与设计这么样谷歌seo运营
  • 动态ip地址做网站wordpress 只在首页显示
  • wordpress种子站无锡网知名网站
  • 网站商城怎么做网站建设功能解说
  • 旅游网站建设策划书模板幻灯片插件wordpress
  • 企业网站托管多少钱性价比高的云服务器
  • 重庆网站开发商城小企业网站制作
  • 广东省建设信息网网站网站做好后怎么更新内容
  • 最好记得网站域名网站响应样式
  • 沧州市青县建设局网站在微信上怎么开店
  • 网站开发的目的企业邮箱怎么开通注册免费