当前位置：首页 > wzjs >正文

设计营销型网站百度竞价代理商

wzjs 2025/8/25 8:28:27

设计营销型网站,百度竞价代理商,新疆生产建设兵团网站公安局,企业融资的意义概述 FastGPT的文件上传过程分为两个阶段：第一个阶段：是文件上传。第二个阶段：是对文件进行向量化处理和QA化处理。本文介绍文件上传的总体流程，并对创建数据集的第一步的详细实现逻辑进行分析。数据集创建总体流程数据集创建…

概述

FastGPT的文件上传过程分为两个阶段：第一个阶段：是文件上传。第二个阶段：是对文件进行向量化处理和QA化处理。本文介绍文件上传的总体流程，并对创建数据集的第一步的详细实现逻辑进行分析。

数据集创建总体流程

数据集创建分为两个步骤：

第一步：文件上传和预处理，插入记录到mongodb的训练队列dataset_trainings表中。
第二步：监控mongodb的插入操作，并启动数据处理：(1)嵌入向量的计算或(2)QA文本拆分。

// 创建数据集并插入mongodb的数据表中
createCollectionAndInsertData-> pushDataListToTrainingQueue // 将数据集数据推送到训练队列// 注册处理函数，并自动处理数据
startMongoWatch-> createDatasetTrainingMongoWatch // 监控mongodb的插入操作，触发文本处理任务-> generateQA(); # QA问答对的处理-> generateVector();  # 嵌入向量处理

数据集创建第一步的实现

数据集创建的第一步就是上传文件并对数据进行预处理，然后获取相关数据处理的参数，并把参数保存到mongodb的训练队列中。后续的处理任务，会根据数据集的处理配置来调用相应的模型或服务进行处理。数据集处理第一步的主要逻辑如下：

在这里插入图片描述

数据创建第一步实现逻辑

创建数据集是在createCollectionAndInsertData函数中进行处理的，该函数又主要调用了pushDataListToTrainingQueue，该函数的实现逻辑如下：

模型验证与配置：

验证参数中的推理大模型和嵌入向量大模型是否有效。
根据训练模式（chunk/qa/auto）设置最大token数和权重
如果模型无效或训练模式无效，会抛出错误

数据预处理：

使用 simpleText 函数清理问题和答案中的空白字符
处理索引数据，同样进行文本清理
过滤掉空问题、重复内容和超过最大token限制的数据
将数据分类为成功、过长、重复和错误四类

数据插入

使用批量插入的方式将数据插入到MongoDB中，每批200条
如果批量插入失败，会记录失败的文档并尝试单独插入
支持在传入的session中执行，如果没有传入session则创建新的事务

这个函数主要用于将数据集数据预处理后插入到训练队列中，确保数据的有效性和完整性，同时支持事务处理以保证数据一致性。

数据创建第一步主要实现源码分析

export async function pushDataListToTrainingQueue({// 验证模型配置：检查agentModel和vectorModel的有效性，设置最大token数和权重。const { model, maxToken, weight } = await (async () => {const agentModelData = getLLMModel(agentModel);if (!agentModelData) {return Promise.reject(`File model ${agentModel} is inValid`);}const vectorModelData = getVectorModel(vectorModel);if (!vectorModelData) {return Promise.reject(`Vector model ${vectorModel} is inValid`);}

设置最大token数和权重

    if (trainingMode === TrainingModeEnum.chunk) {return {maxToken: vectorModelData.maxToken * 1.5,model: vectorModelData.model,weight: vectorModelData.weight};}if (trainingMode === TrainingModeEnum.qa || trainingMode === TrainingModeEnum.auto) {return {maxToken: agentModelData.maxContext * 0.8,model: agentModelData.model,weight: 0};}

过滤过长或重复的内容

  // 过滤重复和过长的内容// filter repeat or equal contentconst set = new Set();const filterResult: Record<string, PushDatasetDataChunkProps[]> = {success: [],overToken: [],repeat: [],error: []};

处理QA问答对的，并去掉空的字符

  // format q and a, remove empty chardata.forEach((item) => {item.q = simpleText(item.q);item.a = simpleText(item.a);

批量插入mongodb的dataset_trainings表中

  // 使用 insertMany 批量插入// 数据插入：批量插入数据（每批200条）const batchSize = 200;const insertData = async (startIndex: number, session: ClientSession) => {const list = filterResult.success.slice(startIndex, startIndex + batchSize);if (list.length === 0) return;try {await MongoDatasetTraining.insertMany(list.map((item) => ({