当前位置：首页 > news >正文

通过上传使大模型读取并分析文件实战

news 2025/9/14 8:29:18

一、技术背景与需求分析

我们日常在使用AI的时候一定都上传过文件，AI会根据用户上传的文件内容结合用户的请求进行分析，给出用户解答。但是这是怎么实现的呢？在我们开发自己的大模型应用时肯定是不可避免的要思考这个问题，今天我会将从文件上传开始到大模型给出分析的整个流程进行讲解

二、核心技术实现路径

在这里我先将整体的流程说一下：

前端文件上传 → 服务端接收文件 → 解析文件 → 生成唯一Id → 将文件存储(id:content)|                                     |—————————————————存储id←———————————————↓
用户发送请求 → 用户信息+文件id → 服务端接收请求 → 根据id获取文件内容 → 拼接用户消息和文件内容↓大模型分析↓返回响应

1.文件上传于预处理

文件上传的前端部分我不再进行讲解，但是需要说明的是，在前端需要加上对文件的约束和校验，比如文件大小、文件格式等。

后端的编写上首先需要准备一个接口去接收文件。

在这个接口中实现的效果就是流程图中第一行的功能

 @RequestMapping(value = "/upload", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)public UploadFileResultDto upload(@RequestPart("filedata") MultipartFile multipartFile) throws IOException {if (multipartFile.getSize() > 1024 * 1024 * 10){throw new RuntimeException("文件大小不能超过10M");}//解析文件String content = fileParseService.parse(multipartFile);//唯一idString fileId = UUID.randomUUID().toString();//存储文件memoryStorage.save(fileId, content);UploadFileResultDto uploadFileResultDto = new UploadFileResultDto();uploadFileResultDto.setFileId(fileId);return uploadFileResultDto;}

解析文件类，这个的最佳实践是：通过一个工厂类检测文件类型，将不同文件类型的文件交给不同的解析工具类执行

我这里仅举一个例子，只包含解析txt文件的条件

public interface FileParseService {String parse(MultipartFile file);
}

中专工厂

@Service
public class FileParseServiceImpl implements FileParseService {@Overridepublic String parse(MultipartFile file) {//根据文件类型解析文件try {if (Objects.equals(file.getContentType(), "text/plain")){return new TxtFileParser().parse(file);}} catch (Exception e) {throw new RuntimeException(e);}return null;}
}

解析工具类

@Component
public class TxtFileParser {public String parse(MultipartFile file) throws Exception {StringBuilder Totalline;try (BufferedReader reader = new BufferedReader(new InputStreamReader(file.getInputStream()))) {Totalline = new StringBuilder();Totalline.append("文件【").append(file.getOriginalFilename()).append("】:\n");String line;while ((line = reader.readLine()) != null) {Totalline.append(line);}}return Totalline.toString();}
}

当响应结束后，返回文件的内容，然后在controller中生成一个UUID

以UUID作为key文件内作为value，因为最终是要将文件信息以Map的格式保存

创建一个存储类，用于存储文件信息。

@Component
public class MemoryStorage {//文件存储private static final ConcurrentHashMap<String,String> storage = new ConcurrentHashMap<>();//存储文件public void save(String fileId, String content) {storage.put(fileId, content);System.out.println("文件存储成功"+fileId);}//获取文件public String get(String fileId) {return storage.get(fileId);}//删除文件public void remove(String fileId) {storage.remove(fileId);System.out.println("文件删除成功"+fileId);}//清空所有文件public void clear() {storage.clear();System.out.println("文件清空成功");}
}

执行完这些后，文件的上传工作已经完成

此时前端会收到该文件的唯一Id，其会对这个id进行保存。

当用户发送消息时，会带着文件id的列表一并发送到服务器。

请求体：

@Data
public class GetRequest {//消息private String message;.....其余属性//文件列表private List<String> fileIds;

如果文件id列表不为空，服务端会从存储类中取得对应的文件内容

然后将文件内容和用户消息进行拼接

//用户消息
String userMessage = request.getMessage();
//文件内容->将用户消息和文件内容进行拼接
if (request.getFileIds() != null){userMessage = formatFile(request.getFileIds()) + "【用户消息】:\n"+userMessage;
}

 @Autowiredprivate MemoryStorage memoryStorage;public String formatFile(List<String> fileIds){if (fileIds == null){return null;}StringBuilder fileContent = new StringBuilder();for (String fileId : fileIds){String content = memoryStorage.get(fileId);fileContent.append(content).append("\n");}return fileContent.toString();}

最终模型收到的用户消息类似于这样的格式：

文件【xxx】:...【用户消息】:...

使得模型能够区分文件内容和具体的指令并进行分析

这是我的实验效果

三.优化路线

模型对文件进行分析的操作，大致还会有以下的优化步骤

1.数据脱敏：对敏感信息进行屏蔽再进行分析+尽量在用户本地解析，当然这是针对商业化的需求

2.加密传输：对一些重要的信息和文件，在进行网络传输时需要对其进行加密操作

3.分块传输：一些大的文件一次性无法直接传输，需要进行分块

4.文件处理：在本文中我只介绍了文本文件的处理，这种是可以直接进行读取的，其他类型的文件例如PDF、EXCEL等还需要进行拓展工具类。甚至是图片、视频、音频等都需要根据不同的情况和技术选型选择不同的处理方案

开源项目参考

以上代码和技术实现都是根据我的开源项目进行的展示，大家需要详细的了解的可以访问下载我的项目，跪求点个star！！！

Local_Helper: 支持本地大模型的可视化应用

文章转载自：

http://FoNW90A7.xwbwm.cn
http://UYKPwD10.xwbwm.cn
http://wMttPVjL.xwbwm.cn
http://Ssg1qXqC.xwbwm.cn
http://WJXKwah9.xwbwm.cn
http://RLRwEjBY.xwbwm.cn
http://WXEKpgE2.xwbwm.cn
http://yzvmIq6w.xwbwm.cn
http://mFkPWXEu.xwbwm.cn
http://SkE6wutp.xwbwm.cn
http://UvFVII9b.xwbwm.cn
http://A1w4jRe1.xwbwm.cn
http://BDNvOmnK.xwbwm.cn
http://CNrAMd7C.xwbwm.cn
http://HXrBMdkX.xwbwm.cn
http://UwBHo25i.xwbwm.cn
http://fxp1Sizi.xwbwm.cn
http://kn4h39tO.xwbwm.cn
http://wobSDvDv.xwbwm.cn
http://M6Z9eSwg.xwbwm.cn
http://j6ygioez.xwbwm.cn
http://vzzCJuUd.xwbwm.cn
http://3buKg1hh.xwbwm.cn
http://TRYx7h3z.xwbwm.cn
http://9ZfCo7l3.xwbwm.cn
http://4kSEeWNW.xwbwm.cn
http://GtWS089W.xwbwm.cn
http://iIszjYLn.xwbwm.cn
http://JBckncp5.xwbwm.cn
http://a5nEMS9r.xwbwm.cn

查看全文

http://www.dtcms.com/a/208883.html

FPGA高效验证工具Solidify 8.0：全面重构图形用户界面

安全运营与威胁对抗体系

SmartSoftHelp 之 SQL Server 数据库安全备份与安全还原详解---深度优化版：SmartSoftHelp DeepCore XSuite

AtCoder Beginner Contest 406(ABCD)

《Python语言程序设计》第4章第7题，这次利用之前学过的第7章的内容使用对象和类，来修改这道题

跟Gemini学做PPT：字号选择

智能交易革命：基于Python构建全自动加密货币交易系统（CCXT/TensorTrade实战指南）

CyberStrikeLab-Lab9-WriteUp

AI 数据采集实战指南：基于 Bright Data 快速获取招标讯息

C++高频面试考点 -- 智能指针

Android Studio历史版本下载方法

2025年电工杯A题第一版本Q1-Q4详细思路求解+代码运行

【Python 算法零基础 4.排序 ⑤ 归并排序】

【软考架构】2025系统架构设计师开坑指南——后端开发（科目选择，考试大纲，真题分析）

ROS合集（七）SVIn2声呐模块分析

后端环境配置

【黑马JavaWeb+AI知识梳理】后端Web基础03 - MySQL概述

服务器日志监控与分析：提前发现黑客攻击迹象

基于SpringBoot+Vue的社区医院信息平台设计与实现

Redis淘汰策略

如何使用CAMEL框架来搭建一个简单实用的**旅游出行规划助手**

AI架构分层原则

Flask-SQLAlchemy数据库查询：query

DataX 的大概简单介绍（与Kettle做对比介绍）

华为云Astro前端页面数据模型选型及绑定IoTDA物联网数据实施指南

fpga-编程线性序列机和状态机

六、【前端启航篇】Vue3 项目初始化与基础布局：搭建美观易用的管理界面骨架

Claude 4 在 SWE-Bench 上得分 72.7%：对编程的意义

亚马逊跨境电商合规风暴：从美国儿童背带召回事件看行业变革

用 3D 可视化颠覆你的 JSON 数据体验

一、技术背景与需求分析

二、核心技术实现路径

三.优化路线

开源项目参考

相关文章：