当前位置：首页 > news >正文

大模型应用落地具体规划方案

news 来源：原创 2025/6/6 11:47:12

摘要

本篇文章主要探讨大模型应用落地的具体规划方案，包含六点内容的分享，分别是：

大模型本地部署架构
大模型应用交互场景
基于阿里云RAG 项目的实现方案
大模型推荐落地场景方案
大模型应用落地发展规划
大模型开源架构选型推荐

在阅读本篇文章前，我希望读者对大模型应用场景有着一定的了解和自己的见解，并欢迎在评论区提出您的宝贵意见。本篇文章为小编根据学习即实战经验所得，并不具有权威性，仅供有大模型应用落地相关需求的小伙伴参考。

大模型本地部署架构

图1 大模型本地部署架构

“大模型本地部署架构（简单版）” 图展示了大模型本地部署的层次结构，从下到上分为基础设施、框架和应用三个主要部分。

说明

基础设施层：AI大模型本地部署架构的最底层是基础设施层，包括显卡和服务器，显卡是进行计算的关键硬件，CUDA 和 CUDNN 是英伟达推出的用于加速深度学习计算的工具和库，虚拟化容器则提供了一个隔离的运行环境。大模型使用的显卡通常需要高显存的GPU 芯片，根据不同的使用场景，还可能需要TPU 张量处理芯片和NPU 神经网络处理芯片。一般情况下， CUDA 和 CUDNN 的运行是基于虚拟化容器的，一些RAG 系统使用的图数据库和向量数据库也是需要基于虚拟化容器的，所以我认为Docker 和Kubernetes在大模型本地落地方案中是必要的，即虚拟化容器技术也是用户需要自己搭建和掌握的。
框架层：中间层为大模型应用的组装框架，深度学习框架如 TensorFlow，torch，pyTorch 用于构建和训练模型，是大模型部署的基础组件；大模型则是核心部分，需要用户根据实际需求进行大模型的选型，如最近比较火的deepseek-V3它是一个可以深度思考的大模型，通过神经网络相关算法最终提供给用户更加满意的答案；工具集如HuggingFace 的 TensorFlows 则可以辅助模型开发和部署，是大模型框架不可获取的一部分。
应用层：最上层是应用层，包含 AIGC（人工智能生成内容），以及其下细分的具体应用场景比如知识库、Agent 和多模态等应用方向。

补充

安全层面：图中未体现安全相关部分，在实际部署中，数据安全和模型安全很重要，可增加如数据加密、访问控制等安全模块。
模型优化：在大模型和框架之间可加入模型优化组件，例如量化技术、剪枝技术，以提高模型推理速度和减少资源占用。
监控与运维：为保障系统稳定运行，还应补充监控和运维模块，用于实时监测硬件资源使用情况、模型性能指标等，并进行故障预警和修复。

贫血场景下的危楼效应

刚开始接触大模型的时候，我们可能对于大模型的本地部署方案是这样的：找一台服务器，找一个RAG 方案开源框架，运行起来，选择具体的内容，如训练文件、模型、向量库等，执行构建，实现智能问答。

我认为这种直接使用开源方案的方式可以快速实现构建一个RAG 系统，但是无法保证RAG 系统的输出质量，其实并不能满足实际的大模型应用落地场景。而当我们想保障数据质量的时候，我们却发现无从下手了，因为无论是基础设施相关的技术还是大模型应用框架的具体实现，我们都没做到亲自掌握，这种贫血场景就好像一个危楼。

图2 贫血大模型架构如危楼

可以看到，这个危楼的上层很丰满，但是底层却是是缺斤少两的。就好比我们直接使用开源大模型架构方案，但是不去掌握和维护它。这种危楼一旦底层出现了一点问题，我们却没法进行修复和解决，最终则会导致整个大模型应用项目的“塌房”。

建议

所以，如果我们想实现一个丰满的基于本地部署的大模型应用，对于大模型核心框架层的探索是不可或缺的。我们可以尝试从一个简单的框架入手，阅读源码，一步步掌握框架的基本步骤，最终实现并建立一个自己的架构或是可以针对需求对开源架构进行改进和调优。

但是这种探索很显然是需要时间和精力的，而现今的人们普遍浮躁。就比如deepseek 在中国火了之后，全国的普通民众都想要去快速尝试deepseek 带来的震撼，而全国的大厂、小厂也都想借助这波流量做自己的大模型落地，并把deepseek 接入到自己的应用中，但是却忽略了AI 人工智能-深度学习-大模型落地其实是一个需要大量人才储备、并非常耗钱的工程，一般的小厂商是承担不起的。

一些小公司的实践者，比如我们公司预计花费10万左右的资金，购买一个带有高显存的服务器，并搭建自己的大模型服务。相信有很多公司也在尝试这样的方案，即花费适当的资金进行自建大模型服务的尝试。而接下来，我将从大模型应用落地的交互场景方面去探讨，本地部署大模型的道路到底是否可行？

大模型应用交互场景

图3 大模型应用交互场景用例图

图3 所示是一个简单的大模型应用交互场景，分为智能问答、Agent 工作流以及基于大模型和SQL框架处理的三个场景。一般来说大模型应用应是一个B2B模式的SAAS化的产品，因为我们不可能上线一个城市就在一个城市部署一套大模型应用服务器，因为大模型应用服务器是一个高成本的东西。

所以我们的本地化大模型应用服务应是一个通用的B2B产品，也就是每上线一个城市，这个城市的智能问答服务就需要调用本地大模型应用服务。所以我们的本地模型服务其实面临着非常严峻的考验，其中包括：多城市的，多人员的，以及每个人员可能对于一个问题需要不断地进行提问。除此之外，大模型服务一个比较重要的特点，就是大模型的交互是分批次的，流式的交互过程，也就是说当大模型需要回答一个用户的问题，可能需要高频的多次的流式交互。

基于上述种种原因，当产品正式上线后，大模型服务将面临一个高并发的场景，所以我们很可能会发现，当我们搭建好的大模型服务正式提供服务时，给予用户的反馈会不如预期。基于我本地InterI5 CPU ,16G内存的运行环境，做一个开源的RAG 方案运行时，它的输出有时需要1-3分钟才能给出一个问题的全部答案。所以大模型服务器一般会使用GPU 加速策略CUDNN提高大模型的交互性能，即需要一台高配显卡的服务器。后续如果我们想解决单服务器的高并发问题，一般的常规策略就是添加服务器集群。而对于大模型服务而言，就是需要添加带高配显卡的服务器集群。所以本地部署大模型的策略看起来不算太贵，但那种单卡配置其实是大模型运行的基础配置，真正要搞一套适用于线上的、可以让用户满意的大模型应用，投入的基础设施其实价格不菲，小公司入场还需谨慎。

基于上述总结，对于RAG 智能问答这种应用场景，我并不推荐大模型本地部署这种方案。所以接下来，我将介绍基于阿里云百炼应用平台的RAG 项目的实现方案。

基于阿里云 RAG 项目的实现方案

图4 基于阿里云RAG的交互方式

大模型服务平台百炼_企业级大模型开发平台_百炼AI应用构建-阿里云

首先可以通过上述的阿里云官网页面，登录进入阿里云百炼平台。接下来，我将简单介绍一下基于阿里云百炼平台配置一个RAG 智能体的基本步骤。

1. 进入数据管理，选择导入数据页面，导入我们的知识库文档。

2. 进入我的应用，选择新增应用，创建一个RAG 应用。

3. 配置RAG 智能体，选择大模型，优化Prompt，配置知识库，在右侧窗口进行测试。

4. 点击右上角的应用发布。而后通过产品文档中介绍的基于DashScope SDK 的方式，调用新建的智能体应用。

安装阿里云百炼SDK_大模型服务平台百炼(Model Studio)-阿里云帮助中心

大模型推荐落地场景方案

图 5 大模型推荐落地场景方案

如图5所展示的大模型推荐落地场景方案，它主要涉及智能问答、Agent 工作流和 TextSQL2 三个代表场景，具体方案如下：

智能问答：推荐采用阿里云方案，用户需要自行开通阿里云账号，开通后阿里云提供 180 天100万token的免费额度，后续使用则需用户自行付费。我们则负责为用户配置智能体应用，并通过APIKEY 调用该智能体，实现应用层的智能问答服务。
Agent 工作流：基于Agent 智能体的工作流实现包含两个路线。阿里云方案适用于实时性高但交互不频繁的应用；本地部署方案则适用于频繁交互但时效性不高的场景。
TextSQL2：对于SQL 处理相关的智能体开发，则建议采用本地部署大模型应用的方式，它属于业务数据相关的私密服务。

大模型应用落地发展规划

图6 大模型应用落地发展规划

第一步：在openAI，DeepSeek 这股大模型风潮的推动下，我们可以基于阿里云百炼平台快速创建一个如智能问答相关的RAG 智能体。并通过集成的方式将智能体快速应用于应用层，并借助阿里云服务的稳定性和高效率，提供给用户高质量的服务。我们则可以迅速积攒口碑，并以此为亮点进行广泛的市场宣传。
第二部：接下来，我们则可以花时间进行本地部署大模型方案的尝试。首先尝试不同的大模型开源框架并选型，最终将选定框架并应用于应用层。当我们的本地大模型方案稳定后，我们就可以尝试基于AI Agent智能体的智能工作流方案的实现过程，逐步利用大模型提高产品的智能化。
第三步：通过不断对开源框架的解析和实现，我们将打造出更适用于我们自己产品和业务场景的大模型应用服务，并将相关成果应用于应用层，最终实现提高产品智能化的最终目的。

大模型开源架构选型推荐

图7 大模型开源架构选型推荐

在大模型开源架构选型上，基础语言可考虑 Python 和 R 语言，前者在人工智能、机器学习、大模型的领域应用广泛，生态丰富；后者在统计分析领域表现出色。
GPU 编译器目前被Nvida一家独占，基本上基于GPU 的大模型应用开发我们都会选择 CUDA 和 CUDNN，利用该内容为GPU 加速助力，提升计算效率。
深度学习框架中，目前有两个被广泛使用的框架，TensorFlow和PyTorch。TensorFlow 灵活性高，社区活跃，适用于工业级应用，尤其在大规模分布式训练、移动端和嵌入式设备部署方面优势明显，像图像识别、语音识别等产品化项目常用；PyTorch则多用于科研领域，凭借动态图优势，适合快速迭代开发和模型实验，如自然语言处理、新算法验证。目前市面上的LLM大模型都是基于这两个深度学习框架。
中国的大模型厂商里，大厂如阿里、字节跳动技术实力雄厚；“五小龙” 像智谱 AI、百川智能等，在细分领域则各有优势。
整体架构目前比较出名的就是 LangChain、Ollama 和 LlamaIndex，我建议做大模型应用开发方面的工作可以首先考虑去基于这几个框架去搭建，稳定性高，广泛适配各种组件。
在开源大模型下载搭建工具方面，我推荐两个比较活跃的大模型开源社区 Hugging Face 和 ModelScope。Hugging Face 是最出名的开源社区，其中的TensorFlows工具基本上在任何开源项目中都有用到。ModelScope 则是阿里的开源社区，基于阿里的技术实力，我比较推荐国内的用户可以尝试使用ModelScope 进行大模型应用的搭建，当然ModelScope 也是会用到Hugging Face 的TensorFlows工具的。
最后，推荐两个RAG 系统实现方案： graphRag 和 UltraRag。GraphRAG 是一种利用知识图谱增强检索增强生成的技术，是 RAG 的高级版本，结合了图结构数据，将知识库表示为实体和实体之间关系组成的网络。UltraRag则是清华大学 THUNLP 团队联合东北大学 NEUIR、面壁智能及 9#AISoft 团队共同推出的面向检索增强生成（RAG）系统的开箱即用解决方案,想搭建本地RAG 系统的小伙伴可以参考其中的源码，其中的prompt都是中文的，所以其实现方案更适用于中文场景哦。