如何用一台服务器用dify私有部署通用的大模型应用?
dify是什么?如何用一台服务器用dify私有部署通用的大模型应用?
Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和LLMOps的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。
由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。这为开发者节省了许多重复造轮子的时间,使其可以专注在创新和业务需求上。
为什么使用 Dify?
你或许可以把 LangChain 这类的开发库(Library)想象为有着锤子、钉子的工具箱。与之相比,Dify 提供了更接近生产需要的完整方案,Dify 好比是一套脚手架,并且经过了精良的工程设计和软件测试。
重要的是,Dify 是开源的,它由一个专业的全职团队和社区共同打造。你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力,在灵活和安全的基础上,同时保持对数据的完全控制。
我们的社区用户对 Dify 的产品评价可以归结为简单、克制、迭代迅速。 ——路宇,Dify.AI CEO
希望以上信息和这份指南可以帮助你了解这款产品,我们相信 Dify 是为你而做的(Do It For You)。
Dify 能做什么?
Dify 一词源自 Define + Modify,意指定义并且持续的改进你的 AI 应用,它是为你而做的(Do it for you)。
- 创业,快速的将你的 AI 应用创意变成现实,无论成功和失败都需要加速。在真实世界,已经有几十个团队通过 Dify 构建 MVP(最小可用产品)获得投资,或通过 POC(概念验证)赢得了客户的订单。
- 将 LLM 集成至已有业务,通过引入 LLM 增强现有应用的能力,接入 Dify 的 RESTful API 从而实现 Prompt 与业务代码的解耦,在 Dify 的管理界面是跟踪数据、成本和用量,持续改进应用效果。
- 作为企业级 LLM 基础设施,一些银行和大型互联网公司正在将 Dify 部署为企业内的 LLM 网关,加速 GenAI 技术在企业内的推广,并实现中心化的监管。
- 探索 LLM 的能力边界,即使你是一个技术爱好者,通过 Dify 也可以轻松的实践 Prompt 工程和 Agent 技术,在 GPTs 推出以前就已经有超过 60,000 开发者在 Dify 上创建了自己的第一个应用。
如何用一台服务器用dify私有部署通用的大模型应用(RAG+多模态知识小助手/工作流/Agent)?
规划:
A800 8卡服务器 :2卡用于部署deepseek蒸馏大语言模型,1卡embedding模型,1卡reranker模型, 4卡部署多模态模型。
技术方法:
本地用vllm在线服务或者tensorrt-llm,指定卡起server端的服务,dify是client端,集成这些服务的应用。像这个场景部署4个模型就需要起4个端口服务。
步骤:
在server端:
找文档openai compatible api 来写server端的router 网址request和response相关内容 API Reference - OpenAI API左边Platform APIs找对应的API。
如果用tensorrt-llm或者vllm这些框架,应该一键可以部署开放端口接收请求,如果是尚未支持的模型或者不用框架,也可以自行用flask/fastapi等等重新写server,自己写服务。
在client端:
1. dify上面选择openai compatible api
2. 知识库搭建:
3.图片处理工作流搭建:
4.包揽大模型/知识库/多模态应用的Agents
要考虑的点和待解决:
实际应用场景里 图片处理的批处理程度,图片的大小;
内部可处理的并发需求量来选择后端服务测的复杂程度,负载均衡等问题【暂时是我的知识盲区】
流行的趋势:
压榨GPU卡单卡的使用量,即发挥一张卡的极致性能
分析是需要在硬件和软件分别实行隔离技术:物理隔离和软件隔离