当前位置: 首页 > news >正文

列举开源的模型和推理框架

当然可以!下面是一个系统性的列表,按 开源大模型(LLM)推理框架 两大类列出,并配上简要说明。


🧠 一、开源大语言模型(LLMs)

名称发布者语言能力模型大小特点
LLaMA 2 / 3Meta英文强,少量多语7B/13B/70B非商业使用需申请;社区生态广泛
Qwen / Qwen1.5阿里云通义千问中文强,兼顾英文0.5B ~ 72B中文能力极强,Qwen1.5 开源,支持多模态
Baichuan 2百川智能中文优化7B / 13B商业/研究可用,API 接口友好
InternLM / InternLM2商汤 + 上交中文优,推理快7B / 20BInternLM2 引入 MoE,推理效率高
Yi01.AI(王慧文)中文 + 英文6B / 34BYi-34B 是当前顶级中文模型之一
Mistral / MixtralMistral.ai(法国)英语主导7B / 12.9B (MoE)极高性价比,推理快,非常热门
GemmaGoogle英语强2B / 7B使用 Apache 2 许可,研究友好
Phi-2 / Phi-3微软小模型2.7B / 4.2B教育、推理快,适合嵌入式
OpenChat / ChatGLM3OpenBMB / 智谱AI中文对话优化6B / 32BChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架(Inference Engines)

名称语言/实现支持硬件特点
vLLMPython / CUDA / TritonGPU(A10、A100、4090 等)高并发低延迟,生产级部署首选
llama.cppC++CPU / Apple M 系列 / GPU轻量、支持量化 .gguf 格式,能跑在树莓派上
OllamaRust / C++ 封装CPU / M 系列 GPUllama.cpp 的高级封装,一行命令启动
TGI (Text Generation Inference)HuggingFaceGPUTransformers 官方部署工具,支持 Batching、CUDA
FasterTransformerNVIDIAGPU强调 Transformer 高效并行,支持 INT8/FP16
TensorRT-LLMNVIDIAGPU (A100/H100)超高性能推理,适合部署 LLaMA-3 等模型
MLC LLMTVM 项目CPU / GPU / iOS / Android编译到浏览器、iPhone、本地设备
DeepSpeed-MIIMicrosoftGPU深度优化并行推理(基于 DeepSpeed)
Exllama / Exllamav2C++/CUDAGPU适用于量化模型(4-bit 推理超快)
ctransformersPython 绑定 llama.cppCPU / GPU在 Python 中直接跑 gguf 模型,适合小项目

📌 补充:工具生态

工具用途
transformersHuggingFace 模型加载和训练工具
AutoGPTQGPTQ 量化工具,适配 vLLM、Transformers
text-generation-webuiWebUI 管理/测试各种本地模型(支持 gguf / HF 模型)
LMDeploy商汤开发的 LLM 部署工具,支持 InternLM 系列
LangChain / LlamaIndex构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择:

你要做什么?推荐模型 + 推理框架
本地跑中文对话Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务LLaMA3/Qwen + vLLM
快速试验不同模型text-generation-webui + GGUF 模型
移动端部署MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率vLLM(PagedAttention 优化)

如果你告诉我你电脑或服务器的配置(CPU/GPU/内存),我可以给你推荐最适合你机器的模型+框架组合。是否需要?

相关文章:

  • 个人做跨境电商网站找资源
  • 浙江省城乡住房建设部网站今天重大新闻头条新闻
  • 上海网站建设 百家号网站优化排名软件哪些最好
  • 易语言做试用点击网站武汉百度推广seo
  • 网站建设 业务培训站长推荐
  • 外贸汽车网站重庆搜索排名提升
  • 【Java学习笔记】集合介绍
  • .NetCore 8 反射与源生成器(Reflection vs Source Generators)
  • aflplusplus:开源的模糊测试工具!全参数详细教程!Kali Linux教程!(二)
  • C# .NET Core 源代码生成器(dotnet source generators)
  • ASP.NET Core 中快速读取配置的最佳实践
  • 案例:城市“光革命”背后,塔能科技的智能照明进化方程式
  • 微软Copilot两大创新功能详解:SharePoint Agents vs. Copilot Notebooks
  • OCP 认证培训:踏入 Oracle 数据库专家的殿堂
  • Spark 之 Subquery
  • 解析Android SETUP_DATA_CALL 链路信息字段
  • 期权备兑策略选择什么价值的合约?
  • Server 11 ,⭐通过脚本在全新 Ubuntu 系统中安装 Nginx 环境,安装到指定目录( 脚本安装Nginx )
  • 深度剖析:AI 社媒矩阵营销工具,如何高效获客?
  • 基于React Native的HarmonyOS 5.0房产与装修应用开发
  • 问答播放器(视频弹题)使用例子(代码)
  • 26-数据结构-线性表2
  • HarmonyOS5 运动健康app(一):健康饮食(附代码)
  • Android mtk 系统应用改为可卸载,恢复出厂可恢复
  • sharepoint 共享excel,如何实现某个 sheet 别人只读,但是另一个 sheet 可以编辑
  • 【Pandas】pandas DataFrame replace