当前位置：首页 > news >正文

列举开源的模型和推理框架

news 2025/9/12 14:24:06

当然可以！下面是一个系统性的列表，按 开源大模型（LLM） 和 推理框架 两大类列出，并配上简要说明。

🧠 一、开源大语言模型（LLMs）

名称	发布者	语言能力	模型大小	特点
LLaMA 2 / 3	Meta	英文强，少量多语	7B/13B/70B	非商业使用需申请；社区生态广泛
Qwen / Qwen1.5	阿里云通义千问	中文强，兼顾英文	0.5B ~ 72B	中文能力极强，Qwen1.5 开源，支持多模态
Baichuan 2	百川智能	中文优化	7B / 13B	商业/研究可用，API 接口友好
InternLM / InternLM2	商汤 + 上交	中文优，推理快	7B / 20B	InternLM2 引入 MoE，推理效率高
Yi	01.AI（王慧文）	中文 + 英文	6B / 34B	Yi-34B 是当前顶级中文模型之一
Mistral / Mixtral	Mistral.ai（法国）	英语主导	7B / 12.9B (MoE)	极高性价比，推理快，非常热门
Gemma	Google	英语强	2B / 7B	使用 Apache 2 许可，研究友好
Phi-2 / Phi-3	微软	小模型	2.7B / 4.2B	教育、推理快，适合嵌入式
OpenChat / ChatGLM3	OpenBMB / 智谱AI	中文对话优化	6B / 32B	ChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架（Inference Engines）

名称	语言/实现	支持硬件	特点
vLLM	Python / CUDA / Triton	GPU（A10、A100、4090 等）	高并发低延迟，生产级部署首选
llama.cpp	C++	CPU / Apple M 系列 / GPU	轻量、支持量化 `.gguf` 格式，能跑在树莓派上
Ollama	Rust / C++ 封装	CPU / M 系列 GPU	llama.cpp 的高级封装，一行命令启动
TGI (Text Generation Inference)	HuggingFace	GPU	Transformers 官方部署工具，支持 Batching、CUDA
FasterTransformer	NVIDIA	GPU	强调 Transformer 高效并行，支持 INT8/FP16
TensorRT-LLM	NVIDIA	GPU (A100/H100)	超高性能推理，适合部署 LLaMA-3 等模型
MLC LLM	TVM 项目	CPU / GPU / iOS / Android	编译到浏览器、iPhone、本地设备
DeepSpeed-MII	Microsoft	GPU	深度优化并行推理（基于 DeepSpeed）
Exllama / Exllamav2	C++/CUDA	GPU	适用于量化模型（4-bit 推理超快）
ctransformers	Python 绑定 llama.cpp	CPU / GPU	在 Python 中直接跑 gguf 模型，适合小项目

📌 补充：工具生态

工具	用途
transformers	HuggingFace 模型加载和训练工具
AutoGPTQ	GPTQ 量化工具，适配 vLLM、Transformers
text-generation-webui	WebUI 管理/测试各种本地模型（支持 gguf / HF 模型）
LMDeploy	商汤开发的 LLM 部署工具，支持 InternLM 系列
LangChain / LlamaIndex	构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择：

你要做什么？	推荐模型 + 推理框架
本地跑中文对话	Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务	LLaMA3/Qwen + vLLM
快速试验不同模型	text-generation-webui + GGUF 模型
移动端部署	MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率	vLLM（PagedAttention 优化）

如果你告诉我你电脑或服务器的配置（CPU/GPU/内存），我可以给你推荐最适合你机器的模型+框架组合。是否需要？

文章转载自：

http://ATdoxxfT.nwfxp.cn
http://ofHYP7JC.nwfxp.cn
http://ePEHnlWU.nwfxp.cn
http://euTC4LuC.nwfxp.cn
http://Sm6WPiZD.nwfxp.cn
http://KcRekp1S.nwfxp.cn
http://nuxpnut5.nwfxp.cn
http://pJU3bj3m.nwfxp.cn
http://ze37RFTa.nwfxp.cn
http://q1hVhEJD.nwfxp.cn
http://rnRmSXyj.nwfxp.cn
http://bjgtoNtu.nwfxp.cn
http://AAnHdi9T.nwfxp.cn
http://R5iT8med.nwfxp.cn
http://W6EZ4ug3.nwfxp.cn
http://MxzPvNPY.nwfxp.cn
http://i9Q79NYg.nwfxp.cn
http://pAQe1JuI.nwfxp.cn
http://LSHsy3R8.nwfxp.cn
http://YYQQPhfZ.nwfxp.cn
http://DrknpD9w.nwfxp.cn
http://MKVJTVwn.nwfxp.cn
http://TCCw3yDU.nwfxp.cn
http://dCHKSzfr.nwfxp.cn
http://oUPOm2UY.nwfxp.cn
http://k3Mk0dbe.nwfxp.cn
http://VxTHp37l.nwfxp.cn
http://v8XrGh3K.nwfxp.cn
http://QpdAfEMq.nwfxp.cn
http://axLAtD9x.nwfxp.cn

http://www.dtcms.com/a/248065.html

相关文章：

【Java学习笔记】集合介绍

.NetCore 8 反射与源生成器(Reflection vs Source Generators)

aflplusplus：开源的模糊测试工具！全参数详细教程！Kali Linux教程！（二）

C# .NET Core 源代码生成器(dotnet source generators)

ASP.NET Core 中快速读取配置的最佳实践

案例：城市“光革命”背后，塔能科技的智能照明进化方程式

微软Copilot两大创新功能详解：SharePoint Agents vs. Copilot Notebooks

OCP 认证培训：踏入 Oracle 数据库专家的殿堂

Spark 之 Subquery

解析Android SETUP_DATA_CALL 链路信息字段

期权备兑策略选择什么价值的合约？

Server 11 ，⭐通过脚本在全新 Ubuntu 系统中安装 Nginx 环境，安装到指定目录（脚本安装Nginx ）

深度剖析：AI 社媒矩阵营销工具，如何高效获客？

基于React Native的HarmonyOS 5.0房产与装修应用开发

问答播放器(视频弹题)使用例子（代码）

26-数据结构-线性表2

HarmonyOS5 运动健康app(一)：健康饮食（附代码）

Android mtk 系统应用改为可卸载，恢复出厂可恢复

sharepoint 共享excel，如何实现某个 sheet 别人只读，但是另一个 sheet 可以编辑

【Pandas】pandas DataFrame replace

【网关】互联网公司的接入网关和业务网关怎么设计

多模态大语言模型arxiv论文略读（121）

零基础实战：用 Docker 和 vLLM 本地部署 BGE-M3 文本嵌入模型

NAS 年中成果汇报：从入门到高阶的影视/音乐/小说/资源下载等好玩Docker 全集合

通过XML方式在Word段落前添加空白段落

Linux搭建爬虫ip与私有IP池教程

Power BI Streaming dataset - 模拟监测水库的水位情况

WPF加载文本文件时如何设置WebBrowser的字体

dsp28335

Prompt从入门到抄作业