当前位置: 首页 > news >正文

列举开源的模型和推理框架

当然可以!下面是一个系统性的列表,按 开源大模型(LLM)推理框架 两大类列出,并配上简要说明。


🧠 一、开源大语言模型(LLMs)

名称发布者语言能力模型大小特点
LLaMA 2 / 3Meta英文强,少量多语7B/13B/70B非商业使用需申请;社区生态广泛
Qwen / Qwen1.5阿里云通义千问中文强,兼顾英文0.5B ~ 72B中文能力极强,Qwen1.5 开源,支持多模态
Baichuan 2百川智能中文优化7B / 13B商业/研究可用,API 接口友好
InternLM / InternLM2商汤 + 上交中文优,推理快7B / 20BInternLM2 引入 MoE,推理效率高
Yi01.AI(王慧文)中文 + 英文6B / 34BYi-34B 是当前顶级中文模型之一
Mistral / MixtralMistral.ai(法国)英语主导7B / 12.9B (MoE)极高性价比,推理快,非常热门
GemmaGoogle英语强2B / 7B使用 Apache 2 许可,研究友好
Phi-2 / Phi-3微软小模型2.7B / 4.2B教育、推理快,适合嵌入式
OpenChat / ChatGLM3OpenBMB / 智谱AI中文对话优化6B / 32BChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架(Inference Engines)

名称语言/实现支持硬件特点
vLLMPython / CUDA / TritonGPU(A10、A100、4090 等)高并发低延迟,生产级部署首选
llama.cppC++CPU / Apple M 系列 / GPU轻量、支持量化 .gguf 格式,能跑在树莓派上
OllamaRust / C++ 封装CPU / M 系列 GPUllama.cpp 的高级封装,一行命令启动
TGI (Text Generation Inference)HuggingFaceGPUTransformers 官方部署工具,支持 Batching、CUDA
FasterTransformerNVIDIAGPU强调 Transformer 高效并行,支持 INT8/FP16
TensorRT-LLMNVIDIAGPU (A100/H100)超高性能推理,适合部署 LLaMA-3 等模型
MLC LLMTVM 项目CPU / GPU / iOS / Android编译到浏览器、iPhone、本地设备
DeepSpeed-MIIMicrosoftGPU深度优化并行推理(基于 DeepSpeed)
Exllama / Exllamav2C++/CUDAGPU适用于量化模型(4-bit 推理超快)
ctransformersPython 绑定 llama.cppCPU / GPU在 Python 中直接跑 gguf 模型,适合小项目

📌 补充:工具生态

工具用途
transformersHuggingFace 模型加载和训练工具
AutoGPTQGPTQ 量化工具,适配 vLLM、Transformers
text-generation-webuiWebUI 管理/测试各种本地模型(支持 gguf / HF 模型)
LMDeploy商汤开发的 LLM 部署工具,支持 InternLM 系列
LangChain / LlamaIndex构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择:

你要做什么?推荐模型 + 推理框架
本地跑中文对话Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务LLaMA3/Qwen + vLLM
快速试验不同模型text-generation-webui + GGUF 模型
移动端部署MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率vLLM(PagedAttention 优化)

如果你告诉我你电脑或服务器的配置(CPU/GPU/内存),我可以给你推荐最适合你机器的模型+框架组合。是否需要?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/248065.html

相关文章:

  • 【Java学习笔记】集合介绍
  • .NetCore 8 反射与源生成器(Reflection vs Source Generators)
  • aflplusplus:开源的模糊测试工具!全参数详细教程!Kali Linux教程!(二)
  • C# .NET Core 源代码生成器(dotnet source generators)
  • ASP.NET Core 中快速读取配置的最佳实践
  • 案例:城市“光革命”背后,塔能科技的智能照明进化方程式
  • 微软Copilot两大创新功能详解:SharePoint Agents vs. Copilot Notebooks
  • OCP 认证培训:踏入 Oracle 数据库专家的殿堂
  • Spark 之 Subquery
  • 解析Android SETUP_DATA_CALL 链路信息字段
  • 期权备兑策略选择什么价值的合约?
  • Server 11 ,⭐通过脚本在全新 Ubuntu 系统中安装 Nginx 环境,安装到指定目录( 脚本安装Nginx )
  • 深度剖析:AI 社媒矩阵营销工具,如何高效获客?
  • 基于React Native的HarmonyOS 5.0房产与装修应用开发
  • 问答播放器(视频弹题)使用例子(代码)
  • 26-数据结构-线性表2
  • HarmonyOS5 运动健康app(一):健康饮食(附代码)
  • Android mtk 系统应用改为可卸载,恢复出厂可恢复
  • sharepoint 共享excel,如何实现某个 sheet 别人只读,但是另一个 sheet 可以编辑
  • 【Pandas】pandas DataFrame replace
  • 【网关】互联网公司的接入网关和业务网关怎么设计
  • 多模态大语言模型arxiv论文略读(121)
  • 零基础实战:用 Docker 和 vLLM 本地部署 BGE-M3 文本嵌入模型
  • NAS 年中成果汇报:从入门到高阶的影视/音乐/小说/资源下载 等好玩Docker 全集合
  • 通过XML方式在Word段落前添加空白段落
  • Linux搭建爬虫ip与私有IP池教程
  • Power BI Streaming dataset - 模拟监测水库的水位情况
  • WPF加载文本文件时如何设置WebBrowser的字体
  • dsp28335
  • Prompt从入门到抄作业