当前位置: 首页 > news >正文

国内外开源大模型 LLM整理

国内外开源大语言模型(LLM)的发展非常迅速,目前已经形成了一个百花齐放、各具特色的生态系统。下面我将从国外国内两个维度,为您梳理一些具有代表性的开源大模型。

国外知名开源大模型

国外的开源生态启动较早,由Meta、Google等科技巨头引领,社区非常活跃。

1. Llama 系列 (Meta)

毫无疑问,Llama系列是开源大模型的“基石”和最重要的推动者。

  • Llama / Llama 1: Meta在2023年2月发布的第一个版本,首次让学术界和社区能够申请访问强大但非完全开放的模型。

  • Llama 2 (2023年7月): 重大升级并真正开源(采用自定义的宽松许可证,允许商用)。提供了7B、13B、70B三个规模版本,以及对应的Llama 2-Chat对话微调模型。它的发布极大地降低了行业使用强大LLM的门槛。

  • Llama 3 (2024年4月): 最新一代,性能大幅提升。率先发布了8B和70B两个版本,在多项基准测试中超越了同规模的其他模型。支持更长的上下文(8K),并大幅改进了代码生成和推理能力。后续发布了更强的405B(400B+)超大规模模型。

2. Mistral 系列 (Mistral AI)

这家法国初创公司以“小而精”的模型策略闻名,模型效率极高。

  • Mistral 7B: 证明了7B参数规模的模型经过精心设计可以达到更大型号的性能。

  • Mixtral 8x7B: 首个开源的混合专家模型(MoE)。虽然总参数量很大,但激活的参数只有12.9B,因此推理速度快、成本低,性能却堪比甚至超越Llama 2 70B。

  • Mistral 8x22B: Mixtral的更大升级版,拥有141B总参数和39B激活参数,性能更强。

  • Codestral: 其最新发布的专注于代码生成的模型,支持80多种编程语言,性能强劲。

3. Google 系列
  • Gemma (2024年2月): Google基于其Gemini技术推出的轻量级开源模型家族,提供2B和7B两个版本。同样采用宽松许可证,适合商业化和学术研究。

4. 其他重要模型
  • Falcon (Technology Innovation Institute, 阿联酋): 曾是其发布时最强大的开源模型,有7B、40B和180B版本。

  • MPT (MosaicML, 现为Databricks): 系列模型,以其在长上下文方面的优化而知名。

  • OLMo (Allen Institute for AI): 强调真正的开放,不仅开源模型权重,还开源了完整的训练代码、数据和工具链。


国内知名开源大模型

国内厂商在开源方面也非常积极,推出了许多优秀且更擅长中文任务的开源模型。

1. 深度求索 (DeepSeek)
  • DeepSeek-V2 (2024年5月): 近期最受关注的国产开源模型。采用创新的MoE架构(236B总参数,21B激活参数),性能极其强大,在中文和英文基准测试中都达到了顶级水平。同时,其推理成本声称比Llama 3-70B低99%,极具竞争力。

  • DeepSeek-Coder: 专注于代码生成的模型系列,有多个版本,在代码能力上表现优异,是很多开发者的首选代码模型之一。

2. 智谱AI (Zhipu AI)
  • ChatGLM3-6B: 第三代对话模型,基于自研的GLM架构。6B的参数量使得其在消费级显卡上即可高效微调和部署,在中英文对话上表现均衡,是国内最受欢迎的开源对话模型之一。

3. 阿里云 (Alibaba)
  • Qwen (通义千问): 阿里开源了多个规模的模型,包括Qwen1.5系列的0.5B、1.8B、4B、7B、14B、72B等版本。模型在中英文、代码、数学等多方面表现全面,且开源协议非常宽松,支持免费商用。

  • Qwen2(2024年6月):最新一代,发布了0.5B、1.5B、7B、14B、72B等多个尺寸版本,在多项基准上超越了同规模的Llama 3模型,支持多语言,性能非常强劲。

4. 百川智能 (Baichuan)
  • Baichuan 2: 开源了7B和13B版本,在中文法律、医疗、数学等垂直领域表现突出。

  • Baichuan 3: 最新一代,但目前开源的为7B版本

5. 零一万物 (01.AI)
  • Yi (意): 发布了包括6B、9B、34B等不同规模的模型。以其超长的上下文支持(可高达200K tokens)而闻名,在处理长文档方面优势明显。

6. 上海人工智能实验室 (Shanghai AI Lab)
  • InternLM (书生): 推出了7B和20B版本的模型,强调综合性能和在学术研究中的应用。


如何选择?一个简单的总结对比

模型系列主要特点/优势代表型号适合场景
Llama 3综合性能顶级,生态最完善,工具链支持最好Llama 3-8B/70B通用聊天、推理、编程,追求最佳性能和生态
Mistral/Mixtral效率极高,MoE架构,速度快成本低Mixtral 8x7B需要高性能但希望控制推理成本的商用场景
DeepSeek国产最强MoE,中英双优,成本效益极高DeepSeek-V2需要强大中文能力且注重成本的企业应用和开发者
Qwen (通义)型号齐全,中英均衡,开源协议友好Qwen2-7B/72B需要免费商用的全面、均衡的模型
ChatGLM参数小易部署,对话优化好ChatGLM3-6B入门级尝试、轻量级部署和微调
Yi (意)超长上下文处理Yi-34B需要总结长文档、代码库分析等任务

获取与使用

这些模型大多可以在以下平台找到和下载:

  • Hugging Face (huggingface.co): 最大的模型社区,几乎所有开源模型都会首发于此。

  • ModelScope (modelscope.cn): 阿里云推出的中文模型社区,是国内模型的重要分发平台。

  • GitHub: 各个项目的代码、教程和许可证信息。

重要提示

  • 注意许可证: 虽然都叫“开源”,但不同模型的许可证(License)不同。例如,Llama系列使用的是自定义的Meta许可证,允许商用但有一定用户规模限制(现已取消),而Gemma、Qwen等则更为宽松。使用前务必阅读并遵守其许可证条款。

  • 硬件要求: 大模型对GPU内存要求很高。例如,运行7B模型通常需要14GB+的GPU内存(INT4量化后可降低),70B模型则需要140GB+的GPU内存或通过多卡推理。

开源大模型:开源大模型(LLM) - Awesome软件 - OSCHINA - 中文开源技术交流社区


文章转载自:

http://yPe9ATj5.fsbns.cn
http://MnYWksnO.fsbns.cn
http://wAVjsQFu.fsbns.cn
http://1QgTmGpF.fsbns.cn
http://CwiNgUT6.fsbns.cn
http://O1A1anbq.fsbns.cn
http://X2jXjCwg.fsbns.cn
http://BgCndqpM.fsbns.cn
http://pZQPSU2a.fsbns.cn
http://Py7eN6Fg.fsbns.cn
http://Mwk7kEor.fsbns.cn
http://TylDeK1t.fsbns.cn
http://mJeX4MfL.fsbns.cn
http://NsqedooG.fsbns.cn
http://1vLcuJeI.fsbns.cn
http://p1XjFYSX.fsbns.cn
http://bH9wPHOE.fsbns.cn
http://xKhb20bd.fsbns.cn
http://QQMZmQwk.fsbns.cn
http://AKPYAFA7.fsbns.cn
http://lGq8SI6d.fsbns.cn
http://enhdBwWK.fsbns.cn
http://rI0il0a1.fsbns.cn
http://GcE1VVJz.fsbns.cn
http://xAf9IObV.fsbns.cn
http://ujDUaChv.fsbns.cn
http://oUQaxBpr.fsbns.cn
http://OVfzSg8u.fsbns.cn
http://kacxFBGs.fsbns.cn
http://0UiGKrwN.fsbns.cn
http://www.dtcms.com/a/367054.html

相关文章:

  • c#核心笔记
  • CSS 渐变边框
  • Telnet、Socket底层原理详解
  • RTP打包与解包全解析:从RFC规范到跨平台轻量级RTSP服务和低延迟RTSP播放器实现
  • 【国内电子数据取证厂商龙信科技】IOS 逆向脱壳
  • 机器学习基础-day06-TensorFlow线性回归
  • 江协科技STM32学习笔记补充之004
  • 恒泰证券领导一行到访非凸科技,共筑数智交易服务新生态
  • JVM:程序计数器
  • helix编辑器配置键绑定
  • JAva深浅拷贝
  • 【C++设计模式】第二篇:策略模式(Strategy)--从基本介绍,内部原理、应用场景、使用方法,常见问题和解决方案进行深度解析
  • 漏洞绕过方式
  • 【GitOps】Argo CD自动同步Push请求
  • 救命!Shell用了100次还不懂底层?爆肝300行代码从0造“壳”,fork/exec/重定向全扒光,Linux系统编程直接开挂!
  • 皮尔逊相关(Pearson)和斯皮尔曼相关(Spearman)显著性检验
  • 学完这节课,别再问我LLM是不是溜溜梅
  • npm/pnpm软链接的优点和使用场景
  • 追觅吸尘器发布双旗舰新品,首创颠覆性技术终结家庭清洁妥协时刻
  • java中实现自定义拦截器
  • 实战复盘:pnpm Monorepo 中的 Nuxt 依赖地狱——Unhead 升级引发的连锁血案
  • 传统装修行业数字化转型:如何通过GEO工具实现300%业绩增长?
  • cursor使用配置
  • Linux内核进程管理子系统有什么第四十二回 —— 进程主结构详解(38)
  • OpenLayers常用控件 -- 章节三:鼠标位置坐标显示控件教程
  • QT6(拖放事件与拖放操作)
  • Java全栈工程师的实战面试:从Vue到Spring Boot的技术旅程
  • 3ds Max流体模拟终极指南:打造逼真液体效果,从瀑布到杯中溢出的饮料!
  • 处理PostgreSQL中的磁盘I/O瓶颈
  • Redission 对比isHeldByCurrentThread()和unlock()