GPT(OpenAI) | 通用大模型,支持多场景对话、内容生成、代码辅助、逻辑推理,生态成熟 | https://openai.com/ |
OpenAI - o3 - mini(OpenAI) | OpenAI轻量级模型,兼顾性能与效率,适合低延迟、高频次的轻量化交互场景(如客服助手、简单问答) | https://openai.com/ |
Claude(Anthropic) | 长上下文处理能力强(支持100k+ tokens),聚焦企业级合规性,适合文档分析、复杂任务推理 | https://www.anthropic.com/claude |
Claude - 3.7 - Sonnet - Thinking(Anthropic) | Anthropic Claude系列升级模型,强化“思考型”推理能力,长上下文处理与复杂逻辑分析性能提升,适合科研、战略分析等场景 | https://www.anthropic.com/claude |
DeepSeek | 支持本地部署与云端调用,中文处理能力优异,适用于科研、开发测试及中小场景应用 | https://platform.deepseek.com/usage、https://ollama.com/library/deepseek-r1 |
Defog.ai | 聚焦数据相关任务,擅长SQL生成、数据分析、数据可视化,适配多种数据库语法 | https://defog.ai/product、https://github.com/defog-ai |
SQLCoder | 专注SQL代码生成与优化,支持复杂查询语句编写,适配MySQL、PostgreSQL等主流数据库 | https://www.datalearner.com/ai-models/pretrained-models/SQLCoder |
ChatGLM3(清华/智谱) | 中文支持优秀,分对话版(6B,适用于日常交互)、基座版(6B-Base,用于微调)、长上下文版(6B-32K,支持长文档处理) | https://github.com/THUDM/ChatGLM3、https://chatglm.cn/main/alltoolsdetail?lang=zh |
Vicuna | 基于LLaMA微调,开源可商用,多轮对话流畅度高,适合轻量级交互场景开发 | https://ollama.com/library/vicuna、https://huggingface.co/Tribbiani/vicuna-7b |
Cornucopia-LLaMA-Fin-Chinese | 金融领域中文大模型,经金融问答数据微调,适用于金融知识问答、行情分析、合规咨询 | https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese |
FinGPT | 开源金融大模型,专注金融领域任务(如行情分析、财报解读、风险预测),基于金融领域数据集训练 | https://github.com/AI4Finance-Foundation/FinGPT |
Gemma(谷歌) | 轻量级开源模型,支持多语言,适配边缘设备部署,适合中小规模开发需求 | https://developers.google.cn/solutions/catalog?hl=zh-cn、https://deepmind.google/technologies/gemini/(关联谷歌AI生态) |
Gemini(谷歌) | 谷歌多模态大模型,支持文本、图像、音频、视频处理,通过Google AI Studio提供开发接口,适合多模态应用开发 | https://aistudio.google.com/ |
通义千问(阿里云) | 阿里通用大模型,支持内容生成、代码开发、多模态交互,适配企业级与C端场景 | https://tongyi.aliyun.com/efficiency/home、https://tongyi.aliyun.com/wanxiang/、https://tingwu.aliyun.com/home |
QwenLong - L1 - 32B(阿里云) | 阿里通义系列大模型,侧重长文本处理与复杂语义理解,适用于企业级文档分析、知识问答场景 | - |
Qwen3 - 235B - A22B(阿里云) | 阿里通义超大参数量模型(235B),通用能力强劲,支持多模态理解与复杂任务推理,面向企业级高端需求 | - |
文心一言(百度) | 百度通用大模型,中文语义理解能力强,支持多轮对话、创意生成、行业解决方案(如金融、教育) | https://yiyan.baidu.com/ |
豆包(字节/火山云) | 字节C端大模型产品,主打日常交互、创意辅助、生活服务,同时提供企业级API调用 | https://www.doubao.com/chat/、https://www.volcengine.com/product/doubao |
纳米AI | 轻量级大模型,聚焦中小场景应用,支持快速部署,适合个人开发者与小微企业使用 | https://www.n.cn/ |
百川大模型(百川智能) | 中文处理能力优异,支持对话交互、内容生成、行业定制,提供开源与闭源两种版本 | https://ying.baichuan-ai.com/chat |
百川大模型(百川智能) | 中文语义理解与生成能力优异,提供Baichuan2等开源版本,支持通用对话、企业知识库构建,适配中小规模开发与企业级应用 | 官网:https://www.baichuan-ai.com/home;开源仓库:https://github.com/baichuan-inc/Baichuan2 |
MiniMax海螺 | 聚焦企业级服务,支持多轮对话、文档理解、定制化开发,注重数据安全与隐私保护 | https://api.minimax.chat/、https://hailuoai.com/ |
MiniMax系列 | - MiniMax-Text-01:国内首个Linear Attention+MoE架构开源模型(4560亿参,激活459亿),支持400万token超长文本处理(GPT-4o的32倍、Claude-3.5-Sonnet的20倍); - MiniMax-VL-01:视觉多模态模型,深度融合文本与图像理解能力 | 官网:https://www.minimaxi.com/;开源仓库:https://github.com/MiniMax-AI;魔塔社区:https://modelscope.cn/papers/107533、https://modelscope.cn/collections/MiniMax-01-72e71e58917747;小程序体验:https://modelscope.cn/studios/MiniMax/MiniMax-Text-01、https://modelscope.cn/studios/MiniMax/MiniMax-VL-01 |
书生大模型(上海AI实验室) | 开源通用大模型,支持多模态(文本、图像)处理,适配科研与产业级应用 | https://intern-ai.org.cn/home |
混元大模型(腾讯) | 腾讯通用大模型,支持内容生成、代码开发、企业级解决方案,与腾讯云生态深度整合 | https://hunyuan.tencent.com/ |
星火大模型(科大讯飞) | 中文语义理解与语音交互能力突出,支持多模态生成、行业定制(如教育、医疗) | https://xinghuo.xfyun.cn/、https://zhiwen.xfyun.cn/create?type=ppt |
星火大模型(科大讯飞新增补充) | 强化多模态与行业适配,支持桌面端交互(星火桌面)、API调用,提供教育、医疗等行业解决方案,通过讯飞开放平台实现快速接入 | 桌面端:https://xinghuo.xfyun.cn/desk;开放平台:https://www.xfyun.cn/;控制台:https://console.xfyun.cn/app/myapp |
Kimi(月之暗面) | 长上下文处理能力强(支持200k+ tokens),适合超长文档(如书籍、报告)分析与总结 | https://kimi.moonshot.cn/ |
Kimi-VL(月之暗面新增) | 月之暗面多模态模型,融合文本与图像理解能力,支持图像描述、跨模态问答,适合视觉相关交互场景 | https://github.com/MoonshotAI/Kimi-VL |
面壁智能大模型 | 聚焦企业级NLP任务,支持文本生成、语义检索、行业知识库构建,提供定制化训练服务 | https://modelbest.cn/ |
盘古大模型(华为) | 基于昇腾芯片优化,算力支持强,适合大规模模型训练与部署,注重国产化与安全合规 | https://www.huaweicloud.com/intl/zh-cn/、https://www.mindspore.cn/ |
盘古 Pro MoE 大模型(华为) | 华为盘古系列混合专家模型,通过MoE架构平衡参数量与计算效率,适用于大规模数据处理与行业定制化任务 | https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main、https://arxiv.org/pdf/2505.21411 |
Dream 7B | 通用能力优异,在数学推理、编程任务上媲美Qwen2.5 7B、LLaMA3 8B,部分场景优于Deepseek V3 671B,提供Base(基座)与Instruct(指令微调)版本 | 基础模型:https://huggingface.co/Dream-org/Dream-v0-Base-7B;SFT模型:https://huggingface.co/Dream-org/Dream-v0-Instruct-7B;代码库:https://github.com/HKUNLP/Dream;项目主页:https://hkunlp.github.io/blog/2025/dream/;在线体验:https://huggingface.co/spaces/m |
openrouter/quasar-alpha | OpenRouter平台推出的实验性模型,侧重高效文本生成与任务适配,支持通过OpenRouter统一接口调用 | https://openrouter.ai/openrouter/quasar-alpha |
Open R1 | 社区驱动的开源项目,目标复刻DeepSeek-R1功能,提供完全开源的代码生成与理解能力 | https://huggingface.co/(关联社区仓库) |
OlympicCoder | 专攻代码竞赛场景,基于近10万条CodeForces-CoTs数据集训练,支持C++/Python代码生成,通过IOI竞赛题测试优化,模拟竞赛得分策略 | -(关联Open R1生态) |
OpenMath-Nemotron | 英伟达开源数学推理模型,含1.5B/7B/14B/32B版本,训练数据含54万问题+320万推理方案,1.5B版本性能可超部分14B竞品,14B-Kaggle版曾用于AIMO-2竞赛 | https://huggingface.co/collections/nvidia/openmathreasoning、https://github.com/NVIDIA/NeMo-Skills |
Xiaomi MiMo | 小米开源推理大模型(7B参数),通过联动预训练与后训练优化复杂推理性能,实现“小参数量高性能”,适合边缘设备与轻量化推理场景 | https://github.com/XiaomiMiMo |
AM-Thinking-v1 | 侧重“思考型”推理的模型,通过优化注意力机制与推理链路,提升复杂逻辑任务(如多步推理、因果分析)表现 | https://arxiv.org/pdf/2505.08311 |
零一万物 Yi 系列 | 中文处理能力突出,提供多参数量版本(如Yi-6B、Yi-34B),支持通用对话、内容生成、代码辅助,开源可商用 | https://www.lingyiwanwu.com/yi、https://github.com/01-ai/Yi |