当前位置：首页 > news >正文

大模型相关核心信息整合汇总

news 2025/9/30 12:43:45

大模型相关核心信息整合汇总

一、大模型备案与权威信息查询

（一）. 中国政府网备案动态

链接：https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm
概括：2024年4月官方发布的大模型备案政策解读、行业监管方向及合规要求，具备权威性和时效性。

二、大模型列表与资源汇总

（一）综合模型列表平台

DataLearner AI模型库
- 链接：https://www.datalearner.com/ai-models/pretrained-models
- 概括：收录全球各类预训练大模型，含模型技术参数、应用场景、开发文档，支持按领域（通用、金融、医疗等）筛选。
GitHub中国大模型汇总（Awesome LLMs In China）
- 链接：https://github.com/wgwang/awesome-LLMs-In-China
- 概括：开源项目，整理中国本土大模型（如ChatGLM、通义千问、混元等）的源码、部署教程、适配工具，方便开发者快速获取资源。

（二）主流大模型详情

模型名称	核心特点与用途	官方/资源链接
GPT（OpenAI）	通用大模型，支持多场景对话、内容生成、代码辅助、逻辑推理，生态成熟	https://openai.com/
OpenAI - o3 - mini（OpenAI）	OpenAI轻量级模型，兼顾性能与效率，适合低延迟、高频次的轻量化交互场景（如客服助手、简单问答）	https://openai.com/
Claude（Anthropic）	长上下文处理能力强（支持100k+ tokens），聚焦企业级合规性，适合文档分析、复杂任务推理	https://www.anthropic.com/claude
Claude - 3.7 - Sonnet - Thinking（Anthropic）	Anthropic Claude系列升级模型，强化“思考型”推理能力，长上下文处理与复杂逻辑分析性能提升，适合科研、战略分析等场景	https://www.anthropic.com/claude
DeepSeek	支持本地部署与云端调用，中文处理能力优异，适用于科研、开发测试及中小场景应用	https://platform.deepseek.com/usage、https://ollama.com/library/deepseek-r1
Defog.ai	聚焦数据相关任务，擅长SQL生成、数据分析、数据可视化，适配多种数据库语法	https://defog.ai/product、https://github.com/defog-ai
SQLCoder	专注SQL代码生成与优化，支持复杂查询语句编写，适配MySQL、PostgreSQL等主流数据库	https://www.datalearner.com/ai-models/pretrained-models/SQLCoder
ChatGLM3（清华/智谱）	中文支持优秀，分对话版（6B，适用于日常交互）、基座版（6B-Base，用于微调）、长上下文版（6B-32K，支持长文档处理）	https://github.com/THUDM/ChatGLM3、https://chatglm.cn/main/alltoolsdetail?lang=zh
Vicuna	基于LLaMA微调，开源可商用，多轮对话流畅度高，适合轻量级交互场景开发	https://ollama.com/library/vicuna、https://huggingface.co/Tribbiani/vicuna-7b
Cornucopia-LLaMA-Fin-Chinese	金融领域中文大模型，经金融问答数据微调，适用于金融知识问答、行情分析、合规咨询	https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
FinGPT	开源金融大模型，专注金融领域任务（如行情分析、财报解读、风险预测），基于金融领域数据集训练	https://github.com/AI4Finance-Foundation/FinGPT
Gemma（谷歌）	轻量级开源模型，支持多语言，适配边缘设备部署，适合中小规模开发需求	https://developers.google.cn/solutions/catalog?hl=zh-cn、https://deepmind.google/technologies/gemini/（关联谷歌AI生态）
Gemini（谷歌）	谷歌多模态大模型，支持文本、图像、音频、视频处理，通过Google AI Studio提供开发接口，适合多模态应用开发	https://aistudio.google.com/
通义千问（阿里云）	阿里通用大模型，支持内容生成、代码开发、多模态交互，适配企业级与C端场景	https://tongyi.aliyun.com/efficiency/home、https://tongyi.aliyun.com/wanxiang/、https://tingwu.aliyun.com/home
QwenLong - L1 - 32B（阿里云）	阿里通义系列大模型，侧重长文本处理与复杂语义理解，适用于企业级文档分析、知识问答场景	-
Qwen3 - 235B - A22B（阿里云）	阿里通义超大参数量模型（235B），通用能力强劲，支持多模态理解与复杂任务推理，面向企业级高端需求	-
文心一言（百度）	百度通用大模型，中文语义理解能力强，支持多轮对话、创意生成、行业解决方案（如金融、教育）	https://yiyan.baidu.com/
豆包（字节/火山云）	字节C端大模型产品，主打日常交互、创意辅助、生活服务，同时提供企业级API调用	https://www.doubao.com/chat/、https://www.volcengine.com/product/doubao
纳米AI	轻量级大模型，聚焦中小场景应用，支持快速部署，适合个人开发者与小微企业使用	https://www.n.cn/
百川大模型（百川智能）	中文处理能力优异，支持对话交互、内容生成、行业定制，提供开源与闭源两种版本	https://ying.baichuan-ai.com/chat
百川大模型（百川智能）	中文语义理解与生成能力优异，提供Baichuan2等开源版本，支持通用对话、企业知识库构建，适配中小规模开发与企业级应用	官网：https://www.baichuan-ai.com/home；开源仓库：https://github.com/baichuan-inc/Baichuan2
MiniMax海螺	聚焦企业级服务，支持多轮对话、文档理解、定制化开发，注重数据安全与隐私保护	https://api.minimax.chat/、https://hailuoai.com/
MiniMax系列	- MiniMax-Text-01：国内首个Linear Attention+MoE架构开源模型（4560亿参，激活459亿），支持400万token超长文本处理（GPT-4o的32倍、Claude-3.5-Sonnet的20倍）； - MiniMax-VL-01：视觉多模态模型，深度融合文本与图像理解能力	官网：https://www.minimaxi.com/；开源仓库：https://github.com/MiniMax-AI；魔塔社区：https://modelscope.cn/papers/107533、https://modelscope.cn/collections/MiniMax-01-72e71e58917747；小程序体验：https://modelscope.cn/studios/MiniMax/MiniMax-Text-01、https://modelscope.cn/studios/MiniMax/MiniMax-VL-01
书生大模型（上海AI实验室）	开源通用大模型，支持多模态（文本、图像）处理，适配科研与产业级应用	https://intern-ai.org.cn/home
混元大模型（腾讯）	腾讯通用大模型，支持内容生成、代码开发、企业级解决方案，与腾讯云生态深度整合	https://hunyuan.tencent.com/
星火大模型（科大讯飞）	中文语义理解与语音交互能力突出，支持多模态生成、行业定制（如教育、医疗）	https://xinghuo.xfyun.cn/、https://zhiwen.xfyun.cn/create?type=ppt
星火大模型（科大讯飞新增补充）	强化多模态与行业适配，支持桌面端交互（星火桌面）、API调用，提供教育、医疗等行业解决方案，通过讯飞开放平台实现快速接入	桌面端：https://xinghuo.xfyun.cn/desk；开放平台：https://www.xfyun.cn/；控制台：https://console.xfyun.cn/app/myapp
Kimi（月之暗面）	长上下文处理能力强（支持200k+ tokens），适合超长文档（如书籍、报告）分析与总结	https://kimi.moonshot.cn/
Kimi-VL（月之暗面新增）	月之暗面多模态模型，融合文本与图像理解能力，支持图像描述、跨模态问答，适合视觉相关交互场景	https://github.com/MoonshotAI/Kimi-VL
面壁智能大模型	聚焦企业级NLP任务，支持文本生成、语义检索、行业知识库构建，提供定制化训练服务	https://modelbest.cn/
盘古大模型（华为）	基于昇腾芯片优化，算力支持强，适合大规模模型训练与部署，注重国产化与安全合规	https://www.huaweicloud.com/intl/zh-cn/、https://www.mindspore.cn/
盘古 Pro MoE 大模型（华为）	华为盘古系列混合专家模型，通过MoE架构平衡参数量与计算效率，适用于大规模数据处理与行业定制化任务	https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main、https://arxiv.org/pdf/2505.21411
Dream 7B	通用能力优异，在数学推理、编程任务上媲美Qwen2.5 7B、LLaMA3 8B，部分场景优于Deepseek V3 671B，提供Base（基座）与Instruct（指令微调）版本	基础模型：https://huggingface.co/Dream-org/Dream-v0-Base-7B；SFT模型：https://huggingface.co/Dream-org/Dream-v0-Instruct-7B；代码库：https://github.com/HKUNLP/Dream；项目主页：https://hkunlp.github.io/blog/2025/dream/；在线体验：https://huggingface.co/spaces/m
openrouter/quasar-alpha	OpenRouter平台推出的实验性模型，侧重高效文本生成与任务适配，支持通过OpenRouter统一接口调用	https://openrouter.ai/openrouter/quasar-alpha
Open R1	社区驱动的开源项目，目标复刻DeepSeek-R1功能，提供完全开源的代码生成与理解能力	https://huggingface.co/（关联社区仓库）
OlympicCoder	专攻代码竞赛场景，基于近10万条CodeForces-CoTs数据集训练，支持C++/Python代码生成，通过IOI竞赛题测试优化，模拟竞赛得分策略	-（关联Open R1生态）
OpenMath-Nemotron	英伟达开源数学推理模型，含1.5B/7B/14B/32B版本，训练数据含54万问题+320万推理方案，1.5B版本性能可超部分14B竞品，14B-Kaggle版曾用于AIMO-2竞赛	https://huggingface.co/collections/nvidia/openmathreasoning、https://github.com/NVIDIA/NeMo-Skills
Xiaomi MiMo	小米开源推理大模型（7B参数），通过联动预训练与后训练优化复杂推理性能，实现“小参数量高性能”，适合边缘设备与轻量化推理场景	https://github.com/XiaomiMiMo
AM-Thinking-v1	侧重“思考型”推理的模型，通过优化注意力机制与推理链路，提升复杂逻辑任务（如多步推理、因果分析）表现	https://arxiv.org/pdf/2505.08311
零一万物 Yi 系列	中文处理能力突出，提供多参数量版本（如Yi-6B、Yi-34B），支持通用对话、内容生成、代码辅助，开源可商用	https://www.lingyiwanwu.com/yi、https://github.com/01-ai/Yi

三、大模型开发与服务平台

（一）模型调用与开发平台

硅基流动
- 链接：https://siliconflow.zhike.in/、https://siliconflow.cn/zh-cn/
- 概括：提供大模型训练、部署、API调用全流程服务，支持多模型适配，含开发者控制台与可视化管理工具，降低开发门槛。
OpenRouter
- 链接：https://openrouter.ai/
- 概括：大模型统一调用接口，兼容296个模型与提供商，支持OpenAI SDK，可直接调用或使用第三方SDK，减少多模型集成的重复开发工作。
Hugging Face Hub
- 链接：https://huggingface.co/docs/hub/index、https://hf-mirror.com/（国内镜像）、https://gitee.com/hf-models（国内镜像）
- 概括：全球最大开源大模型与工具库，提供模型下载、微调代码、部署教程，国内镜像解决访问速度与合规性问题。

（二）国内开发者社区

启智社区
- 链接：https://openi.org.cn/、https://openi.pcl.ac.cn/Learning-Develop-Union
- 概括：国内AI开源社区，含大模型训练数据集、微调工具、项目案例，支持开发者协作交流与成果分享。
始智AI社区
- 链接：https://wisemodel.cn/home
- 概括：聚焦大模型应用开发，提供模型测评报告、行业解决方案（金融、医疗等）、开发者教程，助力落地实践。
Llama中文社区
- 链接：https://github.com/LlamaFamily/Llama-Chinese、https://llama.family/
- 概括：专注Llama系列模型（Llama2、Llama3）的中文适配，提供中文微调数据集、部署指南、优化工具，支持开源协作。
华为昇思MindSpore
- 链接：https://www.mindspore.cn/
- 概括：华为开源AI框架，支持大模型训练、推理与部署，适配多种硬件（GPU、昇腾芯片），提供大模型开发教程与优化工具。

四、云厂商大模型服务

云厂商	大模型产品/服务	核心优势与适配场景	官方链接
百度云	文心一言（通用大模型）、千帆大模型平台	中文语义理解能力强，平台支持模型微调、部署、API调用，适配企业级定制化需求	https://aistudio.baidu.com/、https://cloud.baidu.com/product-s/qianfan_home、https://agents.baidu.com/center
阿里云	通义千问（通用大模型）、阿里云百炼平台	与阿里生态（电商、云计算）深度整合，支持多模态生成、行业解决方案，适合企业级应用	https://www.aliyun.com/、https://www.modelscope.cn/my/overview、https://tongyi.aliyun.com/
火山云（字节）	火山方舟大模型平台、豆包（C端产品）	支持多模型托管与调用，C端产品交互流畅，企业级平台注重高并发与低延迟	https://www.volcengine.com/、https://www.doubao.com/chat/search
腾讯云	混元大模型、腾讯云TI-ONE大模型平台	适配腾讯社交、游戏、金融生态，支持内容生成、智能客服、数据分析，提供全流程开发工具	https://cloud.tencent.com/、https://hunyuan.tencent.com/
华为云	盘古大模型、ModelArts大模型开发平台	基于昇腾芯片优化，算力支持强，适合大规模模型训练与部署，注重国产化与安全合规	https://www.huaweicloud.com/intl/zh-cn/、https://www.mindspore.cn/
金山云	金山大模型、KMS大模型服务平台	聚焦中小微企业与开发者，提供轻量化部署方案，成本较低，支持快速接入	https://www.ksyun.com/
微软Azure	Azure OpenAI Service（GPT系列）、Azure AI Studio	全球部署，支持多区域合规，与微软办公生态（Office 365）整合，适合跨国企业使用	https://azure.microsoft.com/zh-cn/
AWS亚马逊云	Amazon Bedrock（多模型平台）	支持调用GPT、Claude、Stable Diffusion等主流模型，提供弹性算力，适合全球业务部署	https://aws.amazon.com/cn/
IBM	Watsonx大模型平台	聚焦企业级AI应用，支持行业定制（金融、医疗），注重数据安全与隐私保护	https://www.ibm.com/cn-zh