当前位置: 首页 > news >正文

大模型相关核心信息整合汇总

大模型相关核心信息整合汇总

一、大模型备案与权威信息查询

(一). 中国政府网备案动态

  • 链接:https://www.cac.gov.cn/2024-04/02/c_1713729983803145.htm
  • 概括:2024年4月官方发布的大模型备案政策解读、行业监管方向及合规要求,具备权威性和时效性。

二、大模型列表与资源汇总

(一)综合模型列表平台

  1. DataLearner AI模型库
    • 链接:https://www.datalearner.com/ai-models/pretrained-models
    • 概括:收录全球各类预训练大模型,含模型技术参数、应用场景、开发文档,支持按领域(通用、金融、医疗等)筛选。
  2. GitHub中国大模型汇总(Awesome LLMs In China)
    • 链接:https://github.com/wgwang/awesome-LLMs-In-China
    • 概括:开源项目,整理中国本土大模型(如ChatGLM、通义千问、混元等)的源码、部署教程、适配工具,方便开发者快速获取资源。

(二)主流大模型详情

模型名称核心特点与用途官方/资源链接
GPT(OpenAI)通用大模型,支持多场景对话、内容生成、代码辅助、逻辑推理,生态成熟https://openai.com/
OpenAI - o3 - mini(OpenAI)OpenAI轻量级模型,兼顾性能与效率,适合低延迟、高频次的轻量化交互场景(如客服助手、简单问答)https://openai.com/
Claude(Anthropic)长上下文处理能力强(支持100k+ tokens),聚焦企业级合规性,适合文档分析、复杂任务推理https://www.anthropic.com/claude
Claude - 3.7 - Sonnet - Thinking(Anthropic)Anthropic Claude系列升级模型,强化“思考型”推理能力,长上下文处理与复杂逻辑分析性能提升,适合科研、战略分析等场景https://www.anthropic.com/claude
DeepSeek支持本地部署与云端调用,中文处理能力优异,适用于科研、开发测试及中小场景应用https://platform.deepseek.com/usage、https://ollama.com/library/deepseek-r1
Defog.ai聚焦数据相关任务,擅长SQL生成、数据分析、数据可视化,适配多种数据库语法https://defog.ai/product、https://github.com/defog-ai
SQLCoder专注SQL代码生成与优化,支持复杂查询语句编写,适配MySQL、PostgreSQL等主流数据库https://www.datalearner.com/ai-models/pretrained-models/SQLCoder
ChatGLM3(清华/智谱)中文支持优秀,分对话版(6B,适用于日常交互)、基座版(6B-Base,用于微调)、长上下文版(6B-32K,支持长文档处理)https://github.com/THUDM/ChatGLM3、https://chatglm.cn/main/alltoolsdetail?lang=zh
Vicuna基于LLaMA微调,开源可商用,多轮对话流畅度高,适合轻量级交互场景开发https://ollama.com/library/vicuna、https://huggingface.co/Tribbiani/vicuna-7b
Cornucopia-LLaMA-Fin-Chinese金融领域中文大模型,经金融问答数据微调,适用于金融知识问答、行情分析、合规咨询https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
FinGPT开源金融大模型,专注金融领域任务(如行情分析、财报解读、风险预测),基于金融领域数据集训练https://github.com/AI4Finance-Foundation/FinGPT
Gemma(谷歌)轻量级开源模型,支持多语言,适配边缘设备部署,适合中小规模开发需求https://developers.google.cn/solutions/catalog?hl=zh-cn、https://deepmind.google/technologies/gemini/(关联谷歌AI生态)
Gemini(谷歌)谷歌多模态大模型,支持文本、图像、音频、视频处理,通过Google AI Studio提供开发接口,适合多模态应用开发https://aistudio.google.com/
通义千问(阿里云)阿里通用大模型,支持内容生成、代码开发、多模态交互,适配企业级与C端场景https://tongyi.aliyun.com/efficiency/home、https://tongyi.aliyun.com/wanxiang/、https://tingwu.aliyun.com/home
QwenLong - L1 - 32B(阿里云)阿里通义系列大模型,侧重长文本处理与复杂语义理解,适用于企业级文档分析、知识问答场景-
Qwen3 - 235B - A22B(阿里云)阿里通义超大参数量模型(235B),通用能力强劲,支持多模态理解与复杂任务推理,面向企业级高端需求-
文心一言(百度)百度通用大模型,中文语义理解能力强,支持多轮对话、创意生成、行业解决方案(如金融、教育)https://yiyan.baidu.com/
豆包(字节/火山云)字节C端大模型产品,主打日常交互、创意辅助、生活服务,同时提供企业级API调用https://www.doubao.com/chat/、https://www.volcengine.com/product/doubao
纳米AI轻量级大模型,聚焦中小场景应用,支持快速部署,适合个人开发者与小微企业使用https://www.n.cn/
百川大模型(百川智能)中文处理能力优异,支持对话交互、内容生成、行业定制,提供开源与闭源两种版本https://ying.baichuan-ai.com/chat
百川大模型(百川智能)中文语义理解与生成能力优异,提供Baichuan2等开源版本,支持通用对话、企业知识库构建,适配中小规模开发与企业级应用官网:https://www.baichuan-ai.com/home;开源仓库:https://github.com/baichuan-inc/Baichuan2
MiniMax海螺聚焦企业级服务,支持多轮对话、文档理解、定制化开发,注重数据安全与隐私保护https://api.minimax.chat/、https://hailuoai.com/
MiniMax系列- MiniMax-Text-01:国内首个Linear Attention+MoE架构开源模型(4560亿参,激活459亿),支持400万token超长文本处理(GPT-4o的32倍、Claude-3.5-Sonnet的20倍); - MiniMax-VL-01:视觉多模态模型,深度融合文本与图像理解能力官网:https://www.minimaxi.com/;开源仓库:https://github.com/MiniMax-AI;魔塔社区:https://modelscope.cn/papers/107533、https://modelscope.cn/collections/MiniMax-01-72e71e58917747;小程序体验:https://modelscope.cn/studios/MiniMax/MiniMax-Text-01、https://modelscope.cn/studios/MiniMax/MiniMax-VL-01
书生大模型(上海AI实验室)开源通用大模型,支持多模态(文本、图像)处理,适配科研与产业级应用https://intern-ai.org.cn/home
混元大模型(腾讯)腾讯通用大模型,支持内容生成、代码开发、企业级解决方案,与腾讯云生态深度整合https://hunyuan.tencent.com/
星火大模型(科大讯飞)中文语义理解与语音交互能力突出,支持多模态生成、行业定制(如教育、医疗)https://xinghuo.xfyun.cn/、https://zhiwen.xfyun.cn/create?type=ppt
星火大模型(科大讯飞新增补充)强化多模态与行业适配,支持桌面端交互(星火桌面)、API调用,提供教育、医疗等行业解决方案,通过讯飞开放平台实现快速接入桌面端:https://xinghuo.xfyun.cn/desk;开放平台:https://www.xfyun.cn/;控制台:https://console.xfyun.cn/app/myapp
Kimi(月之暗面)长上下文处理能力强(支持200k+ tokens),适合超长文档(如书籍、报告)分析与总结https://kimi.moonshot.cn/
Kimi-VL(月之暗面新增)月之暗面多模态模型,融合文本与图像理解能力,支持图像描述、跨模态问答,适合视觉相关交互场景https://github.com/MoonshotAI/Kimi-VL
面壁智能大模型聚焦企业级NLP任务,支持文本生成、语义检索、行业知识库构建,提供定制化训练服务https://modelbest.cn/
盘古大模型(华为)基于昇腾芯片优化,算力支持强,适合大规模模型训练与部署,注重国产化与安全合规https://www.huaweicloud.com/intl/zh-cn/、https://www.mindspore.cn/
盘古 Pro MoE 大模型(华为)华为盘古系列混合专家模型,通过MoE架构平衡参数量与计算效率,适用于大规模数据处理与行业定制化任务https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main、https://arxiv.org/pdf/2505.21411
Dream 7B通用能力优异,在数学推理、编程任务上媲美Qwen2.5 7B、LLaMA3 8B,部分场景优于Deepseek V3 671B,提供Base(基座)与Instruct(指令微调)版本基础模型:https://huggingface.co/Dream-org/Dream-v0-Base-7B;SFT模型:https://huggingface.co/Dream-org/Dream-v0-Instruct-7B;代码库:https://github.com/HKUNLP/Dream;项目主页:https://hkunlp.github.io/blog/2025/dream/;在线体验:https://huggingface.co/spaces/m
openrouter/quasar-alphaOpenRouter平台推出的实验性模型,侧重高效文本生成与任务适配,支持通过OpenRouter统一接口调用https://openrouter.ai/openrouter/quasar-alpha
Open R1社区驱动的开源项目,目标复刻DeepSeek-R1功能,提供完全开源的代码生成与理解能力https://huggingface.co/(关联社区仓库)
OlympicCoder专攻代码竞赛场景,基于近10万条CodeForces-CoTs数据集训练,支持C++/Python代码生成,通过IOI竞赛题测试优化,模拟竞赛得分策略-(关联Open R1生态)
OpenMath-Nemotron英伟达开源数学推理模型,含1.5B/7B/14B/32B版本,训练数据含54万问题+320万推理方案,1.5B版本性能可超部分14B竞品,14B-Kaggle版曾用于AIMO-2竞赛https://huggingface.co/collections/nvidia/openmathreasoning、https://github.com/NVIDIA/NeMo-Skills
Xiaomi MiMo小米开源推理大模型(7B参数),通过联动预训练与后训练优化复杂推理性能,实现“小参数量高性能”,适合边缘设备与轻量化推理场景https://github.com/XiaomiMiMo
AM-Thinking-v1侧重“思考型”推理的模型,通过优化注意力机制与推理链路,提升复杂逻辑任务(如多步推理、因果分析)表现https://arxiv.org/pdf/2505.08311
零一万物 Yi 系列中文处理能力突出,提供多参数量版本(如Yi-6B、Yi-34B),支持通用对话、内容生成、代码辅助,开源可商用https://www.lingyiwanwu.com/yi、https://github.com/01-ai/Yi

三、大模型开发与服务平台

(一)模型调用与开发平台

  1. 硅基流动
    • 链接:https://siliconflow.zhike.in/、https://siliconflow.cn/zh-cn/
    • 概括:提供大模型训练、部署、API调用全流程服务,支持多模型适配,含开发者控制台与可视化管理工具,降低开发门槛。
  2. OpenRouter
    • 链接:https://openrouter.ai/
    • 概括:大模型统一调用接口,兼容296个模型与提供商,支持OpenAI SDK,可直接调用或使用第三方SDK,减少多模型集成的重复开发工作。
  3. Hugging Face Hub
    • 链接:https://huggingface.co/docs/hub/index、https://hf-mirror.com/(国内镜像)、https://gitee.com/hf-models(国内镜像)
    • 概括:全球最大开源大模型与工具库,提供模型下载、微调代码、部署教程,国内镜像解决访问速度与合规性问题。

(二)国内开发者社区

  1. 启智社区
    • 链接:https://openi.org.cn/、https://openi.pcl.ac.cn/Learning-Develop-Union
    • 概括:国内AI开源社区,含大模型训练数据集、微调工具、项目案例,支持开发者协作交流与成果分享。
  2. 始智AI社区
    • 链接:https://wisemodel.cn/home
    • 概括:聚焦大模型应用开发,提供模型测评报告、行业解决方案(金融、医疗等)、开发者教程,助力落地实践。
  3. Llama中文社区
    • 链接:https://github.com/LlamaFamily/Llama-Chinese、https://llama.family/
    • 概括:专注Llama系列模型(Llama2、Llama3)的中文适配,提供中文微调数据集、部署指南、优化工具,支持开源协作。
  4. 华为昇思MindSpore
    • 链接:https://www.mindspore.cn/
    • 概括:华为开源AI框架,支持大模型训练、推理与部署,适配多种硬件(GPU、昇腾芯片),提供大模型开发教程与优化工具。

四、云厂商大模型服务

云厂商大模型产品/服务核心优势与适配场景官方链接
百度云文心一言(通用大模型)、千帆大模型平台中文语义理解能力强,平台支持模型微调、部署、API调用,适配企业级定制化需求https://aistudio.baidu.com/、https://cloud.baidu.com/product-s/qianfan_home、https://agents.baidu.com/center
阿里云通义千问(通用大模型)、阿里云百炼平台与阿里生态(电商、云计算)深度整合,支持多模态生成、行业解决方案,适合企业级应用https://www.aliyun.com/、https://www.modelscope.cn/my/overview、https://tongyi.aliyun.com/
火山云(字节)火山方舟大模型平台、豆包(C端产品)支持多模型托管与调用,C端产品交互流畅,企业级平台注重高并发与低延迟https://www.volcengine.com/、https://www.doubao.com/chat/search
腾讯云混元大模型、腾讯云TI-ONE大模型平台适配腾讯社交、游戏、金融生态,支持内容生成、智能客服、数据分析,提供全流程开发工具https://cloud.tencent.com/、https://hunyuan.tencent.com/
华为云盘古大模型、ModelArts大模型开发平台基于昇腾芯片优化,算力支持强,适合大规模模型训练与部署,注重国产化与安全合规https://www.huaweicloud.com/intl/zh-cn/、https://www.mindspore.cn/
金山云金山大模型、KMS大模型服务平台聚焦中小微企业与开发者,提供轻量化部署方案,成本较低,支持快速接入https://www.ksyun.com/
微软AzureAzure OpenAI Service(GPT系列)、Azure AI Studio全球部署,支持多区域合规,与微软办公生态(Office 365)整合,适合跨国企业使用https://azure.microsoft.com/zh-cn/
AWS亚马逊云Amazon Bedrock(多模型平台)支持调用GPT、Claude、Stable Diffusion等主流模型,提供弹性算力,适合全球业务部署https://aws.amazon.com/cn/
IBMWatsonx大模型平台聚焦企业级AI应用,支持行业定制(金融、医疗),注重数据安全与隐私保护https://www.ibm.com/cn-zh
http://www.dtcms.com/a/424218.html

相关文章:

  • 【term】票据质押和背书的区别
  • 第四部分:VTK常用类详解(第118章 vtkWarpScalar标量变形类)
  • HTB 赛季9靶场 - Imagery
  • 集团微网站建设中企动力初期做的网站
  • 中山网站seo办公资源网
  • 检索增强生成(RAG)全流程解析
  • JAVA:Spring Boot 集成 AspectJ 实现切面编程
  • Promse.all 与 Promise.allSettled
  • 网站本科腾讯企点
  • 杭州高端品牌网站建设网站建设维护升级
  • 上海大规模网站建设平台北京城市副中心投资建设公司网站
  • 360免费建站空间网站建设网络安全
  • 金融适合什么颜色做网站广州seo公司官网
  • DeepSeek-V3.2:DSA稀疏注意力的降本增效
  • SpringBoot 不更改 pom.xml 引入各种 JDBC 驱动 jar 包
  • 【37】C# WinForm入门到精通 —— Winform界面运行后,界面上的字体 图案 整体感觉模糊,解决办法
  • 哪家公司建5g基站网站怎么做qq的授权登陆
  • 做解析视频网站违法莫网站调优技能
  • 个人建设视频网站ppt模板制作免费下载
  • 20250929的学习笔记
  • 字节序和位操作
  • 没有公司自己做网站百度云wordpress怎么搭建网站
  • 《Python 中的“面向接口编程”:抽象基类的力量与实践指南》
  • 25.渗透-.Linux基础命令(十七)-Linux系统状态管理(安全加固-删除无关账户)
  • wordpress响应式网站模板下载企业手机网站建设流程图
  • ollama离线部署加载Bge-M3向量模型
  • 全站仪快速建站本地建站工具
  • AI照片转二次元
  • A股大盘数据-20250929分析
  • 攻防世界-Web-upload1