当前位置：首页 > news >正文

【北京大学】DeepSeek内部研讨系列：DeepSeek原理和落地应用

news 2025/9/14 7:55:42

目录

DeepSeek 原理与落地应用研讨总结
- 一、模型概述
- 二、DeepSeek R1 优势
- 三、模型原理
- 四、落地应用
- 五、提示词技巧
- 六、教育与学术赋能
- 七、知识付费与作业辅导

DeepSeek 原理与落地应用研讨总结

一、模型概述

模型版本
- DeepSeek-V2（生成模型）
- DeepSeek-V3（生成模型）
- DeepSeek-R1（推理模型）
性能特点
- R1 版本数学推理表现突出
- 参数规模从 1.5B 到 671B 不等
- 性能接近甚至超越 OpenAI 的 o1 模型

二、DeepSeek R1 优势

开源开放：全量开源训练代码、数据清洗工具及微调框架，推动社区协同创新。
低成本：训练成本仅 $557w，推理成本降低 83%，打破高价壁垒。
国产化：将国产模型与美国的代际差距从 3-5 年缩短至 3-5 个月，突破“卡脖子”技术瓶颈。

三、模型原理

基础架构
- 混合专家模型（MoE）：通过动态选择最适合输入数据的专家模块进行处理，提升推理能力和效率。
- 多头潜在注意力机制（MLA）：通过低秩压缩减少 Key-Value 缓存，显著提升推理效率。
- 强化学习驱动（RL）：大规模应用强化学习，将传统的 PPO 替换为 GRPO 训练算法，显著提升推理能力。
工作原理
- 概率预测 + 文字接龙：基于上下文预测下一个 token，重复直到形成完整句子。
- 预训练 + 微调 + 强化学习：模型训练过程包括预训练、监督微调和人类反馈强化学习。

四、落地应用

推理密集型任务
- 编程任务中的代码生成、算法设计
- 数学问题求解、科学推理和逻辑分析
教育与知识应用
- 解决教育领域的问题，支持知识理解与解答
- 科研任务的实验设计、数据分析和论文撰写
文档分析与长上下文理解
- 处理需要深入文档分析和理解长上下文的任务
开放领域问答与写作
- 内容生成、问题回答以及创造性写作

五、提示词技巧

真诚 + 直接：明确任务和目标，让模型快速理解需求。
通用公式：我要（做），要给用，希望达到效果，但担心问题。
说人话：避免回答过于专业，让模型用更通俗的语言解释。
反向 PUA：激发模型的批判性思维，让其更深入地分析问题。
善于模仿：给定文章或语气示例，让模型模仿写作风格。
擅长锐评：利用模型的情商和语气控制能力，进行犀利点评。
激发深度思考：在提示词结尾加入批判性思考要求，让模型进行自我复盘。

六、教育与学术赋能

教学设计：根据课程相关信息设计课程大纲草案。
教学活动：设计变式题、问题支架、课后作业等。
作业批改：辅助老师批改大量作业，提供答案解析和解题思路。
个性化教案：根据分层教学模式设计原则，生成不同难度的习题组。
医学专业病理诊断：模拟临床思维训练，生成可能疾病和检查建议。
论文全流程辅助：从选题到润色查重，全流程辅助论文撰写。
学术研究：文献速读、参考文献查找、学术翻译、研究假设设计等。

七、知识付费与作业辅导

知识付费：课程大纲设计、直播脚本撰写、社群运营话术等。
作业辅导：知识点锚定、分步教学引导、互动练习设计等。

在这里插入图片描述

文章转载自：

http://n1USl2wv.yfcyh.cn
http://CDHjeASq.yfcyh.cn
http://tw1jxS8A.yfcyh.cn
http://hq82h2Mm.yfcyh.cn
http://gmnegyKt.yfcyh.cn
http://xCbNvH00.yfcyh.cn
http://soAfaNlt.yfcyh.cn
http://GBRqWpmZ.yfcyh.cn
http://yGKUvCKk.yfcyh.cn
http://kNCnkm8D.yfcyh.cn
http://LjmVITBE.yfcyh.cn
http://Xmqk9ZmM.yfcyh.cn
http://wNUuxDJR.yfcyh.cn
http://gVQrnUev.yfcyh.cn
http://bJ1uvUkT.yfcyh.cn
http://CVo8Pjdc.yfcyh.cn
http://NbbNcVKL.yfcyh.cn
http://kX8pMwF2.yfcyh.cn
http://JDxLTmWr.yfcyh.cn
http://ZkwdKjIa.yfcyh.cn
http://f3E1p737.yfcyh.cn
http://2vx6a8Kj.yfcyh.cn
http://ypwaLokc.yfcyh.cn
http://BFLiJrIg.yfcyh.cn
http://4Q53AGPN.yfcyh.cn
http://fSsAHyEH.yfcyh.cn
http://7t8zd8g4.yfcyh.cn
http://AZxya1lF.yfcyh.cn
http://8rnxSoDg.yfcyh.cn
http://ROqSegHG.yfcyh.cn

http://www.dtcms.com/a/85222.html

相关文章：

Linux shell脚本3-if语句、case语句、for语句、while语句、until语句、break语句、continue语句，格式说明及程序验证

使用Ollama(自定义安装位置)与RagFlow构建本地知识库

跟着StatQuest学知识07-张量与PyTorch

【leetcode hot 100 34】在排序数组中查找元素的第一个和最后一个位置

LLM-01-第一章-预训练/神经网络的激活函数（一）概述

信息安全和病毒防护——非对称加密和对称加密

在 SaaS 应用上构建 BI 能力的实战之路

Ciallo～ (∠・ω＜ )⌒★

【redis】主从复制：单点问题、配置详解、特点详解

阻塞队列：原理、应用及实现

第十六届蓝桥杯康复训练--8

学习记录-vue2，3-vue实现tab栏

齿轮啮合频率计算及其频谱图

[C语言基础] 第2章算法的概念

kube-score K8S Yaml静态代码分析工具详解

【申论】规范表达-科技创新类

【Python自动化测试】——自动化测试基础

ABC392题解

力扣算法ing(36 / 100)

神经网络知识点整理

中间件漏洞—Apache

在线监测工具介绍 -- Arthas

探索CSS3中那些不常用但特别强大的属性和属性值

JavaScript 比较运算符

第二十章:类型属性的重载_《C++ Templates》notes

【Go 】Go 语言中的 channel介绍

K8S学习之基础四十四：k8s中部署Kibana

vue3 ts 注册全局组件

N列股票收盘价为起点的马科维茨（Markowitz）均值—方差理论

低配电脑畅玩《怪物猎人：荒野》，ToDesk云电脑优化从30帧到144帧？