当前位置: 首页 > news >正文

DeepSeek(14):DeepSeek 模型微调

1 通用模型和专业模型对比

通用模型(基座模型)

  • 无监督学习
  • 通过上句猜下句,不具备专业能力

专业模型(微调模型)

  • 有监督模型
  • 针对业务场景
  • 具备专业能力

举例说明,如下图:

左侧是基础模型(Base Model),当面对皮肤刺激、红肿和瘙痒等症状时,该模型只能给出一个简单的诊断结果:“可能是痤疮。没有足够的信息来做出更精确的诊断。

右侧是经过微调的模型(FinetunedModel),给出了更为详细的结果:“您混合了非炎症性粉刺性和炎症性丘疹脓疱性痤疮。”微调后的模型已经学习了额外的皮肤病数据,因此能提供更加精准的医疗建议或诊断。

2 Prompting(提示工程)和Finetuning(微调)对比

Prompting(提示工程)

优点:

  1. 无需数据即可开始
  2. 较小的前期成本
  3. 不需要技术知识
  4. 通过检索连接数据(RAG)

缺点:

  1. 数据适配较少
  2. 忘记数据
  3. 产生幻觉
  4. RAG可能遗漏或获取错误的数据适用场景:通用、边项目、原型开发

Finetuning(微调)

优点:

  1. 几乎无限的数据适配
  2. 学习新信息
  3. 纠正错误的信息
  4. 如果是较小的模型,后续成本较低
  5. 使用RAG

缺点:

  1. 更高质量的数据
  2. 前期计算成本较高
  3. 需要一些技术知识,尤其是关于数据的适用场景:领域特定、企业级、生产环境使用..隐私!

相关文章:

  • Go 语言标准库中sort模块详细功能介绍与示例
  • 为什么 PPO 概率计算适合连续动作
  • 办公网络健康监控(域名健康监控)
  • 六十天前端强化训练之第三十二天之Babel 转译配置大师级深度讲解
  • Python实现单因素方差分析
  • 构建大语言模型应用:简介(第一部分)
  • vs 2022安装指南
  • 深入解析 TypeScript 核心配置文件 tsconfig.json
  • 本地AI大模型部署革命:Ollama部署和API调试教程
  • 【JavaEE】Mybatis 动态SQL
  • ctfshow-web入门-特定函数绕过(web396-web405)
  • 剑指Offer62 -- 约瑟夫环
  • 黑盒测试的概念和特点
  • JAVA SE :认识数组
  • C#中,什么是委托,什么是事件及它们之间的关系
  • Linux内核调试 - Hung_task机制分析下
  • ADZS-ICE-2000和AD-ICE2000仿真器在线升级固件
  • 典范硬币系统(Canonical Coin System)→ 贪心算法
  • EXCEL报错:无法共享此工作薄,因表包含excel表或xml映射的解决方法
  • 合合信息TextIn大模型加速器 2.0来了:智能文档解析和图表解析能力全面升级
  • 孝义网站建设/营销渠道模式有哪些
  • 政府网站html模板/百度网站客服
  • 留言网站建设的报告/网站seo技术能不能赚钱
  • 营销型网站建设优势/百度咨询电话人工台
  • 物流公司网站开发与淘宝对接 在淘宝卖家中心显示物流信息/免费seo工具汇总
  • 眉山建行网站/安徽seo优化