DeepSeek大模型思考与初探
一、DeepSeek场景使用思考与理解
1. deepseek不是万能药,网上很多信息过分夸大了deepseek的能力,也存在很多企业为了获得更多的资源和流量,会将一些传统的AI模型调度包装成大模型来对外进行引流。
ex:
【对场景中提到的ds能实现”动态拼车优化“存疑” ,原因主要有:
1) ds在企业场景上应用还在探索阶段,对于VRP问题在当前ds中的小数据测试效果也没有非常理想,短期快速商业化不太可能;
2)ds模型不是用来解决动态调度决策问题,而是针对某个具体场景去做具体的回应,动态调度决策通常是在预知到发生的所有可能情况后,通过系统配置部署,针对不同业务场景,系统自动化调用不同类型的小模型去解决;
3)ds这类生成式的模型还会存在幻化现象(即一本正经胡说八道),这类幻化现象的产生表明了其不可预知性,故不能完全相信它输出的结果在未经复核的情况下就能直接进行使用,故动态调度决策这类高度自动化场景是否能给与ds足够容错空间也存在疑问】
2. 个人对于大模型和应用场景的理解:
- AI是个宽泛的概念,一个AI的落地涉及到三种资源:算法、算力和高质量的数据 ; 三者相互协同和补足;
- 简单通用的场景可以用高质量的数据结合定制化算法模型进行一次性训练后,能在很多类似场景做复用;后续变化的将只是算力的资源,其算力使用会随着类似简单场景复用的数量上升而上升。
- 复杂且涉及不同业务场景串联的调度是一个系统性的工程,对于系统性的工程无法只用一种算法经过一次性训练完成。
1)为简化工程的复杂度,往往会将这个工程先进行拆分,细化为不同的业务场景,基于每个细化的业务场景使用定制化算法和数据去做训练,最后再将不同场景下训练好的模型可能会再经过一轮串联调优,并经过统一的调度配置再上线实施。
2)基于此,复杂且涉及不同业务场景关联的大模型指的是它是为解决一个复杂系统工程而设计包含不同类型小模型并进行串联起来的模型,这里的大模型是概念上的大(非ds这类使用单一模型且参数配置上的大),该模型无法通用化且只能解决一个全局优化的场景,如顺丰全网物流车辆资源的实时和统一的动态调度。故该类大模型是无法完全直接复用到京东的物流场景上。
3. ds毕竟属于生成式AI,在决策及量化场景下它给出的解当前还存在很大不稳定性以及不可解释性,故运筹优化在很多场景上对问题的求解依然时最有效的工具。
4. 虽然ds还存在很多问题,但不可否认其已经能给诸多行业和场景带来非常大的变革和工作效率的提升,尤其是在逻辑思考能力上,对不同的场景能快速实现基础思维框架和代码框架的搭建。在当前信息爆炸的时代,其对于网上不同类型新闻信息的提取和总结,也节省了我们对于信息检索提炼的时间,它也将成为我们每个人日常的高效且不知疲倦的助理,大大赋能我们的工作。
二、DeepSeek功能测试
DS试用样例
1. 问题:
输出一个禁忌搜索的线路优化python代码,涉及到多辆车,且目标函数是使用车辆数最少
2. DS回答共计3个部分:
1)分析过程(共计7653个字),包含需求理解和需求补全 【惊喜部分】 以及实施步骤拆解和代码解析
2)一个包含简单样例的代码框架 【测试后能在python上跑出结果】
3)代码简单说明【这部分比较粗】
a. 分析部分:
【需求补足:如上,问题里没有提到要考虑距离最短这一第二目标,但ds在经过逻辑思考后,考虑到在满足车辆数最少前提下,也要尽量去减少总的行驶距离,能够将我们比较粗的需求粒度进行了优化和完善】
b. 代码部分:
【经验证后,上述代码在pyhon环境里能够跑通,虽然该代码还达不到工程化的程度,但已经有一个基础的框架雏形】
c. 代码说明部分:
样例试用总结:
1) ds对用户提出的需求有更深层次的理解且比较精准,逻辑思维缜密
2) ds在解释部分相比其他生成式大模型,能逐步拆解其思考逻辑和框架,解释也比较完善和清晰,对阅读者实现了其思考逻辑透明化
3) 基于其思考逻辑,能对细分业务场景的代码能快速搭建一个代码雏形且能跑通,未来将能大大提升工程师的开发效率
三、后续计划探索方向
- deepseek自有框架是否可以下载调度训练(如果可以,如何训练还不知道)
- deepseek在供应链业务场景应用的相关文章检索
- deepseek如何融合到当前的wps和office上以及如何应用