当前位置: 首页 > news >正文

如火如荼的deepseek,AI初试探!

一、随写

第一次不打草稿,碎屑~

过年的时候DeepSeek临空出世,互联网热了。开始我基本没啥关注,想着先是渡过一波“吹牛逼”和“东西混战”的娱乐期。等着有空学习...

然后就是然后...

新学期被迫上了数据结构的课程,需要备课学习,开会,期间听了一场“ali的部署营销会”,随性想着自己也在alinyun上搭建一个试试,无奈没有student的身份了,没办法申请免费的token,而且需要自己去买gpu服务器的,想想,穷了...

一天在学习数据结构的时候,想着如何分析某个算法的时空复杂度时,想想自己的破电脑(2018年的台式机)自己搭个简单的ai模型来寻求答案。于是就开干了。

先贴来实践,后续再补充玩AI,需要了解理解哪些理论的东西,也方便后续真有写论文之类的东西把。

二、本篇AI初试探的逻辑

1、先贴下实践结果;

2、再总结下自己玩这个心得收获;

3、最后简述下自己本地部署小规模训练模型的步骤。

三、本地部署的环境和实践截图

1、本地环境

物理机,快10年了,当年的网吧机器弄来的(cpu:e3 + mem:24g + gpu:3g);

操作系统:win10;

gpu:amd radeon R9 200series

如下三个图:

2、安装LM Studio-0.3.11

LM studio这是啥??

LM Studio是一个用于本地运行大型语言模型(LLMs)的软件,提供了多项核心功能和主要特性。主要包括以下内容:

核心功能

  1. 模型运行‌:允许用户在自己的计算机上本地运行大型语言模型,无需依赖云端或外部API服务。

  2. 模型训练‌:提供了丰富的训练数据和算法库,支持用户根据实际需求选择合适的数据集和算法进行模型训练。同时,还提供了可视化的训练监控界面,让用户能够实时了解模型的训练状态和性能。

  3. 模型部署‌:训练好的模型可以通过LM Studio轻松部署到各种应用场景中,如智能客服、自然语言处理等。

  4. 模型调试‌:在模型运行过程中,LM Studio提供了强大的调试工具,帮助用户快速定位问题并进行优化。

主要特性

  1. 接口兼容‌:LM Studio提供了与OpenAI类似的服务接口,这使得开发者能够轻松迁移或开发应用程序。

  2. 文本嵌入‌:支持生成文本嵌入,这对于基于检索的生成应用(RAG)特别有用。

  3. 多平台支持‌:LM Studio支持多个操作系统,包括Windows、macOS(适用于M1/M2/M3芯片)和Linux(Ubuntu 22.04)。

  4. 编程支持‌:允许通过编程方式在JavaScript/TypeScript/Node环境中使用LLMs,增加了应用程序的灵活性和集成能力。

  5. 命令行工具‌:提供了一个命令行工具lms,方便开发者和终端用户通过命令行进行操作。

应用场景

  1. 智能客服‌:通过部署LLM模型,企业可以实现智能客服系统的自动化回答和智能推荐,提高客户满意度和服务效率。

  2. 自然语言处理‌:LLM模型在自然语言处理领域具有广泛应用,如文本分类、情感分析、机器翻译等。LM Studio为这些应用提供了强大的支持。

  3. 学术研究‌:对于自然语言处理领域的学者和研究人员来说,LM Studio提供了一个强大的研究工具,帮助他们更好地理解和应用大型语言模型。

其他特性

  1. 离线运行‌:所有数据和计算都在本地进行,无需互联网连接,确保数据隐私和安全性。

  2. 模型兼容性‌:支持Hugging Face上的多种流行模型,如Llama、MPT和StarCoder等。

  3. 易于使用的界面‌:通过直观的聊天界面或OpenAI兼容的本地服务器,用户可以轻松地与模型交互。

  4. 模型下载与管理‌:用户可以直接从Hugging Face下载所需的模型文件,并在LM Studio中进行管理。

  5. 新模型发现‌:应用程序的首页展示了最新和最有趣的LLMs,方便用户探索和尝试。

综上所述,LM Studio是一个功能强大且灵活的本地大型语言模型工作站,适用于多种应用场景和需求。

所以我就用了这个,结合我的AMD gpu跑deepseek的训练模型。^V^....

贴个官网最有价值:LM Studio - Discover, download, and run local LLMs

官网如下图:

3、我的实验结果

1)、下载几种训练模型,如下图。试用了几次,主要以Qwen-1.5B为主。

2)、问了一个数学证明的方法问题。首次解答用了8分钟多。

3)、提问了一个算法的一个题(备课难题,^~^),也请各位童鞋帮忙分析下真的答案,毕竟我也用了千问、SCnet超算,KIMI,得出的结论都不一样。

想想... 还在训练ing

四、一些心得

玩AI要弄懂的几个术语概念
1、常用的AI工具有哪些?

阿里通义千问:

头条豆包:

Kimi:

DeepSeek:

腾讯元宝

各自使用场景?
2、AI训练模型是什么?DeepSeek开源的模型有哪些可以自己玩的?

推理模型vs通用模型;

基于概率,基于逻辑推理?

原来不仅只有这些,google,openai,国内的BAT都有可以开源,玩的

3、了解训练模型的一些关键术语?

...

context;

Llama,Qwen系列;

(1.5b,7b,14b,32b)

具体解释?

总结两个字:要学习、要持续学习。

ps、有后续

五、部署的步骤

主要思路就动手查资料,然后选一个doityourself。

AMD R9 200显卡太老了,只有3g的内存,还在是AMD的,官方有支持说明,这样是选择LM studio的原因。小伙伴要也是AMD的显卡,看看官网支持:

再去lmstudio.ai官网下载该平台。

然后进入studio配置,查找框中输入deepseek,如下:

接着下载选中的模型即可。

下载完成,后面的就简单了,载入模型,自动配置,提问就可以了,也可以手动配置参数

相关文章:

  • 如何基于LLM及NL2SQL打造对话式智能BI助手
  • 网络与网络安全
  • Springboot-mybatis配置多数据源
  • 加油站小程序实战教程09显示站点信息
  • Z字形字符串转换力扣6
  • 网站总报SSL错误?常见原因及解决方案
  • 开启mysql远程登录
  • 面试过了,总结测试工程师面试题(含答案)
  • 【Git原理与使用二】Git 分支管理
  • 深度学习(斋藤康毅)学习笔记(六)反向传播3
  • 面试中常问的mysql数据库指令【杭州多测师_王sir】
  • 盛铂科技 FlexDDS - NG波形发生器(直接数字信号合成器(DDS)):量子光学研究的得力助手
  • HTML学习笔记(全)
  • 第三章:go 依赖管理 go get / go get tidy
  • Windows应用访问 WSL中服务的5 种选择方案
  • 第一:goland安装
  • 嵌入式开发之串行数据处理
  • 计算机毕业设计SpringBoot+Vue.js疗养院管理系统(源码+文档+PPT+讲解)
  • AI如何重塑运维体系
  • fastapi房产销售系统
  • 合肥网站建设公司 招聘/外贸推广方式都有哪些
  • 广东网站备案查询系统/百度首页 百度
  • 梅州专业网站建设教程/百度推广优化师是什么
  • 如何做360搜索网站/百度招聘电话
  • 网站建设公司有多少/西安网站建设比较好的公司
  • 做商城网站需要什么/廊坊百度关键词排名平台