当前位置: 首页 > news >正文

以deepseek为例的AI学习及公司知识库的搭建

一、 如何下载模型参考下列文章和视频

https://testerhome.com/articles/41474
https://www.bilibili.com/video/BV1QyFoeuE3e/?spm_id_from=333.1387.favlist.content.click&vd_source=13dd0c4a82a579a2d8aef2ac9bf547bc

  • 启动模型命令

       ollama run deepseek-r1:1.5b
    
  • 列出本地已下载的 AI 模型

      	ollama list 
    

二、 如何搭建公司的知识库

大概流程:数据准备→预处理→向量化存储→模型集成→构建检索和生成系统→权限和界面开发→测试优化→部署维护

1 .数据准备阶段

1 预处理

三、 名词解释

  • AGI:
    通用人工智能(Artificial General Intelligence),是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念 [1]。其研究发展通常涉及众多学科领域,包括计算机科学、认知科学、心理学、神经科学等.(这个是AI的终极目标)
  • Hugging Face( https://huggingface.co/):
    Hugging Face Hub 允许用户上传、分享、管理 AI 模型、数据集和代码。你可以 Fork 其他人的模型,就像在 GitHub 上 Fork 代码一样。总结:Hugging Face 作为 AI 领域的 GitHub/Docker Hub
  • 神经网络
  • 前向传播
  • RGA
  • ollama
    Ollama 是一个开源的人工智能平台,旨在为开发者提供更便捷的方式来构建和部署基于大型语言模型(LLMs,Large Language Models)的应用。它的目标是提供一种高效、简洁且低成本的方式来运行和集成语言模型,允许用户在本地环境中高效地使用 AI总结;像 运行 Docker 容器,但 Ollama 聚焦于 AI 模型的运行,而不涉及其他复杂的部署步骤
  • Agent(智能体):最重要的思考模型,一堆流程、工具和api,具有意图识别(词槽 还有反问用户生成模型时确实的东西 如点外卖 会追问你喜好和价格)、意图转移等功能 总结:如查询今天订单总价格 他就知道去调用哪个api了
    在这里插入图片描述

智能体参考(https://meeting.tencent.com/cw/2GoPkEpMe5)

  • 词向量
    词向量(Word Embedding)是一种将词语映射到高维向量空间的技术。通过这种方式,每个词都被表示为一个固定长度的向量(通常是几十到几百维)。这些向量能够捕捉词与词之间的语义关系,使得相似意义的词在向量空间中彼此靠得更近。例如,“王”和“皇帝”在词向量空间中会比“王”和“狗”更接近。
  • 向量库
    向量库(Vector Database):向量库是用于存储和管理高维向量的数据库。由于现代AI任务中,经常需要处理大量的向量数据,特别是词向量、句向量、图像特征向量等,传统的关系型数据库并不适合存储和高效地查询这些数据。因此,向量数据库被开发出来,以便对这些高维数据进行快速的插入、存储、检索和相似度计算
  • 余弦相似度
    余弦相似度用来衡量两个词向量之间的相似度,计算的是它们的角度大小。对于两个词语,如果它们的词向量之间的夹角较小(即余弦相似度接近1),那么这两个词语的语义较为相近。比如,“猫”和“狗”的词向量之间的余弦相似度通常较高,因为它们都是常见的宠物。
    词向量、 向量库与余弦相似度之间得关系
    举个实际例子,假设我们有一个搜索引擎,当用户输入一个查询词时:

这个查询词首先被转换成词向量(比如 “猫” → 词向量A)。
然后,在向量库中检索所有词的向量,并计算它们与词向量A的余弦相似度。
最后,返回那些与查询词“猫”最相似的词(比如“狗”,“宠物”)。
所以,这三者结合在一起,构成了一个有效的文本检索、推荐或理解的基础。

相关文章:

  • Golang 相关的github 开源项目
  • 便捷批量字符一键查找替换工具
  • 首页 layout 架子(element-plus菜单组件)
  • 解锁机器学习核心算法 | 逻辑回归:不是回归的“回归”
  • 通过API 调用本地部署 deepseek-r1 模型
  • 关系中出现这10个信号,离分手就不远了(爱情友情都适用)
  • idea连接gitee后.反向创建仓库和分支
  • 前端基础入门:HTML、CSS 和 JavaScript
  • 【股票数据API接口28】如何获取强势股池数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据
  • Scrapy:DownloaderAwarePriorityQueue队列设计详解
  • 企业软件合规性管理:构建高效、安全的软件资产生态
  • docker知识
  • 网工项目实践2.8 IPv6设计及网络优化需求分析及方案制定
  • 2025.2.20总结
  • 分布式架构与XXL-JOB
  • Redis常用命令合集【二】
  • 【Axure高保真原型】嵌套表格
  • 【LeetCode Hot100 链表(上)】相交链表、反转链表、回文链表、环形链表、合并两个有序链表、两数相加
  • PrimeFaces实战:IdleMonitor与Ajax的完美结合
  • 论文笔记(七十二)Reward Centering(二)
  • 加拿大新政府宣誓就职
  • 海运港口股掀涨停潮!回应关税下调利好,有货代称美线舱位爆了
  • 外国游客“在华扫货”热:“带空箱子到中国!”
  • 某博主遭勒索后自杀系自导自演,成都警方立案调查
  • 江西省市场监管局原局长谢来发被双开:违规接受旅游活动安排
  • 水豚“豆包”出逃已40天,扬州茱萸湾景区追加悬赏