当前位置: 首页 > news >正文

Ollama部署下载Qwen3-Embedding(含0.6B、4B、8B等)向量模型和Qwen3-Reranker(含0.6B、4B、8B等)重排模型的方法

第一步,安装Ollama。打开官网下载:https://ollama.com/download

可以选择Download for Windows来下载。然后双击OllamaSetup.exe按提示安装完成。

第二步,打开Windows PowerShell,或者CMD命令。

如下载Qwen3-Embedding-0.6B,可以输入Ollama命令:

ollama run dengcao/Qwen3-Embedding-0.6B:F16

如下载Qwen3-Reranker-0.6B,可以输入Ollama命令:

ollama run dengcao/Qwen3-Reranker-0.6B:F16

接下来等待下载完成即可。

下面列出Qwen3-Embedding和Qwen3-Reranker各个版本的Ollama安装命令。

Qwen3-Embedding-0.6B系列:

ollama run dengcao/Qwen3-Embedding-0.6B:Q8_0

ollama run dengcao/Qwen3-Embedding-0.6B:F16

Qwen3-Embedding-4B系列:

ollama run dengcao/Qwen3-Embedding-4B:Q4_K_M

ollama run dengcao/Qwen3-Embedding-4B:Q5_K_M

ollama run dengcao/Qwen3-Embedding-4B:Q8_0

Qwen3-Embedding-8B系列:

ollama run dengcao/Qwen3-Embedding-8B:Q4_K_M

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M

ollama run dengcao/Qwen3-Embedding-8B:Q8_0

Qwen3-Reranker-0.6B系列:

ollama run dengcao/Qwen3-Reranker-0.6B:Q8_0

ollama run dengcao/Qwen3-Reranker-0.6B:F16

Qwen3-Reranker-4B系列:

ollama run dengcao/Qwen3-Reranker-4B:Q4_K_M

ollama run dengcao/Qwen3-Reranker-4B:Q5_K_M

ollama run dengcao/Qwen3-Reranker-4B:Q8_0

Qwen3-Reranker-8B系列:

ollama run dengcao/Qwen3-Reranker-8B:Q3_K_M

ollama run dengcao/Qwen3-Reranker-8B:Q4_K_M

ollama run dengcao/Qwen3-Reranker-8B:Q5_K_M

ollama run dengcao/Qwen3-Reranker-8B:Q8_0

关于量化版本的说明:

q8_0:与浮点数16几乎无法区分。资源使用率高,速度慢。不建议大多数用户使用。

q6_k:将Q8_K用于所有张量。

q5_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q5_K。

q5_0: 原始量化方法,5位。精度更高,资源使用率更高,推理速度更慢。

q4_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q4_K

q4_0:原始量化方法,4 位。

q3_k_m:将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K

q2_k:将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量,Q2_K用于其他张量。

根据经验,建议使用 Q5_K_M,因为它保留了模型的大部分性能。或者,如果要节省一些内存,可以使用 Q4_K_M。

Qwen3深夜上新,Embedding系列和Reranker系列全新登场!

它专为文本表征、检索与排序任务设计,旨在将文本(如句子、段落)转换为高质量的向量表示,以便在语义搜索、问答系统、推荐引擎等应用中更有效地处理和理解自然语言。

可用于文档检索、RAG、分类、情感分析、检索等任务。

它在Qwen3基础模型上训练而来,充分发挥Qwen3的多语言优势。

一共有0.6B/4B/8B三种尺寸,8B版本在MTEB多语言Leaderboard榜单中排名第一,性能超越一众商业API服务。

相关文章:

  • 【RAG召回】BM25算法示例
  • 智慧城市项目总体建设方案(Word700页+)
  • 楠溪江诗意传承:李文照笔下的山水印记
  • leetcode_56 合并区间
  • 十一.C++ 类 -- 面向对象思想
  • day50 随机函数与广播机制
  • 【西门子杯工业嵌入式-6-ADC采样基础】
  • CMake基础:gcc/g++编译选项详解
  • 结合三维基因建模与智能体技术打造工业软件无码平台
  • 2025-06-08-深度学习网络介绍(语义分割,实例分割,目标检测)
  • 什么是 Ansible 主机和组变量
  • 【数据结构】顺序表和链表详解(下)
  • C++ - string 的使用 #auto #范围for #访问及遍历操作 #容量操作 #修改操作 #其他操作 #非成员函数
  • FBRT-YOLO:面向实时航拍图像检测的轻量高效目标检测框架
  • 股指期货技术分析与短线操作方法介绍
  • 从C到C++语法过度1
  • windows安装Nexus3.6
  • golang循环变量捕获问题​​
  • 网络之交换机
  • InnoDB
  • 网站推广效益怎么分析/百家号关键词排名优化
  • 用dw做网站怎么添加背景图片/高级seo培训
  • p2p 金融网站开发/百度提交网站
  • 邢台做网站推广价格/南宁seo外包靠谱吗
  • 做直播网站赚钱吗/百度推广区域代理
  • 东道设计学院/seo是什么品牌