当前位置：首页 > news >正文

Ollama部署下载Qwen3-Embedding（含0.6B、4B、8B等）向量模型和Qwen3-Reranker（含0.6B、4B、8B等）重排模型的方法

news 2025/8/21 0:51:08

第一步，安装Ollama。打开官网下载：https://ollama.com/download

可以选择Download for Windows来下载。然后双击OllamaSetup.exe按提示安装完成。

第二步，打开Windows PowerShell，或者CMD命令。

如下载Qwen3-Embedding-0.6B，可以输入Ollama命令：

ollama run dengcao/Qwen3-Embedding-0.6B:F16

如下载Qwen3-Reranker-0.6B，可以输入Ollama命令：

ollama run dengcao/Qwen3-Reranker-0.6B:F16

接下来等待下载完成即可。

下面列出Qwen3-Embedding和Qwen3-Reranker各个版本的Ollama安装命令。

Qwen3-Embedding-0.6B系列：

ollama run dengcao/Qwen3-Embedding-0.6B:Q8_0

ollama run dengcao/Qwen3-Embedding-0.6B:F16

Qwen3-Embedding-4B系列：

ollama run dengcao/Qwen3-Embedding-4B:Q4_K_M

ollama run dengcao/Qwen3-Embedding-4B:Q5_K_M

ollama run dengcao/Qwen3-Embedding-4B:Q8_0

Qwen3-Embedding-8B系列：

ollama run dengcao/Qwen3-Embedding-8B:Q4_K_M

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M

ollama run dengcao/Qwen3-Embedding-8B:Q8_0

Qwen3-Reranker-0.6B系列：

ollama run dengcao/Qwen3-Reranker-0.6B:Q8_0

ollama run dengcao/Qwen3-Reranker-0.6B:F16

Qwen3-Reranker-4B系列：

ollama run dengcao/Qwen3-Reranker-4B:Q4_K_M

ollama run dengcao/Qwen3-Reranker-4B:Q5_K_M

ollama run dengcao/Qwen3-Reranker-4B:Q8_0

Qwen3-Reranker-8B系列：

ollama run dengcao/Qwen3-Reranker-8B:Q3_K_M

ollama run dengcao/Qwen3-Reranker-8B:Q4_K_M

ollama run dengcao/Qwen3-Reranker-8B:Q5_K_M

ollama run dengcao/Qwen3-Reranker-8B:Q8_0

关于量化版本的说明：

q8_0：与浮点数16几乎无法区分。资源使用率高，速度慢。不建议大多数用户使用。

q6_k：将Q8_K用于所有张量。

q5_k_m：将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量，否则Q5_K。

q5_0： 原始量化方法，5位。精度更高，资源使用率更高，推理速度更慢。

q4_k_m：将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量，否则Q4_K

q4_0：原始量化方法，4 位。

q3_k_m：将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量，否则Q3_K

q2_k：将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量，Q2_K用于其他张量。

根据经验，建议使用 Q5_K_M，因为它保留了模型的大部分性能。或者，如果要节省一些内存，可以使用 Q4_K_M。

Qwen3深夜上新，Embedding系列和Reranker系列全新登场！

它专为文本表征、检索与排序任务设计，旨在将文本（如句子、段落）转换为高质量的向量表示，以便在语义搜索、问答系统、推荐引擎等应用中更有效地处理和理解自然语言。

可用于文档检索、RAG、分类、情感分析、检索等任务。

它在Qwen3基础模型上训练而来，充分发挥Qwen3的多语言优势。

一共有0.6B/4B/8B三种尺寸，8B版本在MTEB多语言Leaderboard榜单中排名第一，性能超越一众商业API服务。

查看全文

http://www.dtcms.com/a/239098.html

【RAG召回】BM25算法示例

智慧城市项目总体建设方案（Word700页+）

楠溪江诗意传承：李文照笔下的山水印记

leetcode_56 合并区间

十一.C++ 类 -- 面向对象思想

day50 随机函数与广播机制

【西门子杯工业嵌入式-6-ADC采样基础】

CMake基础：gcc/g++编译选项详解

结合三维基因建模与智能体技术打造工业软件无码平台

2025-06-08-深度学习网络介绍(语义分割,实例分割,目标检测)

什么是 Ansible 主机和组变量

【数据结构】顺序表和链表详解(下)

C++ - string 的使用 #auto #范围for #访问及遍历操作 #容量操作 #修改操作 #其他操作 #非成员函数

FBRT-YOLO：面向实时航拍图像检测的轻量高效目标检测框架

股指期货技术分析与短线操作方法介绍

从C到C++语法过度1

windows安装Nexus3.6

golang循环变量捕获问题

网络之交换机

InnoDB

ubuntu 系统分区注意事项

shell批量添加新用户

SSE (Server-Sent Events) 技术简介

校园网背后的技术：如何实现全校覆盖与无缝漫游？

Go 语言中的内置运算符

vue中Echarts的使用

VSCode主题设计大赛

LeetCode 1723: 完成所有工作的最短时间

OpenEuler 系统中 WordPress 部署深度指南

Fork/Join框架：CountedCompleter与RecursiveTask深度对比

关于量化版本的说明：

Qwen3深夜上新，Embedding系列和Reranker系列全新登场！

相关文章：