当前位置: 首页 > news >正文

服务好的网站设计百度推广没有一点效果

服务好的网站设计,百度推广没有一点效果,郑州网站建设hndream,企业网站用什么开发好-商业推广文章目录开源的模型开源模型下载地址词嵌入模型的使用开源的模型 通用领域模型 all-MiniLM-L6-v2,Sentence-Transformers的高效轻量级模型。在许多通用任务上表现优异,适用于快速验证和轻量级应用;384维度,速度快,资源…

文章目录

  • 开源的模型
  • 开源模型下载地址
  • 词嵌入模型的使用

开源的模型

  • 通用领域模型
    • all-MiniLM-L6-v2,Sentence-Transformers的高效轻量级模型。在许多通用任务上表现优异,适用于快速验证和轻量级应用;384维度,速度快,资源消耗低。

    • all-mpnet-base-v2,Sentence-Transformers 的模型,比 MiniLM 更大更强,提供更好的精度;768维度,精度高,速度比 MiniLM 慢,但仍是平衡性能与效率的优选。

    • BGE (BAAI General Embedding) 系列,是当前中文和英文任务上表现最出色的开源模型系列之一,非常适用于生产环境。
      代表模型:
      BGE-large-en-v1.5 / BGE-base-en-v1.5,英文SOTA模型。
      BGE-large-zh-v1.5 / BGE-base-zh-v1.5,中文SOTA模型。

    • BGE-M3:最新推出的模型,支持多语言、多粒度、多功能(检索、稀疏、多向量),非常强大。

    • E5 系列,性能顶尖
      代表模型:E5-large-v2, E5-base-v2, multilingual-e5-large(多语言)

 

  • 多语言模型
    • paraphrase-multilingual-MiniLM-L12-v2
      Sentence-Transformers 的多语言版本,支持50多种语言。如果文档包含多种语言,这是一个很好的选择。
      维度:384维

    • multilingual-e5-large
      E5 的多语言版本,支持100多种语言,性能非常强劲。

    • BGE-M3,支持多语言,并且功能更多。
       

  • 领域特定模型
    • ClinicalBERT / BioBERT:适用于生物医学、临床文档领域。

    • LegalBERT:适用于法律文档领域。

    • CodeBERT:适用于编程代码检索。

    • GTE(General Text Embeddings):由阿里云达摩院推出,有 base 和 large 版本,在通用文本嵌入任务上表现良好。

 

开源模型下载地址

Hugging Face 模型库地址:

  1. all-MiniLM-L6-v2

  2. all-mpnet-base-v2

  3. BGE (BAAI General Embedding) 系列
    BGE-large-en-v1.5 (英文, 大型)
    BGE-base-en-v1.5 (英文, 基础)
    BGE-large-zh-v1.5 (中文, 大型)
    BGE-base-zh-v1.5 (中文, 基础)
    BGE-M3 (最新多语言多功能模型)

 

词嵌入模型的使用

  • 方法1,使用 sentence-transformers 库
    • 专为 sentence embeddings 设计的,封装了所有细节,使用非常简单。
    • 安装 pip install sentence-transformers
    • 使用方式
from sentence_transformers import SentenceTransformer# 选择模型名称
model_name = "sentence-transformers/all-MiniLM-L6-v2" # 或者 "BAAI/bge-large-zh-v1.5"# 加载模型(首次运行会自动下载)
model = SentenceTransformer(model_name)# 生成嵌入向量
sentences = ["这是一个示例句子。", "这是另一个句子。"]  # or text_splitter分割的文本片段
embeddings = model.encode(sentences)
print(embeddings.shape) # 输出 (2, 384) 2行 384列

 

  • 方法2,使用 Hugging Face的 transformers
    • 安装 ,pip install transformers
    • 使用模型
from transformers import AutoTokenizer, AutoModel
import torch  # pip install torch, 即pytorch
from torch.nn.functional import normalize  # 归一化# 选择模型名称
model_name = "BAAI/bge-large-zh-v1.5"# 加载分词器(首次运行会自动下载)
tokenizer = AutoTokenizer.from_pretrained(model_name)# 加载模型
model = AutoModel.from_pretrained(model_name)# 处理输入并生成嵌入向量
sentences = ["这是一个示例句子。", "这是另一个句子。"]# 对输入进行分词
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')# 计算嵌入
with torch.no_grad():model_output = model(**encoded_input)# 对 token embeddings 进行均值池化(Mean Pooling)来得到 sentence embeddingsentence_embeddings = model_output[0][:, 0]# 或者更标准的均值池化方法:# attention_mask = encoded_input['attention_mask']# sentence_embeddings = mean_pooling(model_output, attention_mask)# 对 embeddings 进行归一化(BGE 等模型推荐)
sentence_embeddings = normalize(sentence_embeddings, p=2, dim=1)
print(sentence_embeddings.shape)

如果无法连接huggingface的官网,可以提前下载模型,并使用。

http://www.dtcms.com/a/535365.html

相关文章:

  • ?a品定制网站开发做网站最下面写什么软件
  • 建设网站要不要钱百度贴吧宁波网站建设 华企立方
  • 做物流网站有哪些内容内容转载的网站怎么做
  • 网站项目在哪接网站建设策划模板下载
  • 华为云云速建站怎样阿里云服务器挂游戏
  • 云南建设厅网站安全员报名入口广东网站建设需要多少钱
  • 互联网定制产品网站东莞市住建局网
  • 广州怎么找做网站的公司网站建设税收编码
  • 多用户商城网站方案wordpress插件卸载清理
  • 有人做彩票网站吗wordpress发布文章页面错误
  • 北京网站空间域名ui设计最常用的软件
  • 做网站联系我们模板免费旅游搭建网站
  • 陕西住房与城乡建设厅网站天桥区seo全网宣传
  • 建站宝盒模板广西建设工程质量检测协会网站
  • 网站备案为什么这么慢怎样建立一个网络销售平台
  • 网站开发语言查询 蔡学镛android auto
  • 网站推广的效果好sae 网站备案信息
  • 沧州北京网站建设网页不能运行wordpress
  • 港口建设申报网站网站建设的功能有哪些
  • 做网站建设跑业务深圳福田华丰大厦网站建设
  • 网页标准化对网站开发维护的好处销售怎么做
  • 泉州网站制作推广网站开发语言手册
  • 阳春网站制作在北京网站建设的岗位职责
  • 建设主题网站的顺序一般是公司网站的搭建方案
  • 域名注册后能开始建设网站吗软件工程排名
  • 上海专业网站建设价墨刀可以做网站原型图吗
  • 重庆网站目录装配式建筑网站
  • 网站优化怎样提高网站用户体验手机微网站建设
  • 银川专业做网站的公司做微信小程序的公司
  • html5网站源代码下载网站建设开票内容是什么