当前位置: 首页 > news >正文

词语关系图谱模型

 

参数配置说明


    sentences,          # 分词后的语料(列表嵌套列表)
    vector_size=100,    # 每个词的向量维度
    window=5,           # 词与上下文之间的最大距离(滑动窗口大小)
    min_count=5,        # 忽略出现次数小于5的词
    workers=4,          # 用于训练的线程数(多线程加速)
    sg=0,               # 训练算法:0 = CBOW;1 = Skip-gram
    hs=0,               # 是否使用层次Softmax(和 negative 二选一)
    negative=5,         # 负采样的数量(常用5~20之间)
    epochs=5,           # 训练轮数
    sample=1e-3,        # 高频词下采样的阈值(越小,越容易下采样)
    seed=42,            # 随机种子,确保可复现
    callbacks=None      # 自定义训练回调函数(如记录每轮日志)


fangfa 如果是0使用余玄相似度 如果是1使用欧式距离
port 启动前端页面端口


停用词库使用的正则可修改
r'exclude|stopwords|badwords|delete'

包含词库使用的正则

数据文件分隔符{|}

 

 

相关文章:

  • QGIS实用功能:加载天地图与下载指定区域遥感影像
  • Python实例题:Python3OpenCV视频转字符动画
  • [Java · 铢积寸累] 基础函数 — 生成随机数 - Math.random() 详解
  • G1 人形机器人硬件构成与接口
  • AI算子开发是什么
  • Agent系统工程实践:Langchain-Chatchat框架定制与优化
  • PostgreSQL认证培训推荐机构
  • 关于el-table可展开行实现懒加载的方案
  • ​​电商系统用户需求报告(示例)
  • Java基础复习(JavaSE进阶)第六章 IO流体系
  • 语音合成(TTS)从零搭建一个完整的TTS系统-第二节-中文转拼音
  • 【Python Web开发】01-Socket网络编程01
  • 【Python爬虫基础篇】--3.cookie和session
  • 乐视系列玩机---乐视1s x500 x501 x502等系列线刷救砖以及刷写第三方twrp 卡刷第三方固件步骤解析
  • 现有一整型数组,a[8] = { 4,8,7,0,3,5,9,1},现使用堆排序的方式原地对该数组进行升序排列。那么在进行第一轮排序结束之后,数组的顺序为?
  • 【HTML】【Web开发】滑动条挑战
  • Docker的基本概念和一些运用场景
  • Linux[基础指令][2]
  • Vue3 + Vite + TS,使用 ExcelJS导出excel文档,生成水印,添加背景水印,dom转图片,插入图片,全部代码
  • Java中的方法重写(Override)与方法重载(Overload)详解
  • 思政课也精彩,“少年修齐讲堂”开讲《我的中国“芯”》
  • 特朗普称加总理将很快访美,白宫:不影响将加拿大打造成“第51个州”计划
  • “非思”的思想——探索失语者的思想史
  • 国家卫健委有关负责人就白皮书发布答记者问
  • 铁路上海站今日预计发送旅客65.8万人次,同比增长超16%
  • 浦发银行一季度净利175.98亿增1.02%,不良率微降