当前位置: 首页 > news >正文

可做影视网站的服务器黄骗免费网站

可做影视网站的服务器,黄骗免费网站,河北省网站备案步骤,百度产品大全入口文章目录 NLP中的同义词替换及我踩的坑示例Python代码示例nltk 安装设置NLTK_DATA环境变量词库下载 中途跳的一个坑 NLP中的同义词替换及我踩的坑 同义词替换是一种常用的文本数据增强方法。其核心思想是将句子中的某些词语用其同义词进行替换,从而生成语义相近但表…

文章目录

    • NLP中的同义词替换及我踩的坑
      • 示例
      • Python代码示例
        • nltk 安装
        • 设置`NLTK_DATA`环境变量
        • 词库下载
      • 中途跳的一个坑

NLP中的同义词替换及我踩的坑

同义词替换是一种常用的文本数据增强方法。其核心思想是将句子中的某些词语用其同义词进行替换,从而生成语义相近但表达不同的新句子。这种方法能够增加训练数据的多样性,提高模型对不同表达方式的泛化能力。

示例

原句:

机器学习可以提升数据分析的效率。

同义词替换后:

机器学习能够提高数据分析的效能。

Python代码示例

下面是一个简单的同义词替换实现,使用nltk库和wordnet词库(语料库):

nltk 安装
uv add nltk
设置NLTK_DATA环境变量

NLTK_DATA

词库下载

使用nltk.download()方法,会弹出对话框,选择要下载的词库,下载的数据将存储到前文NLTK_DATA环境变量指定的位置。下载完成后,代码会从该目录查找词库。

import nltknltk.download()
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xmlTrue

例如,这里我们选择了下载Stopwords

download

当然,我们也可以指定语料库名称下载:

nltk.download('wordnet')
nltk.download('punkt_tab')
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\yeshe\AppData\Roaming\nltk_data...
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\yeshe\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.True
import random
from nltk.corpus import wordnet
from nltk.tokenize import word_tokenizedef get_synonyms(word):synonyms = []for syn in wordnet.synsets(word):for lemma in syn.lemmas():synonyms.append(lemma.name())return synonymsdef synonym_replacement(sentence, n=1):words = word_tokenize(sentence)new_words = words.copy()candidates = [word for word in words if get_synonyms(word)]random.shuffle(candidates)num_replaced = 0for word in candidates:synonyms = get_synonyms(word)if synonyms:synonym = random.choice(synonyms)new_words = [synonym if w == word else w for w in new_words]num_replaced += 1if num_replaced >= n:breakreturn ' '.join(new_words)# 示例
sentence = "Machine learning can improve the efficiency of data analysis."
augmented_sentence = synonym_replacement(sentence)
print(augmented_sentence)
Machine learning can meliorate the efficiency of data analysis .

对于中文的同义词替换,wordnet就有点鞭长莫及了,这时,我们需要jiebasynonyms的支持:

uv add synonyms jieba
import jieba
import synonyms
import random
from nltk.corpus import wordnet as wn  # 备用方案(英文WordNet)# 加载中文停用词表(可选,避免替换无意义词)
stopwords = set(["的", "了", "可以", "。"])def get_chinese_synonyms(word):"""获取中文词语的同义词列表(优先使用Synonyms库)"""try:# 使用Synonyms获取同义词(返回格式:[同义词列表, 相似度分数])syns, _ = synonyms.nearby(word)# 过滤低相似度词(阈值>0.7)并去重valid_syns = list(set([s for s in syns if synonyms.compare(word, s) > 0.7]))return valid_synsexcept Exception as e:# 备用方案:使用WordNet(需确保词语有英文映射)en_word = word  # 实际应用中可能需要中英词典映射synsets = wn.synsets(en_word)return [lemma.name() for synset in synsets for lemma in synset.lemmas()]return []def synonym_replacement_chinese(sentence):"""对中文句子进行同义词替换"""words = jieba.lcut(sentence)  # 精确分词new_words = words.copy()# 筛选可替换词:非停用词且非标点candidates = [i for i, w in enumerate(words) if w not in stopwords and len(w) > 1]random.shuffle(candidates)  # 随机选择替换位置replaced = Falsefor idx in candidates:word = words[idx]syns = get_chinese_synonyms(word)if syns and word in syns:syns.remove(word)  # 移除原词if syns:new_words[idx] = random.choice(syns)  # 随机选一个同义词replaced = Truebreak  # 每次只替换一个词(避免过度失真)return "".join(new_words) if replaced else sentence# 示例调用
original_sentence = "机器学习可以提升数据分析的效率。"
# 首次运行需安装依赖:pip install jieba synonyms nltk
augmented_sentence = synonym_replacement_chinese(original_sentence)
print("原句:", original_sentence)
print("替换后:", augmented_sentence)
原句: 机器学习可以提升数据分析的效率。
替换后: 机器学习可以提升数据处理的效率。

中途跳的一个坑

上述代码中import synonyms报如下错误:

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
Cell In[21], line 21 import jieba
----> 2 import synonyms3 import random4 from nltk.corpus import wordnet as wn  # 备用方案(英文WordNet)File d:\Source\Repos\Visual Studio Code\MachineLearning-notes\.venv\Lib\site-packages\synonyms\synonyms.py:4745 import gzip46 import shutil
---> 47 from .word2vec import KeyedVectors48 from .utils import any2utf849 from .utils import any2unicodeImportError: attempted relative import with no known parent package

为解决这个问题,我连续踩坑:

  • 补充words.vector.gz文件

好不容易在网上找到了处理办法,但也没有效果。

下载words.vector.gz,并存放到synonymsdata目录下,我用的uv做包管理,本地是这个路径:“.venv\Lib\site-packages\synonyms\data”。

然而,并没什么用,错误依旧。

  • 安装word2vec

Windows 上安装word2vec需要把gcc放到PATH环境变量,否则会安装失败。

$env:PATH += ";D:\tools\mingw64\bin"
uv add word2vec

实测也没有用,问题不是出在这,而是提示所说的相对路径导入出错,且还是synonyms包里synonyms.py文件的问题,于是修改带.的那几个from ... import ...语句:

from synonyms.word2vec import KeyedVectors
from synonyms.utils import any2utf8
from synonyms.utils import any2unicode
from synonyms.utils import sigmoid
from synonyms.utils import cosine
from synonyms.utils import is_digit

问题解决。

http://www.dtcms.com/a/539854.html

相关文章:

  • 做电影类网站在线做头像网站有哪些
  • 怎么创建网站 免费的高级seo课程
  • 删除wordpress修订版本号长沙seo网站建设袁飞最好
  • 天津中冀建设集团有限公司网站中企动力做的网站好吗
  • 公司网站建设技术方案c#网站开发需要的技术
  • 网络营销渠道具有交互性的特点企业seo排名优化
  • 国外做的比较好的展台网站怎样清除单位域名 网站或互联网网址
  • 做一个网站得多少钱做网站用什么语音
  • 香河县最新消息免费seo网站推荐一下
  • 公司内网网站建设网页制作与设计是前端吗
  • 模板 网站iis wordpress index.php
  • 网站访问统计js代码做国外衣服的网站
  • 山西高端网站建设网络游戏排行榜百度风云榜
  • 网站后台上传文件给公司制作网站吗
  • 东莞最好的网站建设价格低网上买卖交易平台有哪些
  • 泉州网站建设方案外包百度手机端排名
  • 淘宝客网站可以备案吗百度指数可以用来干什么
  • 北京建设官方网站中国高清vpswindows在线观看
  • 所有网站打不开建设网站用什么
  • 怎样通过网盘做电影网站wordpress会员写文章
  • 昆明商城网站建设wordpress会员vip插件
  • 基于php的微网站开发网络科技公司劳动合同
  • 保山做网站建设网站seo排名优化
  • 长久新开传奇网站公司网站建设考核
  • 那个网站教人做冰点早教中心网站建设方案
  • 建设网站的运行费包括什么地方weex做的网站
  • 服务好质量好的网站制作做网站6000左右的电脑
  • 网站建设规划方案ppt大庆市建设中专网站
  • 针对不同网站的cdn加速明年做那个网站能致富
  • 东莞网站平面设计常州市做网站