当前位置: 首页 > wzjs >正文

无锡网站的优化那个网站能找到人

无锡网站的优化,那个网站能找到人,网站建设价格山东济南兴田德润什么活动,电脑编程培训学校哪家好基于github项目:https://github.com/shibing624/nlp-tutorial/tree/main 自然语言处理任务 1) 简单任务 拼写检查 Spell Checking 关键词检索 Keyword Search 同义词查找 Finding Synonyms 2) 中级任务 解析来自网站、文档等的信息 3) 复杂任务 机器翻译 Ma…

基于github项目:https://github.com/shibing624/nlp-tutorial/tree/main

自然语言处理任务

1) 简单任务

  • 拼写检查 Spell Checking

  • 关键词检索 Keyword Search

  • 同义词查找 Finding Synonyms

2) 中级任务

  • 解析来自网站、文档等的信息

3) 复杂任务

  • 机器翻译 Machine Translation

  • 语义分析 Semantic Analysis

  • 指代消解 Coreference

  • 问答系统 Question Answering

文本表示

传统离散表示

在自然语言处理(Natural Language Processing,NLP)领域,文本表示是处理流程的第一步,主要是将文本转换为计算机可以运算的数字。

文本表示方法的技术演进:

符号表示法(Symbolic)

示例:词典编码「自然语言处理」→ {"自":1, "然":2, "语":3, "言":4, "处":5, "理":6}

from sklearn.feature_extraction.text import CountVectorizer
corpus = ["自然语言处理 是 人工智能 的 重要 分支"]
vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())  # ['人工智能', '分支', '处理', '自然语言处理', '重要']

词袋模型(Bag-of-Words, BoW)

原理:忽略词序,统计每个词在文档中的出现次数

from sklearn.feature_extraction.text import CountVectorizer
corpus = ["I love NLP.", "NLP is amazing!"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())  # 输出:[[1 1 1 0] [0 1 0 1]] 
print(vectorizer.vocabulary_)  # {'love': 2, 'nlp': 1, 'is': 3, 'amazing': 0}

例子1:

句1:Jane wants to go to Shenzhen 句2:Bob wants to go to Shanghai

使用两个例句来构造词袋: [Jane, wants, to, go, Shenzhen, Bob, Shanghai]

两个例句就可以用以下两个向量表示,对应的下标与映射数组的下标相匹配,其值为该词语出现的次数

句1:[1,1,2,1,1,0,0] 句2:[0,1,2,1,0,1,1]

TF-IDF(词频-逆文档频率)

原理:降低常见词权重,提升重要词权重
TF-IDF = TF(t, d) × IDF(t)

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["The cat sat on the mat.", "Dog on mat."]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())  # 非对称矩阵

优劣对比

方法优点缺点
BoW简单高效,易于实现忽略词序、语义信息,维度灾难
TF-IDF减少常见词干扰仍无法捕捉语义关系

 分布式表示(词嵌入)

核心思想:用稠密向量表示词语,捕获语义关联

Word2Vec

原理:通过上下文预测目标词(Skip-Gram)或反之(CBOW)

from gensim.models import Word2Vec
sentences = [["nlp", "is", "cool"], ["deep", "learning", "too"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)
print(model.wv["nlp"])  # 输出100维向量

向量示例"king" - "man" + "woman" ≈ "queen"

GloVe(Global Vectors)

原理:基于全局词共现矩阵的加权最小二乘训练

from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.models import KeyedVectors
glove2word2vec("glove.txt", "word2vec_format.txt")
model = KeyedVectors.load_word2vec_format("word2vec_format.txt")

优劣对比

方法优点缺点
Word2Vec高效捕获局部语义未利用全局统计信息
GloVe结合全局共现统计训练速度较慢

 上下文感知表示

核心突破:根据上下文动态调整词向量

ELMo(Embeddings from Language Models)

原理:双向LSTM生成上下文相关向量

from allennlp.modules.elmo import Elmo, batch_to_ids
options_file = "https://allennlp.s3.amazonaws.com/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json"
weight_file = "https://allennlp.s3.amazonaws.com/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5"
elmo = Elmo(options_file, weight_file, 1)
character_ids = batch_to_ids(["hello world"])
embeddings = elmo(character_ids)['elmo_representations'][0]

BERT(Bidirectional Encoder Representations)

原理:Transformer编码器 + Masked LM训练

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
inputs = tokenizer("Hello NLP!", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state  # [1, seq_len, 768]

向量示例
同一词在不同上下文的BERT表示:

  • "bank" in "river bank" → [0.2, -0.7, ..., 0.4]

  • "bank" in "bank account" → [0.8, 0.1, ..., -0.3]

方法类型典型代表语义捕获上下文敏感训练成本应用场景
传统离散表示BoW, TF-IDF极低简单文本分类
静态词嵌入Word2Vec中等(静态)中等关键词扩展、推荐
上下文动态嵌入BERT✔️极高语义理解、问答系统

文章转载自:

http://D8Y113y2.rhkmn.cn
http://3xGOOrxE.rhkmn.cn
http://b4VaQOq6.rhkmn.cn
http://GRcqeCCV.rhkmn.cn
http://rk7eAVqp.rhkmn.cn
http://Jp4v3sTY.rhkmn.cn
http://PbZOS8fv.rhkmn.cn
http://FlFD1DC8.rhkmn.cn
http://7k42RAqL.rhkmn.cn
http://8v0CVJiM.rhkmn.cn
http://v4Wb8ILE.rhkmn.cn
http://MlCV48Ux.rhkmn.cn
http://fVUNm4B0.rhkmn.cn
http://jqhucT5x.rhkmn.cn
http://FPMgkmoR.rhkmn.cn
http://Y9RWZFMM.rhkmn.cn
http://vLVAox36.rhkmn.cn
http://BP2qCohA.rhkmn.cn
http://AhWpiggk.rhkmn.cn
http://k7BP2eMH.rhkmn.cn
http://cVQ9aRIf.rhkmn.cn
http://UdcBji6f.rhkmn.cn
http://W4rjppMS.rhkmn.cn
http://PzTNY504.rhkmn.cn
http://XUUYpfcp.rhkmn.cn
http://bv7tjp1a.rhkmn.cn
http://kpNkKZkt.rhkmn.cn
http://Iztf7MQr.rhkmn.cn
http://GUcWHBpC.rhkmn.cn
http://5GwLQh5Y.rhkmn.cn
http://www.dtcms.com/wzjs/692296.html

相关文章:

  • wordpress建立论坛网站个人网站可以做百度推广么
  • 织梦网站栏目是做什么用的宜春网站建设公司联系方式
  • 烟台外贸网站建设公司都匀网站制作公司
  • 南通市住房和建设局网站微信系统平台开发
  • 网站改版设计思路永久免费网址在线观看电视剧
  • 兰州微网站建设策划案模板
  • 品牌软文兰州seo优化
  • 网站与网页设计河南23个岗位无人报考
  • 四川建设网站首页wordpress 科技类主题
  • 公司网站建设ihanshi网站制作视频教程下载百度云
  • 安徽工程建设信息网新网站网站的推广和宣传方式
  • 论mvc框架在网站开发的应用友情链接多少钱一个
  • 如何用dw做网站首页浙江建设继续教育网站首页
  • 太原建站一条龙网站建设包括哪些项目
  • 帝国生成网站地图外贸自建站源码
  • 郑州集团网站建设宁波网络推广渠道有哪些
  • 华为网站的建设建议书wordpress 如果
  • 小型企业网站建设报告模拟组建过程国家对网站建设补补贴
  • 做网站公司运营部青岛网站建设定制开发
  • 个人网站注册平台温州网站建设华一
  • 做二手房网站有哪些wordpress排序优化
  • 同学录网站开发实现基本要求聚名网域名综合查询
  • 南宁做网站培训下载织梦做网站软件
  • 厦门网站制作维护张家港那家做网站
  • 重庆物流公司网站建设listify wordpress
  • 青岛网站建设 新视点制作网站域名需要多少钱
  • 大型网站技术架构 pdf2008系统如何做网站
  • 网站建设公司 经营范围江苏个人网站备案
  • 好的品牌设计网站有哪些公司做网站需要什么内容
  • c 语言能开发做网站吗郑州app外包公司