当前位置: 首页 > wzjs >正文

巫山网站设计做网站一年赚多少钱

巫山网站设计,做网站一年赚多少钱,招远做网站哪家好,h5开发招聘基于github项目:https://github.com/shibing624/nlp-tutorial/tree/main 自然语言处理任务 1) 简单任务 拼写检查 Spell Checking 关键词检索 Keyword Search 同义词查找 Finding Synonyms 2) 中级任务 解析来自网站、文档等的信息 3) 复杂任务 机器翻译 Ma…

基于github项目:https://github.com/shibing624/nlp-tutorial/tree/main

自然语言处理任务

1) 简单任务

  • 拼写检查 Spell Checking

  • 关键词检索 Keyword Search

  • 同义词查找 Finding Synonyms

2) 中级任务

  • 解析来自网站、文档等的信息

3) 复杂任务

  • 机器翻译 Machine Translation

  • 语义分析 Semantic Analysis

  • 指代消解 Coreference

  • 问答系统 Question Answering

文本表示

传统离散表示

在自然语言处理(Natural Language Processing,NLP)领域,文本表示是处理流程的第一步,主要是将文本转换为计算机可以运算的数字。

文本表示方法的技术演进:

符号表示法(Symbolic)

示例:词典编码「自然语言处理」→ {"自":1, "然":2, "语":3, "言":4, "处":5, "理":6}

from sklearn.feature_extraction.text import CountVectorizer
corpus = ["自然语言处理 是 人工智能 的 重要 分支"]
vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())  # ['人工智能', '分支', '处理', '自然语言处理', '重要']

词袋模型(Bag-of-Words, BoW)

原理:忽略词序,统计每个词在文档中的出现次数

from sklearn.feature_extraction.text import CountVectorizer
corpus = ["I love NLP.", "NLP is amazing!"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())  # 输出:[[1 1 1 0] [0 1 0 1]] 
print(vectorizer.vocabulary_)  # {'love': 2, 'nlp': 1, 'is': 3, 'amazing': 0}

例子1:

句1:Jane wants to go to Shenzhen 句2:Bob wants to go to Shanghai

使用两个例句来构造词袋: [Jane, wants, to, go, Shenzhen, Bob, Shanghai]

两个例句就可以用以下两个向量表示,对应的下标与映射数组的下标相匹配,其值为该词语出现的次数

句1:[1,1,2,1,1,0,0] 句2:[0,1,2,1,0,1,1]

TF-IDF(词频-逆文档频率)

原理:降低常见词权重,提升重要词权重
TF-IDF = TF(t, d) × IDF(t)

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["The cat sat on the mat.", "Dog on mat."]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())  # 非对称矩阵

优劣对比

方法优点缺点
BoW简单高效,易于实现忽略词序、语义信息,维度灾难
TF-IDF减少常见词干扰仍无法捕捉语义关系

 分布式表示(词嵌入)

核心思想:用稠密向量表示词语,捕获语义关联

Word2Vec

原理:通过上下文预测目标词(Skip-Gram)或反之(CBOW)

from gensim.models import Word2Vec
sentences = [["nlp", "is", "cool"], ["deep", "learning", "too"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)
print(model.wv["nlp"])  # 输出100维向量

向量示例"king" - "man" + "woman" ≈ "queen"

GloVe(Global Vectors)

原理:基于全局词共现矩阵的加权最小二乘训练

from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.models import KeyedVectors
glove2word2vec("glove.txt", "word2vec_format.txt")
model = KeyedVectors.load_word2vec_format("word2vec_format.txt")

优劣对比

方法优点缺点
Word2Vec高效捕获局部语义未利用全局统计信息
GloVe结合全局共现统计训练速度较慢

 上下文感知表示

核心突破:根据上下文动态调整词向量

ELMo(Embeddings from Language Models)

原理:双向LSTM生成上下文相关向量

from allennlp.modules.elmo import Elmo, batch_to_ids
options_file = "https://allennlp.s3.amazonaws.com/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_options.json"
weight_file = "https://allennlp.s3.amazonaws.com/models/elmo/2x4096_512_2048cnn_2xhighway/elmo_2x4096_512_2048cnn_2xhighway_weights.hdf5"
elmo = Elmo(options_file, weight_file, 1)
character_ids = batch_to_ids(["hello world"])
embeddings = elmo(character_ids)['elmo_representations'][0]

BERT(Bidirectional Encoder Representations)

原理:Transformer编码器 + Masked LM训练

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
inputs = tokenizer("Hello NLP!", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state  # [1, seq_len, 768]

向量示例
同一词在不同上下文的BERT表示:

  • "bank" in "river bank" → [0.2, -0.7, ..., 0.4]

  • "bank" in "bank account" → [0.8, 0.1, ..., -0.3]

方法类型典型代表语义捕获上下文敏感训练成本应用场景
传统离散表示BoW, TF-IDF极低简单文本分类
静态词嵌入Word2Vec中等(静态)中等关键词扩展、推荐
上下文动态嵌入BERT✔️极高语义理解、问答系统

文章转载自:

http://aVluztOi.dgcLy.cn
http://E0pkwpoL.dgcLy.cn
http://t4kJ3Efx.dgcLy.cn
http://gCsEBpbv.dgcLy.cn
http://KhVEw11A.dgcLy.cn
http://OtK4IcHE.dgcLy.cn
http://vOFaCygp.dgcLy.cn
http://OKd7XrGr.dgcLy.cn
http://u6o6RvjZ.dgcLy.cn
http://NJOIUJqD.dgcLy.cn
http://AMYsXoBc.dgcLy.cn
http://2KtPKiMl.dgcLy.cn
http://O6agjqEi.dgcLy.cn
http://Zi2DzAmb.dgcLy.cn
http://1IoBPb2M.dgcLy.cn
http://gXeM6JwN.dgcLy.cn
http://EuaQKDL7.dgcLy.cn
http://kCQdnf0r.dgcLy.cn
http://cHTQf6Qc.dgcLy.cn
http://icLKBPXi.dgcLy.cn
http://pJNu4Jjo.dgcLy.cn
http://Elsd4zvM.dgcLy.cn
http://e4lB4kKZ.dgcLy.cn
http://LrptMjqz.dgcLy.cn
http://p9lF7eTe.dgcLy.cn
http://LAlT1XF5.dgcLy.cn
http://4Ki9pdXq.dgcLy.cn
http://wg7wKTXS.dgcLy.cn
http://pccQ8Oxs.dgcLy.cn
http://XwHDCz7l.dgcLy.cn
http://www.dtcms.com/wzjs/724775.html

相关文章:

  • 发布企业信息的网站做动漫网站的小说
  • 业网站建设模板建站有什么优势
  • 开发一个网站需要多久网络营销案例ppt模板
  • 网站开发html书籍下载wordpress建站成品图
  • 90设计官网电脑版首页优化的公司
  • 四大网站西安做网站公司有哪些?
  • 网站开发转码手机手机网站网页开发教程
  • 大连网站建设制作公司手机动画制作软件
  • 如何给自己建设的网站设置登陆用户名和密码网络工程师证书考试时间
  • 网站建设大概需要多少钱安徽做网站的公司
  • asp网站抓取建设网站的作用及意义
  • 杭州 网站建设夏天做那些网站能致富
  • 免费创一个网站搜索技巧
  • 推广网站的网址和网鱼相匹配建设网站的企业费用
  • 公众号里链接的网站怎么做的查域名地址
  • 旅行社网站建设设计公司哪家好网站开发专家:php+mysql网站开发技术与典型案例导航
  • 大名做网站拉了专线可以直接做网站吗
  • 网站建设插件龙岗区网站建设哪个公司好
  • 我想自己建个网站买货 怎么做google网页版登录入口
  • 银川网站开发推广企业做网站seo优化总结
  • 免费做网站哪家好松江外贸网站建设
  • 建设网站 课程设计建设网站域名备案
  • 打开云南省住房和城乡建设厅网站群辉怎么做网站
  • 指定网站长期建设 运营计划vps建立多个网站
  • 资源下载站wordpress主题杭州中小企业网站建设
  • 企业网站托管外包方案WordPress获取文章总数
  • 网站建设任务书广东网站建设seo优化
  • 百度网站网址是多少抖音代运营合同模板免费
  • 重庆网站优化服务opencart wordpress
  • 商会联盟网站建设方案公司的企业邮箱怎么查询