传统自然语言处理任务入口
NLP归纳大一览
自然语言处理学习路径和知识点
一些git模型资源和地址
============================================================================
对话:
对话系统综述
对话领域一些文章-检索式/问答QA/KBQA
=========================================================================================
语言模型
语言模型介绍
语言模型中数据平滑方法
词向量
中文分词&新词发现
=================
词向量表示–静态(one-hot,共现矩阵,词袋模型BOW,word2vector,glove, Fasttext)–动态(ELMO,GPT,Bert)
word2vector细致分解(CBOW, SKIP_GRAM, 层次soft Max, 负采样)
=================
句向量获取(从词获取IDF/SIF加权)(直接训练doc2vec, )(训练优化skip thought, quick-thought, InferSent,Universal Sentence Encoder)
bert句向量表示优化 -sentenceBERT,BERT-FLOW,BERT-whitening,TASDAE,simCSE,ConSERT, coSENT,PairSupCon,PromptBERT
句子表征-文本匹配–representation-based/interactive-based(infersent/ esim)
一些技术
倒排索引
词性标注
TF_IDF,TF-IWF
主题模型LSA,PLSA,LDA
图网络
GCN->GAT
数据增强
数据增强
NER任务
bert+crf效果?
Globalpointer
NER 任务以及联合提槽任务
分类任务
文本分类常用的模型
文本分类相关经验tricks
文本分类任务中一些可以尝试的方法
FAQ 文本匹配
FAQ相关论文阅读
论文阅读–相似文本匹配
文本语义匹配模型比赛可以尝试的方法和trick
相似句生成和检索simbert -> roformer-sim
ROFORMER 相似句预训练模型
相似句生成复述模型-seq2seq->LASSERTAGGER-
机器翻译
机器翻译
transformer做翻译模型
阅读理解
阅读理解(单项选择)尝试方法
多选项问题候选评估
RACE数据集上相关的研究
逻辑推理阅读理解任务和方法
=========================================================================================