当前位置: 首页 > news >正文

Happy-LLM task2 第一章 NLP 基础概念(2天)

NLP 基础概念简介

自然语言处理(Natural Language Processing,NLP)是人工智能领域的核心分支,旨在让计算机理解、处理并生成人类语言,实现人机自然交互。

一、NLP 定义与目标

NLP 融合计算机科学、语言学、心理学等多学科知识,通过算法让计算机模拟人类的语言认知过程。其核心目标是打破自然语言与机器语言的壁垒,使计算机能处理语义、语境、情感等复杂语言要素,完成从基础分词到深层语义理解的任务。

二、NLP 发展历程
  1. 早期探索(1940s-1960s)

    • 以规则驱动为主,如机器翻译依赖字典查找和词序规则,效果有限。
    • 图灵测试(1950年)和乔姆斯基生成语法理论为后续研究奠定基础。
  2. 符号主义与统计方法(1970s-1990s)

    • 研究者分为“规则派”(关注形式语言)和“统计派”(侧重概率模型)。
    • 1980年代后,统计模型逐步取代手写规则,推动NLP向数据驱动转型。
  3. 机器学习与深度学习(2000s至今)

    • 循环神经网络(RNN)、长短期记忆网络(LSTM)等深度学习模型广泛应用。
    • 2013年Word2Vec开创词向量表示时代,2018年BERT引领预训练语言模型浪潮,GPT系列等大模型进一步提升文本生成与理解能力。
三、NLP 核心任务
  1. 中文分词(CWS)

    • 将连续中文文本切分为有意义的词汇序列(如“今天天气真好”→“今天/天气/真/好”),是后续处理的基础。
  2. 子词切分

    • 将单词分解为更小单位(如“unhappiness”→“un/happi/ness”),解决罕见词处理问题,常见于BERT等模型。
  3. 词性标注(POS Tagging)

    • 为单词分配词性标签(如“她在弹吉他”中“弹”标注为动词),辅助句法分析。
  4. 文本分类

    • 将文本自动归类(如新闻分为“体育”“政治”等),应用于情感分析、垃圾邮件过滤等场景。
  5. 实体识别(NER)

    • 提取文本中的命名实体(如人名、地名、组织名),如“北京是中国首都”中识别“北京”“中国”。
  6. 关系抽取

    • 识别实体间语义关系(如“比尔·盖茨是微软创始人”中的“创始人”关系),用于构建知识图谱。
  7. 文本摘要

    • 生成文本的简洁概括,分为抽取式(直接选关键句)和生成式(重新组织语义)。
  8. 机器翻译

    • 将一种语言自动译为另一种语言,如“今天天气好”→“The weather is nice today”。
  9. 自动问答(QA)

    • 计算机理解问题并给出答案,涉及信息检索、推理等技术,如智能客服。
四、文本表示发展

文本表示是将自然语言转换为计算机可处理的数字形式,直接影响NLP系统性能:

  1. 词向量模型

    • 向量空间模型(VSM):用高维向量表示文本,权重由词频(TF)、逆文档频率(TF-IDF)计算,但存在数据稀疏性问题。
    • Word2Vec(2013):通过上下文学习词的密集向量表示(如“国王-男人+女人≈王后”),分为CBOW和Skip-Gram架构。
  2. 语言模型

    • N-gram:基于马尔可夫假设,用前N-1个词预测当前词概率(如bigram用前一个词预测下一个词),简单但无法捕捉长距离依赖。
  3. 预训练模型

    • ELMo(2018):首次引入预训练思想,用双向LSTM生成动态词向量,解决一词多义问题,但计算成本高。
五、总结与挑战

NLP已从规则驱动发展到深度学习主导,在机器翻译、问答系统等领域取得显著进展,但仍面临歧义处理、隐喻理解、跨文化语境等挑战。未来,更大规模的预训练模型、多模态融合及更精细的语义建模将是重要发展方向。

相关文章:

  • 27.自连接
  • 【面试题001】生产环境中如何排查MySQL CPU占用率高达100%?
  • 详细讲解Redis为什么被设计成单线程
  • C与C++中的可变参数
  • 使用@SpringJUnitConfig注解开发遇到的空指针问题
  • 工信部发布《中国工业软件产业发展研究报告(2025)》:PLM垄断加剧,Ai为国产PLM软件发展契机
  • 基于大模型的胆囊结石全周期诊疗方案研究报告
  • voronoi图,凸壳,和早已遗忘的定不定积分
  • Flutter TCP通信
  • vscode连接不上服务器问题修复
  • golang--数据类型与存储
  • D包和模块.go
  • Spring Boot + AOP + Jasypt,3 步实现敏感数据脱敏
  • Java 实现后端调用 Chromium 浏览器无头模式截图的方案
  • Java web非Maven项目中引入EasyExcel踩坑记录
  • 批量创建tmux tmux批量
  • 深入解析 Java List 实现类的底层原理
  • 腾讯云TCCA认证考试报名 - TDSQL数据库交付运维工程师(PostgreSQL版)
  • 12.9 定时任务
  • SkyWalking 部署与应用(Windows)
  • 网站域名打不开的原因/营销活动方案模板
  • 网站建设页面/收录优美图片手机版
  • 泰兴网站制作/chrome浏览器官网入口
  • com网站注册/营销方案策划
  • 网站开发保密协议模板/长沙官网优化公司
  • 孔家庄网站建设/无需下载直接进入的网站的代码