当前位置: 首页 > news >正文

人工智能通识与实践 - 自然语言处理

自然语言处理

    • 1 自然语言处理的概念
      • 1.1 自然语言处理定义
      • 1.2 自然语言与人工语言的对比
      • 1.3 技术与应用框架
      • 1.4 自然语言处理的核心挑战:歧义模糊
    • 2 自然语言处理的基础技术
      • 2.1 核心基础技术(词法/句法/语义层)
        • 分词的特殊挑战
      • 2.2 关键支撑技术(词向量与相似度计算)
        • 2.2.1 词向量
        • 2.2.2 相似度计算
    • 3 自然语言处理的常见应用
      • 3.1 机器翻译
      • 3.2 垃圾邮件分类
      • 3.3 信息抽取
      • 3.4 文本情感分析
      • 3.5 智能问答
      • 3.6 个性化推荐
      • 3.7 语言生成
    • 4 知识图谱及应用
      • 4.1 知识图谱定义
      • 4.2 知识图谱示例
      • 4.3 知识图谱典型应用场景

1 自然语言处理的概念

1.1 自然语言处理定义

自然语言处理(Natural Language Processing, NLP)是研究如何让机器理解与生成自然语言的学科,核心目标是实现“人与计算机用自然语言有效通信”,属于人工智能中的“认知智能”范畴,被称为“人工智能皇冠上的明珠”。

在这里插入图片描述

1.2 自然语言与人工语言的对比

自然语言(人类日常语言)与人工语言(计算机编程语言)在规则、歧义性等维度差异显著,这也是NLP的核心难点来源:

对比维度自然语言人工语言
形成方式人类社会约定俗成人为设计的程序语言
典型示例汉语、英语等C++、Java、Python等
表达特点简洁长度和规则存在冗余
歧义性含糊、多歧义无二义性

1.3 技术与应用框架

NLP的技术体系分为“基础研究-应用技术-业务场景”三层,实现从技术突破到落地价值的转化:

  • 基础研究:支撑技术能力的核心,包括词法分析(分词、词性标注)、句法分析(依存关系分析、句法结构)、语义分析(词义消歧、语义角色标注)、篇章分析(篇章结构、指代消解);
  • 应用技术:基于基础研究的落地能力,涵盖机器翻译、文本摘要、情感分析、文本理解、信息抽取、智能对话、话题检测等;
  • 业务场景:技术落地的具体领域,已覆盖商品推荐、对话机器人、舆情监控、广告投放、金融风控、智能交互、内容搜索等。

1.4 自然语言处理的核心挑战:歧义模糊

自然语言的“歧义性”是NLP的核心难点,主要体现在四个层面:

  1. 词法分析歧义:同一词汇在不同语境下含义不同,例如“他背着母亲和姐姐悄悄的出去玩了”(“背着”可指“背负”或“瞒着”,“和”可指并列或连词);
  2. 语法分析歧义:句子结构存在多种解读,例如“咬死了猎人的狗”(可理解为“狗咬死了猎人”或“猎人的狗被咬死了”);
  3. 语义分析歧义:句子语义需结合场景判断,例如“开刀的是他父亲”(“开刀的”可指“医生”或“病人”);
  4. 指代不明歧义:代词指代对象不明确,例如“小王回到宿舍,发现老朱和他的朋友坐在那里聊天”(“他”可指“小王”或“老朱”);
  5. 其他挑战:新词识别(如“吃鸡”“不明觉厉”)、语言行为与计划差异(如“你能把盐递过来吗?”实际是请求而非询问能力)。

2 自然语言处理的基础技术

NLP的基础技术围绕“让机器理解语言结构与语义”展开,覆盖词法、句法、语义多个层级。

2.1 核心基础技术(词法/句法/语义层)

技术类别核心定义应用价值
分词(Word Segmentation)将连续自然语言文本切分为“语义合理、完整的词汇序列”解决“连续文本无边界”问题,是后续所有NLP任务的基础(如“中华人民共和国”可粗分或细分)
命名实体识别(NER)识别文本中具有特定意义的实体(人、地、机构、时间、作品等)提取关键信息,例如从“杨利伟乘神舟五号飞船”中识别“杨利伟(人名)、神舟五号(作品)、2003年10月15日(时间)”
词性标注(POS Tagging)为文本中每个词汇赋予词性(名词、动词、形容词等)辅助句法分析,例如“迈进”标注为动词(V)、“里程碑”标注为名词(n)
依存句法分析识别句子中词汇间的相互依存关系(如主谓、动宾关系)理清句子结构,例如“杨利伟乘飞船”中“杨利伟”与“乘”为主谓关系,“乘”与“飞船”为动宾关系
语义分析解析文本的深层语义(如词义消歧、语义角色标注)解决歧义问题,例如明确“开刀的是他父亲”中“开刀的”的具体语义
分词的特殊挑战
  • 切分歧义:包括组合型歧义(如“中华人民共和国”粗分/细分)、交集型歧义(如“羽毛球拍卖完了”可拆为“羽毛球拍/卖完”或“羽毛球/拍卖”)、真歧义(如“下雨天留客天留我不留”的多种拆分);
  • 未登录词:新词热词(如“给力”“房奴”)、专有名词(如“拜登”“泰康人寿”)、专业名词(如“禽流感”“三聚氰胺”),特点是增长快、长度不定。

2.2 关键支撑技术(词向量与相似度计算)

2.2.1 词向量

词向量是利用大数据与深度学习模型,将词汇映射为固定长度向量的技术,所有词向量构成“词向量空间”,每个词对应空间中的一个点。其核心价值是实现“文本可计算”,为语义挖掘、相似度分析提供基础。

2.2.2 相似度计算

基于词向量可实现“词级”与“文本级”的相似度分析:

  • 词汇语义相似度:例如“西瓜”(向量:0.018,0.4696…)与“草莓”(向量:0.2251,0.2862…)的相似度(0.325)高于“西瓜”与“呆瓜”(0.115);
  • 文本语义相似度:例如“车头如何放置车牌”(向量:0.844,-0.039…)与“前牌照怎么装”(0.355,0.238…)的相似度(0.486)高于其与“如何办理北京牌照”的相似度。

3 自然语言处理的常见应用

基于基础技术,NLP已在多领域落地,解决实际场景中的语言理解与生成需求。

3.1 机器翻译

机器翻译(Machine Translation)是通过计算机程序将一种自然语言(源语言)转换为另一种自然语言(目标语言) 的技术,支持文本、声音、文档等多种形式。

  • 核心应用场景:跨语言沟通(面对面/在线交流)、学习(背单词、写作文)、旅游(国外信息查询)、阅读(外文网站/论文)、商贸(贸易往来、会议沟通);
  • 典型案例:百度翻译支持“文本翻译、文档翻译、AI同传”,可将“Artificial Intelligence”实时译为“人工智能”,并修正翻译误差(如将病句“加强口国和津已布韦的友谊”修正为“加强中国和津巴布韦的友谊”)。

3.2 垃圾邮件分类

传统“关键词过滤”易误判(正常邮件含关键词)、易规避(垃圾邮件变形关键词),NLP通过“统计学习”提升准确率:

  • 核心逻辑:学习大量垃圾/非垃圾邮件,构建“垃圾词库”与“非垃圾词库”,基于词频计算邮件属于垃圾邮件的概率;
  • 价值:降低误判率,抵御“关键词变形”类垃圾邮件。

3.3 信息抽取

信息抽取是将非结构化文本转化为结构化信息(如表格) 的技术,核心是提取“时间、地点、人物、事件”等关键信息。

  • 示例:从“10月28日,AMD宣布斥资350亿美元收购FPGA芯片巨头赛灵思”中抽取:
    信息类型抽取结果
    实体(公司)AMD、赛灵思
    关系AMD收购赛灵思
    时间2020年10月28日(归一化后)
    事件金额350亿美元
  • 价值:节省人工整理成本,提升信息获取效率。

3.4 文本情感分析

文本情感分析(意见挖掘)是对带有情感色彩的主观性文本进行分析、归纳、推理的技术,核心是判断文本情感倾向(正向/负向)。

  • 应用场景:网络管理员监控舆情、企业分析产品反馈(如大众点评评论);
  • 示例:对文本“奢华酒店体验好,当地文化很受用”分析结果为“正向情感(99%)”。

3.5 智能问答

智能问答系统以“一问一答”形式为用户提供个性化信息服务,核心流程为“理解问题→提取关键信息→检索匹配答案→反馈结果”,分为检索式问答、社区问答、知识库问答三类。

  • 示例:用户问“上海明天下雨吗?”,系统直接反馈天气;追问“这周六呢?”,系统自动补全上下文(改写为“上海这周六下雨吗?”),并返回“小雨转多云,29-37℃”。

3.6 个性化推荐

个性化推荐是根据用户兴趣与行为,推荐其可能感兴趣的信息/商品的技术,核心是通过NLP分析用户偏好。

  • 典型案例:今日头条新闻推荐、购物平台商品推荐、知乎话题推荐、直播平台主播推荐;
  • 价值:提升用户体验,提高信息/商品的触达效率。

3.7 语言生成

语言生成是让机器自动生成符合语法与语义的文本的技术,典型应用为“文本摘要”(将长文本压缩为短文本)。

  • 示例:将820字“麻省理工学院无人机RFID技术”报道,压缩为200字摘要,核心保留“Rfly系统原理(无人机配微型继电器读取RFID标签)、优势(小巧安全、提升库存准确性)、测试进展”。

4 知识图谱及应用

4.1 知识图谱定义

知识图谱(Knowledge Graph)在图书情报界又称“知识域可视化”,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制知识间相互联系的图形。其核心价值是“让搜索更有深度和广度”,帮助用户快速找到目标信息、获取全面摘要。

在这里插入图片描述

4.2 知识图谱示例

以“神舟十四号”搜索为例,知识图谱可整合多维度信息并展示关联关系:

  • 核心信息:中国载人航天工程第十四艘飞船,空间站建造阶段首次载人任务,航天员在轨工作6个月,2022年6月5日发射;
  • 关联信息:相关航天器(长征二号运载火箭、神舟十一号)、任务进展(2022年7月25日进入问天实验舱)。

4.3 知识图谱典型应用场景

知识图谱通过“关联分析”解决复杂场景中的信息挖掘与风险识别问题,典型应用包括:

  1. 信用卡申请反欺诈:分析申请人信息(电话、地址)的关联关系,识别“共用信息创建合成身份”的欺诈行为(如3个电话+3个地址被组合成9个虚假身份);
  2. 企业知识图谱:融合企业数据,用于风险评估、最终控制人查询、企业间路径发现、上市企业智能问答;
  3. 交易/反洗钱知识图谱:关联身份证、手机号、设备指纹等维度,追踪交易路径,识别可疑交易与洗钱行为;
  4. 信贷/消费贷知识图谱:自动化分析申请人信息,判别信息真实性与可靠性;
  5. 内控知识图谱:防止中介利用信息不对称转移企业存款。
http://www.dtcms.com/a/389757.html

相关文章:

  • Coze源码分析-资源库-创建工作流-后端源码-安全/错误/流程
  • OneTerm开源堡垒机实战(四):访问授权与安全管控
  • 【赵渝强老师】基于PostgreSQL的MPP集群:Greenplum
  • leetCode算法题记录:27.移除元素
  • 自动化运维工具ansible
  • Roo Code 设置导入、导出与重置
  • 视觉检测技术讲解
  • LibreCAD-2.2+QT5.12+RTKLIB2.4.3
  • Pydantic Schemas 及其在 FastAPI 中的作用
  • SMS05 TVS二极管阵列的ESD和闭锁保护SOT23-6封装
  • Stream的常用API应用场景
  • 【DMA】DMA实战:用DMA操控外设
  • 深入理解传输层协议:UDP 与 TCP 的核心原理与应用
  • 教育行业数字化资料管理:构建安全合规、高效协同的一体化知识共享平台
  • Smart Launcher安卓版(安卓桌面启动器):安卓设备的智能启动器
  • Ansible如何写Callback 插件
  • 自动化测试框架需要具备哪些功能?
  • Pix2Pix中的对抗损失与L1损失:高频细节与低频结构的平衡艺术
  • mkcert生成证书本地或内网使用https
  • 【Python】关于移除Conda中已搭建环境的相关问题
  • 基于SpringBoot+Vue的校园兼职管理系统(WebSocket及时通讯、地图API、Echarts图形化分析)
  • 【K8S默认容器运行时】
  • Makefile学习(二)- 语法(变量、伪目标)
  • Winform自定义无边框窗体
  • 文献综述是什么?怎么写好一篇综述?
  • CLIP:开启多模态AI新时代的密钥(上)
  • @[TOC](位运算) # 常见位运算总结
  • 【Block总结】sMLP,全新的“稀疏MLP”模块|即插即用|原模型改进
  • TDengine IDMP 基本功能——数据可视化(4. 仪表盘)
  • 亚信安全与中国联通共同打造的联通联信一体化安全检测与响应平台亮相网安周