人工智能通识与实践 - 自然语言处理
自然语言处理
- 1 自然语言处理的概念
- 1.1 自然语言处理定义
- 1.2 自然语言与人工语言的对比
- 1.3 技术与应用框架
- 1.4 自然语言处理的核心挑战:歧义模糊
- 2 自然语言处理的基础技术
- 2.1 核心基础技术(词法/句法/语义层)
- 分词的特殊挑战
- 2.2 关键支撑技术(词向量与相似度计算)
- 2.2.1 词向量
- 2.2.2 相似度计算
- 3 自然语言处理的常见应用
- 3.1 机器翻译
- 3.2 垃圾邮件分类
- 3.3 信息抽取
- 3.4 文本情感分析
- 3.5 智能问答
- 3.6 个性化推荐
- 3.7 语言生成
- 4 知识图谱及应用
- 4.1 知识图谱定义
- 4.2 知识图谱示例
- 4.3 知识图谱典型应用场景
1 自然语言处理的概念
1.1 自然语言处理定义
自然语言处理(Natural Language Processing, NLP)是研究如何让机器理解与生成自然语言的学科,核心目标是实现“人与计算机用自然语言有效通信”,属于人工智能中的“认知智能”范畴,被称为“人工智能皇冠上的明珠”。
1.2 自然语言与人工语言的对比
自然语言(人类日常语言)与人工语言(计算机编程语言)在规则、歧义性等维度差异显著,这也是NLP的核心难点来源:
对比维度 | 自然语言 | 人工语言 |
---|---|---|
形成方式 | 人类社会约定俗成 | 人为设计的程序语言 |
典型示例 | 汉语、英语等 | C++、Java、Python等 |
表达特点 | 简洁 | 长度和规则存在冗余 |
歧义性 | 含糊、多歧义 | 无二义性 |
1.3 技术与应用框架
NLP的技术体系分为“基础研究-应用技术-业务场景”三层,实现从技术突破到落地价值的转化:
- 基础研究:支撑技术能力的核心,包括词法分析(分词、词性标注)、句法分析(依存关系分析、句法结构)、语义分析(词义消歧、语义角色标注)、篇章分析(篇章结构、指代消解);
- 应用技术:基于基础研究的落地能力,涵盖机器翻译、文本摘要、情感分析、文本理解、信息抽取、智能对话、话题检测等;
- 业务场景:技术落地的具体领域,已覆盖商品推荐、对话机器人、舆情监控、广告投放、金融风控、智能交互、内容搜索等。
1.4 自然语言处理的核心挑战:歧义模糊
自然语言的“歧义性”是NLP的核心难点,主要体现在四个层面:
- 词法分析歧义:同一词汇在不同语境下含义不同,例如“他背着母亲和姐姐悄悄的出去玩了”(“背着”可指“背负”或“瞒着”,“和”可指并列或连词);
- 语法分析歧义:句子结构存在多种解读,例如“咬死了猎人的狗”(可理解为“狗咬死了猎人”或“猎人的狗被咬死了”);
- 语义分析歧义:句子语义需结合场景判断,例如“开刀的是他父亲”(“开刀的”可指“医生”或“病人”);
- 指代不明歧义:代词指代对象不明确,例如“小王回到宿舍,发现老朱和他的朋友坐在那里聊天”(“他”可指“小王”或“老朱”);
- 其他挑战:新词识别(如“吃鸡”“不明觉厉”)、语言行为与计划差异(如“你能把盐递过来吗?”实际是请求而非询问能力)。
2 自然语言处理的基础技术
NLP的基础技术围绕“让机器理解语言结构与语义”展开,覆盖词法、句法、语义多个层级。
2.1 核心基础技术(词法/句法/语义层)
技术类别 | 核心定义 | 应用价值 |
---|---|---|
分词(Word Segmentation) | 将连续自然语言文本切分为“语义合理、完整的词汇序列” | 解决“连续文本无边界”问题,是后续所有NLP任务的基础(如“中华人民共和国”可粗分或细分) |
命名实体识别(NER) | 识别文本中具有特定意义的实体(人、地、机构、时间、作品等) | 提取关键信息,例如从“杨利伟乘神舟五号飞船”中识别“杨利伟(人名)、神舟五号(作品)、2003年10月15日(时间)” |
词性标注(POS Tagging) | 为文本中每个词汇赋予词性(名词、动词、形容词等) | 辅助句法分析,例如“迈进”标注为动词(V)、“里程碑”标注为名词(n) |
依存句法分析 | 识别句子中词汇间的相互依存关系(如主谓、动宾关系) | 理清句子结构,例如“杨利伟乘飞船”中“杨利伟”与“乘”为主谓关系,“乘”与“飞船”为动宾关系 |
语义分析 | 解析文本的深层语义(如词义消歧、语义角色标注) | 解决歧义问题,例如明确“开刀的是他父亲”中“开刀的”的具体语义 |
分词的特殊挑战
- 切分歧义:包括组合型歧义(如“中华人民共和国”粗分/细分)、交集型歧义(如“羽毛球拍卖完了”可拆为“羽毛球拍/卖完”或“羽毛球/拍卖”)、真歧义(如“下雨天留客天留我不留”的多种拆分);
- 未登录词:新词热词(如“给力”“房奴”)、专有名词(如“拜登”“泰康人寿”)、专业名词(如“禽流感”“三聚氰胺”),特点是增长快、长度不定。
2.2 关键支撑技术(词向量与相似度计算)
2.2.1 词向量
词向量是利用大数据与深度学习模型,将词汇映射为固定长度向量的技术,所有词向量构成“词向量空间”,每个词对应空间中的一个点。其核心价值是实现“文本可计算”,为语义挖掘、相似度分析提供基础。
2.2.2 相似度计算
基于词向量可实现“词级”与“文本级”的相似度分析:
- 词汇语义相似度:例如“西瓜”(向量:0.018,0.4696…)与“草莓”(向量:0.2251,0.2862…)的相似度(0.325)高于“西瓜”与“呆瓜”(0.115);
- 文本语义相似度:例如“车头如何放置车牌”(向量:0.844,-0.039…)与“前牌照怎么装”(0.355,0.238…)的相似度(0.486)高于其与“如何办理北京牌照”的相似度。
3 自然语言处理的常见应用
基于基础技术,NLP已在多领域落地,解决实际场景中的语言理解与生成需求。
3.1 机器翻译
机器翻译(Machine Translation)是通过计算机程序将一种自然语言(源语言)转换为另一种自然语言(目标语言) 的技术,支持文本、声音、文档等多种形式。
- 核心应用场景:跨语言沟通(面对面/在线交流)、学习(背单词、写作文)、旅游(国外信息查询)、阅读(外文网站/论文)、商贸(贸易往来、会议沟通);
- 典型案例:百度翻译支持“文本翻译、文档翻译、AI同传”,可将“Artificial Intelligence”实时译为“人工智能”,并修正翻译误差(如将病句“加强口国和津已布韦的友谊”修正为“加强中国和津巴布韦的友谊”)。
3.2 垃圾邮件分类
传统“关键词过滤”易误判(正常邮件含关键词)、易规避(垃圾邮件变形关键词),NLP通过“统计学习”提升准确率:
- 核心逻辑:学习大量垃圾/非垃圾邮件,构建“垃圾词库”与“非垃圾词库”,基于词频计算邮件属于垃圾邮件的概率;
- 价值:降低误判率,抵御“关键词变形”类垃圾邮件。
3.3 信息抽取
信息抽取是将非结构化文本转化为结构化信息(如表格) 的技术,核心是提取“时间、地点、人物、事件”等关键信息。
- 示例:从“10月28日,AMD宣布斥资350亿美元收购FPGA芯片巨头赛灵思”中抽取:
信息类型 抽取结果 实体(公司) AMD、赛灵思 关系 AMD收购赛灵思 时间 2020年10月28日(归一化后) 事件金额 350亿美元 - 价值:节省人工整理成本,提升信息获取效率。
3.4 文本情感分析
文本情感分析(意见挖掘)是对带有情感色彩的主观性文本进行分析、归纳、推理的技术,核心是判断文本情感倾向(正向/负向)。
- 应用场景:网络管理员监控舆情、企业分析产品反馈(如大众点评评论);
- 示例:对文本“奢华酒店体验好,当地文化很受用”分析结果为“正向情感(99%)”。
3.5 智能问答
智能问答系统以“一问一答”形式为用户提供个性化信息服务,核心流程为“理解问题→提取关键信息→检索匹配答案→反馈结果”,分为检索式问答、社区问答、知识库问答三类。
- 示例:用户问“上海明天下雨吗?”,系统直接反馈天气;追问“这周六呢?”,系统自动补全上下文(改写为“上海这周六下雨吗?”),并返回“小雨转多云,29-37℃”。
3.6 个性化推荐
个性化推荐是根据用户兴趣与行为,推荐其可能感兴趣的信息/商品的技术,核心是通过NLP分析用户偏好。
- 典型案例:今日头条新闻推荐、购物平台商品推荐、知乎话题推荐、直播平台主播推荐;
- 价值:提升用户体验,提高信息/商品的触达效率。
3.7 语言生成
语言生成是让机器自动生成符合语法与语义的文本的技术,典型应用为“文本摘要”(将长文本压缩为短文本)。
- 示例:将820字“麻省理工学院无人机RFID技术”报道,压缩为200字摘要,核心保留“Rfly系统原理(无人机配微型继电器读取RFID标签)、优势(小巧安全、提升库存准确性)、测试进展”。
4 知识图谱及应用
4.1 知识图谱定义
知识图谱(Knowledge Graph)在图书情报界又称“知识域可视化”,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制知识间相互联系的图形。其核心价值是“让搜索更有深度和广度”,帮助用户快速找到目标信息、获取全面摘要。
4.2 知识图谱示例
以“神舟十四号”搜索为例,知识图谱可整合多维度信息并展示关联关系:
- 核心信息:中国载人航天工程第十四艘飞船,空间站建造阶段首次载人任务,航天员在轨工作6个月,2022年6月5日发射;
- 关联信息:相关航天器(长征二号运载火箭、神舟十一号)、任务进展(2022年7月25日进入问天实验舱)。
4.3 知识图谱典型应用场景
知识图谱通过“关联分析”解决复杂场景中的信息挖掘与风险识别问题,典型应用包括:
- 信用卡申请反欺诈:分析申请人信息(电话、地址)的关联关系,识别“共用信息创建合成身份”的欺诈行为(如3个电话+3个地址被组合成9个虚假身份);
- 企业知识图谱:融合企业数据,用于风险评估、最终控制人查询、企业间路径发现、上市企业智能问答;
- 交易/反洗钱知识图谱:关联身份证、手机号、设备指纹等维度,追踪交易路径,识别可疑交易与洗钱行为;
- 信贷/消费贷知识图谱:自动化分析申请人信息,判别信息真实性与可靠性;
- 内控知识图谱:防止中介利用信息不对称转移企业存款。