EP01:【NLP 第二弹】自然语言处理概述
一、NLP通向智能之路
1.1 图灵测试
1.1.1 提出背景
由计算机科学家阿兰・图灵于 1950 年提出,是早期衡量机器智能水平的重要概念。
1.1.2 提出目的
- 判断机器是否能表现出与人类相当的智能行为。
1.1.3 测试原理
- 场景设定:测试中存在一位人类测试者,以及一个被放置在“不可视房间”中的对象(可能是机器或人类)。
- 互动方式:人类测试者通过文本对话等非视觉方式与房间中的对象交流,无法直接观察对方的真实身份。
- 判断标准:若人类测试者在对话结束后,无法准确分辨与自己交流的对象是机器还是真人,则该机器被判定为 “通过图灵测试”。
1.1.4 测试结论
通过图灵测试的机器,在传统定义中会被认为 “拥有人工智能”,即其智能表现达到了与人类难以区分的程度。这一测试为早期人工智能的研究提供了具象化的评判标准,尽管随着技术发展,其局限性逐渐显现,但仍是人工智能发展史上的重要里程碑。
1.2 三种智能层次
1.2.1 运算智能
- 定义:让计算机拥有快速计算和记忆存储能力。
- 相关技术:
- 硬件加速器:例如 GPU(图形处理单元)、TPU(张量处理单元)、ASICs(应用特定集成电路)等。
- 并行计算:多核处理器、分布式系统、超线程技术等。
- 高效算法:如 FFT(快速傅里叶变换)、Strassen算法(快速矩阵乘法)等。
- 内存和存储技术:如 SSD、RAM、以及新型存储技术如 3D XPoint。
1.2.2 感知智能
- 定义:让计算机系统具备感知外部环境的能力。
- 相关技术:
- 计算机视觉:包括以卷积神经网络(CNN)和图像处理在内的一系列内容,应用于图像识别、目标检测、图像分割等。
- 语音识别:技术包括递归神经网络(RNN)、长短时记忆网络(LSTM)、声谱图等。
- 触觉技术:例如电容触摸屏、压力感应器等。
- 其它传感器技术:如雷达、激光雷达(LiDAR)、红外线传感器、摄像头、麦克风、气味检测传感器等。
1.2.3 认知智能
- 定义:让计算机系统具备类似于人类认知和思维能力的能力。
- 相关技术:
- 自然语言处理:如 RNN、transformer、BERT、GPT架构、语义分析、情感分析等。
- 增强学习:技术包括 Q-learning、Deep Q Networks (DQN)、蒙特卡洛树搜索(MCTS)等。
- 知识图谱:结合大量数据,构建对象之间的关系,支持更复杂的查询和推理。
- 逻辑推理和符号计算:如专家系统、规则引擎、SAT solvers 等。
- 模拟人类思维的框架和算法:例如认知架构(如 SOAR 和 ACT-R)。
1.3 人机同频交流
1.3.1 社会共识
无论是图灵测试的设计方式,还是GPT爆火引发的AI浪潮都说明——在人工智能发展的过程当中,深度学习学者们、甚至整个人类社会都无意识地达成了一种高度的共识:认知智能是智能的终极体现,人机同频的交流是智能被实现的象征,无论一个人工智能算法有多强大的能力。
1.3.2 三大核心要求
- 普适性地理解人类
- 让人类理解
- 与人类顺畅交流
1.4 自然语言处理
1.4.1 语言
人类 90% 的信息获取与交流依赖语言,且语言承载着逻辑、情感、知识、智慧,是社会构建与文明传承的基础。
1.4.2 定义
作为研究计算机认知、理解、生成人类语言,并依托语言完成交流与特定任务的学科,它是计算机实现 “与人类同频” 的核心路径。
1.4.3 地位
自然语言处理的发展直接关系到人工智能能否真正具备 “智能”,因此在学术与工业领域均占据极其重要的地位。
1.4.4 学术界
- 学术会议热度攀升:NLP 领域的经典会议 ACL 和 NAACL 中,被接受的论文数量与比率逐年增长,反映出领域研究的蓬勃活力。
- 跨领域渗透显著:得益于语言与其他信息形式的强融合性,NLP 架构被广泛借鉴到多个领域,催生了众多突破性成果:
- 计算机视觉领域,非卷积架构 ViT(Vision Transformer)凭借借鉴 NLP 的 Transformer 结构,在图像领域展现出强大能力。
- 自动驾驶领域,谷歌大脑 2023 年 3 月发表的《LEAST-TO-MOST PROMPTING》论文显示,大语言模型结合提示工程,在高难度导航数据集 SCAN 上的预测精度从约 50% 提升至 99%。
- 学术成果占比领先:2023 年 3 月发布的 “机器学习 / 深度学习领域年度百佳论文” 中,专注 NLP 或依赖 NLP 技术的论文占比达 2/3,覆盖生成式语言模型、预训练技术、大语言模型、语音技术、图文模型等多个方向。
1.4.5 工业界
- NLP技术的工业化普及:NLP技术已深度融入各类实用场景,成为众多产品与服务的核心支撑:
- 从搜索引擎的精准检索、推荐系统的个性化内容推送,到语音助手的交互响应、聊天机器人的智能对话,再到自动摘要的信息提炼、情感分析的用户态度洞察——这些高频应用的底层逻辑均依赖NLP技术。
- 实际上,在PC端或移动设备中,几乎所有涉及文本交互或语音沟通的产品与服务,都离不开NLP技术的赋能,其已成为连接人机交互的“隐形基础设施”。
- NLP技术的爆发式扩散:自大语言模型诞生后,NLP技术的工业化应用呈现爆发式增长:
- 2023年世界人工智能大会上,软件展区几乎被大语言模型相关的软件及应用程序全面覆盖,直观展现了NLP技术在产业端的热度。
- 从前沿科技企业到互联网巨头,全行业均在积极布局自有大模型产品,推动NLP技术从基础能力向垂直场景的深度渗透,进一步巩固了其在工业界的核心地位。
二、大模型引发行业剧变
2.1 三大发展阶段
2.1.1 探索阶段:2011~2015(前Transformer时代)
- 时代背景:在AlphaGo和卷积网络掀起第三次人工智能革命之前,NLP领域主要依赖人工规则和知识库构建非常精细的“规则类语言模型”,当人工智能浪潮来临后,NLP转向使用统计学模型、深度学习模型和大规模语料库。
- 重要目标:研发语言模型、找出能够处理语言数据的算法。
- 重要技术:
- 隐马尔可夫模型(HMM)
- 条件随机场(CRF)
- 支持向量机(SVM)
- 循环神经网络(RNN)
- 长短期记忆网络(LSTM)
2.1.2 提升阶段:2015~2020(Transformer时代)
- 时代背景:2015年谷歌将自注意力机制发扬光大、提出了Transformer架构,在未来的几年中,基于transformer的BERT、GPT等语言模型相继诞生。
- 重要目标:大幅提升语言模型在自然语言理解和生成方面的能力。
- 重要应用:
- 搜索引擎
- 推荐系统
- 自动翻译
- 智能助手
2.1.3 应用阶段:2020-至今(大模型时代)
- 时代背景:2020年秋天、GPT3.0所写的小软文在社交媒体上爆火,这个总参数量超出1750w、每运行1s就要消耗100w美元的大语言模型(Large Language Models,LLMs)为NLP领域开启了一个全新的阶段。
- 重要目标:
- 模型研发:虽然GPT系列大模型的原理并未开源,但GPT的成功无疑为“如何提升语言模型表现”指出了一条明路。在GPT的启发下,海内外各大科技企业正在研发基于BERT、基于GPT或基于Transformer其他组合方式的大模型,国内一线大模型ChatGLM系列就是基于BERT和GPT的融合理念开发的中文大模型。同时,大模型研发和训练技术、如生物反馈式强化学习(RLFH)、近端策略优化(PPO)、奖励权重策略(Reward-based Weighting)、DeepSpeed训练引擎等发展迅速,势不可挡。虽然现在已不是NLP理论发展的高峰,但毫无疑问,大模型算法研发与训练依然是NLP最前沿的研究方向之一。
- 成本降低:大模型吞吃大量语料、训练成本极高,要将大模型应用到具体商业场景、还需进一步研究和训练。因此降低大模型应用成本的预训练、微调、大规模语料库构建等技术正蓬勃发展!自2020年以来已诞生十余种可行的微调方法和自动语料生成方法,如有监督微调(SFT)、低阶自适应微调方法LoRA、提示词前缀微调方法Prefix Tuning、轻量级Prefix微调Prompt Tuning、百倍效率提升的微调方法P-Tuning V2、以及自适应预算分配微调方法AdaLoRA等。这些方法催生了GPT4.0和大量语言方面落地应用,已经大大改变了NLP的研究和应用格局。
- 技术变现:
- 大语言模型的性能十分强大、足以很好地支持各类NLP方面服务。
- 大语言模型使用自然语言与消费者交互,可以大幅降低新产品的使用门槛,还可以与图像、语音等领域强势联动、形成多模态的产品。
2.2 大模型产品
- ChatGPT
- 跨语言代码编译工具Cursor
- Github官方代码编写工具CopilotX
- 一键生成PPT内容的Gamma AI
- office全家桶中配置的Copilot
- Photoshop中配置的fill features
- 广泛生成图像的MidJourney和Stable Diffusion
- 大模型APP研发范式LangChain
三、NLP带来危险与机遇
3.1 GPT的重大突破
GPT的诞生引发社会轰动,其代表了大模型技术和预训练模型在自然语言处理领域的关键突破,被比尔·盖茨(“与个人电脑或互联网同样重要”)、黄仁勋(“AI领域的iPhone,是更伟大事物的开始”)等行业领袖高度评价。
GPT不仅提升了人机交互的能力,还为智能助手、虚拟智能人物和其他领域的创新应用打开了新的可能性。随着大模型的进一步发展和应用,有理由期待GPT以及类似的技术在未来带来更多令人惊叹的创新和进步。
3.2 行业结构的变化趋势
整体行业呈欣欣向荣态势,但结构将发生显著变化:
- 核心技术发生转移,大模型技术成为核心方向
- 论文发表难度上升,理论研究门槛提高
3.3 从业者的机遇与挑战
- 就业市场:不会爆发针对NLP从业者的大规模失业潮(因多数从业者并非聚焦理论研究)。
- 转型需求:NLP从业者需主动适应技术变革,面临转型压力。
- 人才趋势:掌握大模型技术的NLP从业者将成为行业抢手人才。
- 具体领域:
- 参与大模型的研发与优化,探索更高效的模型结构和训练方法。
- 开发创新NLP应用,提升人类语言交互的智能性与效率。
- 涉足多模态、具身智能、人类行为模拟等前沿研究,推动NLP技术边界拓展。
微语录:我的天空里没有太阳,总是黑夜,但并不暗,因为有东西代替了太阳。——东野圭吾