计算机视觉与自然语言处理技术体系概述
计算机视觉与自然语言处理技术体系概述
- 计算机视觉
- 图像分类
- Transformer
- CNN
- MLP
- 目标检测
- YOLO
- 图像分割
- FCN
- FPN
- U-Net
- 目标跟踪
- deepsort
- YOLO
- 图像生成
- GAN
- 图像分类
- 自然语言处理
- 文本分类
- KNN
- 文本匹配
- DSSM
- 文本生成
- RNN
- 序列标注
- HMM
- 文本分类
上述内容系统梳理了人工智能领域两大核心方向 ——计算机视觉(CV) 与自然语言处理(NLP) 的关键任务及对应主流技术,覆盖从 “感知世界” 到 “理解语言” 的核心能力模块,以下从两大领域分别展开概述,清晰呈现技术逻辑与应用定位。
一、计算机视觉(Computer Vision, CV)
计算机视觉的核心目标是让机器 “看懂” 图像或视频,模拟人类视觉系统对视觉信息的感知、分析与理解能力,上述梳理涵盖 5 类核心任务及对应技术,各任务层层递进,从 “判断类别” 到 “生成新图” 形成完整能力链。
1. 图像分类:判断 “是什么”
图像分类是 CV 最基础的任务,核心是给输入图像分配一个或多个预定义类别(如 “猫 / 狗”“汽车 / 行人”),是后续复杂任务的技术基础。
- Transformer:近年主流技术,基于 “注意力机制”,能捕捉图像全局像素间的关联(如关注猫的耳朵、尾巴等关键部位),摆脱传统局部特征限制,代表模型有 ViT(Vision Transformer),在大数据集上精度优势显著。
- CNN(卷积神经网络):传统核心技术,通过 “卷积层” 提取图像局部特征(如边缘、纹理、形状),再经池化层压缩维度,逐步构建从低级到高级的特征表示(如从 “线条” 到 “猫的面部轮廓”),代表模型有 ResNet、AlexNet,至今仍是小数据集或实时场景的优选。
- MLP(多层感知机):早期基础模型,通过全连接层直接处理图像像素(需将 2D 图像展平为 1D 向量),但无法捕捉像素空间关联(如相邻像素的纹理信息),仅适用于简单低分辨率图像,目前已较少单独用于复杂图像分类。
2. 目标检测:定位 “在哪里 + 是什么”
目标检测在图像分类基础上增加 “定位” 能力,需同时输出图像中目标的类别与边界框坐标(如检测照片中 “3 个人” 的位置及每个人的框选范围),是自动驾驶、安防监控的核心技术。
- YOLO(You Only Look Once):实时检测领域的标杆技术,采用 “单阶段检测” 思路 —— 将图像划分为网格,直接在网格上预测目标类别与边界框,无需分 “先找候选框、再分类” 的多步骤,优势是速度极快(可满足实时视频检测),最新版本(如 YOLOv8)已兼顾速度与精度,广泛用于实时场景(如交通违章检测、工业缺陷检测)。
3. 图像分割:区分 “每一个像素属于谁”
图像分割比目标检测更精细,需将图像像素级划分为不同类别(如 “道路 / 行人 / 车辆”“肿瘤区域 / 正常组织”),实现 “像素级理解”,核心应用于医疗影像、自动驾驶、遥感图像分析。
- FCN(全卷积网络):分割领域的开创性模型,将 CNN 的 “全连接层” 替换为 “卷积层”,解决传统 CNN 无法输出与输入图像同分辨率结果的问题,能直接生成像素级分割图,但对小目标或细节的分割精度有限。
- FPN(特征金字塔网络):针对 “多尺度目标分割” 设计,通过构建 “特征金字塔” 融合不同层级的特征(浅层特征抓细节、深层特征抓全局),有效提升小目标(如图像中的小细胞、远处的小车辆)的分割精度,常作为其他分割模型的基础组件。
- U-Net:医疗影像分割的 “黄金标准” 模型,采用 “编码器 - 解码器” 对称结构 —— 编码器下采样提取特征,解码器上采样恢复分辨率,同时通过 “跳跃连接” 将编码器的细节特征传递到解码器,大幅提升边缘、细节的分割精度,广泛用于 CT/MRI 图像的肿瘤分割、细胞分割。
4. 目标跟踪:追踪 “目标的动态轨迹”
目标跟踪聚焦视频序列,需在连续帧中定位并关联同一目标(如 “跟踪视频中某个人的行走路径”“跟踪监控中嫌疑车辆的移动轨迹”),核心依赖 “检测 + 关联” 逻辑,应用于安防、自动驾驶、视频分析。
- DeepSORT(Deep Simple Online and Realtime Tracking):主流跟踪算法,基于 “检测结果 + 运动模型 + 外观特征” 实现目标关联 —— 先用检测模型(如 YOLO)获取每帧目标位置,再通过卡尔曼滤波预测目标运动轨迹,结合深度学习提取的目标外观特征(如衣服颜色、车辆形状),解决目标遮挡、短暂消失后的重新关联问题,平衡跟踪精度与速度。
- YOLO:此处作为 “跟踪的检测基础”,多数实时跟踪系统(如 YOLO+DeepSORT)会用 YOLO 作为帧内目标检测模块,为跟踪提供准确的初始目标位置,再由跟踪算法完成帧间关联。
5. 图像生成:创造 “新的图像”
图像生成是 CV 的创造性任务,需基于输入条件(如文本、草图、噪声)生成全新、逼真的图像,核心应用于 AI 绘画、图像修复、虚拟内容生成。
- GAN(生成对抗网络):生成领域的核心框架,由 “生成器” 和 “判别器” 对抗训练 —— 生成器尝试生成逼真图像,判别器尝试区分 “真实图像” 与 “生成图像”,二者迭代优化,最终生成器能输出以假乱真的图像,代表应用有 StyleGAN(生成人脸)、CycleGAN(图像风格迁移,如 “照片转油画”)。
二、自然语言处理(Natural Language Processing, NLP)
自然语言处理的核心目标是让机器 “理解” 和 “生成” 人类语言,实现人与机器的语言交互,上述梳理涵盖 4 类核心任务及对应技术,覆盖从 “分析文本” 到 “生成文本” 的核心能力。
1. 文本分类:判断 “文本属于哪类”
文本分类是 NLP 最基础的任务,核心是给输入文本分配预定义类别(如 “垃圾邮件 / 正常邮件”“正面评价 / 负面评价”“体育新闻 / 财经新闻”),是信息筛选、情感分析的基础。
- KNN(K 近邻算法):传统机器学习方法,核心逻辑是 “物以类聚”—— 将文本转化为向量(如 TF-IDF 向量)后,计算待分类文本与训练集中所有文本的相似度,取最相似的 K 个文本的类别作为待分类文本的类别,优势是实现简单、无需训练,但对高维文本向量(如长文本)的处理效率低,精度依赖相似度计算方式,目前更多用于小规模文本场景或基线模型。
2. 文本匹配:判断 “两个文本是否相关”
文本匹配聚焦 “文本对” 的关系判断,核心任务包括 “语义相似度计算”(如 “‘今天天气好’与‘今日阳光充足’是否相似”)、“问答匹配”(如 “用户问题与知识库答案是否匹配”),应用于搜索引擎、智能问答、推荐系统。
- DSSM(深度语义相似模型):深度学习时代的经典匹配模型,采用 “双塔结构”—— 将两个文本分别输入独立的神经网络(如 CNN、RNN),转化为低维语义向量,再通过计算向量相似度(如余弦相似度)判断文本相关性,优势是可单独训练 “文本 - 向量” 映射,支持大规模候选文本的快速匹配(如搜索引擎的召回阶段),至今仍是工业界常用模型。
3. 文本生成:创造 “符合语境的文本”
文本生成是 NLP 的创造性任务,需基于输入(如标题、关键词、上文)生成连贯、有意义的文本(如 “根据标题写新闻”“根据上文续写故事”“生成邮件回复”),核心应用于内容创作、智能写作、对话系统。
- RNN(循环神经网络):早期文本生成的核心模型,通过 “循环结构” 处理序列数据(文本是字符 / 词语的序列),能捕捉文本的上下文依赖(如 “我吃了____” 中,“饭” 比 “车” 更合理),但存在 “长距离依赖消失” 问题(无法捕捉长文本中前后遥远的关联,如小说中前文人物与后文情节的关联),目前已逐步被 Transformer(如 GPT 系列)替代,但仍是理解序列模型的基础。
4. 序列标注:给 “每个词语贴标签”
序列标注是 NLP 的精细分析任务,需给文本中的每个 token(字符或词语)标注特定标签,核心用于 “提取文本结构化信息”,应用于命名实体识别(NER)、词性标注(POS)、分词等。
- HMM(隐马尔可夫模型):传统统计学习模型,基于 “马尔可夫假设”(当前状态仅依赖前一状态)和 “观测独立性假设”(当前观测仅依赖当前状态),通过 “状态转移概率” 和 “观测概率” 实现标注,例如在词性标注中,“苹果” 后接 “很好吃” 时,标注为 “名词” 的概率高于 “动词”。HMM 实现简单、可解释性强,但无法捕捉复杂的上下文关联(如 “苹果” 在 “苹果公司” 中是 “专有名词”,在 “吃苹果” 中是 “普通名词”),目前更多用于基线模型或低资源场景,主流已被 BERT 等 Transformer 模型替代。
三、整体总结
上述技术体系呈现了 AI“感知(CV)” 与 “理解(NLP)” 两大方向的核心逻辑:
- 计算机视觉:从 “分类(整体判断)” 到 “检测(定位 + 分类)”“分割(像素级精细判断)”,再到 “跟踪(动态关联)”“生成(创造)”,实现从 “静态图像理解” 到 “动态视频分析” 再到 “视觉内容创造” 的能力升级;
- 自然语言处理:从 “分类(整体文本判断)” 到 “匹配(文本间关联)”“标注(精细信息提取)”,再到 “生成(文本创造)”,实现从 “文本浅层分析” 到 “语义深层理解” 再到 “语言内容创造” 的能力升级。
两类技术虽聚焦领域不同,但近年均呈现 “Transformer 化” 趋势(如 CV 的 ViT、NLP 的 GPT/BERT),且逐步走向跨模态融合(如 “文本生成图像”“图像生成描述”),成为人工智能技术落地的核心支柱。