基础专有术语
目录
一、基础概念
二、数据与特征
三、模型与算法
四、训练与优化
五、应用与工具
一、基础概念
-
人工智能(Artificial Intelligence, AI)
-
专业解释:研究如何使计算机系统具备模拟人类智能行为的能力,包括推理、学习、感知、决策等,涵盖机器学习、自然语言处理、计算机视觉等多个分支。
-
通俗解释:让机器像人一样 “思考” 和 “做事”,比如语音助手听懂指令、机器人自主避障等。
-
-
机器学习(Machine Learning, ML)
-
专业解释:人工智能的一个分支,通过算法使计算机从数据中自动学习规律(构建模型),并利用模型对未知数据进行预测或决策,无需人工手动编写规则。
-
通俗解释:让机器从数据中 “自学成才”,比如通过大量邮件数据学会区分垃圾邮件和正常邮件。
-
-
深度学习(Deep Learning, DL)
-
专业解释:机器学习的一个子领域,基于深度神经网络(含多个隐藏层的神经网络),通过多层非线性变换自动提取数据的抽象特征,适用于处理图像、语音等复杂数据。
-
通俗解释:用类似人脑神经元连接的 “多层网络” 让机器 “深度理解” 数据,比如从像素中逐层识别出 “边缘→眼睛→人脸”。
-
二、数据与特征
-
特征(Feature)
-
专业解释:描述数据的属性或维度,是模型输入的基本单元,例如图像的像素值、文本的词语频率等。
-
通俗解释:数据的 “特点”,比如判断一个水果是不是苹果,“颜色(红 / 绿)”“形状(圆形)” 就是特征。
-
-
特征工程(Feature Engineering)
-
专业解释:对原始数据进行预处理(如清洗、转换、选择),生成更有效的特征,以提升模型性能的过程。
-
通俗解释:给数据 “化妆”,比如把 “身高 180 厘米” 转换成 “身高高于平均”,让模型更容易理解。
-
-
标签(Label)
-
专业解释:在监督学习中,数据对应的目标输出(如 “垃圾邮件”“正常邮件”),用于训练模型时的误差计算。
-
通俗解释:数据的 “答案”,比如给一张猫的图片贴标签 “猫”,让模型学习 “图片→猫” 的对应关系。
-
-
过拟合(Overfitting)
-
专业解释:模型过度拟合训练数据,导致在训练集上表现极好,但在未见过的测试集上表现差,泛化能力弱。
-
通俗解释:机器 “死记硬背” 了训练数据,遇到新问题就不会了,比如只学过白猫,看到黑猫就认不出来。
-
-
欠拟合(Underfitting)
-
专业解释:模型未能捕捉训练数据的规律,在训练集和测试集上表现都差,通常因模型太简单或训练不足导致。
-
通俗解释:机器 “没学会”,比如学数学只背了公式,不会做应用题。
-
三、模型与算法
-
监督学习(Supervised Learning)
-
专业解释:利用带标签的训练数据(输入 + 对应输出),训练模型学习输入到输出的映射关系,用于预测新数据的标签,如分类、回归。
-
通俗解释:“有老师教”,机器学的每道题都有答案,学会后做新题就能猜答案。
-
-
无监督学习(Unsupervised Learning)
-
专业解释:使用无标签的数据,让模型自动发现数据中的隐藏结构(如聚类、降维),无需人工标注目标。
-
通俗解释:“自学成才”,机器自己从一堆数据中找规律,比如把相似的水果自动分成 “苹果组”“香蕉组”。
-
-
半监督学习(Semi-supervised Learning)
-
专业解释:结合少量带标签数据和大量无标签数据进行训练,适用于标签获取成本高的场景(如医疗影像标注)。
-
通俗解释:“少量老师 + 大量自学”,比如学英语时,先背几个单词(有标签),再自己读文章猜其他单词意思(无标签)。
-
-
强化学习(Reinforcement Learning, RL)
-
专业解释:通过 “智能体(Agent)” 与环境交互,根据行为的 “奖励(Reward)” 或 “惩罚” 调整策略,逐步学习最优行动方案。
-
通俗解释:“试错学习”,比如机器人学走路,摔倒了(惩罚)就调整姿势,走稳了(奖励)就记住方法。
-
-
分类(Classification)
-
专业解释:监督学习的一种,目标是将数据划分到预定义的类别中(如 “spam/ham”“ 猫 / 狗 ”),输出离散标签。
-
通俗解释:“做选择题”,比如判断一张图片属于 “动物” 还是 “植物”。
-
-
回归(Regression)
-
专业解释:监督学习的一种,目标是预测连续数值(如房价、温度),输出为连续变量。
-
通俗解释:“做填空题”,比如根据面积、地段预测房子的具体价格。
-
-
聚类(Clustering)
-
专业解释:无监督学习的一种,将相似的数据自动归为一类,无需预先定义类别。
-
通俗解释:“物以类聚”,比如把一堆混合的水果按形状、颜色分成几堆,不提前说哪堆是苹果。
-
-
神经网络(Neural Network)
-
专业解释:模拟人脑神经元连接的数学模型,由输入层、隐藏层、输出层组成,通过神经元间的权重传递信号,实现特征提取和决策。
-
通俗解释:“仿人脑的网络”,一层一层处理信息,比如第一层看像素,第二层认线条,最后一层识物体。
-
-
卷积神经网络(Convolutional Neural Network, CNN)
-
专业解释:一种特殊的神经网络,通过卷积层(利用卷积核提取局部特征,如边缘、纹理)和池化层(降维)处理网格结构数据(如图像、视频)。
-
通俗解释:“擅长看图片的网络”,像人眼一样先看局部细节,再拼出整体,比如从猫的耳朵、眼睛认出猫。
-
-
循环神经网络(Recurrent Neural Network, RNN)
-
专业解释:处理序列数据(如文本、语音)的神经网络,通过记忆单元保留前序输入的信息,适用于上下文相关的任务(如机器翻译)。
-
通俗解释:“有记忆的网络”,读句子时会记住前面的词,比如理解 “他喜欢苹果” 时,知道 “他” 指谁。
-
-
长短期记忆网络(Long Short-Term Memory, LSTM)
-
专业解释:RNN 的改进版,通过门控机制(输入门、遗忘门、输出门)解决长序列中的梯度消失问题,能记住长期依赖关系。
-
通俗解释:“记性更好的 RNN”,读长文章时不会忘记前面的内容,比如翻译一本书时,前后文保持一致。
-
-
Transformer
-
专业解释:基于自注意力机制(Self-Attention)的模型,能直接计算序列中任意两个元素的关联(如句子中词语的依赖),无需按顺序处理,广泛用于 NLP(如 BERT、GPT)。
-
通俗解释:“一眼看全的网络”,处理句子时同时关注所有词的关系,比如理解 “猫追狗” 时,知道 “猫” 和 “狗” 是动作的主体和对象。
-
-
生成对抗网络(Generative Adversarial Network, GAN)
-
专业解释:由生成器(生成类似真实数据的样本)和判别器(区分真实数据与生成数据)组成,两者对抗训练,最终生成器能产出逼真数据(如假人脸、假图片)。
-
通俗解释:“造假与鉴假的博弈”,生成器像画家,判别器像评委,画家不断进步,画出以假乱真的画。
-
四、训练与优化
-
梯度下降(Gradient Descent)
-
专业解释:一种优化算法,通过计算损失函数对参数的梯度(导数),沿梯度负方向更新参数,逐步减小损失,找到最优解。
-
通俗解释:“下山找最低点”,每次朝最陡的下坡方向走一步,直到走到山底(损失最小)。
-
-
损失函数(Loss Function)
-
专业解释:衡量模型预测值与真实标签(或目标)的差异,值越小表示预测越准,是训练中优化的目标。
-
通俗解释:“误差计算器”,比如预测房价差了 10 万,损失函数就记录这个 “10 万” 的误差。
-
-
反向传播(Backpropagation)
-
专业解释:神经网络训练的核心算法,通过计算输出层的损失,反向逐层传播误差,更新各层神经元的权重,以减小损失。
-
通俗解释:“从错误中学习”,模型预测错了,从最后一层往前找哪层出错,然后调整参数。
-
-
批量梯度下降(Batch Gradient Descent)
-
专业解释:每次用全部训练数据计算梯度并更新参数,收敛稳定但计算量大。
-
通俗解释:“做完所有题再改”,一次性看完全部错题,统一调整学习方法。
-
-
随机梯度下降(Stochastic Gradient Descent, SGD)
-
专业解释:每次随机用一个样本计算梯度并更新参数,计算量小但收敛波动大。
-
通俗解释:“做一道题改一次”,做一道题就马上调整,速度快但可能反复修改。
-
-
学习率(Learning Rate)
-
专业解释:梯度下降中参数更新的步长,过大可能跳过最优解,过小则训练慢。
-
通俗解释:“学习的步子大小”,步子太大容易走过头,太小学半天没进展。
-
-
正则化(Regularization)
-
专业解释:通过在损失函数中加入参数的惩罚项(如 L1、L2 正则),限制参数大小,防止模型过拟合。
-
通俗解释:“给模型定规矩”,不让模型过度复杂(比如少记细节),避免 “死记硬背”。
-
-
批量大小(Batch Size)
-
专业解释:每次模型参数更新时输入的样本数量。例如,批量大小为 32 表示每次用 32 个样本计算梯度并更新参数。
-
通俗解释:好比老师批改作业,一次批 32 本(批量大小 32),而不是逐本批改(批量大小 1),效率和效果会不同。
-
-
迭代次数(Iteration)
-
专业解释:模型完成一次批量样本训练(即一次参数更新)的过程。
-
通俗解释:老师批完一次设定数量的作业(如 32 本),就算完成一次 “迭代”。
-
-
轮次(Epoch)
-
专业解释:模型对整个训练数据集完成一次完整遍历的次数。若数据集有 1000 个样本,批量大小 100,则 1 个 Epoch 包含 10 次迭代。
-
通俗解释:把所有作业(整个数据集)从头到尾批完一遍,就是 1 个 “轮次”。
-
-
学习率衰减(Learning Rate Decay)
-
专业解释:训练过程中逐渐减小学习率的策略,避免模型在最优解附近震荡,提高收敛稳定性。
-
通俗解释:好比调收音机,一开始大步调频道(高学习率),快找到清晰台时小步微调(低学习率),更易精准锁定。
-
-
动量(Momentum)
-
专业解释:优化算法中模拟物理 “动量” 的参数,累加之前的梯度方向,加速收敛并抑制震荡,常见于 SGD 优化器。
-
通俗解释:就像下坡时的惯性,之前的步伐方向会带动当前步伐,让模型更快 “跑” 向正确方向,减少来回犹豫。
-
-
权重衰减(Weight Decay)
-
专业解释:在损失函数中加入模型权重的 L2 范数惩罚项,限制权重大小,防止过拟合的正则化手段。
-
通俗解释:给模型的 “参数值” 设个 “上限”,避免某些参数过大导致模型 “钻牛角尖”(过度拟合训练数据)。
-
-
早停(Early Stopping)
-
专业解释:训练中监控验证集性能,当性能不再提升(甚至下降)时停止训练,防止模型过拟合的策略。
-
通俗解释:练题时发现继续刷题反而让模拟考成绩下降,就及时停下,保留当前的最佳状态。
-
-
梯度裁剪(Gradient Clipping)
-
专业解释:当梯度值过大时,将其限制在一定范围内,避免训练中出现 “梯度爆炸” 导致模型参数异常。
-
通俗解释:给梯度的 “力度” 设个安全值,防止更新参数时用力过猛(梯度太大),把模型 “带偏”。
-
-
鞍点(Saddle Point)
-
专业解释:梯度为零但不是最优解的点(在某些方向上是极大值,某些方向上是极小值),会导致优化过程停滞。
-
通俗解释:好比在马鞍上,前后看是低谷,左右看是高峰,模型走到这里会误以为到了 “平地”,停下不前。
-
-
收敛(Convergence)
-
专业解释:训练过程中,模型的损失函数值趋于稳定,参数更新幅度极小,达到或接近最优解的状态。
-
通俗解释:模型 “学到位” 了,继续训练损失也降不下去,参数基本不变,相当于掌握了知识的核心。
-
-
批归一化(Batch Normalization, BN)
-
专业解释:训练中对每批样本的输入进行标准化(均值为 0,方差为 1),稳定网络各层输入分布,加速收敛并缓解梯度消失。
-
通俗解释:给网络的 “每层输入” 做 “标准化处理”,比如把不同范围的数值统一到相似尺度,让每层学习更稳定高效。
-
-
dropout
-
专业解释:训练时随机让部分神经元暂时 “失效”(输出为 0),减少神经元间的依赖,防止过拟合的正则化方法。
-
通俗解释:模拟 “团队协作” 时随机让一些成员休息,避免模型过度依赖少数 “强神经元”,增强整体泛化能力。
-
-
学习率调度器(Learning Rate Scheduler)
-
专业解释:根据训练轮次或性能指标自动调整学习率的工具(如阶梯衰减、余弦退火等),优化学习率策略。
-
通俗解释:就像自动换挡的汽车,根据训练的 “阶段”(如跑了多少轮)自动切换学习率的 “档位”,更智能地调整步伐。
-
五、应用与工具
-
自然语言处理(Natural Language Processing, NLP)
-
专业解释:让计算机理解、分析、生成人类语言的技术,包括分词、翻译、情感分析等。
-
通俗解释:“机器懂人话”,比如语音转文字、聊天机器人回复消息。
-
-
计算机视觉(Computer Vision, CV)
-
专业解释:让计算机 “看懂” 图像和视频的技术,包括目标检测、图像分类、人脸识别等。
-
通俗解释:“机器有眼睛”,比如摄像头识别闯红灯的行人、手机拍照自动美颜。
-
-
预训练模型(Pre-trained Model)
-
专业解释:在大规模数据上预先训练好的模型(如 BERT、ResNet),可通过微调(Fine-tuning)适配具体任务,减少重复训练成本。
-
通俗解释:“现成的学霸笔记”,别人已经学完了基础知识,你拿来稍作修改就能用。
-
-
微调(Fine-tuning)
-
专业解释:在预训练模型基础上,用少量任务特定数据继续训练,调整部分参数以适配新任务。
-
通俗解释:“学霸笔记改一改”,把通用知识(如学英语)改成适合具体考试(如雅思)的内容。
-