当前位置：首页 > news >正文

第一章：AI大模型基本原理及API应用——第一小节

news 2025/10/13 9:39:37

1. 什么是AI

1.1 什么是AI

从专业角度来看，人工智能（Artificial Intelligence，简称AI）是计算机科学的一个分支，其核心目标是构建能够执行通常需要人类智能才能完成的任务的系统或机器。这些任务包括但不限于感知、推理、学习、规划、决策、语言理解与生成、以及在复杂环境中适应性地行动。

我们可以从以下几个关键维度来深入理解AI：

1.1.1 核心能力与目标

AI系统旨在模拟、延伸或扩展人类的智能行为。其核心能力可以分解为：

感知（Perception）：通过传感器（如摄像头、麦克风）接收并解析外部世界的信息，例如计算机视觉（识别图像中的物体）和语音识别。
推理与知识表示（Reasoning&KnowledgeRepresentation）：利用逻辑、规则或知识图谱对信息进行处理，得出结论或做出决策。例如，专家系统可以根据预设的医学知识诊断疾病。
学习（Learning）：这是现代AI，特别是机器学习（MachineLearning,ML）的核心。系统能够从数据中自动发现模式、规律，并据此改进性能，而无需显式编程。深度学习（DeepLearning）作为机器学习的一个子集，通过模拟人脑神经网络的结构，在图像、语音、自然语言处理等领域取得了突破性进展。
规划与决策（Planning&DecisionMaking）：在不确定或动态的环境中，制定达成目标的步骤序列或做出最优选择，常见于机器人导航和自动驾驶。
自然语言处理（NaturalLanguageProcessing,NLP）：使机器能够理解、生成和回应人类语言，实现人机对话（如我正在做的）。

1.1.2. 技术基础

现代AI的飞速发展依赖于三大支柱：

算法：特别是机器学习算法（如支持向量机、随机森林）和深度学习模型（如卷积神经网络CNN、循环神经网络RNN、Transformer架构）。
算力：GPU、TPU等专用硬件提供了训练复杂模型所需的强大计算能力。
大数据：海量的标注和非标注数据是训练和验证AI模型的基础。

1.1.3. 当前挑战与未来方向

尽管AI取得了巨大成功，但仍面临诸多挑战：

可解释性（Explainability）：许多深度学习模型如同“黑箱”，其决策过程难以解释，这在医疗、金融等高风险领域尤为关键。
鲁棒性与泛化能力：模型在训练数据之外的场景下可能表现不佳，容易受到对抗性攻击。
数据偏见与公平性：训练数据中的偏见会导致AI系统做出歧视性决策。
伦理与安全：涉及隐私、自动化带来的失业、自主武器等深刻的社会伦理问题。

总而言之，AI是一门致力于创造智能机器的综合性学科。它不仅仅是技术的集合，更深刻地改变了我们与技术互动的方式，正在重塑社会、经济和科学的方方面面。理解AI，既要看到其强大的技术潜力，也要正视其伴随的挑战和责任。

1.2 AI的分类

1.2.1 从任务导向分类：分析式 AI和生成式 AI

1.2.1.1 分析式AI:“解读数据，提炼洞察”

分析式AI，也称为判别式AI（Discriminative AI）或感知与推理AI，其主要功能是从已有数据中提取信息、识别模式、进行分类、预测或做出决策。它侧重于“理解”输入数据，并基于此输出一个判断、标签或预测结果。

这类AI通常不创造新内容，而是对现有信息进行分析和处理，其输出通常是结构化的决策或分类结果。

1.2.1.1. 1核心逻辑

分析式 AI 的工作流程遵循 “输入数据→模型分析→输出结论 / 判断” 的闭环，核心是 “基于已有数据的模式匹配与逻辑推理”：

第一步：接收数据（如表格数据、图像、音频、文本）；
第二步：通过算法模型对数据进行处理（如特征提取、规律学习、逻辑推导）；
第三步：输出 “非创造性” 结果（如分类标签、预测数值、决策建议、异常警报）。

其关键约束是：输出结果必须基于输入数据的 “已有信息”，无法脱离数据生成全新内容（例如，给分析式 AI100 张猫的图片，它能学会 “识别猫”，但无法生成一张 “从未存在过的猫的图片”）。

1.2.1.1.2. 关键技术支柱

分析式 AI 的技术体系围绕 “数据解读能力” 构建，涵盖传统机器学习与部分深度学习技术，核心包括：

监督学习：通过 “标注数据”（如 “这张图是猫”“这笔交易是欺诈”）训练模型，实现分类、回归（预测数值）任务。例如，用标注好的 “肿瘤影像 + 诊断结果” 训练模型，让模型学会判断新影像是否有肿瘤。
无监督学习：无需标注数据，让模型自主从数据中发现规律（如聚类、异常检测）。例如，对用户消费数据进行聚类，自动划分 “高消费群体”“低频消费群体”；对工厂设备传感器数据进行异常检测，发现潜在故障。
强化学习（分析式应用场景）：通过 “试错” 学习最优决策，但输出的是 “决策动作” 而非 “新内容”。例如，自动驾驶中的路径规划（基于路况数据，决策 “加速 / 减速 / 转弯”）、机器人抓取物体（决策 “抓取力度 / 角度”）。
深度学习（分析类架构）：用于处理复杂非结构化数据，如计算机视觉（CV）中的 CNN（卷积神经网络，用于图像识别）、语音识别中的 RNN（循环神经网络，用于提取音频时序特征）、自然语言处理（NLP）中的文本分类模型（如判断新闻属于 “体育 / 财经”）。
知识图谱：以 “实体 - 关系” 结构化存储知识，用于逻辑推理与信息检索。例如，金融领域的知识图谱可分析 “企业关联关系”，识别 “关联交易风险”；医疗领域的知识图谱可辅助医生 “根据症状匹配疾病”。

1.2.1.1.3. 典型应用案例

分析式 AI 已深度渗透到各行各业，核心是 “用数据解决‘判断 / 预测 / 决策’类问题”，常见案例包括：

金融领域：
- 风控系统：通过分析用户的征信数据、交易数据，预测 “贷款违约概率”，决定是否放贷；
- 反欺诈：实时分析交易流水（如 “异地大额消费 + 无密码支付”），识别异常交易并触发警报。
医疗领域：
- 影像诊断：AI 通过分析 CT、MRI 影像，识别 “肺癌结节”“眼底病变”，辅助医生提高诊断效率（如腾讯觅影、推想医疗的产品）；
- 疾病预测：基于用户的体检数据、病史数据，预测未来 1-3 年患 “糖尿病”“高血压” 的风险。
工业领域：
- 质检系统：通过机器视觉分析生产线上的产品（如芯片、汽车零部件），识别 “表面划痕”“尺寸偏差” 等缺陷，替代人工质检；
- 设备运维：分析设备传感器数据（如温度、振动频率），预测设备何时可能故障，提前安排维护（即 “预测性维护”）。
消费领域：
- 用户画像：分析用户的浏览记录、购买记录，给用户贴标签（如 “25-30 岁女性、喜欢轻奢美妆”），为精准推荐打基础；
- 销量预测：电商平台分析历史销量、促销活动、节假日数据，预测未来某商品的销量，优化库存。

1.2.1.2 生成式AI:“创造内容，满足需求”

生成式AI的核心能力是创造新的、原创的内容，这些内容在形式上与训练数据相似，但并非简单复制。它可以生成文本、图像、音频、视频、代码甚至3D模型。
与分析式AI“判断这是什么”不同，生成式AI回答的是“这应该是什么样子”。

1.2.1.2.1. 核心逻辑

生成式 AI 的工作流程遵循 “输入指令 / 条件→模型生成→输出新内容” 的闭环，核心是 “学习数据的分布规律，再基于规律生成新样本”：

第一步：接收 “指令（Prompt）” 或 “条件约束”（如 “写一篇关于环保的散文”“生成一张 2000 年代的校园照片”）；
第二步：模型调用训练阶段学到的 “数据分布知识”（如 “散文的行文结构”“2000 年代校园的建筑风格、服饰特征”）；
第三步：生成 “全新内容”（如完整的散文、高清图片、连贯的音频），且内容需满足 “逻辑自洽、符合人类认知”（例如，生成的 “猫” 不能长着狗的身体，生成的 “散文” 不能是杂乱无章的文字）。

其关键突破是：摆脱了 “输出依赖输入数据” 的限制，能基于抽象指令创造具象内容—— 这是生成式 AI 与分析式 AI 最本质的区别。

1.2.1.2.2. 关键技术支柱

生成式 AI 的技术核心是 “生成模型（Generative Model）”，即能学习数据分布并生成新样本的算法。当前主流技术架构包括：

生成对抗网络（GAN，Generative Adversarial Networks）：通过 “生成器（Generator）” 与 “判别器（Discriminator）” 的对抗训练生成内容 —— 生成器负责 “造假内容”，判别器负责 “区分真假内容”，二者不断博弈，最终让生成器造出 “以假乱真” 的内容。典型应用：人脸生成（如 DeepFake）、风格迁移（如将照片转化为梵高画风）、工业设计（生成新的产品外观）。
变分自编码器（VAE，Variational Autoencoders）：通过 “编码器” 将数据压缩为 “潜在向量”（捕捉数据的核心特征），再通过 “解码器” 将潜在向量还原为新内容。优势是生成过程可控性强，适合需要 “微调细节” 的场景，如医学影像生成（生成不同阶段的肿瘤影像用于医生训练）、个性化头像生成。
Transformer 架构（生成式核心）：基于 “注意力机制” 的大模型架构，是当前文本、图像、音频生成的 “核心引擎”。其关键优势是能处理 “长序列数据”（如长文本、视频帧），并捕捉数据中的复杂关联。典型代表：
- 文本生成：GPT 系列（GPT-3.5/GPT-4）、LLaMA、文心一言，基于 Transformer 的 decoder 架构生成连贯文本；
- 图像生成：Stable Diffusion、MidJourney，基于 “Diffusion（扩散模型）+ Transformer”，通过 “逐步去噪” 生成高清图像；
- 多模态生成：GPT-4V、Gemini，能处理 “文本 + 图像” 输入，生成跨模态内容（如根据文本指令生成图像，或根据图像生成描述文本）。
扩散模型（Diffusion Models）：当前图像 / 视频生成的主流技术，核心逻辑是 “从纯噪声开始，通过数千步的‘去噪’过程，逐步生成符合指令的清晰内容”。优势是生成质量高、细节丰富，支撑了 Stable Diffusion、Sora（OpenAI 的视频生成模型）等产品。

1.2.1.2.3. 典型应用案例

生成式 AI 的应用已从 “消费级娱乐” 延伸到 “产业级生产”，核心是 “用 AI 创造‘内容型 / 设计型’资产”，常见案例包括：

文本生成：
- 对话交互：ChatGPT、豆包等对话机器人，能基于用户指令生成回答（如 “写一篇请假条”“解释相对论”）、进行多轮对话；
- 内容创作：AI 写作工具（如 Jasper、讯飞星火）生成新闻稿、营销文案、小说章节；AI 辅助科研（如生成论文摘要、设计实验方案）。
图像生成：
- 创意设计：MidJourney、Stable Diffusion 生成海报、插画、产品概念图（如 “生成一款未来感的电动自行车设计图”）；
- 实用场景：AI 生成表情包、个性化头像；工业领域生成 “零部件缺陷模拟图” 用于员工培训；医疗领域生成 “标准化病例影像”（避免隐私问题）。
音频 / 视频生成：
- 音频：AI 作曲（如 AIVA 生成背景音乐）、AI 语音合成（TTS，如科大讯飞的 “讯飞配音” 生成逼真人声）、AI 模仿特定人声（如生成 “周杰伦风格的歌曲”）；
- 视频：OpenAI 的 Sora 生成短时长高清视频（如 “生成一只企鹅在纽约街头散步的视频”）；AI 剪辑工具（如剪映 AI）自动生成短视频（基于文字脚本生成画面 + 配音）。
产业级生成：
- 药物研发：AI 生成 “全新的药物分子结构”（如 BenevolentAI 的分子生成模型），缩短药物研发周期（传统研发需 5-10 年，AI 可压缩至 1-2 年）；
- 工业设计：AI 生成 “汽车零部件的轻量化设计方案”（在保证强度的前提下减少材料用量）；建筑领域生成 “绿色建筑的户型设计图”；
- 代码生成：GitHub Copilot、CodeLlama 基于自然语言指令生成代码（如 “用 Python 写一个爬取网页数据的脚本”），提升程序员效率。

1.2.1.3 分析式 AI 与生成式 AI 的核心差异对比

为更清晰地把握二者边界，可从以下 5 个维度进行对比：

对比维度	分析式 AI（Analytical AI）	生成式 AI（Generative AI）
核心目标	解读已有数据，提取洞察 / 做出判断（“理解世界”）	基于指令创造新内容，满足需求（“创造世界”）
数据依赖逻辑	输出依赖输入数据，无法脱离数据生成新信息	输入是 “指令 / 条件”，输出基于模型学习的 “数据分布”，可脱离具体输入数据创造内容
输出性质	非创造性结果（分类标签、预测值、决策建议、异常警报）	创造性内容（文本、图像、音频、代码、分子结构等）
技术核心	监督学习、无监督学习、分析类深度学习（CNN/RNN）、知识图谱	生成模型（GAN/VAE/Transformer/ 扩散模型）、大语言模型（LLM）
典型场景	风控、质检、影像诊断、销量预测、用户画像	对话交互、内容创作、设计生成、药物分子设计、代码生成

1.2.2 从AI模型的模态能力与功能任务分类

1.2.2 .1 大语言模型LLM：从文本理解到认知智能的跃迁

1. 技术原理：
大语言模型是基于深度神经网络（尤其是Transformer架构）构建的自回归或自编码模型，通过在海量文本语料上进行预训练，学习语言的统计规律、语义结构和上下文依赖关系。

简言之：LLM 是基于海量文本数据训练的深度学习模型，属于生成式AI的一种。

具备强大的文本理解、摘要、翻译、问答及内容创作能力。通过上下文关联，能进行连贯且富有逻辑的对话与写作。并且通过少量示例可以进行下游任务的学习。

其核心能力来源于：

注意力机制（Attention）：允许模型动态关注输入序列中的关键部分。
大规模参数量（通常数十亿至万亿级）：增强模型的记忆与泛化能力。
指令微调（Instruction Tuning）与对齐（Alignment）：通过人类反馈强化学习（RLHF）等技术，使模型输出更符合人类意图。

2. 技术演进
LLM以Transformer架构为核心，通过自注意力机制捕捉文本中的长距离依赖关系，实现了对语言深层结构的建模。其技术演进可分为三个阶段：

基础架构突破：2017年Transformer的提出解决了RNN的序列处理瓶颈，使模型能够并行处理输入序列。GPT-3等模型通过1750亿参数的规模，展示了“规模即能力”的效应，在零样本学习任务中达到人类水平。
能力拓展：2025年GPT-4o、Claude 3等模型实现了多模态交互，语音对话延迟降至320毫秒，支持实时跨模态推理。例如，阶跃Step-Audio模型通过情绪化表达技术，能够根据场景生成方言、语种甚至个性化风格语音，使AI交互更具人情味。
应用深化：LLM已渗透至医疗、金融、制造等领域。在医疗场景中，模型通过分析医学影像和病历数据，辅助医生进行疾病诊断；在制造业，实在Agent等平台通过直接操控多系统界面，使生产效率提升25%，设备故障率降低40%

3. 典型代表：

GPT系列（OpenAI）
Qwen系列（通义千问）
DeepSeek系列（DeepSeek）
Llama系列（Meta）

4. 应用场景：

智能客服：电商网站导入基于LLM的聊天机器人，能即时理解客户复杂的售后问题，提供个性化的解决方案，大幅提升服务效率与客户满意度。
内容创作：营销团队使用LLM，输入产品关键字和目标受众，快速生成多版本的广告文案、社交媒体帖文与博客文章，有效降低人力成本。
另外还有：自然语言理解与生成（对话、写作、翻译）、代码生成与程序理解、知识问答与信息抽取、教育辅助等

1.2.2 .2 生图/生视频模型：从静态生成到动态世界的构建

1. 技术原理：
这类模型专注于从文本、图像或其他模态输入生成高质量的视觉内容。主流技术路径包括：

扩散模型（Diffusion Models）：通过逐步去噪的方式生成图像，已成为当前主流（如Stable Diffusion、DALL·E 3）。
生成对抗网络（GANs）：早期主流，通过生成器与判别器博弈生成逼真图像（如StyleGAN）。
自回归模型：按像素顺序生成图像（如PixelCNN），效率较低但可控性强。
视频生成模型：扩展图像生成至时序维度，需建模帧间一致性（如Sora、Pika、Runway Gen-2）。

2. 关键能力：

文生图/视频：根据详细的文本提示词生成高度匹配、富有创意和艺术感的图像或短视频。
图生图：实现对现有图像的编辑，如风格迁移、内容扩展、修复、上色等。
可控生成：通过姿态、深度图、边缘检测图等控制条件，精确控制生成内容的构图、布局和结构。

3. 代表性模型：

图像： Stable Diffusion系列、DALL-E系列、Midjourney、Imagen。
视频： Sora、Runway、Pika、Stable Video Diffusion。视频生成的挑战远大于图像，因为它不仅要保证单帧质量，还要保证帧与帧之间的时间连贯性和物理合理性。

4. 应用场景：

广告营销：生成个性化广告素材，提升用户点击率；
教育领域：通过生成历史场景视频，增强教学沉浸感；
医疗仿真：构建手术训练虚拟环境，降低实操风险。
影视预览：导演利用文字生成视频模型，将剧本中的关键场景转换为动态预览片段，以便在实际拍摄前，评估镜头、光影和场景布局的可行性
另外还有：艺术创作、广告设计、游戏素材生成、影视特效与虚拟场景构建、教育可视化、产品原型设计、虚拟人与数字孪生等

1.2.2 .3 视觉识别模型：从感知智能到认知智能的跨越

1. 技术原理：
视觉识别旨在从图像或视频中提取语义信息，完成分类、检测、分割等任务。其核心技术演进路径为：

卷积神经网络（CNN）：如ResNet、EfficientNet，擅长局部特征提取。
Vision Transformer（ViT）：将Transformer应用于图像，建模全局依赖，性能超越CNN。
自监督学习：通过对比学习（如SimCLR、MoCo）或掩码建模（如MAE）减少对标注数据的依赖。

主要任务类型：

图像分类（Image Classification）
目标检测（Object Detection，如YOLO、Faster R-CNN）
语义分割与实例分割（Semantic/Instance Segmentation）
人脸识别、行为识别、异常检测等

2. 技术演进
视觉识别模型通过卷积神经网络（CNN）和Transformer架构，实现了对图像和视频的高效解析，其技术演进可分为三个阶段：

特征提取阶段：早期模型依赖SIFT、HOG等手工特征，2012年AlexNet的出现标志着深度学习时代的到来。ResNet等残差网络通过跳跃连接解决了梯度消失问题，使模型深度突破百层。
多模态融合阶段：2025年，视觉模型与LLM结合，实现了“图文音视”统一处理。例如，谷歌Gemini Live系统通过分析用户日程、健康数据及环境图像，提供个性化生活建议；在安防领域，模型可实时识别监控画面中的异常行为，并触发报警。
边缘计算阶段：离线大模型的兴起使AI部署突破云端限制。通过模型压缩和量化技术，视觉识别模型可在手机、摄像头等边缘设备上运行，实现实时人脸识别、车牌识别等功能。

3. 场景示例

智能制造：在生产线上部署视觉识别系统，能即时检测产品外观的微小瑕疵，如刮痕或缺件，自动剔除不合格品，确保出厂品质，准确率远超人眼。
医疗影像分析：医院导入AI辅助判读系统，分析X光或CT扫描影像。模型能快速标记出疑似肿瘤或病变的区域，协助放射科医生提高诊断效率与准确性。
无人配送：物流公司采用自动驾驶货车，在特定园区或高速公路进行货物运输。系统能自主导航、避开障碍物并遵守交通规则，实现24小时不间断的物流运作。
高级辅助驾驶：现今许多市售车辆搭载的辅助驾驶系统，能在高速公路上自动跟车、维持车道居中。这背后就是自动驾驶模型在识别车道线与前车距离，并控制方向盘与加减速
工业检测：检测产品表面缺陷，提升生产质量；
农业领域：通过无人机图像分析，监测作物生长状况
另外还有：安防监控、零售分析等

2. 大语言模型

2.1 定义

大语言模型是一种基于深度学习的自然语言处理（NLP）模型，通过在海量文本数据上进行自监督学习，掌握语言的语法、语义、常识和推理能力，能够生成连贯、符合语境的自然语言文本，并完成多种语言任务。
其“大”体现在三个方面：

参数规模巨大：通常拥有数十亿（Billion）到数万亿（Trillion）可训练参数。
训练数据庞大：训练语料涵盖互联网文本、书籍、代码、百科、社交媒体等，规模达TB级。
计算资源密集：训练过程需要数千张GPU/TPU并行运算数周甚至数月。

2.2 技术原理：从统计模型到深度神经网络的进化

大语言模型的核心是基于深度学习的语言表示与生成技术，其发展经历了三个关键阶段：

2.2.1 统计语言模型（SLM）

早期基于N-gram的统计模型通过计算词序列的共现概率预测下一个词，但受限于马尔可夫假设（仅依赖前N-1个词），无法捕捉长距离依赖关系。例如，二元模型（Bigram）仅能考虑前一个词的影响，导致生成内容连贯性不足。

2.2.2 神经语言模型（NLM）

2003年提出的神经网络语言模型（NNLM）首次引入分布式表示（Word Embedding），将词映射为低维稠密向量，通过隐藏层捕捉语义信息。2013年Word2Vec的发布进一步推动了词向量的普及，但模型仍受限于固定窗口大小，无法处理超长文本。

2.2.3 Transformer架构与自注意力机制

2017年Transformer的提出彻底改变了NLP范式。其核心创新包括：

自注意力机制（Self-Attention）：通过计算词与词之间的相关性权重，动态捕捉全局依赖关系，突破了RNN的序列处理瓶颈。
多头注意力（Multi-Head Attention）：并行处理不同子空间的注意力，增强模型对复杂语义的建模能力。
位置编码（Positional Encoding）：显式注入序列顺序信息，弥补Transformer无序处理的缺陷。

基于Transformer的模型（如BERT、GPT）通过预训练-微调范式，在海量无监督数据上学习语言通用知识，再通过有监督微调适应特定任务，实现了从“专用工具”到“通用能力”的跨越。

2.3 核心能力：从语言理解到认知推理的突破

大语言模型的核心能力可归纳为以下四个层面：

2.3.1 语言理解能力

语义解析：通过上下文感知理解词义歧义（如“苹果”指水果还是公司）。
共指消解：识别代词指代对象（如“他”指代前文提到的“张三”）。
逻辑推理：处理隐含因果关系（如“下雨导致比赛取消”）。

2.3.2 语言生成能力

文本续写：根据前文生成连贯的后续内容（如故事创作、对话生成）。
风格迁移：模仿特定文体（如诗歌、新闻、剧本）或作者风格（如莎士比亚、鲁迅）。
多语言生成：支持跨语言翻译、代码生成（如Python、SQL）等任务。

2.3.3 知识存储与检索

通过预训练数据吸收海量事实知识（如历史事件、科学概念），但存在“幻觉”（Hallucination）问题，即生成与事实不符的内容。研究人员正通过检索增强生成（RAG）技术，结合外部知识库提升准确性。

2.3.4 少样本/零样本学习能力

模型可通过少量示例（Few-Shot Learning）或纯文本描述（Zero-Shot Learning）完成新任务。例如，GPT-3仅需“将英文翻译为法文”的指令即可执行翻译，无需额外训练数据。

2.4 大模型是如何训练出来的？

大模型训练通常分为三个核心步骤。

首先，进行监督微调：从问题库选取问题并由人工撰写高质量答案，再利用这些数据微调基础模型（如GPT-3.5），使其初步掌握问答能力。

其次，训练奖励模型：对同一问题的多个回答进行人工排序，通过比较学习构建奖励模型，以评估回答质量。

最后，通过强化学习（如PPO算法）进一步优化模型：让模型生成回答，由奖励模型打分，并根据反馈不断迭代提升生成效果。整个过程逐步精细化，使模型输出更精准、更符合人类偏好。

大模型训练中的关键一步是构建奖励模型，但直接让标注员为回答打分（如图中5分、0.5分）主观性强，难以统一标准。为解决此问题，实践中采用排序任务替代打分：标注员只需判断同一问题的多个回答（如句子A与B）的优劣（例如“A > B”），这更容易达成一致。
基于大量此类排序数据，模型学习到一个稳定的奖励函数，用以评判回答质量。在后续的强化学习阶段，正是利用这个奖励模型为生成的回答提供反馈，驱动大模型持续优化，最终输出更精准、更符合人类偏好的内容。

2.5 不同语言模型的Token是如何定义的?

2.5.1 基本定义

Token是文本被分割后的最小语义单元，可以是单词、子词（subword）、字符或特殊符号。由于模型本身无法直接理解文字，因此需要将文本切分成一个个Token，再将Token转换为数字（向量）进行运算。不同的模型使用不同的“分词器”（Tokenizer）来定义Token。

例如，对于英文 Hello World：
GPT-4o 会切分为 [“Hello“, ”World“] => 对应的 token id = [13225, 5922]
对于中文“人工智能你好啊”：
DeepSeek-R1会切分为 [“人工智能”, “你好”, “啊”] => 对应的token id = [33574, 30594, 3266]

分词方式的不同会直接影响模型的效率和对语言细节的理解能力。

如何查看

你可以使用模型提供商提供的在线工具来查看文本是如何被分词的：