当前位置：首页 > news >正文

科普：极简的AI乱战江湖

news 2025/7/5 4:01:17

本文无图。

大模型

‌2022年2月，‌文生图应用的鼻祖Midjourney上线。

‌2022年8月，‌开源版的Midjourney，也就是Stable Diffusion上线。

2022年11月30日‌，OpenAI正式发布ChatGPT-3.5。

此后，不断有【大模型】面世，例如国内的文心一言、通义千问、讯飞星火、智谱清言、DeepSeek等，国外的LlaMa、Gemini等。

一点小常识：

【量化】：在各类开源平台下载大模型时，有时会看到FP32、FP16、TF32、BF16等字眼，它们表示大模型的量化精度，通俗的解释是用整数代替浮点数，以提高模型运算速度、减少存储空间。
【蒸馏】：就是把已经充分训练过的大模型的知识，让“小模型”来学习，类似于“小人国”。从而改善运行效率，减少运行开销。
【微调】：这里的微调更多是指优化的意思。有两种方案：一种是基于LoRA的矩阵分解（可以把它比喻成用加法代替乘法，降低冗余但又不影响结果）的方式，另一种是基于Embedding的嵌入方式（可以把它理解为给大模型加个外G）。
【评测】：为了避免大模型一本正经地胡说八道，就需要一些评价指标来保证执行结果的正确性和合理性，目前比较有名的大模型专业评测机构包括国外的MMLU和国内的OpenCompass、FlagEval。

智能体

如果把大模型比作大脑的话，那么【智能体】就等于是给大脑加上了耳朵和嘴巴：有专门用来写作的智能体，有专门用来编程的智能体，还有专门用来问诊的智能体，这些都和行业有关。

当智能体多了以后，人们发现如果将他们“串联”或“并联”起来，就可以组成功能更强大的应用，于是就出现了【工作流】。

为了解决大模型无法克服的“幻觉”问题，人们再次给它加了一层外G，叫做【RAG】，相当于是让大模型遇到不懂的问题时去查查字典。

为了满足文、图、音频、视频等互相转化的能力，出现了【多模态】大模型。

前阵子比较火的Manus本质上也是智能体 + 工作流 + RAG + 多模态的【多智能体】混搭，并且赋予了它独立访问网络，调用各种应用接口的能力。例如查询天气、航班、搜索网络内容。它的创新点在于以一种非常直观的形式将每一步的执行过程给展示了出来，并且任务分解的颗粒度合适，所以执行结果比较符合人们的期望。