当前位置: 首页 > news >正文

学完这节课,别再问我LLM是不是溜溜梅

在写内容前,请允许我自我介绍一下。黄啊码【不是皇阿玛】,一位集脱发与技术的程序猿,额,不对,脱发是别人的,技术是大家的,我只是技术学习者。

浅浅开个玩笑,我是一名“斜杠中年”,用斜杠二字,主要是身上有比较多的tag:创业者、程序员、运营人以及讲师,别人说程序员不善言辞,我喜欢跟刻板印象对着干,因为人活为己,给自己画圈设限等同于作茧自缚,何况这个圈是别人画的。

OK,敲黑板,上课!我相信很多人都用过AI了,今天我们先不聊AI,聊聊所谓的LLM。

一、LLM是啥?

你:啊码,LLM是啥?溜溜梅?
在这里插入图片描述

我:啪,这是技术课,不是零食课。

LLM,全称Large Language Model,翻译过来就是“大语言模型”。

你:是不是占用内存大,所以才叫大语言模型。

我:好家伙,中文水平一流,但说对其中一部分。

LLM 的“大”,到底啥意思?

1️⃣ 参数量大

LLM 里有个东西叫参数,你可以简单理解为“脑子里的神经连接”。

比如 GPT-3,有 1750 亿个参数,啥概念?

就是如果你每秒钟数一个参数,从盘古开天辟地数到现在,你都数不完!
在这里插入图片描述

2️⃣ 训练数据量大

为了训练这货,科学家们喂了它海量的文本数据,什么百度百科、知乎问答、小说网站、代码仓库、新闻稿,甚至你在微博怼人的记录都有可能作为语料。

所以用大语言怼人的时候,小心它用你怼人的话怼你自己,然后你就会发现:天道有轮回,苍天饶过谁?

3️⃣ 计算资源大

想训练这么个模型?你得拿成千上万的 GPU,集群作战,日夜不停地烧钱、烧电、烧显卡!

你:啊,烧钱?天地银行的可以吗?

我:啪,你烧给谁?

你:难道用人民币,犯法的啊!烧显卡,我家的显卡要玩LOL,不行,要不烧电吧,我家民用电比较便宜,也算为国家做贡献了。

我:出门右拐,以后别人问你是谁教的,别说出我名字,我没教过你这样的学生。

烧= 使用,这么说你明白了吧。你这么说话简直就是GPT思维。
在这里插入图片描述
4️⃣ 内存占用大

参数多 = 模型文件大,动不动几十GB甚至上百GB,比你电脑里所有游戏加起来都大。

加载进内存?普通电脑直接投降,只有服务器微微一笑:小意思~

所以你说的占用内存大,没错,但这只是它“大”的一个副作用,不是它被称为“大模型”的根本原因!

二、LLM咋训练的?

好,既然知道了LLM是啥,那第二个问题来了:“这么神奇的LLM是怎么训练出来的?”

你:“啊码,是不是像教小孩一样,拿绘本一点点教?”

我:差不多,但规模更大!想象一下,你让一个人了全世界的书,从《三字经》到《百年孤独》,从莎士比亚全集到知乎段子,让它读了几百万本书。

训练过程就像个超级大型的填字游戏,模型不断尝试预测文本中缺失的词语,然后根据正确与否调整自己的大脑参数。这个过程需要超级计算机跑好几个月,电费都能买3套学区房!
在这里插入图片描述
你:啥?训练LLM的电能买3套房?可怕,连LLM都有房,我连房子的影子都没看到。

我:我们是来学习,不是来述苦,忘记书中自有黄金屋了吗?

你:啊码,这个我知道,我还知道书中自有颜如玉呢!

我:啪,咱们继续。

三、LLM凭啥能啥都懂?

现在来到最精彩的部分:LLM为啥能陪你聊天文地理、写代码改PPT?

你:啊码,是不是因为它有超能力?

我:超能力?它连"1+1=2"都要学半天,LLM最厉害的地方叫涌现能力,当模型参数量和训练数据量足够大时,它会突然具备一些小模型没有的神奇能力,例如 :

1、上下文理解

你能和它聊好几轮对话,它还记得前面说过的话。比如你说"我养了只猫,它特别调皮",后面问"怎么训练它",它能联想到"猫"和"调皮"的关系。

2、推理能力

它不仅能告诉你答案,还能解释原因。比如你问"如果小明比小红高,小红比小兰高,谁最矮?“,它不仅能说出"小兰最矮”,还能告诉你推理过程。

3、多任务处理

写代码、写作文、翻译、做数学题……样样精通。甚至能根据你的语气调整回答风格,要正式有正式,要幽默有幽默。
在这里插入图片描述
你:好厉害啊,这不就是说它会思考吗?

我:思考?别逗了!它根本不懂思考是什么,它只是个高级的文字接龙游戏玩家,通过分析海量文本学会了词语搭配的规律而已,就像小的时候我们背课文,只知道背,完全不会考虑里边到底啥意思。

四、LLM用在什么地方?

好了,现在我们来聊聊LLM的实际应用。别以为它只是个会聊天的机器,它的用途比你想象的要多得多!

你:啊码,是不是只能用来写情书?

我:啪,你好像没有女朋友吧?情书只是小菜一碟!编程写代码、写周报、做PPT大纲、润色文案……这些只是基本操作。现在LLM已经渗透到各行各业了。

在教育领域,它可以个性化辅导学生,在医疗领域,它可以辅助医生诊断,在金融领域,它可以分析市场趋势等。

你:啊码乱说,我问他怎么造航空母舰,它让我自己想办法。

我:啪,你忘记我上边说啥了吗?训练过的数据,航空母舰怎么造是机密,你怎么训练在大模型里边?如果你真的能够训练在大模型里,你现在估计在踩缝纫机,而不是听我讲课。
在这里插入图片描述
五、LLM的幻觉

你:哦哦,好的,那LLM真是个好东西,我以后就用它来辅助我工作了。

我:别高兴得太早,LLM有个致命的缺陷,你应该听说过“幻觉”。

你:做梦我倒听说过,幻想我也知道,幻觉我还是第一次听说。

我:就是一本正经地胡说八道!你问它"鲁迅和周树人是什么关系",它能告诉你"是异父异母的亲兄弟",你问它林黛玉倒拔垂杨柳是出自《水浒传》,它能说“是的,而且林黛玉是108好汉中的一员。”
在这里插入图片描述
所以,用LLM就像用美颜相机,好看是好看,要使用的时候别忘了关掉美颜。

后面还想知道啥?AI 的其他门道?还是我这 “斜杠中年” 的更多段子?评论区尽管提,只要别让我烧显卡教你造航母就行。

催更的各位,这次熬夜肝出来了,下一篇… 看你们的热情能不能再让我 “被迫营业” 一次。溜了溜了,补觉去,毕竟程序员的头发,还是得省着点用~
在这里插入图片描述
我是黄啊码,码字的码,如果觉得受用请一键三连,感恩遇见,咱们下期不见不散


文章转载自:

http://vaf17IaI.kLyzg.cn
http://KkueRIe3.kLyzg.cn
http://IDMQaElg.kLyzg.cn
http://cRiQClAn.kLyzg.cn
http://6CzxGO9G.kLyzg.cn
http://qmUwgyNg.kLyzg.cn
http://69j1xYVN.kLyzg.cn
http://n9ZbTS0I.kLyzg.cn
http://wITxXHzR.kLyzg.cn
http://sUKcGAin.kLyzg.cn
http://xyBdaClg.kLyzg.cn
http://XbykALVw.kLyzg.cn
http://yVQsXc3p.kLyzg.cn
http://0nGL9sGl.kLyzg.cn
http://crXdf3B5.kLyzg.cn
http://1RFaOddG.kLyzg.cn
http://MchI8U17.kLyzg.cn
http://Tn2GkBl9.kLyzg.cn
http://1wKazxQg.kLyzg.cn
http://6Iy5RLdK.kLyzg.cn
http://yN8EiRRf.kLyzg.cn
http://Cr3fFaIq.kLyzg.cn
http://yHPmpK7p.kLyzg.cn
http://YVnZGylX.kLyzg.cn
http://5PnESh32.kLyzg.cn
http://AO3g6ATA.kLyzg.cn
http://puAPX4C0.kLyzg.cn
http://HdieGG04.kLyzg.cn
http://SxIHL43F.kLyzg.cn
http://WmP50cti.kLyzg.cn
http://www.dtcms.com/a/367037.html

相关文章:

  • npm/pnpm软链接的优点和使用场景
  • 追觅吸尘器发布双旗舰新品,首创颠覆性技术终结家庭清洁妥协时刻
  • java中实现自定义拦截器
  • 实战复盘:pnpm Monorepo 中的 Nuxt 依赖地狱——Unhead 升级引发的连锁血案
  • 传统装修行业数字化转型:如何通过GEO工具实现300%业绩增长?
  • cursor使用配置
  • Linux内核进程管理子系统有什么第四十二回 —— 进程主结构详解(38)
  • OpenLayers常用控件 -- 章节三:鼠标位置坐标显示控件教程
  • QT6(拖放事件与拖放操作)
  • Java全栈工程师的实战面试:从Vue到Spring Boot的技术旅程
  • 3ds Max流体模拟终极指南:打造逼真液体效果,从瀑布到杯中溢出的饮料!
  • 处理PostgreSQL中的磁盘I/O瓶颈
  • Redission 对比isHeldByCurrentThread()和unlock()
  • 逻辑回归基础
  • 目标检测如何将同时有方形框和旋转框的json/xml标注转为txt格式
  • 拦截器和过滤器(理论+实操)
  • HTML 基本结构
  • 《Html泛型魔法学院:用霍格沃茨风格网页教授集合框架》
  • 【LVGL】从HTML到LVGL:嵌入式UI的设计迁移与落地实践
  • 白平衡分块统计数据为什么需要向下采样?
  • 基于单片机智能扫地机器人/智能小车设计
  • 2025 前端 3D 选型指南:Three.js、Babylon.js、WebGPU 深度对比
  • AI视频画质提升效果实用指南:提升清晰度的完整路径
  • Boost搜索引擎 数据清洗与去标签(1)
  • Deeplizard深度学习课程(七)—— 神经网络实验
  • 深度学习——数据增强
  • 在线测评系统---第n天
  • 【nuscenes数据集有关】
  • 你的图片又被别人“白嫖”了?用这篇Java防盗链攻略说再见!
  • python中的import和from两种导入方式有什么区别