当前位置：首页 > news >正文

百度智能云 X 十字路口 | 对谈王雁鹏：亲述从大数据时代到 3 万卡集群的中国算力演进史

news 2025/11/11 7:56:38

在 AI 的下半场，算法的创新固然重要，但算力好像正在成为终极的变量，AI 的军备竞赛，已经从代码和模型，延伸到了芯片、电力和数据中心这些更底层的物理世界。

近期，百度智能云与十字路口推出联合播客，在节目上，百度智能云 AI 计算首席科学家王雁鹏与十字路口主播 Koji 杨远骋展开一场深度对谈，亲述从大数据时代开始的中国互联网基础设施演进。

「AI Infra就是命运」丨对谈王雁鹏：亲述从大数据时代到 3 万卡集群的中国算力演进史

本期播客对谈原文约 22000 字，本文经过删减整理后约 9000 字。

Koji：您的职业生涯很像中国互联网基础设施的演进史，可以从亲历角度讲讲互联网基础设施的主要阶段和关键节点吗？

王雁鹏：我很幸运，职业生涯经历了整个互联网的发展，在这期间基础设施发生了翻天覆地的变化，可分为三大阶段。

第一个阶段是大数据时代，由 Google 引领，开始真正去处理特别大规模的数据。Google 的三篇论文—— MapReduce、BigTable 和 GFS 奠定了大规模互联网基础设施的理论基础。当时商业硬件如 IBM 大型机、惠普戴尔服务器、Oracle 数据库等，服务规模和互联网数据量基本相差两个数量级，既昂贵又无法满足需求。Google 推动使用家用 PC 级别的商用硬件，通过数万台搭建超大规模系统。传奇架构师 Jeff Dean 的理念是用廉价硬件搭建高性能系统，通过分布式计算和存储软件构建整套体系。

这对业界震动很大。传统高端服务器厂商受到冲击，软件层面转向分布式系统。论文发布之前，分布式文件系统和并行计算多是商业闭源软件。发布之后，开源生态如 Hadoop 得以发展，互联网厂商开始自建大规模数据中心的硬件和软件，第一能帮我处理大规模的数据了，第二极大降低了成本。

Koji：当时百度也类似 Google，需要处理海量数据对吧？

王雁鹏：是的。当时最大的单体应用是搜索，其数据处理量远超电商和社交。百度是国内最早面临这么大挑战的公司之一，也是最早开始自研硬件和软件基础设施的。第二个时代是云时代。很多早期创业者和开发者要自购服务器、找机房、负责上架，效率很低下。

云时代的代表是亚马逊。他们的电商业务有大量闲置服务器，有明显的淡旺季，所以他们决定把空闲算力出租，就这样开创了云服务。核心理念是让计算变得弹性，用户不需要再关注物理世界了。

这里的技术创新在于通过虚拟化技术，让用户轻松迁移至云，获得和单机服务器一样的体验。这套架构把复杂的底层虚拟化能力沉入数据中心，在数万台服务器上虚拟出数十万台用户电脑，可以随时缩放资源，实现极致弹性。

这个时代的代表性技术是智能网卡，它能够充当虚拟化平台，隔离底层物理资源与用户云资源。

Koji：那第三个阶段是什么呢？

王雁鹏：也就是现在这个 AI 时代，一个更大的变革。AI 是计算范式的根本变化。

不管是云，还是大数据，其实还是在 CPU 的计算体系上去做，之前所有数字化都建立在 CPU 上。CPU 是复杂计算单元，擅长通用计算和处理逻辑，但用于计算的单元可能仅占 10%，其余大部分是缓存和控制单元。我们经常说 CPU 的指令集是叫图灵完备的，我通过这几条数据集的指令集，就可以完成所有的编程语言，去构建所有的软件，它可以做到软硬件解耦。就像摩尔定律所说，每一年半就翻一番硬件的晶体管数量，硬件但凡翻一番，意味着软件的性能大概率也提升了一倍，软件不用做任何改动，全部是兼容的。

GPU 时代本质上是计算平台的大跃迁，GPU 最大的特点，从硬件上看，就是把所有的晶体管的空间全部给计算了。如果 CPU 上只有 10% 的是给计算的，那 GPU上就是 100%，所以就导致 GPU 的控制能力非常弱，不能去做复杂的逻辑。

GPU 的理念是将算力堆到极致，但必须配合特质化软件，对每个算法、每个算子做深度优化。最大变化是必须软硬一体，且硬件迭代常导致软件不兼容，要去花很大的精力去升级软件。所以 GPU 时代最大的好处是算力可以提升几十倍。

Koji：当时与英伟达合作的感受如何？那个时候已经有 CUDA 了吗？

王雁鹏：他们会派很多工程师协助优化模型和算法。CUDA 是在这之前就有的，英伟达最早做 CUDA 时，其实并没想着主要做深度学习，他们之前是做显卡的，在这个过程中就希望去做一层抽象，把算力不是只给显卡用，也可以自己做一些自定义的编程，自定义的计算。

当时出发点其实是让 CUDA 的应用更广泛一点，但具体怎么用他其实不知道。所以早期用 CUDA 的更多是在学校做研究的大学教授们，他们自己去做一些各种算法的实验，效率比 CPU 要高。所以正好赶上了以 Hinton 为代表的这一波，更早接触 CUDA 的人，被带进了深度学习浪潮中。

正好百度也比较早，当时成立了 IDL，我们当时叫深度学习实验室。那时候我们其实跟英伟达有很多合作。感受就是对每一个算法都需要有深入的优化，当时他们会派很多人来跟我们一起优化算法，一起来做各种不同的场景，不同的模型优化。很早我们就知道英伟达是和英特尔不太一样的公司。英特尔可能还有 60%-70% 都是做硬件出身的，但作为一个芯片公司，英伟达很早的时候整个公司结构就有 80% 是做软件的。

Koji：当时预见到它能成为今日的巨头吗？

王雁鹏：当时英伟达市值才 100 亿美元，现在 4 万亿美元，涨了 400 倍。他们是真正的利用深度学习带动我们进入了 GPU 的时代。

CUDA 生态的强大在于支持很多模型的变种。自研AI芯片，可以靠堆硬件来堆算力，但软件适配难度极大。这也是首轮 AI 芯片创业潮没起来的原因。包括当时国外也有一些公司很火，但作为 AI 芯片的创业都没起来。就是因为软件适配代价太大了，很难跟英伟达掰手腕。

深度学习时代是由算法创新驱动，需要各种灵光乍现，有无穷多的应用场景，即使今天解决了这个场景，明天再迁移到其他的场景，还需要花很长时间、很大代价，甚至可能还需要发明新的模型结构才能解决。在这种创新不可控的情况下，落地应用和预期都有限。所以在那个时候，很难讲整个计算平台从 CPU 迁移到 GPU，GPU 更多的还是补充，处在探索发现的阶段。

但今天时代又进化了。大模型的真正变化在于它是工业化范式，即 Scaling Law：不断扩大模型参数量和数据量，模型能力就会增强。这真正是进入了工业大生产时代。

如果类比 CPU 时代，当时的特点是软硬解耦，硬件迭代由工业力量、摩尔定律推动，芯片强了应用就强了，中间不用做很多适配，所以英特尔是当年的霸主，只要每一年半推出一代新产品，就可以推动整个产业链发展。

大模型在新智能时代创造了范式：只用 Scale 参数量和数据，智能就会越来越强，模型具备强泛化性，能聊天、总结、甚至能当科学家。NLP 曾经被视作是研究皇冠，因为其中有非常多的领域，而且每一个领域用的算法策略都不一样。但是没想到的是，大模型首先就是在 NLP 领域实现了突破。

前一代的深度学习核心突破在图像领域，比如监控安防，简单的人脸识别车牌识别等等，图像处理相对简单，不需要太多智商。而 NLP 的许多问题在深度学习时代是无法解决的。大模型震惊业界的原因在于，效果上突破天花板，模式上变成可复制的工业化过程。这也让计算平台从 CPU 真正跃迁至以 GPU 为核心。

Koji：如何看待 OpenAI 与英伟达等公司的大额合同？你觉得这场竞赛会变成资本竞赛吗，中小型公司和大学研究机构还有什么优势？

王雁鹏：如果沿现在的发展路径，前沿研究确实更多会在大公司催生。但从另一视角看，这可能不是智能的终极形态。对比人脑，它没有消耗这么多算力和电力。本质的架构创新仍然是下一阶段的追求目标。

Koji：像 Andrew Karpathy 最近的新博客，他认为当前 Transformer 像在造初级动物，真正造智能应该有不同技术路径。Hinton 也认为 Transformer 无法通向 AGI。

王雁鹏：Hinton 的观点其实一直在变化，他认为神经网络并非高效，花了很多时间研究胶囊网络。人脑看起来似乎不是暴力计算，而是基于脑神经电流的触发式计算，其实不需要这么大的功率。

Koji：今天早上 DeepSeek 又发了新的 OCR。他的理论是其实人类不是用文字来记忆的，或者处理信息不是用文字来处理的，而是用视觉来处理的，不是一个文字token 来输入的，用图像去压缩信息的输入，可以让存储的效率和传输的效率变得更高。

王雁鹏：所以研究和工业的区别就在于这里。

我们现在看到的是，在 Scaling law 的基础上去让我们的模型效率不断变好，从而解决更多问题，这一条途径我认为更多的会发生在公司里面。当然这个过程也需要很多创新，并不是说把算力堆上来了，就立马能达到这样的效果。但是更高级的压缩算法，更新的神经网络，这样对于范式的创新，我觉得还是需要去追求的，而且这种范式创新同样也是软硬一体的。比如类比我们内脑的神经网络，要用到的芯片肯定跟现在是不一样的。

Koji：大模型进化分为算力、算法和数据。目前哪个因素相对更重要？

王雁鹏：算法角度目前的大方向是一致的。更重要的是数据角度。现在互联网公开数据都用完了，已经进入了数据不够用的阶段。统一做法是合成生成数据，强化学习的范式本质上也是用自己的模型去生成数据，而更多的数据还是来自于算力。更多算力就能制造更多数据，也能对数据做更多的清洗、过滤，从而生产优质数据来反哺算力。不管怎么看，算力都扮演着更重要的角色。

Koji：年初，DeepSeek R1 发布、OpenAI 在讲星际之门计划的时候，出现了两种声音：一种是坚持算力大力出奇迹；另一种认为中国应该用巧劲，而不是算力决定论，您如何看待这两种想法？

王雁鹏：这两者不矛盾。算力是基础，算法和数据的创新都需要足够的算力支撑。比如每一个 token 需要多少算力支持，这可以理解为算法带来的效率提升。DeepSeek 就做了很好的实践，展示了算法能够为效率带来大幅提升，并且通过软硬件的一体创新，让模型与硬件强耦合设计，从而实现更高效的模型架构。

原来都是密集计算，MoE 是稀疏计算，它天然对 GPU，以及现在的大集群来说是不友好的。因为大集群更擅长密集稠密的计算，但稀疏就意味着有的地方算，有的地方不算。而如何去排布这些算力，就跟模型的架构紧密相关。

在之前，我们只从一个方面去想，比如通过算法来做 MoE，肯定是稀疏度越低、吸收的比例越低，算力就越高效。但是如果把硬件带入进去，就要考虑两个方面，光吸收率低不行，搞的全是这种稀疏矩阵，中间全是空洞。那在 GPU 上是跑不了的，算力就不高效了。所以 DeepSeek 跟百度百舸一样，根据硬件去设计算法，通过更高效的算法去提升算力效率。

算力还是非常重要的，我们可以看到以 OpenAI 为代表的这些北美企业，不断的在算力方面投资，从而实现数量级上的变化。我们百舸也推出了自研芯片的单体 3万卡集群，这应该是目前国内最大的国产整体的集群。这也是为了满足我们现在的需求，而且我们用的很充分，现在比较先进的模型都是通过这个集群训练出来的。我们的集群从开始建设到全部用上，可能只花了两三个月的时间，这也可以反映出大家都在等算力，有很多的创新和实践其实都被算力压抑住了，当集群建好之后，大家很快就会用起来。

Koji：Meta、OpenAI 或 xAI 这些企业，他们的集群规模大概是什么样？

王雁鹏：现在这些头部 AI 公司的集群规模都比我们大一些，最先进的模型训练大概都在 10 万卡级别。

Koji：3 万卡和 10 万卡，差距有多大？

王雁鹏：要去做模型性能的探索，就得走向更大的模型规模。所以现在算力确实是制约国内外 AI 发展的很大因素。国产自己的集群性能上，比英伟达还是有一些差距的，国内外的现状的差距确实对整个 AI 的发展是有一定制约。

Koji：建设 3 万卡集群的时候，会对电力或者物理空间有很大的挑战吗？

我们面临的挑战也还是比较大的。可以看到我们大规模的用了液冷，以及长距的RDMA 技术。原来的 RDMA 其实是在网络互联比较小的规模里面做的。当集群扩展到 3 万卡或者更大规模的时候，就会有长距的 RDMA。面对更长的距离，就要有不同的协议、扩展的拓扑等来解决这些问题。

王雁鹏：3 万卡集群对于现在的电力要求，可能要一个园区的变电站才够，所以电力设施也是重新建设的。但是无论如何，可以看到基建的速度已经跟不上算力或者能源的需求了。同时老旧的数据中心也是满足不了需求的，今天新建的数据中心可能可以满足。但到下一代，就会发现需要更高的机柜，更大的机房密度，更高的供电能力等等，都对基建有了更大的需求。

Koji ：其实最近在美国也有一些辩论，因为现在和当年建光缆或类似的基础设施不太一样，光缆不需要那么快速的迭代，只要建好了就能一直用。但今天建数据中心，买了那么多卡，很可能半年之后就全部变成上个时代的东西了。你怎么看这种迭代速度对于基建带来的各种影响？

王雁鹏：这取决于，我们是否相信这是新的一轮工业革命。本质上，这些卡是用于支持创新的。更多的算力意味着能进行更多创新，能够在大模型上解决更多的问题。现在仍然是 AI 高速发展的时代，日新月异的成果都基于这些算力。投入算力必然能产生更好的结果，只是需要判断这些结果是让应用价值提升 100 倍还是 10倍。我相信智能百倍提升的时代终会到来，只是时间问题。将时间尺度拉长，它就不是多大的浪费。

Koji：所以您认为这不是可选的，不建就等于拒绝创新？

王雁鹏：对，这是我的观点。建设本质是支持更好、更快的创新，加快未来时代的来临。

Koji：给我们展开介绍一下百度百舸是个什么样的产品？

王雁鹏：百度百舸的核心是提供最高效的 AI 算力平台。我们做了十几年 AI，从支持内部到同时支持内外部，再到今天，百度百舸已经变成了高效服务各种算力需求的基础设施平台。它有三个特点：

第一，百度百舸支持非常大的规模。现在的创新需要更大的规模，但要搞定底层机房、稳定性、万卡扩展性等问题。我们目前最大能支持万卡规模的单体任务。

第二，百度百舸的理念是轻松使用算力。在 GPU 时代我们提出「异地、异构、异网」，让不同芯片、不同地域、不同网络环境的算力能够轻松使用和拼接。把各种高效的算力用起来，而且用的很轻松。

第三，百度百舸追求极致工程效能。比如说我提升了 10% 的性能，意味着我可能就要少用 10% 的卡，这 10% 的卡可能对应天文数字的成本投入。所以我们在训练推理引擎上做深入优化，包括强化学习框架范式等，让大家享受最高效的算力基础设施。

Koji：百度百舸最近发布 5.0，宣称是迄今为止最强大的 AI 计算平台，这个霸气的 slogan 是怎么考虑的？

王雁鹏：第一，对我们的能力有自信。从 2012 年开始做 GPU，我们服务了大量客户场景，在服务中不断提升和积累。我们对各种应用场景的理解比较深刻。

第二，我们的研究还是比较前沿的。百度百舸对 AI 的探索走得比较快，各种前沿应用也是在我们平台支持下做起来的，这是我们最宝贵的财富。

第三，百度对 AI 投入非常坚定。在大模型时代，能坚持做大模型的公司已经不多了。百度百舸是从芯片、云平台、模型，再到应用全栈的，一共有四层架构，能这样全栈投入的公司很少。

我们相信百度百舸是高效并且易用，并且能够切中现在最前沿的研究方向，能够切切实实的带来价值。

Koji：百度百舸和 AWS 和微软、Google、阿里云或者火山比起来有哪些差异化的优势，选百度百舸的最大理由是什么？

王雁鹏：第一，还是百度百舸多年来坚持的四层架构。从芯片到云的平台到模型到应用一体化开发。在这一套理念下面，做到联合的优化、极致的高效，这是经得住大家考验的。而且百度百舸从设计的第一天起，内外的能力就是打平的，我们服务内部以及外部客户，并在这个基础上不断沉淀。

Koji：有一个说法是我们被 ban 了不能买芯片，其实是给了我们机会来发展自己，甚至黄仁勋去游说美国政府的时候，也说这样会倒逼中国创新。你怎么看？中国有机会诞生自己的英伟达吗？

王雁鹏：一定会有。AI 之争是国力之争，中美都会坚定投入。在当前竞争格局下，国产芯片必须做起来，否则就失去了命脉。

最重要前提是芯片为模型服务。英伟达的强大体现在所有最先进模型都在它的平台上训练，形成强烈循环。要建最先进算力平台需要投很多钱，平台建好才能训出最先进的模型，模型自然与平台绑定。

选择算力基础设施的时候，大家肯定会默认去选最好的，这样你做模型创新的成功概率才会更大一些，做出来的东西自然就跟它绑定了。本质上也是软硬件的周期不一样，算法的创新以几个月为目标去做，但是一款芯片可能要好几年。

中国要做自己的英伟达，必须与模型深度绑定。最重要的必要条件是：持续的让最先进的模型在国产芯片上做出来。

今天这个苗头已经很显著了，越来越多人开始尝试国产芯片，即使还没达到理想状态，但也已经有很大进展，我们的 3 万卡集群上就跑了很多训练任务。这是一个渐进过程，不是一蹴而就的，要从小到大，从能跑更多的任务，到各方面都稳定，我们才能推到最前沿的模型上面，甚至做出来最领先的模型。

Koji：最近硅谷的巨头在 AI Infra 上的动作非常多，从局内人的视角，你会怎么来评价他们一些动作，有哪些是能够被我们借鉴的，或者有哪些是需要让他们先去探索的？

王雁鹏：最近让我感触比较深的是 Google。之前大家觉得 Google 是不可撼动的巨头，但是在 OpenAI 崛起之后，大家感觉他们受的冲击最大，感觉技术领导者的地位丧失了。在很长一段时间内确实是这样，Google 的模型好像没什么声音，感觉明显落后于 OpenAI。但是最近感觉，Google 又回来了。

刚开始我就觉得 Google 其实是有最好的禀赋的。Google 应该是全世界最不缺算力的公司，它应该比英伟达还要厉害。因为英伟达还要靠芯片挣钱，但 Google 不是，他们的 TPU 做的时间最长，今天英伟达的很多设计，其实都是跟着 TPU 去做的，TPU 才是真正贯彻自研芯片的产品。TPU 也是在 Jeff Dean 的领导和推动下做出来的，他真的是很传奇的人物。大家经常说 Jeff Dean 是不需要编译器的，他可以用眼睛发现编译器的 BUG，而且据说他每周都会自己去编程序，自己 Coding 。所以他真的是工程师界的传奇。

最近 Google 的进展就是有后劲的。正是因为它有芯片的布局、框架的布局，他之前做 TensorFlow，但是现在内部 TensorFlow 也不怎么用了，它用了更轻量化的 JAX 去做框架侧的创新，再到有自研的模型、单体的应用，这一套东西突然发现他打好了强大的基础，而且不容撼动的，这体现了他们多年来对整个技术栈的积累以及投入所带来的巨大势能。

第二个感触比较深的是，最近业界讨论很多的 Meta 花重金到处去招聘，这个事件是否合理引发了非常大的争议。我觉得是合理的。Meta 现在披露说一年花 1000 亿美金去买 GPU，那他们花 1 亿美金去挖人，挖 20 个人也才 20 亿美金，对比 GPU 来说还是小头。所以从资本投入的角度来说我觉得是合理的。

但是这肯定是不健康的，我不太看好这种模式，因为团队不是靠临时拼凑出来的，还是需要有相对稳定的团队，形成创新的文化，从而碰撞出更多的火花，来支持持续的创新。这也反映 Meta 之前可能在团队建设上出了一些问题。之前他们其实也投入了大量的算力，而且一直也不缺 GPU，但在团队建设、人员配备上可能是出了一些问题，导致了 Meta 可能做的没有那么好。

当然我还是觉得 OpenAI 在更多的推动大的泡沫往前走。你也可以说它是高瞻远瞩，更有未来的视野，但你会发现这些全是上杠杆的。刚才说如果说 Google 是打好了牢固的地基，那么 OpenAI 就是通过未来的杠杆去做预期的对冲，这一套逻辑我认为是成立的，可能有一部分他是能兑现的，也在催生新的模式。好的一方面是，这有可能会带动更大的变革，并带来对于基础设施的更大投入。

这也是我刚才讲的很重要的观点，每一层的东西投入周期是不同的，如果我们真的需要这些基础设施，那就需要更超前的投入才行。软件算法的创新是最快的，可能几个月就能做一个新东西；芯片可能要两年；整个基建的电力变革，可能需要十年几十年。如果我们相信需要更长远的投入，那么无论是泡沫也好，还是未来的视野都需要去不断的推动，我觉得这就是 OpenAI 在追求的一条路。

Koji：其实今天也有很多创业公司，你觉得在 AI Infra 领域创业还有哪些机会？

王雁鹏：AI Infra 方向肯定还是有机会的。算力的需求是非常大而且多样化的，软件栈也非常复杂。针对每个模型、每款芯片、每个规模，都有不同优化点，针对最终每个模型上的效果，以及在每一个场景的效果，都会有非常大的差异。这意味着技术的门槛和空间仍然存在。技术优化的好和不好，其实对算力最终的效率会有非常大的差别，这个需求点一直存在。

但创业的难点在于差异化，现在 AI Infra 创业公司做的与云厂商高度重合，从商业模式和技术手段这些方面来看几乎没有差别。

Koji：比如说给你一千万美金去做早期投资 AI Infra 创业公司，不管中国还是美国，你有想投的吗？

王雁鹏：还没有，大家从技术栈和思路上来说，基本上是一致的。

Koji：所以你觉得创业在 AI Infra 领域还是挺难的？

王雁鹏：个人观点是这个方向有机会，但可能做不出巨头。更多是发展成针对某类客户、某个场景和相对细分领域能够深耕，去提供特殊价值。

Koji：你从入行就一直做 Infra，但是其实在一些工程师看来做 Infra 是很枯燥的选择，可能在很长一段时间里得不到正反馈。所以想请你讲一讲，做 Infra 那么多年的一些感受？

王雁鹏：作为做基础设施的，我经常听到的是很容易最终做成运维，在公司里就变成了各种打杂的，去解决各种稳定性问题。

Koji：但凡稳定大家就觉得天经地义，但凡宕机就是天大的罪过。

王雁鹏：是的，你只能在这两个场景出现，还很容易遇到很大的挑战。但是实话说，从我个人的职业经历来讲，好像没有遇到这种情况。

我很早就来到了百舸做大规模的基础设施，目标也很明确，就是大规模的把成本降下来。要买商用服务器和自研服务器的话，可能成本差了一倍，我的使命就是把成本再降下来，那自然会有更大的价值。

所以第一，做基础设施还是要有一个大的平台。在一个小的平台里面就很难，很容易变成运维工程师，而且还要什么都懂。技术栈是很复杂的，今天解决存储的问题，明天解决计算的问题，再解决操作系统的问题。每一个领域里面的问题都很深，容易杂而不精，难以创造个人价值。现在要做大模型创新，除了在科研院做研究，想做大创新还是要选头部公司，有足够资源支撑创新。这与互联网创业时代不同，当时模式创新可能几个人就能做起来，在技术驱动的创新范式下，职业生涯早期就需要大平台。

另外关键是缩短创新路径，看客户在哪。基础设施创新一定要拉着业务方一起做。我们早期与搜索团队合作自研 SSD，需求明确、价值创造明确，项目很快就成功。反过来当时如果在一个 SSD 公司，我很难做出来。因为你要去找客户，还要想办法把它放到这个服务器里面，周期会非常长。大家知道百度有一个最高奖，它的标准是给十人以下的小团队，做到超预期的价值，奖金是 100 万美金，是非常重大的奖项了，也是百度的工程师非常追求的奖项。

我们其实得到了很多次最高奖。有些是我们团队主导的，但更多的是和业务团队一起合作的。搜索团队、NLP 团队、语音团队、视觉团队一起合作。这在我看来就是一个比较好的创新典范，我们有很好的点子，并且有很强的创新意愿，业务方也有很强的火花，在有很高效反馈的时候，可能十人的团队就能做出来很多创新成果。

第三就是找到发力的方向，也能跟上层的业务做联合创新，但软硬件周期不同，做 Infra 的反馈周期比应用和算法慢，但这更需要积累和长时间耕耘，要对整个计算机体系结构有全面了解。现在大趋势是 Infra 和算法深度融合。比如大模型训练分成两个阶段，预训练和后训练。预训练就是构建一个很强大的基座模型，后训练就是更加的场景特质化，以强化学习为代表。预训练阶段，Infra 和算法同学应该深度融合，甚至变成一个团队。团队里每个人都要既懂算法又懂 Infra，设计出来才是更好的预训练模型。

Koji：在百度百舸，我们是如何让算法和 Infra 团队更加融合的？

王雁鹏：首先，我们现在的算法团队里就有 Infra 的人。新成立的算法团队第一天就包含复合型的人才，这已经变成了大模型创业公司的普遍做法。

第二，本质还是要有创新力。顶尖人才之所以贵是因为他们既有创新力，又对多个领域有了解。我比较欣喜的是，现在大学的优秀学生，全栈能力比我们当年强，他们对应用、算法、架构都有一定的了解。

这真的是一个很美妙的时代。大家应该更好地融会贯通，打通技术栈，掌握从应用到算法到架构的全栈能力，这一定会让职业道路有更好发展。

查看全文

http://www.dtcms.com/a/592809.html