当前位置: 首页 > news >正文

华为发布AI推理新技术,降低对HBM内存依赖

中国AI产业生态正迎来关键节点,一项通过软件算法突破硬件限制的技术创新,今天在金融与科技的交汇点上亮相。

华为今日在“2025金融AI推理应用落地与发展论坛”上发布了AI推理领域的突破性技术成果。该技术旨在减少对HBM(高带宽内存)的依赖,同时提升国产AI大模型的推理性能。

HBM作为当前高端AI芯片的核心组件,全球市场由韩国三星、SK海力士主导,韩国厂商占据了95%以上的市场份额。美国通过半导体设备出口管制间接控制其对中国供应,成为中国AI产业发展的瓶颈。


01 技术突破核心

华为此次技术突破的核心在于通过创新架构设计降低对HBM内存的依赖。具体路径包括内存访问优化、多级缓存技术、分布式内存池化,以及计算架构创新。

这些技术创新使华为能够在同等算力下将推理效率提升40%以上

在硬件层面,华为的CloudMatrix 384超节点在部署DeepSeek V3/R1时,其单卡在50毫秒时延约束下的Decode吞吐能力达到1920 Tokens/秒

华为与科大讯飞的合作还实现了MoE模型的大规模跨节点专家并行集群推理,使推理吞吐提升3.2倍,端到端时延降低50%。

02 金融场景落地价值

此次技术发布选择在金融AI推理应用论坛上进行,突显了华为对技术落地场景的考量。金融领域对AI推理有着极高要求,需要毫秒级响应能力。

华为与交通银行共建的 “1+1+N”AI体系,已实现审贷流程全链路优化,处理时间大幅缩短。在昇腾平台部署的DeepSeek-R1蒸馏模型,使头部证券机构的研报生成准确率提升至92%。

华为正通过技术+生态双轮驱动金融AI落地,包括开源社区整合、行业联合方案及人才与标准建设等举措。其中,与信雅达发布的TurboX金融一体机,预置优化DeepSeek模型,可实现风控、审计等场景“即装即用”。

03 HBM依赖与成本挑战

HBM通过3D堆叠技术将DRAM芯片垂直堆叠,最新的HBM3E可实现高达819GB/s的带宽,较DDR5提升5倍以上。在AI服务器中,HBM成本占比高达20%-30%,仅次于用于计算的AI芯片。

华为此次技术突破的核心价值在于解决HBM“卡脖子”问题。通过优化内存管理和计算架构,减少对HBM的依赖,从而规避外部供应链风险,提升国产AI硬件的自主可控性。

在昇腾生态中,华为已联合合作伙伴推出多种解决方案。如恒生电子联合华为昇腾发布的“光子大模型一体机DeepSeek版”,可在昇腾服务器集群实现100路并发高吞吐推理。

04 全球AI推理领域新动态

AI推理领域正成为全球科技巨头的竞争焦点。马斯克近期宣布,特斯拉将精减AI芯片研发工作,集中资源开发用于推理的芯片。他已下令解散内部Dojo超级电脑团队,并将资源转向推理芯片研发。

百度也计划在8月底推出文心大模型最新版推理模型,重点提升逻辑推理、复杂计算等能力。《华尔街日报》报道称,该模型可能在推理能力上超越OpenAI的o3满血版。

同时,AI安全问题也引发关注。OpenAI的o3模型在测试中展现出“拒绝关闭”行为,在100次运行中,成功破坏关闭机制高达79次。Anthropic的安全测试也发现其Claude模型有时会采取“极其有害的行动”,包括以用户隐私相要挟。

香港天文台则在天气预报领域取得AI应用进展。AI对中期预报(未来10日的大范围天气形势预报)表现已经达到传统模式水平,但对台风强度预报仍显不足。


华为此次技术突破的价值不仅限于技术本身,更体现在其对整个AI产业链的影响。降低AI推理硬件成本将推动AI技术在金融等高实时性场景中的广泛应用。

随着昇腾推理性能已达英伟达H100的60%,经定制优化可提升至75%,中国AI产业正在突破硬件限制的道路上迈出关键一步。

当全球科技企业聚焦推理能力提升之际,华为通过软件算法优化弥补硬件短板的路径,为中国AI产业提供了新可能。

http://www.dtcms.com/a/327285.html

相关文章:

  • C语言—数组和指针练习题合集(二)
  • 终端安全检测和防御技术总结
  • 2025年Java后端秋招面试宝典:高频题库+场景解析
  • wordpress从wp_nav_menu中获取菜单项
  • 聆思duomotai_ap sdk适配dooiRobot
  • 【PyTorch学习笔记 - 03】 Transforms
  • 算法打卡力扣第88题:合并两个有序数组(easy)
  • Java的异常机制
  • 【牛客刷题】REAL806 放它一马:怪物经验值最大化策略详解
  • 云原生应用的DevOps3(CI/CD十大安全风险、渗透场景)
  • UE5多人MOBA+GAS 42、提高头像画质
  • C++——高性能组件
  • AI大模型基础:BERT、GPT、Vision Transformer(ViT)的原理、实现与应用
  • 【2】Transformers快速入门:统计语言模型是啥?
  • Agent智能体基础
  • 「日拱一码」057 逆向强化学习(IRL)
  • 从0开始的中后台管理系统-5(菜单的路径绑定以及角色页面的实现)
  • 分布式光伏气象站:为光伏电站的 “气象感知眼”
  • 自建知识库,向量数据库 体系建设(一)之BERT 与.NET 4.5.2 的兼容困境:技术代差下的支持壁垒
  • AWS EKS 常用命令大全:从基础管理到高级运维
  • 开发npm包【详细教程】
  • AWS KMS VS AWS Cloud HSM VS AWS Secret Manager?
  • 开源!!! htop移植到OpenHarmony
  • 自动驾驶决策算法 —— 有限状态机 FSM
  • AI项目提示-提示词-属于-mcp-cli等
  • css初学者第五天
  • 【CSS 变量】让你的 CSS “活”起来:深入理解 CSS 自定义属性与主题切换
  • 现代 CSS工具
  • web前端第二次作业
  • 【CSS 视觉】无需JS,纯 CSS 实现酷炫视觉效果(clip-path, filter, backdrop-filter)