当前位置: 首页 > news >正文

昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地

百度智能云混合云联合昆仑芯、HAMi(密瓜智能发起并主导的 CNCF 开源项目),正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案 —— 该方案已率先在某金融客户的昆仑芯集群中落地,为智能客服、营销辅助等十余类 AI 业务提供兼具稳定性与灵活性的算力支撑。客户可在同一集群内灵活调用昆仑芯 P800 的整卡 XPU 与虚拟化 vXPU 资源,让国产算力既高效匹配业务需求,又实现资源的最大化利用。

1.    XPU/vXPU 双模式调度方案,把集群中的昆仑芯 P800 算力用透

百度智能云联合 HAMi,基于昆仑芯 P800 构建「XPU 整卡 + vXPU 虚拟化」双模式资源调度体系:XPU 整卡模式通过拓扑寻优调度与健康度评估,实现「多卡单任务」的最优资源调度,保障大规模训练性能和稳定性,并避免资源碎片化;vXPU 虚拟化模式以多规格切分支持「单卡多任务」,最大化资源利用率,灵活适配推理、开发等轻量化场景。双模式协同发力,让昆仑芯 P800 的每一份算力「算尽其用」,为各类 AI 业务提供高效算力支撑。

    XPU 整卡模式:拓扑寻优调度 + 集群健康度评估,保障大规模训练性能与集群稳定

    在多卡训练等通信性能敏感场景中,调度策略直接决定集群长期可用性与性能稳定性。基于昆仑芯 P800 的物理拓扑特性,方案通过两层逻辑保障整卡模式的「高性能和高稳定性」。

    其一,系统自动识别昆仑芯服务器「左右侧翼」物理分区,优先在单侧翼内调度资源,减少跨侧翼通信开销的同时,避免资源零散占用。

    其二,当多个节点都能满足需求时,系统会评估调度前后对节点整体结构的影响,优先选择能保持或改善拓扑规整度的节点,留存更多完整拓扑单元,降低后续调度失败或回填导致的性能波动。

    凭借「节点内拓扑寻优调度+集群内健康度评估」,运维团队不再需要频繁人工干预去「手动拼卡」,大模型训练可获得稳定通信性能,集群资源利用更紧凑。

    vXPU 虚拟化模式:多粒度切分 + 显存自动对齐,用透每一分算力,简化管理难度

    针对推理、开发测试、模型验证等轻量化任务的细粒度算力需求,vXPU 虚拟化模式为昆仑芯 P800 打造了「算力精准切分 + 便捷管理」的解决方案。

    该模式支持多任务共享单张昆仑芯 P800 显卡,提供 1/4 卡(24GB 显存)、1/2 卡(48GB 显存)两种切分规格。实际使用中,用户仅需声明所需显存,系统便会自动向上匹配最优切分规格 —— 如申请 20GB 显存时,系统自动分配 24GB 规格,无需用户手动换算,大幅降低操作成本。

    同时,为避免实例间干扰,方案引入「同规格共享」机制 —— 同一物理卡仅允许相同规格的虚拟实例共享,进一步简化了资源隔离与管理复杂度。

    UUID 精准控卡:自动化打底,人工补位,特殊场景不「卡壳」

    依托整卡模式的拓扑寻优调度、vXPU 虚拟化模式的显存自动对齐等自动化能力,日常算力调度已实现少干预甚至无干预。针对灰度测试、硬件问题复现等特殊场景,方案预留「人工调节通道」 —— 运维人员只需指定物理卡 UUID,即可直接选定或排除特定卡片。比如灰度发布新模型时,无需调动全量资源,指定部分卡片即可完成测试验证;硬件故障复现时,也能精准定位问题卡片进行调试,无需整机下线。

    通过系统自动化调度与人工手动调节的结合,面对大模型训练、推理与开发等复杂场景,既能保障日常调度效率,又具备「因地制宜」的算力管理灵活性,轻松化解运维难题。

    2.    结语

    XPU/vXPU 双模式协同调度方案在金融行业的落地,是百度智能云混合云联合 HAMi 在国产 AI 硬件调度领域的重要实践 —— 既验证了「场景驱动调度策略」的技术创新价值,也展现了开源生态与企业服务结合的落地能力。

    如需了解昆仑芯 P800 虚拟化完整方案,可参考项目文档:昆仑芯 P800 vXPU 调度

    http://www.dtcms.com/a/564851.html

    相关文章:

  • HarmonyOS6.0开发实战:HTTP 网络请求与 API 交互全指南
  • 合肥网站开发建设wordpress使用难不难
  • 杭州市上城区建设局网站江阴网页设计
  • 【软考】信息系统项目管理师-进度管理论文范文
  • 开关电源的短路保护如何测试?又需要哪些仪器呢?-纳米软件
  • 从 0 到 1 掌握医学图像分割 的完整实战指南
  • HTML应用指南:利用POST请求获取全国爱回收门店位置信息
  • 在线下载免费软件的网站网页设计模板图片html
  • 第九天 - psutil系统监控库 - 资源监控仪表盘 - 练习:实时CPU/Memory监控
  • CentOS/AlmaLinux 9 中 SSH 服务启动失败:OpenSSL 版本不匹配解决
  • MAC-SQL 论文翻译
  • 海宁最火高端网站设计推荐crack wordpress
  • Kanass零基础学习,如何进行任务管理
  • 3 个诊断 Linux 服务器的脚本
  • Spring Boot Bean 生命周期注解深度解析:@PostConstruct 与 @PreDestroy 面试高频考点 + 实战案例
  • 深入浅出 Java 虚拟机之实战部分
  • 营销型网站建设的认识wordpress支持python吗
  • iOS 26 CPU 使用率监控策略 多工具协同构建性能探索体系
  • iOS 文件管理与导出实战,多工具协同打造高效数据访问与调试体系
  • 文件上传(vue3+element-plus+php)
  • Unity与iOS原生交互开发入门篇 - 打开iOS设置
  • Python循环continue与break
  • 网站开发 外包空心哪家网站设计比较好
  • Python scikit-learn详解:从入门到实战,机器学习的“瑞士军刀”
  • [论文阅读] AI+ | 从 “刚性科层” 到 “智能协同”:一文读懂 AI 应对国家安全风险的核心逻辑
  • 西安网站托管商家成都比较好的室内设计公司有哪些
  • Spark 中数据读取方式详解:SparkSQL(DataFrame)与 SparkCore(RDD)方法对比及实践
  • gta5线下买房网站建设公司logo是什么意思
  • Java面试场景题及答案总结(2025版持续更新)
  • Spring 异常处理机制:@ExceptionHandler、@ControllerAdvice