当前位置: 首页 > news >正文

wordpress 标签固定链接宁波seo网络推广外包报价

wordpress 标签固定链接,宁波seo网络推广外包报价,电商电商网站建设,常州网络推广公司哪家好0. overall 会包括四节内容,先跳过了上层的调用部分,这部分的内容会在第五章节更新。简言之就是上层的torch调用empty等接口创建tensor,新版的话会通过ncclMemAlloc和ncclCommRegister对这个tensor的地址开辟和注册。当tensor在tp/pp之间传输…

0. overall

会包括四节内容,先跳过了上层的调用部分,这部分的内容会在第五章节更新。简言之就是上层的torch调用empty等接口创建tensor,新版的话会通过ncclMemAlloc和ncclCommRegister对这个tensor的地址开辟和注册。当tensor在tp/pp之间传输的时候就会直接使用注册好的内存地址实现zerocopy,完成数据的高带宽传输。
这里的4.2-1到4.2-2两节会从enqueue.cc内怎么实现zerocopy的角度去看原生两个gpu之间如何通过注册完成zerocopy行为的。

1. addP2pToplan()

大致是send recv传输操作加到执行计划内:

  1. 判断当前是机内还是机间
  2. 注册buffer,机间就是 ncclRegisterP2pNetBuffer,机内就是 ncclRegisterP2pIpcBuffer,这里会去transport层找自己的register buffer的具体实现
  3. 生成设备工作结构,ncclDevWorkP2p
  4. 为非自发送创建proxy操作
    机间注册buffer的时候会多一步判断,必须得保证PSN是关闭的。并且会给每个channel都注册buffer。
bool pxnUsed = !ncclPxnDisable(comm) && comm->isAllNvlink && comm->maxLocalRanks > 1;
if (bytes[dir] > 0 && proxySameProcess[dir] && protocol[dir] == NCCL_PROTO_SIMPLE && (!pxnUsed)) {int regFlag = 0;NCCLCHECK(ncclCalloc(&handles[dir], nChannelsMax));for (int part = 0; part < nChannelsMax; part++) {int channelId = ncclP2pChannelForPart(comm->p2pnChannels, base, part);struct ncclChannelPeer** channelPeers = comm->channels[channelId].peers;int peerRank = dir ? sendRank : recvRank;struct ncclConnector* conn = dir ? &channelPeers[peerRank]->send[connIndex]: &channelPeers[peerRank]->recv[connIndex];if (conn->conn.flags & NCCL_DIRECT_NIC)ncclRegisterP2pNetBuffer(comm, addrs[dir], bytes[dir], conn, &regFlag, &handles[dir][part], &plan->cleanupQueue);if (!regFlag) break;}netRegistered[dir] = regFlag ? true : false;}

机内的话发现,有实际数据,有地址是simple协议和非selfsend就会去注册ipcbuffer。注册具体流程:ncclRegisterP2pIpcBuffer在[4.2-2]内有详细说明(因为这一块需要单开一个说明不同进程不同gpu怎么拿到对方注册地址的)内(fd和handle去交换拿到的注册buffer):
注册后拿到对端注册的地址 regAddr ,这里举例说比如机内rank0发给rank1。那么rank0是sender,对应这里时dir=1的情况,sender把自己的地址addr[1]放进ncclRegisterP2pIpcBuffer 内拿到对端注册的 regAddr ,但是它 sendAddr = regAddr,也就是说把对端注册的buffer地址覆盖了自己的sendAddr。同理receiver也是这样,通过完成注册后打印看到刚刚的举例真实情况如下:
Rank 0 (发送方dir=1):

  • sendBytes=0x400000 (4MB数据)
  • sendRank=1, sendAddr=0x7fa275000000 (本地发送缓冲区地址)
  • recvRank=1, recvAddr=(nil) (接收地址为空,因为是发送方,这不是0,这是p2pSchedule初始化成1的)
  • ipcRegistered[0]=0, ipcRegistered[1]=1 (只有发送方向注册了IPC)
    Rank 1 (接收方dir=0):
  • sendBytes=0xffffffffffffffff (无发送数据)
  • sendRank=0, sendAddr=(nil) (发送地址为空,因为是接收方)
  • recvRank=0, recvAddr=0x40ca00000 (本地接收缓冲区地址)
  • ipcRegistered[0]=1, ipcRegistered[1]=0 (只有接收方向注册了IPC)

image.png

else if (bytes[dir] > 0 && addrs[dir] && protocol[dir] == NCCL_PROTO_SIMPLE && !selfSend) {int peerRank = dir ? sendRank : recvRank;int regFlag = 0;int channelId = ncclP2pChannelForPart(comm->p2pnChannels, base, 0);struct ncclChannelPeer** channelPeers = comm->channels[channelId].peers;struct ncclConnector* conn = dir ? &channelPeers[peerRank]->send[connIndex]: &channelPeers[peerRank]->recv[connIndex];void* regAddr = NULL;// [NCCL_P2P_WRITE] 表示可以写入对端内存// [NCCL_P2P_READ]  表示可以从对端内存读取if (conn->conn.flags & (NCCL_P2P_WRITE | NCCL_P2P_READ)) {// 双方都需要注册 注册后可以直接访问的对端的内存地址就是regAddrNCCLCHECK(ncclRegisterP2pIpcBuffer(comm, addrs[dir], bytes[dir], peerRank, &regFlag, &regAddr, &plan->cleanupQueue));if (regFlag) {if (dir == 0 && (conn->conn.flags & NCCL_P2P_WRITE)) recvAddr = regAddr;else if (dir == 1 && (conn->conn.flags & NCCL_P2P_READ)) sendAddr = regAddr;}}ipcRegistered[dir] = regFlag ? true : false;}

selfsend就是单进程,只下一个proxyOp。非selfsend就是涉及进程间的传输,就下两个proxyop,dir=0是recv,dir=1是send。

struct ncclProxyOp proxyOps[2] = {};
int nProxyOps = selfSend ? 0 : 2;
http://www.dtcms.com/a/445909.html

相关文章:

  • 网站建设数据库是什么百度一下京东
  • 【Leetcode hot 100】131.分割回文串
  • ARM - GCC - 建立自己的命令行编译环境
  • Nginx限流配置
  • 大岭山做网站九亭做网站公司
  • 微软宣布 Windows 11 v25H2 GA
  • Burp Suite模拟器抓包全攻略
  • 佛山营销型网站定制绿色企业网站源码
  • Qt 5.14.2+Mysql5.7 64位开发环境下无法连接数据库
  • 【Python】
  • [特殊字符]ui设计公司灵感备忘录 | 网格布局 UI 收集
  • Base UI:一款极简主义的「无样式」组件库
  • MySQL 运维知识点(十六)---- 读写分离
  • 网站建设生存期模型希音电商网站
  • 济南网站建设培训班永久免费网站建设
  • 高层次综合报告分析-vivado hls第四章
  • Go语言中的Zap日志库
  • Linux网络编程——UdpServer
  • Daily算法刷题【面试经典150题-3️⃣】
  • MybatisPlus和pagehelper分页冲突—关于jsqlparser、pagehelper、MybatisPlus三者的版本兼容问题
  • R 数组:深入解析与高效使用
  • 缩点学习笔记
  • Go基础:用Go语言操作MongoDB详解
  • 第六章:适配器模式 - 接口转换的艺术大师
  • ARM环境日志系统的简单设计思路
  • 网站名称推荐大气聚财的公司名字
  • 【JVM】——实战篇
  • 那里有正规网站开发培训学校个人网站是怎么样的
  • 高端网站设计简介推荐外贸网站建设的公司
  • asp.net 网站安装工商核名在哪个网站