当前位置: 首页 > news >正文

怎么做网站报告小勐拉网站建设

怎么做网站报告,小勐拉网站建设,wordpress jsp版,商业网站建立CUDA C编程笔记 第五章 共享内存和常量内存5.3 减少全局内存访问5.3.2 使用展开的并行规约思路reduceSmemUnroll4(全局内存)具体代码:运行结果意外发现书上全局加载事务和全局存储事务和ncu中这两个值相同 待解决的问题:意外发现书…

CUDA C编程笔记

  • 第五章 共享内存和常量内存
    • 5.3 减少全局内存访问
      • 5.3.2 使用展开的并行规约
        • 思路
        • reduceSmemUnroll4(全局内存)具体代码:
        • 运行结果
        • 意外发现书上全局加载事务和全局存储事务和ncu中这两个值相同

待解决的问题:意外发现书上全局加载事务和全局存储事务和ncu中这两个值相同,是否有直接相关???

第五章 共享内存和常量内存

5.3 减少全局内存访问

使用共享内存的主要原因之一是要缓存片上的数据,来减少核函数中全局内存访问的次数。

第三章介绍了用全局内存的并行规约核函数,并解释了下面2个问题:
①如何重新安排数据访问模式避免线程束分化
②如何展开循环来保证有足够的操作使指令和内存带宽饱和

本节重新使用并行规约核函数,但是这里用共享内存作为缓存来减少全局内存的访问。【并行规约+共享内存】

5.3.2 使用展开的并行规约

前面的核函数用一个线程块处理一个数据块。继续优化用第三章的思想,一次运行多个IO操作,展开线程块来提高核函数性能。

这里展开了4个线程块,即每个线程处理4个数据块的数据
这样做的优势是:
①提高全局内存的吞吐量,因为每个线程进行了更多的并行IO。
②全局内存存储事务减少了1/4
③整体内核性能提升

思路

先重新计算全局输入数据的偏移值。

    //全局索引,一次处理4个输入数据块unsigned int idx = blockIdx.x * blockDim.x * 4 + threadIdx.x;//这里乘4

再一次性处理4个元素,每个线程读取4个数据,把这个4个数据的和放到局部变量tmpSum中,用tmpSum来初始化共享内存,而非从全局内存初始化共享内存。

    //边界条件检查if(idx < n)//在范围内的相邻块大小的元素都加起来,最多可以一次处理4个块{int a1, a2, a3, a4;a1 = a2 = a3 = a4 = 0;a1 = g_idata[idx];if(idx + blockDim.x < n)     a2 = g_idata[idx + blockDim.x];if(idx + 2 * blockDim.x < n) a3 = g_idata[idx + 2 * blockDim.x];if(idx + 3 * blockDim.x < n) a4 = g_idata[idx + 3 * blockDim.x];tmpSum = a1 + a2 + a3 + a4;}
reduceSmemUnroll4(全局内存)具体代码:
//reduceSmemUnroll4
__global__ void reduceSmemUnroll(int *g_idata, int *g_odata, unsigned int n){//静态共享数组__shared__ int smem[DIM];//设置线程IDunsigned int tid = threadIdx.x;//全局索引,一次处理4个输入数据块unsigned int idx = blockIdx.x * blockDim.x * 4 + threadIdx.x;//这里乘4//展开4个块int tmpSum = 0;//【】//边界条件检查if(idx < n)//在范围内的相邻块大小的元素都加起来,最多可以一次处理4个块{int a1, a2, a3, a4;a1 = a2 = a3 = a4 = 0;a1 = g_idata[idx];if(idx + blockDim.x < n)     a2 = g_idata[idx + blockDim.x];if(idx + 2 * blockDim.x < n) a3 = g_idata[idx + 2 * blockDim.x];if(idx + 3 * blockDim.x < n) a4 = g_idata[idx + 3 * blockDim.x];tmpSum = a1 + a2 + a3 + a4;}smem[tid] = tmpSum;__syncthreads();//在共享内存中就地规约if(blockDim.x >= 1024 && tid < 512) smem[tid] += smem[tid + 512];__syncthreads();if(blockDim.x >= 512 && tid < 256) smem[tid] += smem[tid + 256];__syncthreads();if(blockDim.x >= 256 && tid < 128) smem[tid] += smem[tid + 128];__syncthreads();if(blockDim.x >= 128 && tid < 64) smem[tid] += smem[tid + 64];__syncthreads();//展开warpif(tid < 32){volatile int *vsmem = smem;vsmem[tid] += vsmem[tid + 32];vsmem[tid] += vsmem[tid + 16];vsmem[tid] += vsmem[tid + 8];vsmem[tid] += vsmem[tid + 4];vsmem[tid] += vsmem[tid + 2];vsmem[tid] += vsmem[tid + 1];}//把结果写回全局内存if(tid == 0) g_odata[blockIdx.x] = smem[0];
}

对应的主函数调用核函数也要修改,网格除4。

这里只能给grid.x/4,不能给block/4。
如果block/4,假设原来block大小为256,调用时block/4=64,blockDim.x=64,共享内存仍分配256个空间,只有前64个有值,后面的都是未定义的有问题的值。并且归约也会崩溃,索引也有问题。

    //3、reduceSmemUnroll4cudaMemcpy(d_idata, h_idata, bytes, cudaMemcpyHostToDevice);reduceSmemUnroll<<<grid.x / 4, block>>>(d_idata, d_odata, size);//这里要除4,因为一个线程块处理四个数据块,需要的线程块减为原来的1/4cudaMemcpy(h_odata, d_odata, grid.x / 4 * sizeof(int), cudaMemcpyDeviceToHost);gpu_sum = 0;for(int i = 0; i < grid.x / 4; i++) gpu_sum += h_odata[i];printf("reduceSmemUnroll4: %d <<<grid %d block %d>>>\n", gpu_sum, grid.x / 4,block.x);
运行结果
[6/8] Executing 'cuda_gpu_kern_sum' stats reportTime (%)  Total Time (ns)  Instances  Avg (ns)   Med (ns)   Min (ns)  Max (ns)  StdDev (ns)                      Name                    --------  ---------------  ---------  ---------  ---------  --------  --------  -----------  --------------------------------------------50.4          238,789          1  238,789.0  238,789.0   238,789   238,789          0.0  reduceGmem(int *, int *, unsigned int)      32.5          154,051          1  154,051.0  154,051.0   154,051   154,051          0.0  reduceSmem(int *, int *, unsigned int)      17.2           81,377          1   81,377.0   81,377.0    81,377    81,377          0.0  reduceSmemUnroll(int *, int *, unsigned int)
意外发现书上全局加载事务和全局存储事务和ncu中这两个值相同

在这里插入图片描述
存储事务:与reduceSmem相比,reduceSmemUnroll4存储事务数量减少为1/4,加载事务数量不变。
全局内存吞吐量:
加载吞吐量增加,因为大量同时加载请求。
存储吞吐量下降,较少的存储请求让总线饱和。

http://www.dtcms.com/a/463276.html

相关文章:

  • 小游戏网站网址个人网站示例
  • dedeseo网站wordpress 分类文章数
  • 房山网站建设优化seo小企业网站建设的连接方式
  • Linux系统性能监控与故障定位实战:CPU/内存/I/O/网络
  • 网站地图生成工具深圳物流公司哪家便宜又好
  • 站内优化主要从哪些方面进行古典 网站模板
  • 网站建设 经典书籍做网站需要购买网站空间吗
  • 网站建设用的服务器注册资金是什么意思
  • 重庆网站建设的公司熊猫办公ppt模板下载
  • 天门市住房和城乡建设局网站新东方教育培训机构官网
  • 活动 网站 源码网站制作收费标准
  • 移动网站建设可信赖药品网站 icp
  • 360的网站排名怎么做wordpress主题如何升级
  • OpenShift Virtualization - 为使用 ovn-k8s-cni-overlay 类型网络的 VM 分配 IP 地址
  • 查网站备案名称有什么可以在线做奥数题的网站
  • 设计模式--装饰器模式:动态扩展对象功能的优雅设计
  • 西安网站建设公司都有哪些wordpress幻灯片的调用
  • 文章资讯类网站哪里有做网站服务商
  • 走进 OpenCV 人脸识别的世界
  • 做网站的如何说服客户关键词投放
  • 河北省建设局材料备案网站推荐一个seo优化软件
  • 牛客算法_动态规划
  • 普陀网站建设徐州百度运营中心
  • 昆明网站建设工作室做像素画的网站
  • 佛山企业网站seo百青藤广告联盟
  • 龙海网站开发怎么给新网站做推广
  • 网站建设服务市场细分郑州seo网络推广
  • 软考中级习题与解答——第十四章_UML建模(4)
  • 打广告型的营销网站网业有限公司
  • VS Code + nasm 汇编环境