DO指数GPU版本
大指数下DO指数模型计算优化
DO指数模型概述
DO指数(Duranton-Overman Index)是由Duranton和Overman于2005年提出的产业空间集聚测度方法,它通过分析企业间的精确地理距离分布来识别产业集聚模式。与传统集聚指标相比,DO指数具有两大优势:
- 跨行政边界分析:基于实际地理坐标而非行政边界
- 统计显著性检验:通过反事实模拟建立置信区间
核心计算
1. 加权核密度估计
K E M P ( d ) = 1 h ∑ i = 1 n − 1 ∑ j = i + 1 n ( e i + e j ) ∑ i = 1 n − 1 ∑ j = i + 1 n ( e i + e j ) f ( d − d i , j h ) K^{\mathrm{EMP}}(d) = \frac{1}{h \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} (e_i + e_j)} \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} (e_i + e_j) f\left( \frac{d - d_{i,j}}{h} \right) KEMP(d)=h∑i=1n−1∑j=i+1n(ei+ej)1i=1∑n−1j=i+1∑n(ei+ej)f(hd−di,j)
其中:
- ei,ej:企业i和j的就业人数(规模权重)
- di,j:企业间地理距离
- h:带宽(按Silverman准则计算)
- f:高斯核函数
2. 反事实模拟
通过若干次随机抽样构建置信区间
大数据计算瓶颈
当处理大规模企业数据时,DO指数面临严重的计算复杂度问题:
计算复杂度分析
数据规模 | 点对数量 | 计算量级 |
---|---|---|
1万企业 | 约5千万 | O(n2) |
10万企业 | 约50亿 | O(n2) |
20万企业 | 约200亿 | O(n2) |
主要瓶颈环节
-
距离矩阵计算:
- 需要计算所有企业对的精确地理距离
- 20万企业产生C200,0002≈2×1010个距离对
-
核密度估计:
for d in distance_bins: # 200个距离箱for i in range(n): # 20万企业for j in range(i+1, n): # 约200亿次循环kernel += f((d - dist[i,j])/h)
-
反事实模拟:
- 需重复1000次随机抽样和核密度计算
- 总计算量:1000×O(n2)
传统计算性能
数据规模 | CPU计算时间 | 内存消耗 |
---|---|---|
1万企业 | 2-3小时 | 约40GB |
5万企业 | 超过24小时 | 约1TB |
20万企业 | 不可行 | >10TB |
GPU并行计算解决方案
基于Julia语言开发的新型计算工具,通过GPU并行计算突破计算瓶颈
性能突破
-
GPU计算
为了解决计算问题,我们使用julia开发了一个GPU计算的DO指数版本。
相对之前的版本,有如下优点:
①,充分利用GPU的优势,加快计算速度。
②,为了加快计算,可以设置最大抽样样本数。
③,可以自由设置距离数,迭代数等相关参数
-
计算性能对比:
企业数量 CPU计算时间 A100 GPU时间 加速比 50,000 28小时 30分钟 40× 100,000 预估120小时 1.8小时 67× 200,000 不可行 2.5-3小时 ∞
使用示例
[外链图片转存中…(img-xQLNjfzE-1748697503802)]
只需要准备好数据,然后输入相关参数,即可得到结果。
软件会自动计算DO指数图像,如下
另外,会生成一份结果文件,提供了具体的Kd值,以及置信区间数据。供用户处理。
部署优势
跨平台支持:
如数据过于庞大,程序支持部署到远程linux服务器上,租用高性能显卡进行计算。
如果需要该工具,请联系微信 canglang12002
往期推荐:
含有非期望产出EBM模型
基于Shapley值方法测算DEA模型变量重要性
非平衡面板Malquist指数计算工具
复合系统协调度工具
Panda_DEA更新
三阶段DEA之SFA回归
产业空间聚集DO指数计算工具更新
存在共享投入的两阶段博弈交叉DEA模型
产业空间聚集DO指数计算工具
网络SBM模型(NSBM)复现
团体机构持股比例代码更新
空间马尔科夫工具更新** **
共享投入型关联两阶段生产系统的网络DEA效率测度与分解复现
基尼系数双维度分解计算工具
动态SBM模型(DSBM)复现
共享投入的两阶段DEA模型复现
基于凸分位数回归的影子价格计算工具
Doyle和Green(1994)的对抗性和仁慈性DEA
一种新的两阶段网络DEA模型
适用于面板数据的动态StoNED模型计算工具** **
零和博弈SBM模型(ZSG-SBM)模型
三阶段动态网络DEA(DNSBM)模型的实现
计算相对资源承载力模型的工具
基于参数化的方向性距离函数(DDF)估算污染物影子价格的工具
基于非期望产出的RAM 碳环境效率模型
使用遗传算法或NSGA2算法解决多式联运问题
莫兰指数计算小工具
Panda_DEA增加至强有效前沿最近距离-MinDS模型
QLab增加耦合协调度模型** **
广义SBM模型的matlab代码** **
QLab1.4正式发布!增加全排列多边形图示指标法** **
大量数据时的Dagum基尼系数分解工具** **
Panda-DEA_1.0正式发布!
含有非期望产出的ZSG-DEA模型
两阶段网络DEA模型及其计算
Panda-DEA,一款新的DEA模型软件
DKM_1.3更新—CCM收敛交叉映射
DKM_1.2:两阶段嵌套泰尔指数工具
DKM_1.1–新增熵值法功能
数量经济学工具DKM_1.0
空间马尔科夫链工具
空间静态kernel核密度、空间动态kernel核密度工具更新
马尔科夫链之传统马尔可夫链
Dagum基尼系数分解工具更新
无条件、空间静态、空间动态kernel核密度工具
基于共同前沿下含非期望产出SBM模型的影子价格测算
基于非期望产出SBM模型的群组前沿和共同前沿的DEA效率
零和收益ZSG-DEA模型的求解程序
三阶嵌套泰尔指数计算工具
](http://mp.weixin.qq.com/s?__biz=MzU3NDcwNjUyMQ==&mid=2247483737&idx=1&sn=b22ace1dec3db5a3985f64091af1c33f&chksm=fd2f076fca588e797e154566fc15525fc1844d8b1e25b8e8283ce6f99baebe03f877c418b7a3&scene=21#wechat_redirect)
dagum基尼系数分解工具