参数迁移对迭代次数的影响
做一个6*30*2的网络分类A和B,让A就是4a1,B全是0,收敛误差7e-4,收敛199次,迭代次数的平均值是5579.44.
做第二个6*30*2网络分类A和B,让A就是3a1,B全是0,收敛误差是7e-4,把这个网络的收敛权重代入第一个网络,作为第一个网络的初始权重,重复199次统计第一个网络的收敛迭代次数。
4a1-1共有4种情况,这4种情况的迭代次数平均值都是3次。
做第二种情况,4a1-2,共有6种可能,除了第2,3其余4种的收敛迭代次数都是3次。因为2,3都只覆盖了1列。
第三种情况,4a1-3,1个点只能覆盖1列,比较2个点的2,3两种情况1个点的强度也不够,迭代次数更大些。但也仅有原值的0.005.所以初始权重哪怕仅有1个点能对的上也可以使得迭代次数大幅减小。
比较如果把4a1的收敛权重代入4a1为什么收敛迭代次数不是1次?
f1 | f2 | 迭代次数 | f1 | f2 | 迭代次数 | |||
1 | 0.999365 | 6.44E-04 | 3 | 26 | 0.999358 | 6.21E-04 | 3 | |
2 | 0.999358 | 6.18E-04 | 3 | 27 | 0.99937 | 6.43E-04 | 3 | |
3 | 0.999359 | 6.20E-04 | 3 | 28 | 0.99936 | 6.31E-04 | 3 | |
4 | 0.999362 | 6.39E-04 | 3 | 29 | 0.999373 | 6.40E-04 | 3 | |
5 | 0.99936 | 6.33E-04 | 3 | 30 | 0.999357 | 6.30E-04 | 3 | |
6 | 0.999358 | 6.38E-04 | 3 | 31 | 0.999371 | 6.40E-04 | 3 | |
7 | 0.99937 | 6.43E-04 | 3 | 32 | 0.999364 | 6.43E-04 | 3 | |
8 | 0.999358 | 6.29E-04 | 3 | 33 | 0.999363 | 6.42E-04 | 3 | |
9 | 0.99936 | 6.35E-04 | 3 | 34 | 0.999379 | 6.42E-04 | 3 | |
10 | 0.999357 | 6.39E-04 | 3 | 35 | 0.999358 | 6.25E-04 | 3 | |
11 | 0.999362 | 6.42E-04 | 3 | 36 | 0.999363 | 6.40E-04 | 3 | |
12 | 0.999368 | 6.40E-04 | 3 | 37 | 0.999378 | 6.42E-04 | 3 | |
13 | 0.999366 | 6.43E-04 | 3 | 38 | 0.99936 | 6.26E-04 | 3 | |
14 | 0.999359 | 6.41E-04 | 3 | 39 | 0.999361 | 6.43E-04 | 3 | |
15 | 0.99936 | 6.10E-04 | 3 | 40 | 0.999363 | 6.43E-04 | 3 | |
16 | 0.999369 | 6.41E-04 | 3 | 41 | 0.999362 | 6.43E-04 | 3 | |
17 | 0.999366 | 6.42E-04 | 3 | 42 | 0.999359 | 6.35E-04 | 3 | |
18 | 0.999362 | 6.41E-04 | 3 | 43 | 0.999358 | 6.24E-04 | 3 | |
19 | 0.999356 | 6.15E-04 | 3 | 44 | 0.999378 | 6.43E-04 | 3 | |
20 | 0.999362 | 6.40E-04 | 3 | 45 | 0.999367 | 6.40E-04 | 3 | |
21 | 0.999359 | 6.25E-04 | 3 | 46 | 0.999358 | 6.42E-04 | 3 | |
22 | 0.999358 | 6.35E-04 | 3 | 47 | 0.999357 | 6.41E-04 | 3 | |
23 | 0.99937 | 6.42E-04 | 3 | 48 | 0.999363 | 6.38E-04 | 3 | |
24 | 0.999362 | 6.42E-04 | 3 | 49 | 0.999369 | 6.40E-04 | 3 | |
25 | 0.999364 | 6.41E-04 | 3 | 50 | 0.99936 | 6.38E-04 | 3 |
这里把前50次收敛时f1,f2的值和迭代次数都导出,都是3次收敛,
网络的进样顺序是
1 | A | 0 | 0 | 0 | 0 | 0 | 0 |
2 | B | 0 | 0 | 0 | 0 | 0 | 0 |
3 | A | 0 | 1 | 1 | 0 | 0 | 0 |
网络不会在全0行收敛,所以用4a1的收敛权重去收敛4a1需要3次。