製作一個二分類的網絡分類mnist的0和3,收斂標準1e-6,收斂次數是1999次,隱藏層節點數從3到1000共實驗了79組值。統計每次收斂的迭代次數,觀察分辨準確率和迭代次數對同一收斂標準的對應規律。
隱藏層節點數 |
迭代次數的均值 |
平均分類準確率 |
δ |
耗時ms/次 |
最大峯值佔比% |
不同峯值數量 |
3 |
225528.8639 |
0.99216191 |
1E-06 |
1017.794397 |
3.2 |
920 |
4 |
180492.6073 |
0.992873572 |
1E-06 |
874.8694347 |
1 |
977 |
5 |
153176.2796 |
0.993332093 |
1E-06 |
849.8394197 |
2.5 |
701 |
6 |
140841.2446 |
0.993333601 |
1E-06 |
823.3416708 |
2.9 |
505 |
7 |
132496.8744 |
0.993346673 |
1E-06 |
850.7328664 |
3.7 |
376 |
8 |
127019.8734 |
0.993389157 |
1E-06 |
890.1555778 |
6 |
292 |
9 |
121743.1321 |
0.993315502 |
1E-06 |
855.1110555 |
6.4 |
245 |
10 |
117795.6293 |
0.99328609 |
1E-06 |
869.6633317 |
5.6 |
205 |
20 |
91179.56428 |
0.992468345 |
1E-06 |
1202.25913 |
14.3 |
87 |
30 |
71645.70185 |
0.990856735 |
1E-06 |
1283.252626 |
34.9 |
47 |
40 |
52466.62381 |
0.98786001 |
1E-06 |
1286.266133 |
40.5 |
21 |
50 |
28288.04652 |
0.985970372 |
1E-06 |
844.4602301 |
35.3 |
10 |
60 |
14117.54027 |
0.984868816 |
1E-06 |
533.1965983 |
53.1 |
7 |
70 |
10979.98449 |
0.985028192 |
1E-06 |
445.3021511 |
62 |
6 |
80 |
10638.81541 |
0.984156903 |
1E-06 |
524.6763382 |
69.6 |
8 |
90 |
9757.722361 |
0.982007335 |
1E-06 |
570.4182091 |
29.2 |
7 |
100 |
8878.603802 |
0.977207951 |
1E-06 |
648.2546273 |
90.6 |
7 |
110 |
7560.581791 |
0.970227073 |
1E-06 |
551.4747374 |
50.2 |
7 |
120 |
6046.066533 |
0.961413621 |
1E-06 |
571.1925963 |
89.1 |
3 |
130 |
5021.085543 |
0.970240899 |
1E-06 |
508.1095548 |
53.1 |
3 |
140 |
4089.464732 |
0.980966865 |
1E-06 |
427.3106553 |
91.8 |
3 |
150 |
3914.265133 |
0.982963341 |
1E-06 |
450.4702351 |
99.2 |
3 |
160 |
3897 |
0.983089283 |
1E-06 |
538.0455228 |
100 |
1 |
200 |
3871.009005 |
0.977139575 |
1E-06 |
639.2601301 |
93.1 |
4 |
210 |
3696.18009 |
0.974980204 |
1E-06 |
671.5392696 |
72.3 |
6 |
215 |
3286.678339 |
0.94333423 |
1E-06 |
641.4507254 |
38 |
4 |
220 |
2702.929465 |
0.853601172 |
1E-06 |
567.7673837 |
86.5 |
4 |
240 |
2596 |
0.814743804 |
1E-06 |
601.4292146 |
100 |
1 |
260 |
2596 |
0.795055317 |
1E-06 |
640.7138569 |
100 |
1 |
280 |
2595.533267 |
0.783086015 |
1E-06 |
722.8294147 |
99.9 |
2 |
290 |
2566.129065 |
0.782319803 |
1E-06 |
765.3481741 |
96.8 |
2 |
295 |
2482.834417 |
0.797667929 |
1E-06 |
762.1890945 |
87.4 |
4 |
300 |
2293.785393 |
0.837000661 |
1E-06 |
730.7393697 |
66 |
5 |
301 |
2244.909955 |
0.847812097 |
1E-06 |
655.6713357 |
60.3 |
4 |
302 |
2177.41921 |
0.864338451 |
1E-06 |
677.3711856 |
51.4 |
6 |
305 |
2022.012006 |
0.899884113 |
1E-06 |
695.0115058 |
57.8 |
5 |
310 |
1803.558779 |
0.944903105 |
1E-06 |
659.4802401 |
81.1 |
6 |
320 |
1673.505253 |
0.96343071 |
1E-06 |
611.7878939 |
98.2 |
5 |
340 |
1663 |
0.962203715 |
1E-06 |
685.9094547 |
100 |
1 |
360 |
1663 |
0.960327903 |
1E-06 |
733.4092046 |
100 |
1 |
380 |
1663 |
0.958766821 |
1E-06 |
717.7158579 |
100 |
1 |
400 |
1663 |
0.957284421 |
1E-06 |
859.5852926 |
100 |
1 |
420 |
1662.861931 |
0.955882967 |
1E-06 |
817.0575288 |
99.9 |
2 |
440 |
1646.682341 |
0.951288207 |
1E-06 |
834.7243622 |
93.9 |
3 |
460 |
1472.213607 |
0.915313938 |
1E-06 |
897.7098549 |
68.3 |
5 |
480 |
1389.0005 |
0.89510509 |
1E-06 |
824.6728364 |
83.7 |
5 |
500 |
1385.537269 |
0.880267772 |
1E-06 |
932.2776388 |
100 |
1 |
520 |
1378.798899 |
0.854598153 |
1E-06 |
778.1770885 |
79.2 |
3 |
540 |
1353.688344 |
0.779361037 |
1E-06 |
839.8534267 |
97.8 |
2 |
560 |
1352.927464 |
0.767775345 |
1E-06 |
756.9969985 |
99.9 |
2 |
580 |
1346.689345 |
0.766967906 |
1E-06 |
854.7538769 |
95.6 |
2 |
590 |
1332.218609 |
0.784895966 |
1E-06 |
824.3956978 |
85.8 |
3 |
595 |
1315.088044 |
0.810554775 |
1E-06 |
887.1685843 |
74.1 |
3 |
600 |
1297.293647 |
0.833875983 |
1.00E-06 |
864.6323162 |
62.6 |
3 |
610 |
1251.265133 |
0.884327842 |
1E-06 |
799.5957979 |
58 |
3 |
620 |
1202.116558 |
0.909436879 |
1E-06 |
847.2341171 |
67.3 |
3 |
630 |
1148.246623 |
0.891357236 |
1E-06 |
868.3021511 |
56.9 |
3 |
640 |
1102.215608 |
0.847185402 |
1E-06 |
830.2316158 |
62.9 |
5 |
650 |
1062.614307 |
0.797253149 |
1E-06 |
859.0775388 |
85.6 |
5 |
660 |
1042.4007 |
0.755573515 |
1E-06 |
810.5287644 |
88.6 |
5 |
670 |
1018.533767 |
0.671164728 |
1E-06 |
832.953977 |
65.4 |
4 |
680 |
993.12006 |
0.563521208 |
1E-06 |
856.5077539 |
74.2 |
3 |
690 |
978.7268634 |
0.510132453 |
1E-06 |
848.3081541 |
94.9 |
3 |
700 |
968.6573287 |
0.512699314 |
1E-06 |
877.2486243 |
96 |
3 |
720 |
920.2506253 |
0.606602045 |
1E-06 |
815.4517259 |
74.1 |
2 |
740 |
850.9024512 |
0.746866901 |
1E-06 |
827.106053 |
57.6 |
2 |
760 |
792.8514257 |
0.86296314 |
1E-06 |
873.7658829 |
83.1 |
4 |
780 |
604.5072536 |
0.741864148 |
1E-06 |
758.8714357 |
55.1 |
4 |
800 |
405.188094 |
0.516227209 |
1E-06 |
690.7433717 |
95.1 |
2 |
820 |
387 |
0.493433651 |
1E-06 |
728.7133567 |
100 |
1 |
840 |
387 |
0.493246623 |
1E-06 |
749.058029 |
100 |
1 |
860 |
387 |
0.493043758 |
1E-06 |
766.5687844 |
100 |
1 |
880 |
386.877939 |
0.492933401 |
1E-06 |
820.8094047 |
99.9 |
2 |
900 |
379.066033 |
0.492794136 |
1E-06 |
797.971986 |
93.5 |
2 |
920 |
349.4052026 |
0.492643055 |
1E-06 |
743.5397699 |
69.2 |
2 |
940 |
303.2661331 |
0.492528676 |
1E-06 |
793.4982491 |
68.6 |
2 |
960 |
275.1310655 |
0.492479908 |
1E-06 |
792.1855928 |
91.7 |
2 |
980 |
266.5837919 |
0.492474378 |
1E-06 |
800.042021 |
98.5 |
3 |
1000 |
264.821911 |
0.492487953 |
1E-06 |
819.8394197 |
98.8 |
3 |
一個很意外的發現,網絡的平均分辨準確率隨着隱藏層節點數n的增加並不是簡單的線性變化的,在3-1000這個區段至少發現了5個精細結構
分別是n=100,290,580,690.在這個4個節點數分辨準確率對隱藏層節點數有明確的拐點,也就表明隱藏層節點數對網絡的分辨準確率不存在簡單的線性關係。當n=6時pave=0.993389156890011是最大值,也就是在3-1000這個區段上至少有1個峯,4個谷。
峯值佔比
當n=6時網絡pave取得最大值,這個網絡收斂了1999次產生了505個不同的峯值,其中最大峯136347也只不過佔了總數的2.9%,綜合所有實驗數據表明pave比較大的網絡峯值佔比都顯著的比較低.
峯值佔比低於10的網絡的pave都顯著的更高。當n>800以後峯值佔比接近100,也就是隻有一個特徵主峯。這時的pave約爲0.5.如果不同的峯值越多表明網絡的不同特徵越多,則這個實驗表明隨着n的增加網絡的特徵反而降低了。或者說隱藏層節點數越小網絡可以表現出越多的特徵,不同的特徵越多越有利分類。
不同峯值數量
當n=4時不同峯值數量爲977是實驗的79組數據中不同峯值數量最大的。
特別是當n大於10以後不同峯值數量就已經下降到個位數。表明網絡隨着n的增加正變得更加特徵單一,而單一的特徵卻不利於分類。
觀察不同峯值數量表格
隱藏層節點數 n |
峯值佔比% |
不同峯值數量 |
1/n^2 |
不同峯值數量/(1/n^2) |
3 |
3.2 |
920 |
||
4 |
1 |
977 |
0.0625 |
15632 |
5 |
2.5 |
701 |
0.04 |
17525 |
6 |
2.9 |
505 |
0.027778 |
18180 |
7 |
3.7 |
376 |
0.020408 |
18424 |
8 |
6 |
292 |
0.015625 |
18688 |
9 |
6.4 |
245 |
0.012346 |
19845 |
10 |
5.6 |
205 |
0.01 |
20500 |
20 |
14.3 |
87 |
0.0025 |
34800 |
30 |
34.9 |
47 |
0.001111 |
42300 |
40 |
40.5 |
21 |
0.000625 |
33600 |
50 |
35.3 |
10 |
0.0004 |
25000 |
60 |
53.1 |
7 |
0.000278 |
25200 |
70 |
62 |
6 |
0.000204 |
29400 |
80 |
69.6 |
8 |
0.000156 |
51200 |
90 |
29.2 |
7 |
0.000123 |
56700 |
100 |
90.6 |
7 |
0.0001 |
70000 |
110 |
50.2 |
7 |
8.26E-05 |
84700 |
120 |
89.1 |
3 |
6.94E-05 |
43200 |
130 |
53.1 |
3 |
5.92E-05 |
50700 |
140 |
91.8 |
3 |
5.1E-05 |
58800 |
可以非常明確的觀察到不同峯值數量與1/n^2有非常明顯的對應關係。
由此可以假設一個關係式
num是不同峯值數量
C03是mnist的0和3之間的特徵差異總量
假設C03是一個定值,而將一次收斂理解成是一次躍遷,有n*n種可能的躍遷路徑也就是能級,如n=4則共有4*4個能級,這個假設可以解釋特徵峯數量隨着n的增加而減小的現象。