天下大勢,分久必合,合久必分。數據分析的本質便是一個分解、整合的過程。
下面以身份證號爲例說明數據分析。
第一步:分解
1)前1、2位數字表示:所在省份的代碼;
2)第3、4位數字表示:所在城市的代碼;
3)第5、6位數字表示:所在區縣的代碼;
4)第7-14位數字表示:出生年、月、日;
5)第15、16位數字表示:所在地的派出所的代碼;
6)第17位數字表示性別:奇數表示男性,偶數表示女性;
7)第18位數字是校檢碼:也有的說是個人信息碼,一般是隨計算機的隨機產生,用來檢驗身份證的正確性。校檢碼可以是0-9的數字,有時也用X表示。
第二步:整合
1)前4位數字,可以判斷是否省會城市;
2)根據月份日期,判斷星座;
3)根據年份,判斷生肖;
...
第三步:拓展
1)將省市與國家行政大區結合,可判斷其所屬大區;
2)將省市與國家城市等級劃分結合,可判斷其城市所屬等級;
3)將出生年代與國家時代劃分結合,可判斷其所屬時代;
...
簡而言之,則是“一分二合三拓展”。