探索數據的分佈規律,非常有用,有時可以直接發現數據的規律。
可以做直方圖,做頻數的分佈情況
先求極差:
極差:最大值-最小值
再求組距:
組距:極差/組數
數據集成的概述
數據集成一般是把不同來源的數據放在一起。但是來自多個地方的數據一定要做好實體識別與冗餘屬性識別,避免數據整合錯誤寄數據重複
數據集成技巧
一般來說,數據集成的過程如下:
1、觀察數據源,發現其中關係,詳細查看是否有同名不同意,同意不同名的情況
2、進行數據讀取與整合,(numpy.concatenate((a,b)))
3、去除重複數據