Python數據分析——數據分佈探索與數據集成

探索數據的分佈規律,非常有用,有時可以直接發現數據的規律。

可以做直方圖,做頻數的分佈情況

先求極差:

極差:最大值-最小值

再求組距:

組距:極差/組數

數據集成的概述

數據集成一般是把不同來源的數據放在一起。但是來自多個地方的數據一定要做好實體識別與冗餘屬性識別,避免數據整合錯誤寄數據重複

數據集成技巧

一般來說,數據集成的過程如下:

1、觀察數據源,發現其中關係,詳細查看是否有同名不同意,同意不同名的情況

2、進行數據讀取與整合,(numpy.concatenate((a,b)))

3、去除重複數據

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章