統計學是涉及數據的收集,組織,分析,解釋和呈現的學科。
統計的類型
- 描述性統計
描述性統計是以數字和圖表的形式來理解、分析和總結數據。對不同類型的數據(數值的和分類的)使用不同的圖形和圖表來分析數據,如條形圖、餅圖、散點圖、直方圖等。所有的解釋和可視化都是描述性統計的一部分。重要的是要記住,描述性統計可以在樣本和總體數據上執行,但並不會使用總體數據。
- 推論統計
從總體數據中提取一些數據樣本,然後從這些數據樣本中,推斷一些東西(結論)。數據樣本被用作對該總圖作出結論的基礎。這可以通過各種技術來實現,比如數據可視化和操作。
數據的類型
1、數字數字
數字數據就是指數字或數值型的數據。數值數據又分爲離散和連續兩類數值變量。
I) 離散數值變量——離散變量的概念是指具有有限取值範圍的變量,例如教室中的排名、系中教授的數量等。
II) 連續數值變量——連續變量的值可以是無限的,可能是範圍內的任意數值,例如員工的工資。
2、分類數據-
分類數據類型是數據的字符類型表示,例如名稱和顏色。一般來說,這些也有兩種類型。
I) 序數變量—序數分類變量,其值可以在一系列值中排序,例如學生的年級(a、B、C),或高、中、低。
II) 名義變量——這些變量沒有排名,只是包含名稱或一些類別,如顏色名稱、主題等。
集中趨勢量數的度量
集中趨勢的度量給出了數據中心的概念,即數據的中心是什麼。其中有幾個術語,如平均值、中位數和衆數。
一個特定數值變量的平均值是其中所有數值的平均值。當數據包含異常值時,不建議找出平均值並將其用於任何類型的操作,因爲單個異常值會嚴重影響平均值。
中值是對所有數字排序後的中心值。如果總數是偶數,那麼它就是中心2值的平均值。它不依賴或影響異常值,除非一半的數據是異常值(這樣的話就不是異常值了)。
衆數是觀察結果中出現最多的數值。Numpy沒有提供查找衆數的函數,但是Scipy有。
在使用的時候,不要只使用他們三個的一個,可以試着全部使用這三種方法,這樣就可以理解數據的本質。
數據分佈度的度量
分佈度度量描述了特定變量(數據項)的觀察值集的相似性或變化程度。分佈度的度量包括範圍,四分位數和四分位數範圍,方差和標準差。
1、範圍
通過比較數據的最大和最小值(最大值)來定義範圍。
完整文章:
https://avoid.overfit.cn/post/77b3cb6cf95c4e46b3342f7af40b6451