統計學小抄:常用術語和基本概念小結

統計學是涉及數據的收集,組織,分析,解釋和呈現的學科。

統計的類型

  1. 描述性統計

描述性統計是以數字和圖表的形式來理解、分析和總結數據。對不同類型的數據(數值的和分類的)使用不同的圖形和圖表來分析數據,如條形圖、餅圖、散點圖、直方圖等。所有的解釋和可視化都是描述性統計的一部分。重要的是要記住,描述性統計可以在樣本和總體數據上執行,但並不會使用總體數據。

  1. 推論統計

從總體數據中提取一些數據樣本,然後從這些數據樣本中,推斷一些東西(結論)。數據樣本被用作對該總圖作出結論的基礎。這可以通過各種技術來實現,比如數據可視化和操作。

數據的類型

1、數字數字

數字數據就是指數字或數值型的數據。數值數據又分爲離散和連續兩類數值變量。

I) 離散數值變量——離散變量的概念是指具有有限取值範圍的變量,例如教室中的排名、系中教授的數量等。

II) 連續數值變量——連續變量的值可以是無限的,可能是範圍內的任意數值,例如員工的工資。

2、分類數據-

分類數據類型是數據的字符類型表示,例如名稱和顏色。一般來說,這些也有兩種類型。

I) 序數變量—序數分類變量,其值可以在一系列值中排序,例如學生的年級(a、B、C),或高、中、低。

II) 名義變量——這些變量沒有排名,只是包含名稱或一些類別,如顏色名稱、主題等。

集中趨勢量數的度量

集中趨勢的度量給出了數據中心的概念,即數據的中心是什麼。其中有幾個術語,如平均值、中位數和衆數。

一個特定數值變量的平均值是其中所有數值的平均值。當數據包含異常值時,不建議找出平均值並將其用於任何類型的操作,因爲單個異常值會嚴重影響平均值。

中值是對所有數字排序後的中心值。如果總數是偶數,那麼它就是中心2值的平均值。它不依賴或影響異常值,除非一半的數據是異常值(這樣的話就不是異常值了)。

衆數是觀察結果中出現最多的數值。Numpy沒有提供查找衆數的函數,但是Scipy有。

在使用的時候,不要只使用他們三個的一個,可以試着全部使用這三種方法,這樣就可以理解數據的本質。

數據分佈度的度量

分佈度度量描述了特定變量(數據項)的觀察值集的相似性或變化程度。分佈度的度量包括範圍,四分位數和四分位數範圍,方差和標準差。

1、範圍

通過比較數據的最大和最小值(最大值)來定義範圍。

完整文章:

https://avoid.overfit.cn/post/77b3cb6cf95c4e46b3342f7af40b6451

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章