學習PHP中統計擴展函數的使用

做統計相關係統的朋友一定都會學習過什麼正態分佈、方差、標準差之類的概念,在 PHP 中,也有相應的擴展函數是專門爲這些統計相關的功能所開發的。我們今天要學習的 stats 擴展函數庫就是這類操作函數。當然,本身我並沒有做過什麼類似的系統,對這些概念也是一知半解,所以今天學習的內容也只是基於個人的理解以及原來稍微接觸過的一些內容。不過據說 Python 在這方面就相對來說會更加強大一些,畢竟是萬能膠水語言,而且也是在統計領域獲得成功之後才慢慢被大衆接受的一門語言,有興趣的同學可以自己研究一下。

stats 擴展的安裝也非常地簡單,直接使用正常的擴展安裝方式就可以了。而且它不需要額外的其他系統中組件的支持,非常方便。

0-1之間的隨機數

首先我們來看一個和統計關係不大的函數。

var_dump(stats_rand_ranf()); // float(0.32371053099632)

普通的 rand() 和 mt_rand() 函數都是返回從 0 到 getrandmax() 之間的整數。而這個 stats_rand_ranf() 返回的則是 0 到 1 之間的小數。除了這個函數之外,還有 stats_rand_ 開頭的其它一些函數,是用於返回正態分佈之類的隨機值的,大家有對統計學瞭解的可以自行查閱文檔。

方差、標準差

方差和標準差這兩個概念應該相對來說更簡單和普遍一些。像我真正的專業是心理學,在心理統計中,就有方差的和標準差的計算,而且也是考試的必考內容。不過這塊的內容也非常簡單,我們在使用函數後也會使用自己計算的代碼來展示方差和標準差的計算公式。

// 1,3,9,12
// 平均數:(1+3+9+12)/4 = 6.25

// 方差
var_dump(stats_variance([1,3,9,12])); // float(19.6875)
// 方差公式:(1-6.25)^2+(3-6.25)^2+(9-6.25)^2+(12-6.25)^2)/4
var_dump((pow(1-6.25, 2)+pow(3-6.25, 2)+pow(9-6.25,2)+pow(12-6.25,2))/4); // float(19.6875)

平均數對於很多統計計算都很有用,是很多算法的基本數據之一。所以我們先準備好一個平均數,主要是爲了我們後面的手動計算使用。其實,方差和標準差也是很多其它計算的基礎數據。

stats_variance() 函數就是用於計算一組數據的方差。它接收的是一個數組參數,計算的內容也就是數據裏面數據的值。關於方差的公式其實就是每一個數據減去平均數以後平方,然後全部加起來之後再除以數據的數量。

可以看到計算的結果和我們直接調用 stats_variance() 函數的結果是一樣的。

// 標準差
var_dump(stats_standard_deviation([1,3,9,12])); // float(4.4370598373247)
var_dump(stats_standard_deviation([1,3,9,12], true)); // float(5.1234753829798)
// 標準差:開方((1-6.25)^2+(3-6.25)^2+(9-6.25)^2+(12-6.25)^2)/4)
// 樣本標準差:開方((1-6.25)^2+(3-6.25)^2+(9-6.25)^2+(12-6.25)^2)/(4-1))

var_dump(sqrt((pow(1-6.25, 2)+pow(3-6.25, 2)+pow(9-6.25,2)+pow(12-6.25,2))/4)); // float(4.4370598373247)
var_dump(sqrt((pow(1-6.25, 2)+pow(3-6.25, 2)+pow(9-6.25,2)+pow(12-6.25,2))/3)); // float(5.1234753829798)

標準差的計算其實就是對於方差結果開方後再除以數據的數量。它有兩種形式,一種是直接除以數量,一種是除以數量減一,分別就叫做 標準差 和 樣本標準差 。可以看到直接使用 stats_standard_deviation() ,並且指定它的第二個參數就可以方便地切換這兩種標準差的計算結果。並且比自己手寫的計算也方便很多。

平均偏差、調和平均數、階乘

平均偏差一般指的是數列中各項數值與其算術平均數的離差絕對值的算術平均數。我的天啊,這概念都讀得好繞口,學統計的小夥伴們你們過得還好嗎?當然,在 stats 擴展中一個函數就搞定了。

// 平均偏差
var_dump(stats_absolute_deviation([1,3, 9, 12])); // 4.25

// ((6.25-1)+(6.25-3)+(9-6.25)+(12-6.25))/4
//(5.25+3.25+2.75+5.75)/4 = 4.25

stats_absolute_deviation() 函數用於計算平均偏差,其實上面的概念就是我在註釋中寫的公式。每個數據減平均數之後的絕對值再除以數據數量就可以了,直接看公式是不是比上面的概念要清晰很多。同樣,我們再看下調和平均數。

// 調和平均數
var_dump(stats_harmonic_mean([1, 3, 9, 12])); // float(2.6181818181818)
// 4/(1/1+1/3+1/9+1/12) = 2.6181818181818

stats_harmonic_mean() 用於計算一組數據的調和平均數。從下面註釋的計算公式中可以看出來嗎?調和平均數就是每個數據倒數相加之後再使用數據數量除以倒數和得到的結果。

最後就來個輕鬆一點的,一個可以直接計算階乘結果的函數。

var_dump(stats_stat_factorial(6)); // float(720)
// 1*2*3*4*5*6 = 720

這個函數相信不用多解釋了吧。

峯度、偏度、累積正態分佈函數、概率密度

這些概念其實我也沒有接觸過了。不過就是測試了一下函數代碼可以使用而已。相關的函數還有很多,比如我們這裏只是與正態分佈相關的一些函數,還有 F分佈 、t分佈 、柯西分佈、卡方分佈 等等相關的計算函數。我承認我只聽說過一兩個的名字,還有很多甚至連名字都沒聽說過。

// 峯度
var_dump(stats_kurtosis([1, 3, 9, 12])); // float(-1.6960846560847)

// 偏度
var_dump(stats_skew([1, 3, 9, 12])); // float(0.091222998923078)


// 返回正態分佈的累積分佈函數、其逆函數或其參數之一
var_dump(stats_cdf_normal(14,5,10, 1));
// 返回第一個參數的概率密度
var_dump(stats_dens_normal(14, 5, 10));

其它的各種分佈相關計算的函數大家有需要的可以查閱相關的文檔,這裏我就不強行上車了,上車了估計也得開溝裏去。

總結

在沒有刷官方文檔前確實不知道我們 PHP 中都已經有這樣的擴展存在了,還在想如果真的要做類似的統計系統使用 PHP 一定很會麻煩,所以大家纔會去選擇其它語言。其實這些擴展早就存在了。好不好用不說,但使用 PHP 來做這類統計系統的例子確實並不是太多,有需要的東西還是要自己多研究研究。而且這類計算其實都是各種公式的混合,相信在 Composer 中也有不少好用的框架可以供我們使用而不需要再到系統中單獨安裝擴展。

測試代碼:

https://github.com/zhangyue0503/dev-blog/blob/master/php/202012/source/10.學習PHP中統計擴展函數的使用.php

參考文檔:

https://www.php.net/manual/zh/book.stats.php

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章