原创 presto計算日期間隔天數或者小時間隔——date_diff函數使用

“Presto是Facebook最新研發的數據查詢引擎,可對250PB以上的數據進行快速地交互式分析。據稱該引擎的性能是 Hive 的 10 倍以上。”,親身用過之後,覺得比hive快了10倍不止。 hive中查詢日期間隔的函數是date

原创 Python機器學習及實踐——進階篇6(超參數搜索)

前面所提到的模型配置,我們一般統稱爲模型的超參數,如K近鄰算法中的K值 支持向量機中不同的和函數等。多數情況下,超參數的選擇是無限的。因此在有限的時間內,除了可以驗證人工預設幾種超參數組合以外,也可以通過啓發式的搜索方法對超參數組合進行調

原创 Python機器學習及實踐——進階篇5(模型檢驗)

前面時不時提到模型檢驗或者交叉驗證等詞彙,特別是在對不同模型的配置,不同的特徵組合,在相同的數據和任務下進行評價的時候。究其原因是因爲僅僅使用默認配置的模型與不經處理的數據特徵,在大多數任務下是無法得到最佳性能表現的。因此在最終交由測試集

原创 Google OR-Tools簡介

組合優化可以用來從很多可能解中尋找到問題的最佳解。 比如下面這些例子: 一、車輛路線:爲在給定限制條件下提取和交付包裹的車隊找到最佳路線(例如,“此卡車不能承載超過20000磅”或“所有交付必須在兩小時內完成”)。 二、調度:爲一組複雜的

原创 Python機器學習及實踐——進階篇4(模型正則化之L1正則&L2正則)

正則化的目的在於提高模型在未知測試數據上的泛化力,避免參數過擬合。由上一篇的例子可以看出,2次多項式迴歸是相對較好的模型假設。之所以出現如4次多項式那樣的過擬合情景,是由於4次方項對於的係數過大,或者不爲0導致。 因此正則化的常見方法都是

原创 Python機器學習及實踐——進階篇3(模型正則化之欠擬合與過擬合)

一個需要記住的重要事項:任何機器學習模型在訓練集上的性能表現,都不能作爲其對未知測試數據預測能力的評估。 這裏講詳細及時什麼是模型的泛化力以及如何保證模型的泛化力,一次會闡述模型複雜度與泛化力的關係以及使用L1範數正則化與L2範數正則化加

原创 Python機器學習及實踐——進階篇2(特徵提升之特徵篩選)

總體來說,良好的數據特徵組合不需太多,便可以使得模型的性能表現突出。比如我們在“良/惡性乳腺癌腫瘤預測“問題中,僅僅使用兩個描述腫瘤形態的特徵便取得較高的識別率。冗餘的特徵雖然不會影響模型性能,但會浪費cpu的計算。主成分分析主要用於去除