台部落Lenskit

“Presto是Facebook最新研發的數據查詢引擎，可對250PB以上的數據進行快速地交互式分析。據稱該引擎的性能是 Hive 的 10 倍以上。”，親身用過之後，覺得比hive快了10倍不止。 hive中查詢日期間隔的函數是date

2020-06-27 12:28:07

前面所提到的模型配置，我們一般統稱爲模型的超參數，如K近鄰算法中的K值支持向量機中不同的和函數等。多數情況下，超參數的選擇是無限的。因此在有限的時間內，除了可以驗證人工預設幾種超參數組合以外，也可以通過啓發式的搜索方法對超參數組合進行調

2019-08-28 15:28:27

前面時不時提到模型檢驗或者交叉驗證等詞彙，特別是在對不同模型的配置，不同的特徵組合，在相同的數據和任務下進行評價的時候。究其原因是因爲僅僅使用默認配置的模型與不經處理的數據特徵，在大多數任務下是無法得到最佳性能表現的。因此在最終交由測試集

2019-08-28 15:28:27

組合優化可以用來從很多可能解中尋找到問題的最佳解。比如下面這些例子：一、車輛路線：爲在給定限制條件下提取和交付包裹的車隊找到最佳路線（例如，“此卡車不能承載超過20000磅”或“所有交付必須在兩小時內完成”）。二、調度：爲一組複雜的

2019-07-06 15:18:19

正則化的目的在於提高模型在未知測試數據上的泛化力，避免參數過擬合。由上一篇的例子可以看出，2次多項式迴歸是相對較好的模型假設。之所以出現如4次多項式那樣的過擬合情景，是由於4次方項對於的係數過大，或者不爲0導致。因此正則化的常見方法都是

2019-06-10 16:17:00

一個需要記住的重要事項：任何機器學習模型在訓練集上的性能表現，都不能作爲其對未知測試數據預測能力的評估。這裏講詳細及時什麼是模型的泛化力以及如何保證模型的泛化力，一次會闡述模型複雜度與泛化力的關係以及使用L1範數正則化與L2範數正則化加

2019-06-10 16:17:00

總體來說，良好的數據特徵組合不需太多，便可以使得模型的性能表現突出。比如我們在“良/惡性乳腺癌腫瘤預測“問題中，僅僅使用兩個描述腫瘤形態的特徵便取得較高的識別率。冗餘的特徵雖然不會影響模型性能，但會浪費cpu的計算。主成分分析主要用於去除

2019-06-10 16:17:00