原创 爲什麼L1比L2更容易得到稀疏解

這個問題被面試官問到的概率極其高。網上給多解釋都是幾何理解。個人感覺有些牽強(或者是作者沒get到點)。總之,爲了避免再次被問到卡殼。搜了很多解釋。終於,找到了一個最好理解的答案。從數學角度去理解。 原始的損失函數:Loss(w)。設其在

原创 優化算子adam——爲什麼說adam融合了momentum和RMSprop(均方根傳播)的優點

準備知識(可選擇跳過) momentum 參數初始化:m:momentum 係數;lr:learning rate 學習率;權重w  計算梯度和更新數度:g(t);v(t) = m*v(t-1)+lr*g(t) 更新參數:w(t) = w

原创 2019-12-16

爲什麼sgd不能在線預估學習 sgd是用一小批樣本計算梯度,在線小批樣本的梯度很容易導致模型學偏。 而ftrl用了累計的梯度,在線學習不會導致模型學偏 點贊 收藏 分享 文章舉報

原创 SemanticException The abstract syntax tree is null

hive 中的union all 必須保證兩張表的字段名需一致!否則就會報語法錯誤。

原创 邏輯迴歸(logistics regression)和支持向量機(support vector machine)的區別

這個問題算是很多公司面試初級算法工程師時經常提的問題,可以輕鬆的檢測面試的的算法基礎能力。根據這兩種算法理論以及應用場景總結有主要有以下幾種區別:1.損失函數不同LR:log lossSVM:hinge loss(常用來求解間距最大化問題

原创 分類和聚類的區別

要知道分類和聚類的區別,瞭解一下有監督學習和無監督學習。這兩個概念算是算法基礎,同時也是面試官經常會問到的(小姐姐我就被問到了,當然我回答上來了--)有監督學習訓練數據包括輸入(features)和輸出(lable)。常見的如:邏輯迴歸,

原创 判別模型和生成模型

這是算法的兩個基本概念。其實很簡單。判別模型是直接學習P(y|x);而生成模型是學習P(y|x)和P(y);p(y|x判別模型是直接學習p(y|x)p(y|x)判別模型是直接學習p(y|x)p(y|x)

原创 手推Adaboost

原创 信息熵

信息熵是描述信息的混亂程度,也叫不確定程度。計算公式如下:根據公式可以得出以下2個重要的結論(理解這兩個結論,爲後續理解決策樹很有幫助哦):1.信息熵事件可能出現的結果數量有關,在概率均等的情況下,存在的可能越多,信息熵越大,即事件的不確