原创 通俗理解信息熵

1  信息熵的公式 先拋出信息熵公式如下: 其中P(xi)代表隨機事件X爲xi的概率,下面來逐步介紹信息熵的公式來源! 2  信息量 信息量是對信息的度量,就跟時間的度量是秒一樣,當我們考慮一個離散的隨機變量x的

原创 通俗理解條件熵

1  信息熵以及引出條件熵 我們首先知道信息熵是考慮該隨機變量的所有可能取值,即所有可能發生事件所帶來的信息量的期望。公式如下: 我們的條件熵的定義是:定義爲X給定條件下,Y的條件概率分佈的熵對X的數學期望 這個還是比較

原创 神經網絡中w,b參數的作用(爲何需要偏置b的解釋)

可視圖講解神經元w,b參數的作用 在我們接觸神經網絡過程中,很容易看到就是這樣一個式子,g(wx+b),其中w,x均爲向量.比如下圖所示: 加入激活函數爲g(x),我們就可以用公式g(w1x1+w2x2+b)(注:1,

原创 根據多個索引高效刪除python list中對應位置的元素

注:元素個數過多時效率較高 List a=[0,1,2,3,4,5,6,7,8,9,10] ; List b = [2,3,4] 目標:刪除a中索引位置爲b的元素 根據: set([1,2,6,8]) - set([2,3,5,8])

原创 推薦系統技術

推薦系統技術 整體流程 推薦系統整個過程分爲幾個階段,在這裏把他分爲四個階段:用戶畫像、match(召回)、rank(實時打分)、adapter(後處理)。其中match和rank是兩個關鍵任務,也是推薦方面優化的主要方向。 【用戶畫像】

原创 FM與FFM的區別

FM與FFMFM:旨在解決稀疏數據下的特徵組合問題,具有線性的計算複雜度;(矩陣分解方式處理參數,不僅能減少參數數量,還能處理由於稀疏性帶來的參數不好訓練的問題)一般的線性模型壓根沒有考慮特徵間的關聯(組合)。爲了表述特徵間的相關性,我們

原创 HMM+CRF筆記

HMM+CRF筆記 CRF就像一個反向的隱馬爾可夫模型(HMM),兩者都是用了馬爾科夫鏈作爲隱含變量的概率轉移模型,只不過HMM使用隱含變量生成可觀測狀態,其生成概率有標註集統計得到,是一個生成模型;而CRF反過來通過可觀測狀態判別隱含變

原创 sql正則化過濾非中文字符

過濾不含中文的字符: where name REGEXP '[\\x{4e00}-\\x{9fa5}]' 提取只含有中文的字符: where name REGEXP '^[\\x{4e00}-\\x{9fa5}]' and name no

原创 處理部分python2的中文編碼問題

1.爲在編輯器中輸入中文,在第一行加上: #coding=utf-8 或 # _*_ coding:UTF-8 _*_ 2.改變編輯器的默認編碼方式,加上下面三條 import sys reload(sys) sys.setdefaul

原创 機器學習試題

1.什麼是監督學習和非監督學習,請說明它們的區別,並各舉一個例子。說明分類和迴歸問題的區別,並各舉一個例子。 答:(1)有監督學習:對具有標記的訓練樣本進行學習來建立從樣本特徵到標記的映射。例如:支持向量機  無監督學習:對沒有標記的訓

原创 機器學習中幾個常見模型的優缺點

樸素貝葉斯:優點:對小規模的數據表現很好,適合多分類任務,適合增量式訓練。 缺點:對輸入數據的表達形式很敏感(連續數據的處理方式)。 決策樹:優點:計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關的特徵。缺點:容易

原创 遠程訪問Tensorboard

訓練完模型後使用如下命令進行端口號映射: tensorboard --port 10004 --logdir='/path/to/log-directory' (/path/to/log-directory爲自己設定的日誌存放路徑,100

原创 Keras實現CNN、RNN(基於attention 的雙向RNN)及兩者的融合

本文主要採用CNN,RNN對時序數據進行二分類CNN處理時序數據的二分類model = Sequential() model.add(Conv1D(128, 3, padding='same', input_shape=(max_lent

原创 生成模型與判別模型的異同

生成方法的特點: 生成方法學習聯合概率密度分佈P(X,Y),所以就可以從統計的角度表示數據的分佈情況,能夠反映同類數據本身的相似度。但它不關心到底劃分各類的那個分類邊界在哪。生成方法可以還原出聯合概率分佈P(Y|X),而判別方法不能。生成

原创 面試常問的深度學習(DNN、CNN、RNN)的相關問題

神經網絡 的學習就是學習如何利用矩陣的線性變換加激活函數的非線性變換,將原始輸入空間投向線性可分/稀疏的空間去分類/迴歸。增加節點數:增加維度,即增加線性轉換能力。增加層數:增加激活函數的次數,即增加非線性轉換次數。 對卡在局部極小值的