原创 最鄰近搜索之KD-Tree 與 LSH
最鄰近搜索之KD-Tree 與 LSH什麼是最鄰近搜索問題? 在內容搜索、推薦系統和一些機器學習算法常常遇到最鄰近搜索問題,在大數據場景下,O(n)的時間複雜度往往是不能被接受的,所以需要一些方法來返回近似的解或用空間複雜度以換取
原创 強化學習之DDPG
1.爲什麼需要DDPG? 強化學習的概念在這不再贅述,是一個agent在與環境不斷交互,採用action得到reward,爲了達到最大的累計獎勵值的過程。所以強化學習的核心在於學習根據當前agent的state採用action的策略。
原创 特徵組合之DeepFM
特徵組合之DeepFM 1. 爲什麼需要DeepFM? 我們在之前的文章中提到FM, FMM,理論上,FM可以處理高階的特徵組合,但由於計算複雜度的原因,一般只處理二階的特徵組合(即在FM章節提到的度爲2的FM)。所以我們很一般地想到
原创 特徵組合之FFM
FFM(Field-aware Factorization Machine) 1. 爲什麼需要FMM? Field-aware即通過引入field的概念,FFM把相同性質的特徵歸於同一個field。 基於FM,提高FM模型的表達能力和
原创 特徵組合之因子分解機(FM)
特徵組合之因子分解機(FM) 1. 爲什麼需要因子分解機? 在上一篇博客特徵組合中提到,暴力交叉會導致特徵組合的特徵稀疏的問題,所以FM(Factorization Machine)主要目標是:解決數據稀疏的情況下,特徵怎樣組合的問題
原创 算法設計之概率算法
算法設計之概率算法 1.爲什麼需要概率算法? 與確定性算法相比,若冒險,可能做得更好! 概率算法的分類? 數字算法。 求數字問題的近似解求數字問題的近似解 Monte Carlo算法 (MC算法) 這裏我們指的MC算法是:
原创 機器學習之特徵組合、特徵交叉
機器學習之特徵組合、特徵交叉 1.爲什麼需要特徵組合、特徵交叉? 特徵交叉是數據特徵的一種處理方式,通過特徵組合的方式增加特徵的維度,以求得更好的訓練效果。 在實際場景中,我們常常遇到這要的情況,線性分類起無法在如下樣本中(無法畫
原创 機器學習之數據預處理
機器學習之數據預處理 1. 爲什麼需要數據預處理? 原始數據來自於現實場景,常常有以下幾個特徵:髒、亂、差、缺。髒體現在原始數據裏混雜許多噪聲數據,亂體現在原始數據各維度量綱不同一。差體現在數據錯誤、出現不尋常不一致,這和髒相似。缺體
原创 優化問題之子模問題
優化問題之子模問題 什麼是子模函數? 維基百科 核心:這涉及到一個邊際效應遞減,邊際效應遞減指的是當集合中元素較少或沒有時加入一個元素會帶來巨大的效益,當集合中已經有許多元素時,加入一個新的元素會帶來的收益較微小。 注: 一個非負
原创 機器學習之特徵提取
機器學習之特徵提取 1.爲什麼要特徵提取 原始數據常常是高維的,其中包含了許多冗餘信息或者十分稀疏或者計算量大,拿原始數據來訓練可行,但是往往直接訓練是低效的。所以特徵提取往往是必要的。 注:特徵提取主要是爲了解決下面三個問題,(1)
原创 半監督學習算法——標籤傳播算法(LPA)與其擴展
標籤傳播算法LPA與其擴展 1. 什麼是標籤傳播算法? 標籤傳播算法(Label Propagation Algorithm,LPA,2007)是基於圖的一種標籤算法,也是社區發現(Community Detection)領域的一種經
原创 機器學習之樣本不平衡
機器學習之樣本不平衡 1.樣本不平衡導致什麼問題? 在機器學習的分類問題中,以二分類爲例,如果訓練集合的正例和負例的樣本不平衡,相差懸殊很大。比如針對這個不平衡的訓練結合運用邏輯迴歸的時候,一般來說,邏輯迴歸的閾值0~1,常取0.5,
原创 半監督學習算法——ATDA(Asymmetric Tri-training for Unsupervised Domain Adaptation)
Asymmetric Tri-training for Unsupervised Domain Adaptation (2017 ICML)論文筆記 Abstract Tri-training(周志華,2005, 無監督學習領域最
原创 半監督學習
半監督學習 什麼是半監督學習? 機器學習三大類別監督學習、無監督學習和強化學習,半監督學習是監督學習和無監督學習的特例。所謂監督學習,指的是給定完整標籤,讓模型從數據和標籤中學習關係;而所謂無監督學習則是不給標籤,讓模型從數據中學習它
原创 由最簡單的線性迴歸出發
由最簡單的線性迴歸出發 一、什麼是線性迴歸? 線性迴歸是用線性累加的函數h(x),其中函數包含m+1個w(w從0~m)參數,函數爲了擬合樣本(X,Y)中X->Y的轉換關係,其中X爲m維,Y爲1維線性迴歸詳解 二、線性迴歸的目標。 Lo