原创 聚類與分類的定義

1.聚類的概念: 有一堆數據,講這堆數據分成幾類稱爲聚類。 舉個例子, 比如有一堆水果,我們按着不同的特徵分爲:蘋果,橘子,香蕉三類叫做分類。 2.分類的概念: 在聚類的前提下,拿來一個新水果,我們按着他的特徵,把他分到橘子或者香蕉那類

原创 P,NP,NP-C,NP-hard問題

P問題:在確定的機器上,在多項式時間內能夠解決的問題 NP問題:在多項式時間內可以驗證的判定問題。 NP-Hard問題:問題A稱爲NP-Hard問題,如果對於任意一個NP問題,都可以在多項式時間內規約爲A。 NP-C:既是NP問題,又是N

原创 互聯網產品“冷啓動”問題淺析

“冷啓動”cold boot 是數據挖掘領域的一個專業術語,是指數據挖掘需要數據的積累,而產品初期數據爲空或者數據量太少導致所需的數據量達不到要求。  數據挖掘領域的冷啓動是個專業問題,我們不做分析,這裏要講的是互聯網產品的“冷啓動

原创 矩陣分解在推薦系統中的應用

矩陣分解是最近幾年比較火的算法,經過kddcup和netflix比賽的多人多次檢驗,矩陣分解可以帶來更好的結果,而且可以充分地考慮各種因素的影響,有非常好的擴展性,因爲要考慮多種因素的綜合作用,往往需要構造cost function來將

原创 圖論中直徑和半徑

定義如下: 在圖G中d(u,v),定義爲圖中頂點u到頂點v的一條最短路徑。 如果沒有路徑d(u,v)定義爲無窮大。 直徑: 定義爲max d(u,v),其中u,v是兩個頂點。也就是圖中距離最遠的兩個點。 半徑: 1>離心率: 對於任意

原创 梯度下降算法

迴歸與梯度下降:    迴歸在數學上來說是給定一個點集,能夠用一條曲線去擬合之,如果這個曲線是一條直線,那就被稱爲線性迴歸,如果曲線是一條二次曲線,就被稱爲二次迴歸,迴歸還有很多的變種,如locally weighted迴歸,logi

原创 EM算法The EM Algorithm

 EM是我一直想深入學習的算法之一,第一次聽說是在NLP課中的HMM那一節,爲了解決HMM的參數估計問題,使用了EM算法。在之後的MT中的詞對齊中也用到了。在Mitchell的書中也提到EM可以用於貝葉斯網絡中。 下面主要介紹EM的整

原创 推薦系統相關算法(1):SVD

1. SVD簡介       假如要預測Zero君對一部電影M的評分,而手上只有Zero君對若干部電影的評分和風炎君對若干部電影的評分(包含M的評分)。那麼能預測出Zero君對M的評分嗎?答案顯然是能。最簡單的方法就是直接將預測分定爲平

原创 隨機梯度下降法2

一、從Multinomial Logistic模型說起 1、Multinomial Logistic               令爲維輸入向量;             爲輸出label;(一共k類);            

原创 混合高斯模型(Mixtures of Gaussians)和EM算法

這篇討論使用期望最大化算法(Expectation-Maximization)來進行密度估計(density estimation)。       與k-means一樣,給定的訓練樣本是,我們將隱含類別標籤用表示。與k-means的硬

原创 CELF優化的貪心算法

用一個例子說明如下: 問題描述如下:從一組節點中,取出一組k個種子節點S,使得產生的增益最大。 對任意的a屬於A,f(a):a加入之後的增益。 有如下一個表: 初始掃描情況,第0輪,各個節點產生的增益情況。(用優先隊列存儲) 1>.,取

原创 python學習1

1.開頭加上# coding=gb2312,就可以使用中文了 2.range(1,5)是大於等於1,小於5 3.python多行註釋用三個''' ''' adfadf adsfadf adsfadsf ''' 4.單行註釋用#

原创 go語言函數

這裏要說一下是Go函數和一些其他語言不一樣的地方 1 函數格式不同 ? 1 2 3 4 5 6 func GetMsg(i int) (r string) {     f

原创 梯度下降3

批量梯度下降是一種對參數的update進行累積,然後批量更新的一種方式。用於在已知整個訓練集時的一種訓練方式,但對於大規模數據並不合適。 隨機梯度下降是一種對參數隨着樣本訓練,一個一個的及時update的方式。常用於大規模訓練集,當往往容

原创 探索推薦引擎內部的祕密,第 1 部分: 推薦引擎初探

簡介: 隨着 Web 技術的發展,使得內容的創建和分享變得越來越容易。每天都有大量的圖片、博客、視頻發佈到網上。信息的極度爆炸使得人們找到他們需要的信息將變得越來越難。傳統的搜索技術是一個相對簡單的幫助人們找到信息的工具,也廣泛的被人們所