原创 模糊k-means聚類

接上一篇博文:聚類算法概述 模糊kmeans算法是kmeans聚類模糊形式。與kmeans算法排他性聚類不同,模糊kmeans嘗試從數據集中生成有重疊的簇。在研究領域,這也叫做模糊c-means算法,可以把模糊kmeans看作kmeans

原创 錢幣兌換問題

Problem Description 在一個國家僅有1分,2分,3分硬幣,將錢N兌換成硬幣有很多種兌法。請你編程序計算出共有多少種兌法。 Input 每行只有一個正整數N,N小於32768。 Output 對應

原创 協同過濾算法-slope one

Slope One 算法試圖同時滿足這樣的的 5 個目標:  1. 易於實現和維護:普通工程師可以輕鬆解釋所有的聚合數據,並且算法易於實現和測試。 2. 運行時可更新的:新增一個評分項,應該對預測結果即時產生影響。 3. 高效率的查詢響應

原创 超越kmeans:聚類算法概述

kmeans屬於聚類算法當中最早也是最經典一個算法,但是我們可以發現kmeans算法屬於剛性聚類,例如,一則談論政治對生物信息技術影響的新聞報道,既可以歸類於政治類別,也可以歸類於生物技術類別,但不能同時歸於這兩個類別。既然我們需要優化相

原创 LDA主題模型

標題 ##LDA算法忽略複雜數學推導的描述 先看一個博主關於LDA形象化的描述: http://blog.csdn.net/huagong_adu/article/details/7937616 (一)LDA作用 傳

原创 Mahout 對推薦數據的抽象表示(下部分)

這篇博客是延續上部分的補充:Mahout 對推薦數據的抽象表示(上部分) 處理無Preference values 數據 下面都是圍繞Mahout對沒有Preference values的數據的推薦。 有時進入推薦引擎的數據沒有Prefe

原创 python 語言常見用法積累

python查看API指令 dir(module) help(module.function) 方便快速查看模塊有哪些函數並且這些函數功能 字典結構的使用 字典簡單理解就是key-value對,下面是字典建立和簡單使用 >>> d=

原创 推薦系統中的相似性度量

1、 皮爾遜相關係數 在早期的推薦系統中皮爾遜相關係數是一個基礎的相似性衡量標準,先從這個參數定義開始說起。 皮爾遜係數度量兩個一一對應數列之間的線性相關程度,上述四種公式都是計算該係數方法,下面python 代碼使用就是公式4。

原创 推薦系統冷啓動

冷啓動問題主要分爲3類: 用戶冷啓動、物品冷啓動、系統冷啓動 針對這三種不同冷啓動問題,有不同解決方案,一般可以參考下面通用方案: 1. 提供非個性化的推薦,簡單來說就可以推薦熱門排行榜,等用戶數據集收集到一定時候,再切換到個性化推薦 2

原创 R 語言包安裝問題---downloaded length != reported length

當安裝某些需要R包時出現類似下面 downloaded length != reported length情況,往往是由於網絡下載出現了問題,有一個小技巧就是 設置R包下載來源鏡像。在RGUI中需要設置下載鏡像來源,默認會是國外的鏡像,下

原创 Mahout 對推薦數據的抽象表示(上部分)

學習Mahout推薦相關算法前,我們必須先要理解Mahout如何對推薦數據進行抽象表示。首先來看下Preference,該抽象是最基本的抽象,這個抽象對象一般代表一個單獨的 userID、itemID、Preference 分數,在具體實