原创 推薦系統的重點、難點問題

隨着近年來對推薦系統研究的開展,很多研究中的重點、難點問題得到研究者的關注和共識[7],主要包括: 1)特徵提取問題 雖然在信息檢索中,文本等對象特徵的提取技術已經很成熟,但是推薦系統的對象不一定具有文本特徵或者文本不足以作爲描述[

原创 TF-IDF與餘弦相似性的應用

這個標題看上去好像很複雜,其實我要談的是一個很簡單的問題。 有一篇很長的文章,我要用計算機提取它的關鍵詞(Automatic Keyphrase extraction),完全不加以人工干預,請問怎樣才能正確做到? 這個問題涉及到

原创 從最大似然到EM算法淺解

 機器學習十大算法之一:EM算法。能評得上十大之一,讓人聽起來覺得挺NB的。什麼是NB啊,我們一般說某個人很NB,是因爲他能解決一些別人解決不了的問題。神爲什麼是神,因爲神能做很多人做不了的事。那麼EM算法能解決什麼問題呢?或者說EM

原创 半監督學習

 傳統的機器學習技術分爲兩類,一類是無監督學習,一類是監督學習。 無監督學習只利用未標記的樣本集,而監督學習則只利用標記的樣本集進行學習。 但在很多實際問題中,只有少量的帶有標記的數據,因爲對數據進行標記的代價有時很高,比如在生物

原创 Frequent Pattern 挖掘之二(FP Growth算法)

FP樹構造 FP Growth算法利用了巧妙的數據結構,大大降低了Aproir挖掘算法的代價,他不需要不斷得生成候選項目隊列和不斷得掃描整個數據庫進行比對。爲了達到這樣的效果,它採用了一種簡潔的數據結構,叫做frequent-patt

原创 奇異值分解SVD應用——LSI

潛在語義索引(Latent Semantic Indexing)是一個嚴重依賴於SVD的算法,本文轉載自之前吳軍老師《數學之美》和參考文獻《機器學習中的數學》彙總。 ———————————— 在自然語言處理中,最常見的兩類的分類問題

原创 Fast unfolding of communities in large networks

作者:鄭梓豪 鏈接:https://zhuanlan.zhihu.com/p/19769897 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得

原创 結合Scikit-learn介紹幾種常用的特徵選擇方法

 原文地址:http://dataunion.org/14072.html?utm_source=tuicool&utm_medium=referral 特徵選擇(排序)對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升

原创 畫圖解釋LAR算法的幾何意義

1)畫圖及文字解釋p74頁下半頁關於LAR算法所定義的一系列向量的幾何意義,及整個算法的幾何意義迴歸模型: (共有p個變量)給出具有n個樣本的樣本矩陣:(j=1,...,p)LAR算法:1.標準化、中心化數據(使各向量爲單位向量,且 )殘

原创 機器學習——海量數據挖掘解決方案

大數據時代裏,互聯網用戶每天都會直接或間接使用到大數據技術的成果,直接面向用戶的比如搜索引擎的排序結果,間接影響用戶的比如網絡遊戲的流失用戶預測、支付平臺的欺詐交易監測等等。達觀數據技術團隊開發過智能文本內容審覈系統、作弊監測系統、用戶建

原创 用R語言做正態分佈檢驗

摘自:吳喜之:《非參數統計》(第二版),中國統計出版社,2006年10月:P164-165 1、ks.test()    例如零假設爲N(15,0.2),則ks.test(x,"pnorm",15,0.2)。如果不是正態分佈,還可以

原创 K最近鄰(KNN,k-Nearest Neighbor)準確理解

用了之後,發現我用的都是1NN,所以查閱了一下相關文獻,纔對KNN理解正確了,真是丟人了。 左圖中,綠色圓要被決定賦予哪個類,是紅色三角形還是藍色四方形?如果K=3,由於紅色三角形所佔比例爲2/3,綠色圓將被賦予紅色三角形

原创 bootstrap, boosting, bagging 幾種方法的聯繫

這兩天在看關於boosting算法時,看到一篇不錯的文章講bootstrap, jackknife, bagging, boosting, random forest 都有介紹,以下是搜索得到的原文,沒找到博客作者的地址, 在這裏致謝

原创 深度學習座下的四大神獸:計算能力、算法、數據、場景

如今越來越多的人願意和自己的虛擬私人助理交談,只需要動動嘴就可以讓Siri/Alexa/Rokid幫你完成發微信、訂車票、設鬧鐘這樣的閒事,還能提醒你吃藥、開會,這樣一個不需要付工資的貼心小棉襖怎麼會不受喜愛呢?虛擬助理正在一步步接

原创 CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)的內部網絡結構區別

神經網絡技術起源於上世紀五、六十年代,當時叫感知機(perceptron),擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層,在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。(扯一個不相關的:由於計