台部落mousever

隨着近年來對推薦系統研究的開展，很多研究中的重點、難點問題得到研究者的關注和共識[7]，主要包括： 1）特徵提取問題雖然在信息檢索中，文本等對象特徵的提取技術已經很成熟，但是推薦系統的對象不一定具有文本特徵或者文本不足以作爲描述[

2020-06-27 16:14:51

這個標題看上去好像很複雜，其實我要談的是一個很簡單的問題。有一篇很長的文章，我要用計算機提取它的關鍵詞（Automatic Keyphrase extraction），完全不加以人工干預，請問怎樣才能正確做到？這個問題涉及到

2020-02-25 01:50:01

機器學習十大算法之一：EM算法。能評得上十大之一，讓人聽起來覺得挺NB的。什麼是NB啊，我們一般說某個人很NB，是因爲他能解決一些別人解決不了的問題。神爲什麼是神，因爲神能做很多人做不了的事。那麼EM算法能解決什麼問題呢？或者說EM

2020-02-25 01:50:01

傳統的機器學習技術分爲兩類，一類是無監督學習，一類是監督學習。無監督學習只利用未標記的樣本集，而監督學習則只利用標記的樣本集進行學習。但在很多實際問題中，只有少量的帶有標記的數據，因爲對數據進行標記的代價有時很高，比如在生物

2020-02-25 01:50:01

FP樹構造 FP Growth算法利用了巧妙的數據結構，大大降低了Aproir挖掘算法的代價，他不需要不斷得生成候選項目隊列和不斷得掃描整個數據庫進行比對。爲了達到這樣的效果，它採用了一種簡潔的數據結構，叫做frequent-patt

2020-02-25 01:50:01

潛在語義索引（Latent Semantic Indexing）是一個嚴重依賴於SVD的算法，本文轉載自之前吳軍老師《數學之美》和參考文獻《機器學習中的數學》彙總。 ———————————— 在自然語言處理中，最常見的兩類的分類問題

2020-02-25 01:50:01

作者：鄭梓豪鏈接：https://zhuanlan.zhihu.com/p/19769897 來源：知乎著作權歸作者所有。商業轉載請聯繫作者獲得

2020-02-25 01:50:01

原文地址：http://dataunion.org/14072.html?utm_source=tuicool&utm_medium=referral 特徵選擇(排序)對於數據科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升

2020-02-25 01:50:01

1）畫圖及文字解釋p74頁下半頁關於LAR算法所定義的一系列向量的幾何意義，及整個算法的幾何意義迴歸模型：（共有p個變量）給出具有n個樣本的樣本矩陣：（j=1,...,p）LAR算法：1.標準化、中心化數據（使各向量爲單位向量，且）殘

2020-02-25 01:50:01

大數據時代裏，互聯網用戶每天都會直接或間接使用到大數據技術的成果，直接面向用戶的比如搜索引擎的排序結果，間接影響用戶的比如網絡遊戲的流失用戶預測、支付平臺的欺詐交易監測等等。達觀數據技術團隊開發過智能文本內容審覈系統、作弊監測系統、用戶建

2020-02-25 01:50:01

摘自：吳喜之：《非參數統計》（第二版），中國統計出版社，2006年10月：P164-165 1、ks.test() 例如零假設爲N（15,0.2），則ks.test(x,"pnorm",15,0.2)。如果不是正態分佈，還可以

2020-02-25 01:50:01

用了之後，發現我用的都是1NN，所以查閱了一下相關文獻，纔對KNN理解正確了，真是丟人了。左圖中，綠色圓要被決定賦予哪個類，是紅色三角形還是藍色四方形？如果K=3，由於紅色三角形所佔比例爲2/3，綠色圓將被賦予紅色三角形

2020-02-25 01:50:01

這兩天在看關於boosting算法時，看到一篇不錯的文章講bootstrap, jackknife, bagging, boosting, random forest 都有介紹，以下是搜索得到的原文，沒找到博客作者的地址，在這裏致謝

2020-02-25 01:50:01

如今越來越多的人願意和自己的虛擬私人助理交談，只需要動動嘴就可以讓Siri/Alexa/Rokid幫你完成發微信、訂車票、設鬧鐘這樣的閒事，還能提醒你吃藥、開會，這樣一個不需要付工資的貼心小棉襖怎麼會不受喜愛呢？虛擬助理正在一步步接

2018-08-26 09:09:28

神經網絡技術起源於上世紀五、六十年代，當時叫感知機（perceptron），擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層，在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。（扯一個不相關的：由於計

2018-08-26 09:09:27