台部落相国

上一篇具體講了怎麼做的, 後來又一直在想如何提高. 因爲不太明白如何提高效率，我又做了一些無謂的嘗試，比如把同前綴的寫到一個小文件裏，例如8K，如果數據量小，多個前綴的數據都寫在一塊裏，猜想從路徑直接定位到文件會快很多。結果嘗試了

2020-02-20 22:48:15

其實這個算法也可以作爲聚類算法來用，計算出兩兩樣本之間的相似度，作爲這個算法裏邊的權重，可以去掉值很低的，然後進行聚類。我們假設一個圖有m個節點n條邊，label propagation的複雜度是O(kn) （不確定）k是迭代次數。在

2020-02-20 22:48:14

繼上篇介紹的算法和單機實現。這篇介紹一下mapreduce實現。其實python的實現已經用的mapreduce的思路了，改成在真實分佈式環境並不難，我在hadoop平臺上簡單的實現了這個算法。 Map端完成邊的propagati

2020-02-20 22:48:14

常常看到論文的標題裏帶有矩陣分解的方法，最常見的有四個PCA, SVD, LDA和NMF。之前看論文內容一看到矩陣公式基本就不看，水平有限，短期內啃也啃不動。看來該學的還是繞不出去，只能慢慢補上了… 很早就聽說主成分分析這個名

2020-02-20 22:48:14

這學期教hadoop，發現在備課MapReduce思想的時候，查閱資料基本上所有博客都沒有真正講出MapReduce的思想，而只是把它的計算過程講出來，甚至有些說法還是誤人子弟的。所以我就一直在想如何能把MapReduce的

2019-05-14 00:10:28

（這篇博文會當做記事來寫，不完全是技術文）（寫於2014/06/30，這是第一篇）背景之前提到一直在寫一個數據挖掘工具包的小項目dami(該項目不再維護,並在未來刪除)，由於忙碌等各種原因進度很慢甚至停滯不前，索性

2018-09-05 04:21:18

背景最近對海量高維數據檢索產生比較濃厚的興趣，學習相關技術，其中對檢索倒排索引這方面又學到了新東西，在這整理鞏固一下。在海量數據查詢上，倒排索引用得最多，倒排索引其實就是正排方式的逆轉排列，海量數據中一個內容的倒排鏈通常也會很長，

2018-09-05 04:21:18

最近又安裝了一次hadoop系列，以前裝過幾次，但總也是磕磕碰碰的，本來想這次安裝一步到位，可惜以前記錄不夠詳細，中間還是過程還是有些遺漏，這次把過程詳細記錄起來。hadoop-1.1.2， hbase-0.95-hado

2018-09-05 04:21:18

把以前做電商商品搜索的經驗歸檔一下。電商的搜索功能大體上比較相同，從京東、蘇寧、易訊等大型電商都可以觀察出來。電商搜索功能大致分爲幾塊： 1. 商品搜索、列表的展示，帶排序功能；可能有些產品會要求一個商品不同規格也聚合成一個展示

2018-09-05 04:21:17

64bit的 notepad++不支持plugin manager了，只能手動安裝插件 json格式化工具：JSTool http://www.softpedia.com/get/Office-tools/Text-editors/Jun

2018-09-05 04:21:17