原创 二進制串模糊搜索的Java實現(續)

上一篇具體講了怎麼做的, 後來又一直在想如何提高.   因爲不太明白如何提高效率,我又做了一些無謂的嘗試,比如把同前綴的寫到一個小文件裏,例如8K,如果數據量小,多個前綴的數據都寫在一塊裏,猜想從路徑直接定位到文件會快很多。結果嘗試了

原创 基於隨機遊走的社團劃分算法label progation 的python實現

 其實這個算法也可以作爲聚類算法來用,計算出兩兩樣本之間的相似度,作爲這個算法裏邊的權重,可以去掉值很低的,然後進行聚類。我們假設一個圖有m個節點n條邊,label propagation的複雜度是O(kn) (不確定)k是迭代次數。在

原创 基於隨機遊走的社團劃分算法hadoop MR實現

繼上篇介紹的算法和單機實現。這篇介紹一下mapreduce實現。 其實python的實現已經用的mapreduce的思路了,改成在真實分佈式環境並不難,我在hadoop平臺上簡單的實現了這個算法。   Map端完成邊的propagati

原创 PCA學習筆記

  常常看到論文的標題裏帶有矩陣分解的方法,最常見的有四個PCA, SVD, LDA和NMF。之前看論文內容一看到矩陣公式基本就不看,水平有限,短期內啃也啃不動。看來該學的還是繞不出去,只能慢慢補上了…   很早就聽說主成分分析這個名

原创 MapReduce思想的學習

       這學期教hadoop,發現在備課MapReduce思想的時候,查閱資料基本上所有博客都沒有真正講出MapReduce的思想,而只是把它的計算過程講出來,甚至有些說法還是誤人子弟的。所以我就一直在想如何能把MapReduce的

原创 一個簡易的數據挖掘計算平臺項目: feluca

(這篇博文會當做記事來寫,不完全是技術文) (寫於2014/06/30, 這是第一篇) 背景         之前提到一直在寫一個數據挖掘工具包的小項目dami(該項目不再維護,並在未來刪除),由於忙碌等各種原因進度很慢甚至停滯不前,索性

原创 倒排鏈上的查詢剪枝技術學習總結

背景    最近對海量高維數據檢索產生比較濃厚的興趣,學習相關技術,其中對檢索倒排索引這方面又學到了新東西,在這整理鞏固一下。在海量數據查詢上,倒排索引用得最多,倒排索引其實就是正排方式的逆轉排列,海量數據中一個內容的倒排鏈通常也會很長,

原创 hadoop,hbase,hive 安裝snappy壓縮

      最近又安裝了一次hadoop系列,以前裝過幾次,但總也是磕磕碰碰的,本來想這次安裝一步到位,可惜以前記錄不夠詳細,中間還是過程還是有些遺漏,這次把過程詳細記錄起來。hadoop-1.1.2,  hbase-0.95-hado

原创 Solr應用之電商商品搜索備忘

     把以前做電商商品搜索的經驗歸檔一下。電商的搜索功能大體上比較相同,從京東、蘇寧、易訊等大型電商都可以觀察出來。電商搜索功能大致分爲幾塊: 1. 商品搜索、列表的展示,帶排序功能;可能有些產品會要求一個商品不同規格也聚合成一個展示

原创 notepad++ 64位安裝json插件JStool

64bit的 notepad++不支持plugin manager了,只能手動安裝插件 json格式化工具:JSTool http://www.softpedia.com/get/Office-tools/Text-editors/Jun