原创 頻繁項集挖掘之apriori和fp-growth

      Apriori和fp-growth是頻繁項集(frequent itemset mining)挖掘中的兩個經典算法,雖然都是十幾年前的,但是理解這兩個算法對數據挖掘和學習算法都有很大好處。在理解這兩個算法之前,應該先了解頻繁項

原创 kaggle competition 之 Titanic: Machine Learning from Disaster

     Kaggle是一個數據科學競賽平臺(making data science a sport),在上面,很多機構會發布研究問題和數據集提供大家解決,有些會有報酬。第一次看到這個網站就覺得它會火,在信息爆炸時代,通過挖掘歷史數據來對

原创 隨機交換(swap randomization)的python實現

隨機交換內容可以看這:http://blog.csdn.net/lgnlgn/article/details/5936945 其實是直接翻譯作者perl源碼過來的... 作者perl源碼在這:http://www.cs.helsinki

原创 elasticsearch學習入門

(由於ES更新很快,本文這類快餐式的記錄僅供參考) 這幾年,搜索的開發門檻越來越低,每個語言都有開源的檢索工具包,而且功能越來越全,完整的解決方案也越來越多、越來越好用,比如lucene上就有solr, elasticsearch, s

原创 一個數據挖掘算法的項目:dami

      (更新於2014/01/26)關注和學習數據挖掘不少年,現在數據挖掘算法已經非常多了,比較出名的基本都能找到實現好的。掌握一個算法原理十分重要,但我覺得實現一遍算法對於算法的如何適用數據纔是最有幫助的。一些挖掘工具遇到大量點的

原创 smartcn優化方案

smartcn,基於HMM模型的一套智能分詞器,是ictclas的java簡化版,原理網上已經能找到,也可以看我前面寫的 http://blog.csdn.net/lgnlgn/archive/2010/06/13/5669855.asp

原创 基於評分數據的推薦算法實現:slopeone和矩陣分解

近幾年推薦算法研究得比較火熱,得益於netflix的百萬大獎。推薦算法有多種分法,有人喜歡分成基於內容和基於用戶行爲的,而主流的文獻還是從算法分得多:即neighborhood-based和基於factorization的。 ne

原创 人類概念學習的複雜度 complexity of human concept learning

內容來自兩篇論文: Minimization of Boolean complexity in human concept learning  The Simplicity Principle in Human Concept Learn

原创 simhash用來進行海量文本近似去重的mapreduce版本

  其實這個內容和原來的文章是放在一起的,但之前只看了Online版,後來纔看的batch版。發現其實batch版本更有意思且更適用。 online版可以看我博客裏的翻譯:   http://blog.csdn.net/lgnlgn/ar

原创 ICTCLAS30做的lucene.net分詞接口

隨便搞搞搜索引擎技術,剛開始分詞而已,綜合考察了幾個比較有名的分詞方法,決定還是用中科院的分詞程序。其中C#有個開源的,且網上已經有用SharpICTCLAS爲lucene.net寫的分詞接口了,不過想試試用好一點的分詞程序的效果,所以選

原创 二進制串模糊搜索的Java實現

   這個問題其實是從之前博客(http://blog.csdn.net/lgnlgn/archive/2010/11/14/6008498.aspx)介紹的爬蟲去重的論文中的一個內容,問題是這樣描述的:給定N個f位的指紋集合C,對一個

原创 simhash進行文本查重

有1億個不重複的64位的01字符串,任意給出一個64位的01字符串f,如何快速從中找出與f漢明距離小於3的字符串?   大規模網頁的近似查重 主要翻譯自WWW07的Detecting Near-Duplicates for Web Cr

原创 隨機交換檢驗數據挖掘結果-assessing data mining result via swap randomization

    這是一篇我比較推崇的文章.06年獲得KDD的best paper runner up。近年來數據挖掘在理論上突破很少,這可以算一篇。長久以來,數據挖掘一直關注方法,很少有研究數據集潛在本質的,如何從數據集表現形式去挖掘數據之間更

原创 數據挖掘 graph mining 之 ranking 介紹

  近年來,圖挖掘graph mining漸漸熱了起來。這裏的圖是圖論裏說的那個圖,也就是點集合和邊集合構成的一種數據結構。 圖挖掘中幾個比較重要的方向有: 1.     community detection 2.     freq

原创 lucene smartcn原理

Smartcn分詞器是ictclas簡化功能的java版 Smartcn分詞三步:1)原子切分;2)找出原子之間所有可能的組詞方案;3)N-最短路徑中文詞語粗分三步。 例如:“他說的確實在理”這句話。 1)原子切分的目的是完成單個漢字