台部落相国

Apriori和fp-growth是頻繁項集(frequent itemset mining)挖掘中的兩個經典算法，雖然都是十幾年前的，但是理解這兩個算法對數據挖掘和學習算法都有很大好處。在理解這兩個算法之前，應該先了解頻繁項

2020-07-03 17:47:06

Kaggle是一個數據科學競賽平臺(making data science a sport)，在上面，很多機構會發布研究問題和數據集提供大家解決，有些會有報酬。第一次看到這個網站就覺得它會火，在信息爆炸時代，通過挖掘歷史數據來對

2020-07-03 17:46:56

隨機交換內容可以看這：http://blog.csdn.net/lgnlgn/article/details/5936945 其實是直接翻譯作者perl源碼過來的... 作者perl源碼在這：http://www.cs.helsinki

2020-07-03 17:46:56

（由於ES更新很快，本文這類快餐式的記錄僅供參考）這幾年，搜索的開發門檻越來越低，每個語言都有開源的檢索工具包，而且功能越來越全，完整的解決方案也越來越多、越來越好用，比如lucene上就有solr, elasticsearch, s

2020-07-03 17:46:56

（更新於2014/01/26）關注和學習數據挖掘不少年，現在數據挖掘算法已經非常多了，比較出名的基本都能找到實現好的。掌握一個算法原理十分重要，但我覺得實現一遍算法對於算法的如何適用數據纔是最有幫助的。一些挖掘工具遇到大量點的

2020-07-03 17:46:56

smartcn，基於HMM模型的一套智能分詞器，是ictclas的java簡化版，原理網上已經能找到，也可以看我前面寫的 http://blog.csdn.net/lgnlgn/archive/2010/06/13/5669855.asp

2020-07-03 17:46:56

近幾年推薦算法研究得比較火熱，得益於netflix的百萬大獎。推薦算法有多種分法，有人喜歡分成基於內容和基於用戶行爲的，而主流的文獻還是從算法分得多：即neighborhood-based和基於factorization的。 ne

2020-07-03 17:46:56

內容來自兩篇論文： Minimization of Boolean complexity in human concept learning The Simplicity Principle in Human Concept Learn

2020-07-03 17:46:56

其實這個內容和原來的文章是放在一起的，但之前只看了Online版，後來纔看的batch版。發現其實batch版本更有意思且更適用。 online版可以看我博客裏的翻譯： http://blog.csdn.net/lgnlgn/ar

2020-02-20 22:48:16

隨便搞搞搜索引擎技術，剛開始分詞而已，綜合考察了幾個比較有名的分詞方法，決定還是用中科院的分詞程序。其中C#有個開源的，且網上已經有用SharpICTCLAS爲lucene.net寫的分詞接口了，不過想試試用好一點的分詞程序的效果，所以選

2020-02-20 22:48:16

這個問題其實是從之前博客（http://blog.csdn.net/lgnlgn/archive/2010/11/14/6008498.aspx）介紹的爬蟲去重的論文中的一個內容，問題是這樣描述的：給定N個f位的指紋集合C，對一個

2020-02-20 22:48:16

有1億個不重複的64位的01字符串，任意給出一個64位的01字符串f，如何快速從中找出與f漢明距離小於3的字符串？大規模網頁的近似查重主要翻譯自WWW07的Detecting Near-Duplicates for Web Cr

2020-02-20 22:48:15

這是一篇我比較推崇的文章.06年獲得KDD的best paper runner up。近年來數據挖掘在理論上突破很少，這可以算一篇。長久以來，數據挖掘一直關注方法，很少有研究數據集潛在本質的，如何從數據集表現形式去挖掘數據之間更

2020-02-20 22:48:15

近年來，圖挖掘graph mining漸漸熱了起來。這裏的圖是圖論裏說的那個圖，也就是點集合和邊集合構成的一種數據結構。圖挖掘中幾個比較重要的方向有： 1. community detection 2. freq

2020-02-20 22:48:15

Smartcn分詞器是ictclas簡化功能的java版 Smartcn分詞三步：1）原子切分；2）找出原子之間所有可能的組詞方案；3）N-最短路徑中文詞語粗分三步。例如：“他說的確實在理”這句話。 1）原子切分的目的是完成單個漢字

2020-02-20 22:48:15