原创 從DT到Random Forest、GBDT

決策樹 基礎的內容,參考的鏈接: http://leijun00.github.io/2014/09/decision-tree/ ID3 最基礎的決策樹,多叉樹,僅能處理離散型值 採用信息增益來處理 g(D,A)=H(D)−

原创 《菊與刀》感觸

閒雜書,好久沒看過了。 日本人,挺奇怪,也挺不奇怪的個體。 各就其位,按照等級尊卑 天皇的絕對地位 報恩,接受了別人的恩情 道義,爲了榮譽感

原创 [轉]你應該掌握的七種迴歸技術

原文鏈接:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 翻譯鏈接:http://www.csdn.net/article/

原创 不均衡數據處理

參考文獻: 1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

原创 貝葉斯

這兩篇文章寫得超讚: 樸素貝葉斯: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 貝葉斯網絡: http:

原创 lucene

原鏈接:http://www.cnblogs.com/xing901022/p/3933675.html#_labelTop 主要是兩部分。 一是建立索引。有Directory建立目錄,有IndexWriter進行寫,其中的內

原创 推薦算法綜述

好多好長… 不想寫,粘貼鏈接先吧… http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part01 http://www.infoq.com/

原创 異常檢測

參考: http://blog.163.com/zhoulili1987619@126/blog/static/353082012015211114642546/ 統計方法 假設正常點和異常點都有一個分佈。開始時,所有點都服從

原创 simHash

好文章!simhash講得很透徹,而且應用時候,怎麼建索引的方法也有介紹。 原文鏈接:http://grunt1223.iteye.com/blog/964564 在工作學習中,我往往感嘆數學奇蹟般的解決一些貌似不可能完成的任務,並且

原创 LSH

SimHash 參考:http://blog.csdn.net/heiyeshuwu/article/details/44117473 如下圖,規定是多少位,對各個特徵進行hash。將所有特徵的進行累加。累加結果,若該位大於0則

原创 Canopy聚類

http://my.oschina.net/liangtee/blog/125407 http://blog.sina.com.cn/s/blog_618985870101dw5j.html 一般說法是,可以作爲K-means的

原创 python爬蟲介紹

參考鏈接: 1. 授人以漁的文章,裏面講到爬蟲一般怎麼做,分佈式的時候怎麼辦等:http://www.zhihu.com/question/20899988 2. scrapy的文章,介紹了怎麼用 http://scrapy-

原创 item-based algorithm

6.2 章節 http://openresearch.baidu.com/u/cms/www/201210/30144944cqmu.pdf;jsessionid=27FE07729A54FE415012B97849E2D1C1

原创 極大似然

這兩篇文章不錯: 1. http://www.zhihu.com/question/20447622 2. http://blog.csdn.net/bingduanlbd/article/details/24384771

原创 TextRank

關鍵字 嗯,模型比較簡單,限定一個窗口(比如一個詞前後k個詞,認爲他們具有連接),然後計算PageRank 得到的就是這段話裏的關鍵字,據說比TFIDF要靠譜點 關鍵句 主要也是句子間連接關係的限定,paper裏計算句子的相