原创 SMO算法

SMO算法由Microsoft Research的John C. Platt在1998年提出,併成爲最快的二次規劃優化算法,特別針對線性SVM和數據稀疏時性能更優。關於SMO最好的資料就是他本人寫的《Sequential Minimal

原创 mallet源碼分析之決策樹C4.5

       本來在此之前還應該有一篇介紹mallet中貝葉斯實現的文章。鑑於已經寫過mahout下貝葉斯的博客,算法過程已經十分完整,所以直接進入決策樹算法的部分。以cc.mallet.classify.examples包下的Docum

原创 概率估計(極大似然估計、拉普拉斯平滑定理、M-估計的關係)

英文原文鏈接:http://www.temida.si/~bojan/probability_estimation.php 原文: Probability estimation 1 Introduction Let us assume

原创 SHELL十三問要點總結

1、shell 會依據 IFS(Internal Field Seperator) 將 command line 所輸入的文字給拆解爲"字段"(word)。然後再針對特殊字符(meta)先作處理,最後再重組整行 command line

原创 熵,信息增益,信息增益率,Gini

        話說今天《機器學習》上課被很深地打擊了,標名爲“數據挖掘”專業的我居然連個信息增益的例子都沒能算正確。唉,自看書以來,這個地方就一直沒有去推算過,每每看到決策樹時看完Entropy就直接跳過後面增益計算了。因

原创 memcached-多線程模型

   本來計劃研究memcached的多線程模型,後來發現網上博文《Memcached源碼分析(線程模型)》寫的非常好,因此,也省去了我的大部分時間,這裏並不打算自己再重新總結。         不過首先奉上我自己畫的一張圖,就稱爲m

原创 mahout源碼分析之貝葉斯算法

整個流程包括數據處理部分和分類算法部分。數據處理部分對語料庫進行處理生成算法能執行的標準格式。分類算法部分的實現被分作三個部分:訓練器(The Trainer)、數據模型(The Model)、分類器(The Classifier)。

原创 shell條件測試

    寫腳本時,有時要判斷字符串是否相等,可能還要檢查文件狀態或是數字測試。基於這些測試才能做進一步動作。 1、文件測試 測試文件狀態的操作符如下: -d 目錄    -s 文件長度大於0、非空 -f 正規文件 -w 可寫 -L

原创 memcached-hashtable

  今天來介紹memcached中hashtable部分的源碼,hash部分的源碼主要分佈在assoc.h/c、hash.h/c中,總得來說代碼比較簡單,這裏就稍微介紹一下。          hashtable通常包括哈希函數和解決

原创 Linux基本命令之grep

  1. Grep含義: grep是由 g/RE/p 拼起來的,其中g爲global的意思,RE爲regular expression的簡寫,p爲print的意思;即grep的意思爲“全局搜索正則表達式並打印該行”(grep名稱起源