台部落cyningsun

SMO算法由Microsoft Research的John C. Platt在1998年提出，併成爲最快的二次規劃優化算法，特別針對線性SVM和數據稀疏時性能更優。關於SMO最好的資料就是他本人寫的《Sequential Minimal

2018-09-04 00:30:59

本來在此之前還應該有一篇介紹mallet中貝葉斯實現的文章。鑑於已經寫過mahout下貝葉斯的博客，算法過程已經十分完整，所以直接進入決策樹算法的部分。以cc.mallet.classify.examples包下的Docum

2018-09-04 00:30:59

英文原文鏈接：http://www.temida.si/~bojan/probability_estimation.php 原文： Probability estimation 1 Introduction Let us assume

2018-09-04 00:30:59

1、shell 會依據 IFS(Internal Field Seperator) 將 command line 所輸入的文字給拆解爲"字段"(word)。然後再針對特殊字符(meta)先作處理，最後再重組整行 command line

2018-09-04 00:30:59

話說今天《機器學習》上課被很深地打擊了，標名爲“數據挖掘”專業的我居然連個信息增益的例子都沒能算正確。唉，自看書以來，這個地方就一直沒有去推算過，每每看到決策樹時看完Entropy就直接跳過後面增益計算了。因

2018-09-04 00:30:59

本來計劃研究memcached的多線程模型，後來發現網上博文《Memcached源碼分析(線程模型)》寫的非常好，因此，也省去了我的大部分時間，這裏並不打算自己再重新總結。不過首先奉上我自己畫的一張圖，就稱爲m

2018-09-04 00:30:58

整個流程包括數據處理部分和分類算法部分。數據處理部分對語料庫進行處理生成算法能執行的標準格式。分類算法部分的實現被分作三個部分：訓練器（The Trainer）、數據模型（The Model）、分類器（The Classifier）。

2018-09-04 00:30:57

寫腳本時，有時要判斷字符串是否相等，可能還要檢查文件狀態或是數字測試。基於這些測試才能做進一步動作。 1、文件測試測試文件狀態的操作符如下： -d 目錄 -s 文件長度大於0、非空 -f 正規文件 -w 可寫 -L

2018-09-04 00:30:57

今天來介紹memcached中hashtable部分的源碼，hash部分的源碼主要分佈在assoc.h/c、hash.h/c中，總得來說代碼比較簡單，這裏就稍微介紹一下。 hashtable通常包括哈希函數和解決

2018-09-04 00:30:54

1. Grep含義： grep是由 g/RE/p 拼起來的，其中g爲global的意思，RE爲regular expression的簡寫，p爲print的意思；即grep的意思爲“全局搜索正則表達式並打印該行”（grep名稱起源

2018-09-04 00:30:51