原创 Rocchio算法用於文本分類

談談自己的理解…… 假設現有正樣本集P和負樣本集U用來訓練一個二分類Rocchio分類器 主要思想如下: 1.對於P和U分別計算質心 (*) 2.對於以後待分類的每一個文檔d,計算d與 c+或者c-的相似度(如餘弦相似度),

原创 C++知識點小結

reference: 作者:大叔龍 鏈接:http://www.jianshu.com/p/e21d99638cf9 來源:簡書 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。 1.基礎問答:容器、數

原创 第一個spark scala程序——wordcount

背景:C++的第一個程序是helloworld,但對於spark scala,輸出helloworld並沒有什麼意義,體現不了spark的精髓,所以wordcount纔是王道…… 話不多說,直接上代碼wordcount (spa

原创 大規模機器學習:SGD,mini-batch和MapReduce

因爲不知道原文的鏈接,在此向原作者表達歉意。 大規模機器學習 注:本文內容來自網友的博客及Andrew NG在coursera上的機器學習公開課,感興趣的同學可以去看原始視頻,此處不提供鏈接 機器學習在這幾年得到快速發展,

原创 Notes—LDA中的gamma函數和幾個分佈

ref:http://blog.csdn.net/v_JULY_v/article/details/41209515 (詳細推導見該鏈接)         LDA模型中用到的數學知識: 一個函數:gamma函數四個分佈:二項分佈、多項

原创 Notes—Random Forest-feature importance隨機森林對特徵排序

……未完待補充…… ref:http://blog.datadive.net/selecting-good-features-part-iii-random-forests/ two methods: 1.Mean decre

原创 RDD和Dataframe

RDD是一個分佈式的無序的列表。 RDD中可以存儲任何的單機類型的數據,但是,直接使用RDD在字段需求明顯時,存在算子難以複用的缺點。 舉例如下: 例如,現在RDD 存的數據是一個Person類型的數據,現在要求所有每個年齡段

原创 Notes—MySQL(cmd)

……未完…… 0、安裝 1、Connect to MySQL mysql -h 主機地址 -u 用戶名 -p 用戶密碼 mysql -u root -p; Enter password:**** 2、退出 exit、

原创 win下更改jupyter-notebook.exe工作路徑

在安裝了jupyter的前提下…… (1)首先把安裝路徑(例如:我的是‘……\Anaconda\Scripts’)下的jupyter-notebook.exe右鍵發送到桌面快捷方式。 (2)雙擊點開jupyter-notebook

原创 機器學習二分類問題模型效果度量方法

ref http://blog.csdn.net/ice110956/article/details/20288239 http://www.cnblogs.com/Allen-rg/p/5821949.html http:

原创 Notes—Latent Dirichlet Allocation,LDA主題模型

【數學之美】 ……未完待續…… ref: 1、★★★★★★★★★★通俗理解LDA主題模型★★★★★★★★★★ 2、主題模型-LDA淺析 3、搜索背後的奧祕――淺談語義主題計算 4、主題模型TopicModel:主題模型

原创 Notes—Dense Vector and Sparse Vector

……未完待補充…… ref: 1. Spark官方文檔 2. http://bbs.csdn.net/topics/391002544 在spark.ml.linalg裏有兩種vector——DenseVector 和 Sp

原创 sklearn——PCA&LDA

LDA:利用類別信息,將數據投影到到最容易區分的方向。 PCA:並沒有利用類別信息,只是降維後每一維特徵方差都大。 # 導入iris數據集 from sklearn.datasets import load_iris impor

原创 Notes—Convolutional layer

(this img is made by myself) note: Convolutional layer: convolve the filter with image,slide over the image spa

原创 Notes—Tesseract-OCR使用

1.下載tesseract-ocr-setup-3.02.02.exe 直接安裝,簡單方便,安裝選項默認。安裝後的目錄裏面的文件如下: 2.將要識別的文字圖片放在目標文件夾中,如D盤。在D盤中Shift+右鍵打開命令行。因爲環