原创 TensorFlow簡單學習1

使用TensorFlow 構建簡單的線性模型,模型使用以及使用tensorboard顯示 直接上代碼: #coding:utf-8 import tensorflow as tf import numpy as np from p

原创 mahout之canopy聚類算法

mahout中數據挖掘算法是運行在hadoop之上的分佈式算法,可以分佈式運行也可以在單機上運行。 這篇博文是本人你學習mahout算法的開始,以下是個人對mahout中實現的canopy的理解,如果錯誤,歡迎糾正 首先下載mahout

原创 機器學習之最小二乘法

最小二乘法:    我們以最簡單的一元線性模型來解釋最小二乘法。什麼是一元線性模型呢? 監督學習中,如果預測的變量是離散的,我們稱其爲分類(如決策樹,支持向量機等),如果預測的變量是連續的,我們稱其爲迴歸。迴歸分析中,如果只包括一個自

原创 PCA 和 SVD

經常把PCA和SVD搞亂了,而且理解不是特別的深,特此記錄,歡迎指正 先扯點線性代數的知識: (1)設M是n階方陣,如果對任何非零向量z,都有zTMz> 0,其中zT 表示z的轉置,就稱M正定矩陣。      判定:如果M的特徵值全部爲

原创 閱讀資料

http://blog.csdn.net/daunxx/article/details/51725086#最大後驗估計 https://mqshen.gitbooks.io/prml/content/Chapter4/bayesian/

原创 貝葉斯線性迴歸/貝葉斯脊迴歸

參考資料: 1、http://blog.csdn.net/daunxx/article/details/51725086 2、http://blog.csdn.net/dark_scope/article/details/855824

原创 eclipse中maven項目配置日誌輸出

經常會忘記怎麼在maven項目中正確配置日誌輸出配置,然後每次還要去查下,至此記錄以備忘: 1、在pom.xml文件夾下添加日誌依賴: <dependency>       <groupId>org.slf4j</groupId>    

原创 mahout聚類結果的輸出和可視化

1、在mahout中,org.apache.mahout.utils.clustering.ClusterDumper類可以將聚類結果輸出,如果是打印在控制檯,則可以使用:  ClusterDumper clusterdumper=new

原创 maven國內鏡像

之前一直沒有在setting.xml中添加鏡像地址,用的是默認中央倉庫地址,下載速度非常的慢,在添加hadoop-core-2.6.0時,還沒有。然後就添加了國內鏡像地址。 1、打開eclipse->preferences->maven-

原创 k-means++

K-Means主要有兩個最重大的缺陷——都和初始值有關:  K 是事先給定的,這個 K 值的選定是非常難以估計的。很多時候,事先並不知道給定的數據集應該分成多少個類別才最合適。( ISODATA 算法通過類的自動合併和分裂,得到較