原创 聚類算法之Kmeans

Kmeans是聚類算法中比較簡單的算法,也用的非常多。這裏進行簡單的解釋,主要目的在於給自己記錄,以備以後查看。 K均值聚類的主要思想是爲了使得各個類的點離聚類中心都儘可能近。 K均值聚類的算法可以描述爲: 輸入:數據集D={x

原创 保留浮點數前幾位小數

用float或者double表示一個浮點數,會碰到數字小數特別多的情況,比如0.324241245325235。但實際這樣看着也不方便,實際用的時候也不需要這麼高的精度。可以選擇只保存前幾位小數,比如小數點後3位小數,即1/100

原创 讀取LMDB文件的樣本數量

在caffe中一般會把數據轉爲lmdb或者leveldb格式,再做訓練,加速訓練過程。 如何讀取lmdb文件呢?比如需要獲知某個lmdb文件的樣本數量。 在python下,比較簡單,生成lmdb後,可以用如下的代碼獲取: impo

原创 tensorflow中的tf.app.run

在很多TensorFlow公佈的Demo中,都有這樣的代碼存在,如下,這是幹什麼的呢?[python] view plain copyif __name__ == "__main__":      tf.app.run()   我們來看一

原创 python中urllib模塊的urlretrieve函數

python中利用urllib模塊可以完成常見的爬蟲程序,利用urlretrieve可以抓包某個文件比如,在python3中,可以這樣使用import urllib urllib.request.ulrretrieve(url, fil

原创 機器學習中的模型評估與度量

在機器學習中除了需要了解各種算法知識(如SVM、神經網絡等),也需要了解是如何通過什麼方式評估和度量模型的,從而選擇最佳的模型。 1. 準備訓練/測試集評估 如何評估一個模型的性能,當然是用數據來評估呢?那麼用哪些數據評估模型呢

原创 動態規劃的入門理解&例子(LIS、最小編輯距離)

關於動態規劃的講解有很多材料,這裏只是按照我自己的理解來表述動態規劃。可能並不詳細,也不一定完全準確。這裏主要通過兩個例子LIS和最小編輯距離進一步加深對於動態規劃的直觀理解。 1. 動態規劃入門理解 動態規劃方法是把問題向前分

原创 判斷某個月份是否在給定的月份區間內

判斷某個月份是否在給定的月份區間內 輸入 指定月份:mmm 月份區間:m1m_1m1​->m2m_2m2​,比如2->5,9->1 輸出 mmm是否處於m1m_1m1​->m2m_2m2​之間,比如3處於2->5之間,11處於9-

原创 決策樹和隨機森林

  決策樹是比較容易的理解的機器學習算法,算法學習過程就是利用數據的屬性構造樹的過程,根據構建的樹,逐步向下決策,最後得到結果。決策樹利用樹結構進行決策,和人類理解決策問題時的思路很像,比如對於”是否要買下這套房子?”這樣的決策問

原创 線性模型(二)之多項式擬合

1. 多項式擬合問題   多項式擬合(polynominal curve fitting)是一種線性模型,模型和擬合參數的關係是線性的。多項式擬合的輸入是一維的,即x=xx=x ,這是多項式擬合和線性迴歸問題的主要區別之一。   

原创 rpm安裝、卸載、查詢軟件包

在linux系統上需要安裝各種各樣的依賴軟件包,如果機器可以聯網,那麼還是比較方便的,但是如果不能聯網,只能手工下載安裝各種軟件包,也是挺醉的,安裝某個軟件包A,A可能依賴於其它B1~B3個軟件包,而每個Bx又可能依賴於其它Cx~

原创 KNN算法和KD樹

KNN算法和KD樹 KNN算法的思路非常簡單,對於新的樣本,找出距其最近的k個樣本,再根據這k個樣本的類別,通過多數投票的方式預測新樣本的類別。k近鄰算法沒有學習或訓練過程。但k近鄰算法仍有很多值得關注的地方,比如超參數k值的選擇

原创 tensorflow保持每次訓練結果一致

在用tensorflow構建神經網絡的時候,有很多隨機的因素,比如參數的隨機初始化: 正態分佈隨機變量tf.random_normal([m,n]),均勻分佈的隨機變量tf.random_uniform([m,n]),還有在從tf

原创 python中對多變量連續賦值

看到一段代碼,如下 self.batch_size = batch_size = 128 初一看很詫異,仔細想想其實很合理的。 在python可能會需要同時聲明多個變量,並對多個變量賦予相同的初始值,可以採用如下的方式賦值 a=b

原创 聚類算法之譜聚類

再解釋下譜聚類 背景音樂