台部落lpkinging

原创 pyspark數據分析常用算子

不斷更新 1.filter （1）單條件過濾 data = df.filter(df['age'] == 20)) 或者 data = df.filter('age = 20') （2）多條件過濾 data = df.filte

2020-02-22 15:50:09

原创關聯本地倉庫與遠程gitlab倉庫

1.先在gitlab創建一個倉庫 2.把本地工程push到gitlab已有倉庫 cd demo 切換到工程目錄git init 通過該命令把工程目錄（demo）變成Git可以管理的倉庫git r

2020-02-21 08:45:14

原创 adaboost迭代次數的理解

對於adaboost算法而言，迭代幾次就產生幾個基本分類器，當然分類器的個數越多分類的精度越高。那麼怎麼確定迭代的次數呢，在我的理解而言，之所以設置迭代次數，是因爲當數據量很大的時候，如果還想讓模型保持極高的精度，那麼所消

2020-02-21 08:45:03

原创 epoch和iteration的區別

深度學習中經常看到epoch、 iteration和batchsize，下面按自己的理解說說這三個的區別：（1）batchsize：批大小。在深度學習中，一般採用SGD訓練，即每次訓練在訓練集中取batchsize個樣本訓練；（2）ite

2020-02-21 08:45:03

2

原创結構風險最小化

損失函數和風險函數監督學習問題是在假設空間中選取模型f作爲決策函數，對於給定的輸入X，由f(X)給出相應的輸出Y，這個輸出的預測值f(x)與真實值Y可能一致也可能不一致，用一個損失函數或代價函數來度量預測錯誤的程度。損失函

2020-02-21 08:45:03

原创 Myecplise 10創建struts2流程

Myecplise 10建立struts2流程： 1.將需要的包（常用八個）複製到項目lib目錄下 2.右鍵點擊項目，選擇myecplise->Add Struts capabilities 選擇Struts2.1,之後變成下圖所

2020-02-21 08:45:03

原创 .gitignore

在使用git進行代碼的版本控制時，可能存在一些本地工作區中的文件你不想同步到遠程服務器，比如程序需要的數據（可能特別大），或者一些數據庫的配置文件（裏面包含密碼等私密信息），那麼就可以設置.gitignore文件達到

2018-09-03 18:21:41

原创 Adaboost公式推導

2018-09-03 18:21:41

原创線性可分svm公式推導

2018-09-03 18:21:41

原创動態規劃時間複雜度

一、一維動態規劃問題一維動態規劃時間複雜度一般有O(n)和O(n^2)兩種，時間複雜度取決於狀態轉移方程。 1.如果第i個狀態的確定需要利用前i-1個狀態，即dp[i]由dp[i-1],dp[i-2],...,dp[0]的取

2018-09-03 18:21:41

2

原创 python實現後綴數組排序

#sa[i]表示排名爲i的後綴的起始字符下標爲sa[i] def build_sa(s,n,m, c, sa, x, y): for i in range(0,n): x[i] = s[i] c[o

2018-09-03 18:21:41

原创支持向量機SMO算法

2018-09-03 18:21:41

原创線性支持向量機（線性不可分）

2018-09-03 18:21:41

原创邏輯斯諦迴歸模型公式推導

2018-09-03 18:21:41

原创非線性支持向量機與核函數

2018-09-03 18:21:41