原创 pyspark數據分析常用算子

不斷更新 1.filter (1)單條件過濾 data = df.filter(df['age'] == 20)) 或者 data = df.filter('age = 20') (2)多條件過濾 data = df.filte

原创 關聯本地倉庫與遠程gitlab倉庫

1.先在gitlab創建一個倉庫 2.把本地工程push到gitlab已有倉庫 cd demo         切換到工程目錄git init             通過該命令把工程目錄(demo)變成Git可以管理的倉庫git r

原创 adaboost迭代次數的理解

        對於adaboost算法而言,迭代幾次就產生幾個基本分類器,當然分類器的個數越多分類的精度越高。那麼怎麼確定迭代的次數呢,在我的理解而言,之所以設置迭代次數,是因爲當數據量很大的時候,如果還想讓模型保持極高的精度,那麼所消

原创 epoch和iteration的區別

深度學習中經常看到epoch、 iteration和batchsize,下面按自己的理解說說這三個的區別:(1)batchsize:批大小。在深度學習中,一般採用SGD訓練,即每次訓練在訓練集中取batchsize個樣本訓練;(2)ite

原创 結構風險最小化

損失函數和風險函數        監督學習問題是在假設空間中選取模型f作爲決策函數,對於給定的輸入X,由f(X)給出相應的輸出Y,這個輸出的預測值f(x)與真實值Y可能一致也可能不一致,用一個損失函數或代價函數來度量預測錯誤的程度。損失函

原创 Myecplise 10創建struts2流程

Myecplise 10建立struts2流程: 1.將需要的包(常用八個)複製到項目lib目錄下   2.右鍵點擊項目,選擇myecplise->Add Struts capabilities   選擇Struts2.1,之後變成下圖所

原创 .gitignore

           在使用git進行代碼的版本控制時,可能存在一些本地工作區中的文件你不想同步到遠程服務器,比如程序需要的數據(可能特別大),或者一些數據庫的配置文件(裏面包含密碼等私密信息),那麼就可以設置.gitignore文件達到

原创 Adaboost公式推導

原创 動態規劃時間複雜度

一、一維動態規劃問題    一維動態規劃時間複雜度一般有O(n)和O(n^2)兩種,時間複雜度取決於狀態轉移方程。    1.如果第i個狀態的確定需要利用前i-1個狀態,即dp[i]由dp[i-1],dp[i-2],...,dp[0]的取

原创 python實現後綴數組排序

#sa[i]表示排名爲i的後綴的起始字符下標爲sa[i] def build_sa(s,n,m, c, sa, x, y): for i in range(0,n): x[i] = s[i] c[o