原创 pyspark數據分析常用算子
不斷更新 1.filter (1)單條件過濾 data = df.filter(df['age'] == 20)) 或者 data = df.filter('age = 20') (2)多條件過濾 data = df.filte
原创 關聯本地倉庫與遠程gitlab倉庫
1.先在gitlab創建一個倉庫 2.把本地工程push到gitlab已有倉庫 cd demo 切換到工程目錄git init 通過該命令把工程目錄(demo)變成Git可以管理的倉庫git r
原创 adaboost迭代次數的理解
對於adaboost算法而言,迭代幾次就產生幾個基本分類器,當然分類器的個數越多分類的精度越高。那麼怎麼確定迭代的次數呢,在我的理解而言,之所以設置迭代次數,是因爲當數據量很大的時候,如果還想讓模型保持極高的精度,那麼所消
原创 epoch和iteration的區別
深度學習中經常看到epoch、 iteration和batchsize,下面按自己的理解說說這三個的區別:(1)batchsize:批大小。在深度學習中,一般採用SGD訓練,即每次訓練在訓練集中取batchsize個樣本訓練;(2)ite
原创 結構風險最小化
損失函數和風險函數 監督學習問題是在假設空間中選取模型f作爲決策函數,對於給定的輸入X,由f(X)給出相應的輸出Y,這個輸出的預測值f(x)與真實值Y可能一致也可能不一致,用一個損失函數或代價函數來度量預測錯誤的程度。損失函
原创 Myecplise 10創建struts2流程
Myecplise 10建立struts2流程: 1.將需要的包(常用八個)複製到項目lib目錄下 2.右鍵點擊項目,選擇myecplise->Add Struts capabilities 選擇Struts2.1,之後變成下圖所
原创 .gitignore
在使用git進行代碼的版本控制時,可能存在一些本地工作區中的文件你不想同步到遠程服務器,比如程序需要的數據(可能特別大),或者一些數據庫的配置文件(裏面包含密碼等私密信息),那麼就可以設置.gitignore文件達到
原创 動態規劃時間複雜度
一、一維動態規劃問題 一維動態規劃時間複雜度一般有O(n)和O(n^2)兩種,時間複雜度取決於狀態轉移方程。 1.如果第i個狀態的確定需要利用前i-1個狀態,即dp[i]由dp[i-1],dp[i-2],...,dp[0]的取
原创 python實現後綴數組排序
#sa[i]表示排名爲i的後綴的起始字符下標爲sa[i] def build_sa(s,n,m, c, sa, x, y): for i in range(0,n): x[i] = s[i] c[o