台部落Einsam0

原创服務器安裝jupyter

服務器版本ubuntu16.04 1.看一下自帶的python版本 python --version 2.7的版本 2.安裝pip sudo apt-get install python-pip 3.安裝jupyter pip ins

2020-05-30 20:44:26

原创拉格朗日插值法補齊數據python

書上的代碼，然後具體原理公式先佔個坑，以後再詳細寫 def ployinterp_column(s, n, k=8): # 取出要插值位置的前後k個數據 y = s[list(range(n - k, n)) + li

2020-05-30 20:44:26

原创 .apply()替代for循環減少處理數據時間

目的是希望講時間對其，開始寫for循環，差不多30分鐘，然後用apply後 a=[] d=[] df1=pd.DataFrame(None,columns=['datetime','IO_2008',]) for i in range

2020-05-30 20:44:26

原创學習曲線learning curve

學習曲線是橫座標爲訓練樣本數量，橫座標爲誤差。畫的有兩條曲線，一條是訓練集誤差，一條是交叉驗證的誤差。學習曲線可以反應兩種情況，一種是高偏差，一種是高方差。高方差：過擬合，擬合效果過好，但是泛化效果差，無法泛化新的數據高誤差：欠擬合

2020-05-30 20:44:26

原创五點三次平滑+python實現

在處理工業數據的時候，工業數據有數據顆粒細，噪聲大，量大，隨着測量點的增加，數據維度高，複雜性高，而且關聯性強，不過這個關聯性是相對的，因爲有時候數據噪聲較大，顯示不出來這種關聯性。最近了解的五點三次平滑，在一個工業數據處理平臺上有這個

2020-05-30 20:44:26

原创 RSME,MSE,R2等指標的解釋與思考

最近做一個算法，直接算法中就計算了一個叫做RMSE的值，開始出來我以爲是準確率，類似於，clf.score，後來想想好像不對，所以就看來一些文章來研究了一下這些的含義。預測值和真值相差的平方和是SSE,也就是誤差平方和，這肯定是越小越好

2020-05-30 20:44:26

原创設置pandas數據框顯示最大行數

#如果要設置顯示200行 #行數 pd.set_option('display.max_rows', 200) #列數 pd.set_option('display.max_columns', 200)

2019-08-28 16:57:39

原创改進算法的方法

1.增加樣本數量該方法可以改進高方差問題，從學習曲線可以看出，隨着樣本量的增加，交叉驗證誤差和訓練集誤差越來越接近 2.減少特徵該方法可以改進高方差問題，高方差是過擬合的情況，花時間去選取更少，更合適的的特徵 3.增加特徵該方法可以

2019-05-13 03:20:39

原创 python線性插值

在缺失值填補上如果用前後的均值填補中間的均值，比如，0，空，1，我們希望中間填充0.5；或者0，空，空，1，我們希望中間填充0.33，0.67這樣。可以用pandas的函數進行填充，因爲這個就是線性插值法 df..interpolate

2019-04-25 20:57:36

原创缺失值處理總結

在測點測數據的時候存在異常值的情況，比如測得值在量程之外，該值沒有意義無法使用，歸類在異常值中，作異常值處理，將該異常值刪除，則問題轉化爲缺失值處理。缺失值處理的方法有兩種，一種是不處理，直接刪除，一種是用合適的值去填補。針對我們的業務需

2019-04-16 16:50:55

原创 sql server時間格式24小時制

數據庫時間戳要按照格式化輸出，有兩種方法： 1.Select CONVERT(varchar(100), GETDATE(), 0) 後面的 0 可以換成其他的數字，有對照表可以查詢這是改成了8，可以改成不一樣的數字對應不同的結果

2019-03-29 16:35:12

620

原创服務器安裝jupyter

原创拉格朗日插值法補齊數據python

原创 .apply()替代for循環減少處理數據時間

原创學習曲線learning curve

原创五點三次平滑+python實現

原创 RSME,MSE,R2等指標的解釋與思考

原创設置pandas數據框顯示最大行數

原创改進算法的方法

原创 python線性插值

原创缺失值處理總結

原创 sql server時間格式24小時制

原创神經網絡基礎知識

原创 RBF神經網絡筆記

原创 python畫矢量圖

原创 pip錯誤 ImportError: No module named _internal