原创 服務器安裝jupyter

服務器版本ubuntu16.04 1.看一下自帶的python版本 python --version 2.7的版本 2.安裝pip sudo apt-get install python-pip 3.安裝jupyter pip ins

原创 拉格朗日插值法補齊數據python

書上的代碼,然後具體原理公式先佔個坑,以後再詳細寫  def ployinterp_column(s, n, k=8):     # 取出要插值位置的前後k個數據     y = s[list(range(n - k, n)) + li

原创 .apply()替代for循環減少處理數據時間

 目的是希望講時間對其,開始寫for循環,差不多30分鐘,然後用apply後 a=[] d=[] df1=pd.DataFrame(None,columns=['datetime','IO_2008',]) for i in range

原创 學習曲線learning curve

學習曲線是橫座標爲訓練樣本數量,橫座標爲誤差。畫的有兩條曲線,一條是訓練集誤差,一條是交叉驗證的誤差。 學習曲線可以反應兩種情況,一種是高偏差,一種是高方差。 高方差:過擬合,擬合效果過好,但是泛化效果差,無法泛化新的數據 高誤差:欠擬合

原创 五點三次平滑+python實現

在處理工業數據的時候,工業數據有數據顆粒細,噪聲大,量大,隨着測量點的增加,數據維度高,複雜性高,而且關聯性強,不過這個關聯性是相對的,因爲有時候數據噪聲較大,顯示不出來這種關聯性。 最近了解的五點三次平滑,在一個工業數據處理平臺上有這個

原创 RSME,MSE,R2等指標的解釋與思考

最近做一個算法,直接算法中就計算了一個叫做RMSE的值,開始出來我以爲是準確率,類似於,clf.score,後來想想好像不對,所以就看來一些文章來研究了一下這些的含義。 預測值和真值相差的平方和是SSE,也就是誤差平方和,這肯定是越小越好

原创 設置pandas數據框顯示最大行數

#如果要設置顯示200行 #行數 pd.set_option('display.max_rows', 200) #列數 pd.set_option('display.max_columns', 200)  

原创 改進算法的方法

1.增加樣本數量 該方法可以改進高方差問題,從學習曲線可以看出,隨着樣本量的增加,交叉驗證誤差和訓練集誤差越來越接近 2.減少特徵 該方法可以改進高方差問題,高方差是過擬合的情況,花時間去選取更少,更合適的的特徵 3.增加特徵 該方法可以

原创 python線性插值

在缺失值填補上如果用前後的均值填補中間的均值,比如,0,空,1,我們希望中間填充0.5;或者0,空,空,1,我們希望中間填充0.33,0.67這樣。可以用pandas的函數進行填充,因爲這個就是線性插值法 df..interpolate

原创 缺失值處理總結

在測點測數據的時候存在異常值的情況,比如測得值在量程之外,該值沒有意義無法使用,歸類在異常值中,作異常值處理,將該異常值刪除,則問題轉化爲缺失值處理。缺失值處理的方法有兩種,一種是不處理,直接刪除,一種是用合適的值去填補。針對我們的業務需

原创 sql server時間格式24小時制

數據庫時間戳要按照格式化輸出,有兩種方法: 1.Select CONVERT(varchar(100), GETDATE(), 0)  後面的 0 可以換成其他的數字,有對照表可以查詢 這是改成了8,可以改成不一樣的數字對應不同的結果

原创 RBF神經網絡筆記

   

原创 python畫矢量圖

用matplotlib畫圖有輸出的圖放大看會很模糊,即使可以使用 fig = plt.figure(figsize=(15,6))#設置畫布尺寸 這樣設置確實是等比例放大的,但是仔細看還是模糊。 矢量圖的話無論怎麼方法也是很清楚。

原创 pip錯誤 ImportError: No module named _internal

服務器自帶的python是2.7,就先安裝了pip,後來發現又按不上jupyter了,提示信息說jupyter要依賴python3??怎麼會這樣,真是服了,之前服務器都好的很,也成功安裝,後來因爲寫教程的原因就重裝的系統,從零開始記錄,現