原创 PyCharm v2017 1.5 更改背景顏色、菜單欄字體和大小、代碼部分字體大小、自動生成開頭的默認代碼段

1、工具:PyCharm 2017.1.5版;windows平臺 2、更改背景顏色。打開PyCharm,點擊file->Setting->Appearance&Behavior->Appearance 在右邊的Theme 處選擇 Dar

原创 編譯從GitHub上下載的代碼中的caffe

GitHub上有很多基於caffe的深度學習的模型,解決各種各樣的任務,當我們要使用這些模型的時候,這些代碼下載到本地之後,第一步要做的就是編譯代碼中所給的caffe。 語言:Python 下面就具體寫一下編譯的步驟:(在Linux系統中

原创 針對二分類任務的特徵工程——詳細步驟解析

1、數據的探索分析EDA 數據的探索分析EDA,是對數據進行初步的統計分析,統計數據的分佈、異常、相互關係,目標是讓我們瞭解這些數據能告訴我們什麼。可以用來指導我們進行模型的選擇,比如說幫助我們初步的決定哪些特徵需要被使用,哪些特

原创 win10安裝jupyter notebook詳細步驟+修改工作路徑

1、選擇Python版本:我電腦裏python2和Python3都安裝了,在用pip安裝jupyter的時候,要指明安裝的是哪一版。實際上,當電腦裏面都多版Python的時候,進行版本之間的切換,有的時候非常迷,不知道會有什麼錯誤

原创 決策樹系列(三):CART(分類迴歸樹)-詳細原理解析

1 CART,又名分類迴歸樹 有以下特點: (1)CART是一棵二叉樹; (2)CART既能是分類樹,又能是迴歸樹,由目標任務決定; (3)當CART是分類樹時,採用GINI值作爲結點分裂的依據;當CART是迴歸樹時,採用MSE(

原创 決策樹系列(四):集成學習->boosting->提升樹->GBDT(梯度提升決策樹)-詳細原理解析

1、GBDT簡介 GBDT,英文全稱是Gradient Boosting Decision Tree,梯度提升決策樹,顧名思義,與梯度、boosting算法、決策樹有關。是一種迭代的決策樹算法,由多棵決策樹組成,每一顆決策樹也叫做

原创 推薦系統:NDCG評價指標及其Python實現方法

除了推薦任務,在二分類任務中,也可以計算該指標,代碼如下: # ndcg def get_dcg(y_pred, y_true, k): #注意y_pred與y_true必須是一一對應的,並且y_pred越大越接近labe

原创 win10的pycharm更新pip出錯

我在pycharm的Terminal中,更新pip的時候,出現了以下錯誤: OSError: raw write() returned invalid length 2 (should have been between 0 an

原创 ImportError: No module named caffe.proto解決辦法

在用自己的數據訓練基於caffe的SSD模型的時候,我們需要將圖片數據轉換成lmdb格式,用到的腳本文件是SSD源碼裏面提供的create_data.sh(具體位置在$CAFFE_ROOT/data/VOC0712/create_data

原创 pandas 小技巧——修改Series的index名稱

修改series的index名稱 series series.index.name = 'old_score_bins' # 對index的名字進行重命名

原创 pandas 小技巧——空值判斷:對整個Series/Dataframe判斷+對單獨值判斷

pandas的空值定義爲numpy.nan。對整體的series或Dataframe判斷是否未空,用isnull() pd.isnull(df) # 判斷df是否爲空,返回布爾值 df = df[df[c

原创 pandas 小技巧——用指定列的“非空值”值去填充另一列的“空值”

舉例:有df如下 >import numpy as np >df = pd.DataFrame({"name":["apple", "pear", "pig", "dog", "cat"], "number_1":[1,np.na

原创 python2.7 操作中文名文件亂碼等編碼問題

環境:python2.7 問題描述:操作具有中文名稱的文件的時候,會出現編碼報錯 比如: >import pandas as pd >df = df.read_csv(r"7w_白名單返回.csv") 輸出: IOError: F

原创 python strftime()和strptime() 日期獲取、格式轉換和計算

strftime()函數:將日期格式的日期按格式化要求轉換爲相應的字符串格式的日期。是用來格式化一個日期、日期時間和時間的函數,支持date、datetime、time等類,把這些日期、日期時間或時間通過格式字符要求格式爲字符串表

原创 python pandas set_index()和reset_index()

1、pandas.DataFrame.set_index() #將DataFrame中的列轉化爲行索引 DataFrame.set_index(keys,drop=True, append=False,inplace=F