1. 小Tips
三元運算符
類似C語言的條件運算符?:
語法:
c = a if a>b else b //如果a>b返回a,否則返回b
平均數 np.mean()
>>> a = np.array([[1, 2], [3, 4]])
>>> np.mean(a) # 將上面二維矩陣的每個元素相加除以元素個數(求平均數)
2.5
>>> np.mean(a, axis=0) # axis=0,計算每一列的均值
array([ 2., 3.])
>>> np.mean(a, axis=1) # 計算每一行的均值
array([ 1.5, 3.5])
range() 與 np.arange()
-
range()返回的是range object,而np.arange()返回的是numpy.ndarray(type(np.arange(10)) == np.ndarray)
- 兩者都是均勻地(evenly)等分區間;
- range儘可用於迭代,而np.arange作用遠不止於此,它是一個序列,可被當做向量使用。
-
range()不支持步長爲小數,np.arange()支持步長爲小數
-
兩者都可用於迭代
-
兩者都有三個參數,以第一個參數爲起點,第三個參數爲步長,截止到第二個參數之前的不包括第二個參數的數據序列
某種意義上,和STL中由迭代器組成的區間是一樣的,即左閉右開的區間。[first, last)或者不加嚴謹地寫作[first:step:last)
>>>range(1,5)
range(1,5)
>>>tuple(range(1, 5))
(1, 2, 3, 4)
>>>list(range(1, 5))
[1, 2, 3, 4]
>>>r = range(1, 5)
>>>type(r)
<class 'range'>
>>>for i in range(1, 5):
... print(i)
1
2
3
4
>>> np.arange(1, 5)
array([1, 2, 3, 4])
>>>range(1, 5, .1)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'float' object cannot be interpreted as an integer
>>>np.arange(1, 5, .5)
array([ 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])
>>>range(1, 5, 2)
>>>for i in range(1, 5, 2):
... print(i)
1
3
>>for i in np.arange(1, 5):
... print(i)
1
2
3
4
求最大/小值及索引值
- 列表
list = [9, 12, 88, 14, 25]
max_list = max(list) # 返回最大值
max_index = list.index(max(list))# 最大值的索引
- numpy
-
min/max是python內置的函數
-
np.argmin/np.argmax是numpy庫中的成員函數
(可適合處理numpy.ndarray對象,可選的參數是axis=0或者1)
import numpy as np
a = np.array([1, 2, 3, 4])
b = np.array((5, 6, 7, 8))
c = np.array([[11, 2, 8, 4], [4, 52, 6, 17], [2, 8, 9, 100]])
print(a)
print(b)
print(c)
print(np.argmin(c))
print(np.argmin(c, axis=0)) # 按每列求出最小值的索引
print(np.argmin(c, axis=1)) # 按每行求出最小值的索引
合併 list 爲字符串
>>> seq = ('b','o','o','k')
>>> print('_'.join(seq))
>>> b_o_o_k # 輸出結果
剪切板模塊 pyperclip
pyperclip模塊不是自帶的需要安裝
pyperclip.copy(text) 把text字符串中的字符複製到剪切板
text = pyperclip.paste() 把剪切板上的字符串複製到text
將秒數轉化爲小時分鐘秒
seconds =35400
m, s = divmod(seconds, 60)
h, m = divmod(m, 60)
print("%d:%02d:%02d" % (h, m, s))
2. 數學
隨機數
import random
print( random.randint(1,10) ) # 產生 1 到 10 的一個整數型隨機數
print( random.random() ) # 產生 0 到 1 之間的隨機浮點數
print( random.uniform(1.1,5.4) ) # 產生 1.1 到 5.4 之間的隨機浮點數,區間可以不是整數
print( random.choice('tomorrow') ) # 從序列中隨機選取一個元素
print( random.randrange(1,100,2) ) # 生成從1到100的間隔爲2的隨機整數
a=[1,3,5,6,7] # 將序列a中的元素順序打亂
random.shuffle(a)
print(a)
3. 文件相關
按分隔文件路徑名的字符串來分割
root.split(os.sep)
數據的保存和讀取
- .mat 格式,Matlab 也可以使用
保存: scipy.io.savemat()
讀取: scipy.io.loadmat()
import scipy.io as scio
data = scio.loadmat('ex3data1.mat')
X = data['X']
Y = data['y']
scio.savemat("weights.mat", {'weights': self.weights})
- .npy 格式,numpy
保存: numpy.save()
讀取: numpy.load()
import numpy as np
a = np.mat('1,2,3;4,5,6')
np.save('a.npy',a)
data_a = np.load('a.npy')
檢查文件夾是否存在,不存在則創建
if not os.path.exists(save_path):
os.makedirs(save_path)
判斷文件是否存在
if not os.path.isfile(Ground_Truth_file):
get_Ground_Truth()
遍歷文件夾中所有最裏面的子文件夾中的文件
目錄中所有 不包含子文件夾 的 文件夾 中的文件
for root, sub_dir, files in os.walk(root_path):
# only want to read files
if sub_dir != []: # Go to the bottom of the directory without folder
continue
for file in files:
img = imread(os.path.join(root, file), as_gray=True)
遍歷文件夾中的所有文件
pos_img_files = os.listdir(pos_img_path)
for file in pos_img_files:
img = imread(pos_img_path+file)
獲取當前文件名
Python獲取當前文件名可以通過__file__或者sys.argv[0],下面以test.py文件爲例.
# -*- coding: utf-8 -*-
# test.py
import sys
import os
# 絕對路徑
print(__file__)
print(sys.argv[0])
# 文件名
print(os.path.basename(__file__))
print(os.path.basename(sys.argv[0]))
輸出:
E:/Code/python3/EffectivePython/test.py
E:/Code/python3/EffectivePython/test.py
test.py
test.py
__file__和sys.argv[0]都是當前文件的絕對路徑,可以通過os.path.basename獲得文件名。
4. matplotlib 畫圖
x軸標籤旋轉
plt.xticks(rotation=45)
設置座標刻度值的大小以及刻度值的字體
plt.tick_params(labelsize=15)
labels = ax.get_xticklabels() + ax.get_yticklabels()
[label.set_fontname('Times New Roman') for label in labels]
設置橫縱座標的名稱以及對應字體格式
font = {'family': 'Times New Roman',
'weight': 'normal',
'size': 15,}
plt.xlabel('Value of C for LinearSVC', font)
設置輸出的圖片大小
figure, ax = plt.subplots(figsize=(12, 5))
5. sklearn
保存模型及參數
- pickle方法(python自帶)
from sklearn import svm #引入支持向量機
from sklearn import datasets #引入數據集
clf = svm.SVC() #使用SVC進行分類
iris = datasets.load_iris()
X,y = iris.data, iris.target clf.fit(X,y) #第一種方法,用python自帶的pickle庫
import pickle with open('save/clf.pickle','wb') as f: #以寫的形式設置一個文件:
clf.pickle pickle.dump(clf,f) #將clf這個訓練好的模型 存儲在變量f中,且保存
#導出模型並預測值:
import pickle iris = datasets.load_iris()
X,y = iris.data, iris.target
with open('save/clf.pickle','rb') as f:
#以讀取的方式 讀取模型存儲的pickle文件,並放在變量f裏
clf_load = pickle.load(f) #將模型存儲在變量clf_load中
print(clf_load.predict(X[0:5])) #調用並預測0-5的結果
- joblib方法(sklearn自帶)
from sklearn.externals import joblib
#保存
joblib.dump(best_lin_svm_clf, 'save/clf.pkl', compress=3) # 保存訓練好的clf模型 compress讀取速度
#讀取
che_clf = joblib.load('save/clf.pkl') # 讀取訓練好的clf模型
k 折交叉驗證
比如將數據集分爲10折,做一次交叉驗證,實際上它是計算了十次,將每一折都當做一次測試集,其餘九折當做訓練集,這樣循環十次。通過傳入的模型,訓練十次,最後將十次結果求平均值。將每個數據集都算一次
交叉驗證優點:
1:交叉驗證用於評估模型的預測性能,尤其是訓練好的模型在新數據上的表現,可以在一定程度上減小過擬合。
2:還可以從有限的數據中獲取儘可能多的有效信息。
我們如何利用它來選擇參數呢?
我們可以給它加上循環,通過循環不斷的改變參數,再利用交叉驗證來評估不同參數模型的能力。最終選擇能力最優的模型。
下面通過一個簡單的實例來說明:(iris鳶尾花)
from sklearn import datasets #自帶數據集
from sklearn.model_selection import train_test_split,cross_val_score #劃分數據 交叉驗證
from sklearn.neighbors import KNeighborsClassifier #一個簡單的模型,只有K一個參數,類似K-means
import matplotlib.pyplot as plt
iris = datasets.load_iris() #加載sklearn自帶的數據集
X = iris.data #這是數據
y = iris.target #這是每個數據所對應的標籤
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=1/3,random_state=3) #這裏劃分數據以1/3的來劃分 訓練集訓練結果 測試集測試結果
k_range = range(1,31)
cv_scores = [] #用來放每個模型的結果值
for n in k_range:
knn = KNeighborsClassifier(n) #knn模型,這裏一個超參數可以做預測,當多個超參數時需要使用另一種方法GridSearchCV
scores = cross_val_score(knn,train_X,train_y,cv=10,scoring='accuracy') #cv:選擇每次測試折數 accuracy:評價指標是準確度,可以省略使用默認值,具體使用參考下面。
cv_scores.append(scores.mean())
plt.plot(k_range,cv_scores)
plt.xlabel('K')
plt.ylabel('Accuracy') #通過圖像選擇最好的參數
plt.show()
best_knn = KNeighborsClassifier(n_neighbors=3) # 選擇最優的K=3傳入模型
best_knn.fit(train_X,train_y) #訓練模型
print(best_knn.score(test_X,test_y)) #看看評分
6. opencv
1. cv2.putText 文字換行(’\n’)無法解析換行
cv2.putText 在向圖像中添加文本信息時,如果在待添加的文本中含有換行轉義符,一般它是無法正確處理的:
cv2.putText(img, "This is \n some text", (50,50), cv2.FONT_HERSHEY_SIMPLEX, .6, (0, 255, 0), 1, 2)
一種解決方案如下:
img = cv2.imread('boat.png')
text = "FPS: " + str(curr_fps) + "\nperson: " + str(person_num)
y0, dy = 15, 20
for i, txt in enumerate(text.split('\n')):
y = y0 + i * dy
# cv2.putText(img, txt, (50, y), cv2.FONT_HERSHEY_SIMPLEX, .6, (0, 255, 0), 1, 2)
cv2.putText(img, text=txt, org=(3, y), fontFace=cv2.FONT_HERSHEY_SIMPLEX,
fontScale=0.50, color=(255, 0, 0), thickness=2)
cv2.imshow('img', img)
cv2.waitKey(0)