金融與量化投資

一、介紹

1、量化投資第三方相關模塊

NumPy：數組批量計算

Pandas：表計算與數據分析

Matplotlib：圖表繪製

2、如何使用Python進行量化投資

自己編寫：NumPy+pandas+Matplotlib+……

在線平臺：聚寬、優礦、米筐、Quantopian、……

開源框架：RQAlpha、QUANTAXIS、……

金融：就是對現有資源進行重新整合之後，實現價值和利潤的等效流通。

量化投資：利用計算機技術並且採用一定的數學模型去實踐投資理念，實現投資策略的過程。

量化投資的優勢：

避免主觀情緒、人性弱點和認知偏差，選擇更加客觀

能同時包括多角度的觀察和多層次的模型

及時跟蹤市場變化，不斷髮現新的統計模型，尋找交易機會

在決定投資策略後，能通過回測驗證其效果

量化策略：通過一套固定的邏輯來分析、判斷和決策，自動化地進行股票交易

二、IPython和jupyter

IPython是交互式的Python命令行

pip install ipython

使用：ipython

pip install jupyter

執行命令：jupyter-notebook

三、IPython快捷鍵及常用命令

1、IPython快捷鍵

2、IPython的魔法命令

3、IPython調試器命令

四、NumPy：數組計算

NumPy是高性能科學計算和數據分析的基礎包。它是pandas等其他各種工具的基礎。

NumPy的主要功能：

ndarray，一個多維數組結構，高效且節省空間

無需循環對整組數據進行快速運算的數學函數

*讀寫磁盤數據的工具以及用於操作內存映射文件的工具

*線性代數、隨機數生成和傅里葉變換功能

*用於集成C、C++等代碼的工具

安裝方法：pip install numpy

引用方式：import numpy as np

例1：已知若干家跨國公司的市值（美元），將其換算爲人民幣
import numpy as np
import random
a = [random.uniform(100.0,200.0) for _ in range(1000)]            #隨機生成有1000個小數的列表
# list(map(lambda x:x*6.6,a))                                  #每個元素都乘6.6，組成新的列表
arr = np.array(a)                                                  #列表轉化爲數組
arr * 6.6                                                         #對數組每個值乘以6.6得到所需的值

例2：已知購物車中每件商品的價格與商品件數，求總金額
price = [random.uniform(10,20) for _ in range(100)]
num = [random.randint(1,10) for _ in range(100)]
# sum_p=0
# for p,n in zip(price,num):                                   #拉鍊函數把對應的值相乘
#         sum_p+=p*n
# print(sum_p)
price_arr = np.array(price)                                #價格列表變成數組
num_arr = np.array(num)                                   #數量列表變成數組
np.sum(price_arr*num_arr)

五、NumPy常用屬性和常用方法

常用屬性：

T 數組的轉置（對高維數組而言）

dtype數組元素的數據類型

size數組元素的個數

ndim數組的維數

shape數組的維度大小（以元組形式）

常用方法：
array.shape                         array的規格
array.ndim
array.dtype                         array的數據規格
numpy.zeros(dim1,dim2)              創建dim1*dim2的零矩陣
numpy.arange
numpy.eye(n) /numpy.identity(n)     創建n*n單位矩陣
numpy.array([…data…], dtype=float64 )
array.astype(numpy.float64)         更換矩陣的數據形式
array.astype(float)                 更換矩陣的數據形式
array * array                       矩陣點乘
array[a:b]                          切片
array.copy()                        得到ndarray的副本，而不是視圖
array [a] [b]=array [ a, b ]        兩者等價
name=np.array(['bob','joe','will']) res=name==’bob’ res= array([ True, False, False], dtype=bool)
data[True,False,…..]                索引，只索取爲True的部分，去掉False部分
通過布爾型索引選取數組中的數據，將總是創建數據的副本。
data[ [4,3,0,6] ]                   索引，將第4,3,0,6行摘取出來，組成新數組
data[-1]=data[data.__len__()-1]
numpy.reshape(a,b)                  將a*b的一維數組排列爲a*b的形式
array([a,b,c,d],[d,e,f,g])          返回一維數組，分別爲[a,d],[b,e],[c,f],[d,g]
array[ [a,b,c,d] ][:,[e,f,g,h] ]=array[ numpy.ix_( [a,b,c,d],[e,f,g,h] ) ]
array.T                             array的轉置
numpy.random.randn(a,b)             生成a*b的隨機數組
numpy.dot(matrix_1,matrix_2)        矩陣乘法
array.transpose( (1,0,2,etc.) )     對於高維數組，轉置需要一個由軸編號組成的元組

創建ndarray：
    array()         將列表轉換爲數組，可選擇顯式指定dtype
    arange()        range的numpy版，支持浮點數，np.arange(2,10,0.2) 步長可以爲小數
    linspace()      類似arange()，第三個參數爲數組長度，分爲多少份
    zeros()         根據指定形狀和dtype創建全0數組
    ones()          根據指定形狀和dtype創建全1數組
    empty()         根據指定形狀和dtype創建空數組（隨機值）
    eye()           根據指定邊長和dtype創建單位矩陣

六、NumPy：索引和切片

1、數組和標量之間的運算

a+1 a*3 1//a a**0.5

2、同樣大小數組之間的運算

a+b a/b a**b

3、數組的索引：

一維數組：a[5]

多維數組：

列表式寫法：a[2][3]

新式寫法：a[2,3] (推薦)

數組的切片：

一維數組：a[5:8] a[4:] a[2:10] = 1

多維數組：a[1:2, 3:4] a[:,3:5] a[:,1]

4、強調：與列表不同，數組切片時並不會自動複製，在切片數組上的修改會影響原數組。【解決方法：copy()】

arr=np.arange(10).reshape(2,5)             #生成的數組元素0到9通過reshape拆成兩行，五列，要拆的行列相乘必須等於數組的總元素
arr=np.arange(10).reshape(2,-1)            #後面-1是佔位的，會通過計算得到列數
ag=[random.randint(1,10) for _ in range(20)]
list(filter(lambda x:x>5,ag))            #過濾大於5的元素列表
ag= np.array(ag)
a[a>5]                                   #給一個數組，選出數組中所有大於5的數
a[(a>5) & (a%2==0)]                      #給一個數組，選出數組中所有大於5的偶數
a[(a>5) | (a%2==0)]                       #給一個數組，選出數組中所有大於5的數和偶數。


import numpy as np
a = np.array([1,2,3,4,5,4,7,8,9,10])
a[a>5&(a%2==0)]                               #注意加括號
輸出：array([ 1,  2,  3,  4,  5,  4,  7,  8,  9, 10])
a[(a>5)&(a%2==0)]
輸出：array([ 8, 10])


對一個二維數組，選出其第一列和第三列，組成新的二維數組
a[:,[1,3]]

七、NumPy：通用函數’

通用函數：能同時對數組中所有元素進行運算的函數

常見通用函數：

一元函數：abs, sqrt, exp, log, ceil, floor, rint, trunc, modf, isnan, isinf, cos, sin, tan

numpy.sqrt(array)                   平方根函數
numpy.exp(array)                    e^array[i]的數組
numpy.abs/fabs(array)               計算絕對值
numpy.square(array)                 計算各元素的平方 等於array**2
numpy.log/log10/log2(array)         計算各元素的各種對數
numpy.sign(array)                   計算各元素正負號
numpy.isnan(array)                  計算各元素是否爲NaN
numpy.isinf(array)                  計算各元素是否爲inf
numpy.cos/cosh/sin/sinh/tan/tanh(array) 三角函數
numpy.modf(array)                   將array中值得整數和小數分離，作兩個數組返回
numpy.ceil(array)                   向上取整,也就是取比這個數大的整數
numpy.floor(array)                  向下取整,也就是取比這個數小的整數
numpy.rint(array)                   四捨五入
numpy.trunc(array)                  向0取整
numpy.cos(array)                       正弦值
numpy.sin(array)                    餘弦值
numpy.tan(array)                    正切值

二元函數：add, substract, multiply, divide, power, mod, maximum, mininum,

numpy.add(array1,array2)            元素級加法
numpy.subtract(array1,array2)       元素級減法
numpy.multiply(array1,array2)       元素級乘法
numpy.divide(array1,array2)         元素級除法 array1./array2
numpy.power(array1,array2)          元素級指數 array1.^array2
numpy.maximum/minimum(array1,aray2) 元素級最大值/最小值
numpy.fmax/fmin(array1,array2)      元素級最大值，忽略NaN
numpy.mod(array1,array2)            元素級求模
numpy.copysign(array1,array2)       將第二個數組中值得符號複製給第一個數組中值
numpy.greater/greater_equal/less/less_equal/equal/not_equal (array1,array2)
元素級比較運算，產生布爾數組
numpy.logical_end/logical_or/logic_xor(array1,array2)元素級的真值邏輯運算

浮點數有兩個特殊值：

nan(Not a Number)：不等於任何浮點數（nan != nan）

inf(infinity)：比任何浮點數都大

NumPy中創建特殊值：np.nannp.inf

在數據分析中，nan常被用作表示數據缺失值
a=np.nan
b=np.inf
np.isnan(a)                       #判斷a是否是nan
np.isinf(b)                      #判斷b是否是inf
a[~np.isnan(a)]                   #刪除數組中的nan

八、NumPy：數學和統計方法

1、常用函數：

sum求和
cumsum 求前綴和
mean求平均數
std求標準差
var求方差
min求最小值
max求最大值
argmin求最小值索引
argmax求最大值索引

arr=np.arange(15).reshape(3,5)
arr.sum(axis=0)              #行作爲軸，對數組逐列求和
arr.sum(axis=1)              #列作爲軸，對數組逐行求和

2、NumPy：隨機數生成

隨機數生成函數在np.random子包內

常用函數
rand給定形狀產生隨機數組（0到1之間的數）
randint給定形狀產生隨機整數
choice給定形狀產生隨機選擇
shuffle與random.shuffle相同
uniform給定形狀產生隨機小數數組

九、pandas簡單介紹

pandas是一個基於NumPy構建的強大的Python數據分析的工具包。

1、pandas的主要功能

具備對其功能的數據結構DataFrame、Series

集成時間序列功能

提供豐富的數學運算和操作

靈活處理缺失數據

2、安裝方法：pip install pandas

3、引用方法：import pandas as pd

十、Series

Series是一種類似於一位數組的對象，由一組數據和一組與之相關的數據標籤（索引）組成。

1、創建方式：

    pd.Series([4,7,-5,3])                                      #默認元素下標數字
    pd.Series([4,7,-5,3],index=['a','b','c','d'])            #兩套索引系統，下標和標籤
    pd.Series({'a':1, 'b':2})
    pd.Series(0, index=['a','b','c','d'])

2、Series支持數組的特性：

從ndarray創建Series：Series(arr)

與標量運算：sr*2

兩個Series運算：sr1+sr2

索引：sr[0], sr[[1,2,4]]

切片：sr[0:2]（切片依然是視圖形式）

通用函數：np.abs(sr)

布爾值過濾：sr[sr>0]

統計函數：

mean() #求平均數

sum() #求和

cumsum() #累加

s = pd.Series(0,index=['a','b','c','d'])
s.a                    #結果0
v = pd.Series({'a':1,'b':2})
v.a                    #結果1
v.b                      #結果2
v[0]                    #結果1
s*2
#結果
a    0
b    0
c    0
d    0
dtype: int64
v*2
#結果
a    2
b    4
dtype: int64

3、整數索引

sr = np.Series(np.arange(4.))

sr[-1]

如果索引是整數類型，則根據整數進行數據操作時總是面向標籤的。

loc屬性以標籤解釋

iloc屬性以下標解釋

十一、pandas：Series數據對齊

pandas在運算時，會按索引進行對齊然後計算。如果存在不同的索引，則結果的索引是兩個操作數索引的並集。

    sr1 = pd.Series([12,23,34], index=['c','a','d'])
    sr2 = pd.Series([11,20,10], index=['d','c','a',])
    sr=sr1+sr2
    sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
    sr1+sr3
    
    如何在兩個Series對象相加時將缺失值設爲0？
    sr1.add(sr2, fill_value=0)
    靈活的算術方法：add, sub, div, mul

十二、pandas：Series缺失數據

1、缺失數據：使用NaN（Not a Number）來表示缺失數據。其值等於np.nan。內置的None值也會被當做NaN處理。

2、處理缺失數據的相關方法：

dropna()過濾掉值爲NaN的行
fillna()填充缺失數據
isnull()返回布爾數組，缺失值對應爲True
notnull()返回布爾數組，缺失值對應爲False

3、過濾缺失數據：sr.dropna() 或 sr[data.notnull()]

4、填充缺失數據：fillna(0)

sr=sr.dropna()                       #丟掉缺失值
sr=sr.fillna(0)                       #缺失值填充爲0
sr=sr.fillna(sr.mean())                 #缺失值填充爲平均數

十三、pandas：DataFrame與DataFrame查看數據

1、DataFrame

DataFrame是一個表格型的數據結構，含有一組有序的列。

DataFrame可以被看做是由Series組成的字典，並且共用一個索引。

創建方式：
pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})
……
csv文件讀取與寫入：
df.read_csv('E:\算法\day110 Numpy、Pandas模塊\601318.csv')
df.to_csv()

2、DataFrame查看數據

查看數據常用屬性及方法：

index 獲取索引

T 轉置

columns 獲取列索引

values 獲取值數組

describe() 獲取快速統計

DataFrame各列name屬性：列名

rename(columns={})

十四、pandas：DataFrame索引和切片

1、DataFrame有行索引和列索引。

2、DataFrame同樣可以通過標籤和位置兩種方法進行索引和切片。

3、DataFrame使用索引切片：

方法1：兩個中括號，先取列再取行。 df['A'][0]

方法2（推薦）：使用loc / iloc屬性，一箇中括號，逗號隔開，先取行再取列。

loc屬性：解釋爲標籤

iloc屬性：解釋爲下標

向DataFrame對象中寫入值時只使用方法2

行 / 列索引部分可以是常規索引、切片、布爾值索引、花式索引任意搭配。（注意：兩部分都是花式索引時結果可能與預料的不同）

通過標籤獲取：
df['A']
df[['A', 'B']]
df['A'][0]
df[0:10][['A', 'C']]
df.loc[:, ['A', 'B']]  # 行是所有的行，列取是A和B的
df.loc[:, 'A':'C']
df.loc[0, 'A']
df.loc[0:10, ['A', 'C']]

通過位置獲取：
df.iloc[3]
df.iloc[3, 3]
df.iloc[0:3, 4:6]
df.iloc[1:5, :]
df.iloc[[1, 2, 4], [0, 3]]、

通過布爾值過濾：
　　df[df['A'] > 0]
　　df[df['A'].isin([1, 3, 5])]
　　df[df < 0] = 0

十五、pandas：DataFrame數據對齊與缺失數據

DataFrame對象在運算時，同樣會進行數據對齊，行索引與列索引分別對齊。

結果的行索引與列索引分別爲兩個操作數的行索引與列索引的並集。

1、DataFrame處理缺失數據的相關方法：

dropna(axis=0,how=‘any’,…) 過濾掉包含值爲NaN的行
fillna()填充缺失數據
isnull()返回布爾數組，缺失值對應爲True
notnull()返回布爾數組，缺失值對應爲False

df2.dropna(axis=0,how="all")            #一行全是nan的就丟掉

2、pandas：其他常用方法

- mean #求平均值

- sum #求和

- sort_index #按行或列索引排序

- sort_values #按值排序

- apply(func,axis=0) #axis=0指的是逐行，axis=1指的是逐列。

df.apply(lamada x:x.mean()) #按列求平均

df.apply(lamada x:x['high']+x["low"])/2,axis=1) #按列求平均（最高價和最低價的平均）

- applymap(func) #將函數應用在DataFrame各個元素上

- map(func) #將函數應用在Series各個元素上

df2=df.loc[:,"open":"low"]         #對所有行取open列到low列的元素
df2.sort_values("open")             #基於open列的數據進行升序排序
df2.sort_values("open",ascending=False)       #基於open列的數據倒序排序

3、pandas：時間對象處理

時間序列類型：

時間戳：特定時刻

固定時期：如2017年7月

時間間隔：起始時間-結束時間

Python標準庫：datetime

datetime.datetime.timedelta # 表示時間間隔

dt.strftime() #f：format吧時間對象格式化成字符串

strptime() #吧字符串解析成時間對象p：parse

靈活處理時間對象：dateutil包

dateutil.parser.parse('2018/1/29')

成組處理時間對象：pandas

pd.to_datetime(['2001-01-01', '2002-02-02'])

產生時間對象數組：date_range

start 開始時間

end 結束時間

periods 時間長度

freq 時間頻率，默認爲'D'，可選H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

pd.date_range(['2001-01-01', '2002-02-02'])

pd.date_range(['2001-01-01',periods=10])

4、pandas：時間序列

（1）時間序列就是以時間對象爲索引的Series或DataFrame。

（2）datetime對象作爲索引時是存儲在DatetimeIndex對象中的。

（3）時間序列特殊功能：

傳入“年”或“年月”作爲切片方式

傳入日期範圍作爲切片方式

豐富的函數支持：resample(), strftime(), ……

批量轉換爲datetime對象：to_pydatetime()

df.index = pd.DatetimeIndex(pd.to_datetime(df["date"])) #date變成時間索引

del df["date"] #刪掉原來的date列

十六、pandas：從文件讀取

1、時間序列就是以時間對象作爲索引

讀取文件：從文件名、URL、文件對象中加載數據
read_csv               默認分隔符爲逗號
read_table            默認分隔符爲\t
read_excel             讀取excel文件

2、讀取文件函數主要參數：

sep                  指定分隔符，可用正則表達式如'\s+'
header = None             指定文件無列名
name                 指定列名
index_col             指定某列作爲索引
skip_row              指定跳過某些行
na_values             指定某些字符串表示缺失值，na_values=["None","null"],對應的顯示爲nan
parse_dates           指定某些列是否被解析爲日期，布爾值或列表，爲True表示轉換爲時間對象
df = pd.read_csv("601318.csv")                # 默認以,爲分隔符
     - pd.read_csv("601318.csv", sep='\s+')  # 匹配空格，支持正則表達式
     - pd.read_table("601318.csv", sep=',')  # 和df = pd.read_csv("601318.csv")   一樣
     - pd.read_excle("601318.xlsx")          # 讀Excel文件
     
sep：指定分隔符
header = None, 就會吧默認的表名去除,如果後面names=list("abcdef")表示使用abcdef作爲header
df.rename(column={0: 'a', 1: "b"})  # 修改列名
pd.read_csv(index_col=0)              # 第0列
如果想讓時間成爲索引，pd.read_csv(index_col='date')  # 時間列
pd.read_csv(index_col='date', parse_datas=True)     # 時間列，parse_datas轉換爲時間對象，設爲true是吧所有能轉的都轉
pd.read_csv(index_col='date', parse_datas=['date'])  # 把date的那一列轉換成時間對象
na_values = ['None']  # 吧表裏面爲None的轉換成NaN，是吧字符串轉換成缺失值
na_rep()               # 是吧缺失值nan轉換成字符串

cols                   # 指定輸出的列，傳入列表

十七、pandas：寫入到文件

1、寫入到文件：

to_csv

2、寫入文件函數的主要參數：

sep

na_rep 指定缺失值轉換的字符串，默認爲空字符串

header = False 不輸出列名一行

index = False 不輸出行索引一列

cols 指定輸出的列，傳入列表

3、其他文件類型：json, XML, HTML, 數據庫

4、pandas轉換爲二進制文件格式（pickle）:

save

load

十八、pandas:數據分組與聚合

分組
df = pd.DateFrame({
'data1':np.random.uniform(10, 20, 5),
'data2':np.random.uniform(-10, 10, 5),
'key1':list("sbbsb")
'key2':
})
df.groupby('key1').mean()  # 做平均
df.groupby('key1').sum()  # 做平均
df.groupby(['key1', 'key2']).mean()  # 做平均  支持分層索引，按多列分組
df.groupby(len).mean()  # 傳一個函數的時候，x是每一個行的索引
df.groupby(lambda x: len(x)).mean()  # 傳一個函數的時候，x是每一個行的索引
df.groupby.groups()  # 取得多有的組
df.groupby.get_group()  # 取得一個組


聚合
df.groupby('key1').max()[['data1', 'data2']]  # 去掉key2的data1，data2，花式索引
df.groupby('key1').max()[['data1', 'data2']] - df.groupby('key1').min()[['data1', 'data2']]  # 去掉key2
df.groupby('key1').agg(lamada
x:x.max() - x.min())
既想看最大也可看最小
df.groupby('key1').agg([np.max, np.min])
不同的列不一樣的聚合
df.groupby('key1').agg({'data1': 'min', 'data2': 'max'})  # 鍵是列名，值是
a = _219  # 219行的代碼
a.resample('3D'), mean()  # 3D 3天，3M就是三週

數據合併
- 數據拼接
df = df.copy()
pd.concat([df, df2, df3], ignore_index=True)  # 不用之前的索引，
pd.concat([df, df2, df3], axis=1)  # 列
pd.concat([df, df2, df3], keys=['a', 'b', 'c'])  # 不用之前的索引，
df2.appeng(df3)
- 數據連接
如果不指定on，默認是行索引進行join
pd.merge(df, df3, on='key1')
pd.merge(df, df3, on='['key1','key2'])

十九、簡單介紹Matplotlib

1、Matplotlib是一個強大的Python繪圖和數據可視化的工具包

2、安裝方法：pip install matplotlib

3、引用方法：import matplotlib.pyplot as plt

4、繪圖函數：plt.plot()

5、顯示圖像：plt.show()

6、plot函數

（1）plot函數：繪製折線圖

線型linestyle（-,-.,--,..）

點型marker（v,^,s,*,H,+,x,D,o,…）

顏色color（b,g,r,y,k,w,…）

（2）plot函數繪製多條曲線

（3）pandas包對plot的支持

7、圖像標註

設置圖像標題：plt.title()

設置x軸名稱：plt.xlabel()

設置y軸名稱：plt.ylabel()

設置x軸範圍：plt.xlim()

設置y軸範圍：plt.ylim()

設置x軸刻度：plt.xticks()

設置y軸刻度：plt.yticks()

設置曲線圖例：plt.legend()

二十、示例

使用Matplotlib模塊在一個窗口中繪製數學函數y=x, y=x2, y=sin(x)的圖像，使用不同顏色的線加以區別

x=np.linspace(-100,100,10000))
y1=x
y2=x**2
y3=np.sin(x)
plt.plot(x,y1,label="$y=x$")
plt.plot(x,y2,label="$y=x^2$")
plt.plot(x,y3,label="$y=\sin x$")
plt.ylim(-100,100)            #顯示Y軸範圍自定義
plt.legend()
plt.show()

二十一、圖形定義

金融與量化投資

vmware workstation使用NAT模式聯網

三級菜單

替代redis的高性能NoSQL 數據庫--SSDB

redis安裝使用和數據持久化

elk分析nginx日誌和tomcat日誌

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結