第9章 時序數據
import pandas as pd
import numpy as np
一、時序的創建
1. 四類時間變量
現在理解可能關於③和④有些困惑,後面會作出一些說明
名稱 |
描述 |
元素類型 |
創建方式 |
① Date times(時間點/時刻) |
描述特定日期或時間點 |
Timestamp |
to_datetime或date_range |
② Time spans(時間段/時期) |
由時間點定義的一段時期 |
Period |
Period或period_range |
③ Date offsets(相對時間差) |
一段時間的相對大小(與夏/冬令時無關) |
DateOffset |
DateOffset |
④ Time deltas(絕對時間差) |
一段時間的絕對大小(與夏/冬令時有關) |
Timedelta |
to_timedelta或timedelta_range |
2. 時間點的創建
(a)to_datetime方法
Pandas在時間點建立的輸入格式規定上給了很大的自由度,下面的語句都能正確建立同一時間點
pd.to_datetime('2020.1.1')
pd.to_datetime('2020 1.1')
pd.to_datetime('2020 1 1')
pd.to_datetime('2020 1-1')
pd.to_datetime('2020-1 1')
pd.to_datetime('2020-1-1')
pd.to_datetime('2020/1/1')
pd.to_datetime('1.1.2020')
pd.to_datetime('1.1 2020')
pd.to_datetime('1 1 2020')
pd.to_datetime('1 1-2020')
pd.to_datetime('1-1 2020')
pd.to_datetime('1-1-2020')
pd.to_datetime('1/1/2020')
pd.to_datetime('20200101')
pd.to_datetime('2020.0101')
Timestamp('2020-01-01 00:00:00')
下面的語句都會報錯
此時可利用format參數強制匹配
pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d')
pd.to_datetime('2020`1`1',format='%Y`%m`%d')
pd.to_datetime('2020.1 1',format='%Y.%m %d')
pd.to_datetime('1 1.2020',format='%d %m.%Y')
Timestamp('2020-01-01 00:00:00')
同時,使用列表可以將其轉爲時間點索引
pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))
2020-01-01 0
2020-01-02 1
dtype: int64
type(pd.to_datetime(['2020/1/1','2020/1/2']))
pandas.core.indexes.datetimes.DatetimeIndex
對於DataFrame而言,如果列已經按照時間順序排好,則利用to_datetime可自動轉換
df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]})
pd.to_datetime(df)
0 2020-01-01
1 2020-01-02
dtype: datetime64[ns]
(b)時間精度與範圍限制
事實上,Timestamp的精度遠遠不止day,可以最小到納秒ns
pd.to_datetime('2020/1/1 00:00:00.123456789')
Timestamp('2020-01-01 00:00:00.123456789')
同時,它帶來範圍的代價就是隻有大約584年的時間點是可用的
pd.Timestamp.min
Timestamp('1677-09-21 00:12:43.145225')
pd.Timestamp.max
Timestamp('2262-04-11 23:47:16.854775807')
(c)date_range方法
一般來說,start/end/periods(時間點個數)/freq(間隔方法)是該方法最重要的參數,給定了其中的3個,剩下的一個就會被確定
pd.date_range(start='2020/1/1',end='2020/1/10',periods=3)
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-05 12:00:00',
'2020-01-10 00:00:00'],
dtype='datetime64[ns]', freq=None)
pd.date_range(start='2020/1/1',end='2020/1/10',freq='D')
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
'2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
'2020-01-09', '2020-01-10'],
dtype='datetime64[ns]', freq='D')
pd.date_range(start='2020/1/1',periods=3,freq='D')
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')
pd.date_range(end='2020/1/3',periods=3,freq='D')
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')
其中freq參數有許多選項,下面將常用部分羅列如下,更多選項可看這裏
符號 |
D/B |
W |
M/Q/Y |
BM/BQ/BY |
MS/QS/YS |
BMS/BQS/BYS |
H |
T |
S |
描述 |
日/工作日 |
周 |
月末 |
月/季/年末日 |
月/季/年末工作日 |
月/季/年初日 |
月/季/年初工作日 |
小時 |
分鐘 |
pd.date_range(start='2020/1/1',periods=3,freq='T')
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:01:00',
'2020-01-01 00:02:00'],
dtype='datetime64[ns]', freq='T')
pd.date_range(start='2020/1/1',periods=3,freq='M')
DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31'], dtype='datetime64[ns]', freq='M')
pd.date_range(start='2020/1/1',periods=3,freq='BYS')
DatetimeIndex(['2020-01-01', '2021-01-01', '2022-01-03'], dtype='datetime64[ns]', freq='BAS-JAN')
bdate_range是一個類似與date_range的方法,特點在於可以在自帶的工作日間隔設置上,再選擇weekmask參數和holidays參數
它的freq中有一個特殊的’C’/‘CBM’/'CBMS’選項,表示定製,需要聯合weekmask參數和holidays參數使用
例如現在需要將工作日中的週一、週二、週五3天保留,並將部分holidays剔除
weekmask = 'Mon Tue Fri'
holidays = [pd.Timestamp('2020/1/%s'%i) for i in range(7,13)]
pd.bdate_range(start='2020-1-1',end='2020-1-15',freq='C',weekmask=weekmask,holidays=holidays)
DatetimeIndex(['2020-01-03', '2020-01-06', '2020-01-13', '2020-01-14'], dtype='datetime64[ns]', freq='C')
3. DateOffset對象
(a)DataOffset與Timedelta的區別
Timedelta絕對時間差的特點指無論是冬令時還是夏令時,增減1day都只計算24小時
DataOffset相對時間差指,無論一天是23\24\25小時,增減1day都與當天相同的時間保持一致
例如,英國當地時間 2020年03月29日,01:00:00 時鐘向前調整 1 小時 變爲 2020年03月29日,02:00:00,開始夏令時
ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.Timedelta(days=1)
Timestamp('2020-03-30 02:00:00+0300', tz='Europe/Helsinki')
ts + pd.DateOffset(days=1)
Timestamp('2020-03-30 01:00:00+0300', tz='Europe/Helsinki')
這似乎有些令人頭大,但只要把tz(time zone)去除就可以不用管它了,兩者保持一致,除非要使用到時區變換
ts = pd.Timestamp('2020-3-29 01:00:00')
ts + pd.Timedelta(days=1)
Timestamp('2020-03-30 01:00:00')
ts + pd.DateOffset(days=1)
Timestamp('2020-03-30 01:00:00')
(b)增減一段時間
DateOffset的可選參數包括years/months/weeks/days/hours/minutes/seconds
pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)
Timestamp('2019-12-18 00:20:00')
(c)各類常用offset對象
freq |
D/B |
W |
(B)M/(B)Q/(B)Y |
(B)MS/(B)QS/(B)YS |
H |
T |
S |
C |
offset |
DateOffset/BDay |
Week |
(B)MonthEnd/(B)QuarterEnd/(B)YearEnd |
(B)MonthBegin/(B)QuarterBegin/(B)YearBegin |
Hour |
Minute |
Second |
CDay(定製工作日) |
pd.Timestamp('2020-01-01') + pd.offsets.Week(2)
Timestamp('2020-01-15 00:00:00')
pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1)
Timestamp('2020-03-02 00:00:00')
(d)序列的offset操作
利用apply函數
pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))
0 2023-01-02
1 2024-01-01
2 2025-01-01
dtype: datetime64[ns]
直接使用對象加減
pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)
DatetimeIndex(['2023-01-02', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='A-DEC')
定製offset,可以指定weekmask和holidays參數(思考爲什麼三個都是一個值)
pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='2020010').apply(i)
for i in pd.date_range('20200105',periods=3,freq='D'))
0 2020-01-15
1 2020-01-15
2 2020-01-15
dtype: datetime64[ns]
二、時序的索引及屬性
1. 索引切片
這一部分幾乎與第二章的規則完全一致
rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts.head()
2020-01-05 -0.275349
2020-01-12 2.359218
2020-01-19 -0.447633
2020-01-26 -0.479830
2020-02-02 0.517587
Freq: W-SUN, dtype: float64
ts['2020-01-26']
-0.47982974619679947
合法字符自動轉換爲時間點
ts['2020-01-26':'20200726'].head()
2020-01-26 -0.479830
2020-02-02 0.517587
2020-02-09 -0.575879
2020-02-16 0.952187
2020-02-23 0.554098
Freq: W-SUN, dtype: float64
2. 子集索引
ts['2020-7'].head()
2020-07-05 -0.088912
2020-07-12 0.153852
2020-07-19 1.670324
2020-07-26 0.568214
Freq: W-SUN, dtype: float64
支持混合形態索引
ts['2011-1':'20200726'].head()
2020-01-05 -0.275349
2020-01-12 2.359218
2020-01-19 -0.447633
2020-01-26 -0.479830
2020-02-02 0.517587
Freq: W-SUN, dtype: float64
3. 時間點的屬性
採用dt對象可以輕鬆獲得關於時間的信息
pd.Series(ts.index).dt.week.head()
0 1
1 2
2 3
3 4
4 5
dtype: int64
pd.Series(ts.index).dt.day.head()
0 5
1 12
2 19
3 26
4 2
dtype: int64
利用strftime可重新修改時間格式
pd.Series(ts.index).dt.strftime('%Y-間隔1-%m-間隔2-%d').head()
0 2020-間隔1-01-間隔2-05
1 2020-間隔1-01-間隔2-12
2 2020-間隔1-01-間隔2-19
3 2020-間隔1-01-間隔2-26
4 2020-間隔1-02-間隔2-02
dtype: object
對於datetime對象可以直接通過屬性獲取信息
pd.date_range('2020','2021', freq='W').month
Int64Index([ 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4,
5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8,
8, 9, 9, 9, 9, 10, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, 12,
12],
dtype='int64')
pd.date_range('2020','2021', freq='W').weekday
Int64Index([6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
6, 6, 6, 6, 6, 6, 6, 6],
dtype='int64')
三、重採樣
所謂重採樣,就是指resample函數,它可以看做時序版本的groupby函數
1. resample對象的基本操作
採樣頻率一般設置爲上面提到的offset字符
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),
columns=['A', 'B', 'C'])
r = df_r.resample('3min')
r
<pandas.core.resample.DatetimeIndexResampler object at 0x7ff73ebafc10>
r.sum()
|
A |
B |
C |
2020-01-01 00:00:00 |
-8.772685 |
-27.074716 |
2.134617 |
2020-01-01 00:03:00 |
3.822484 |
8.912459 |
-15.448955 |
2020-01-01 00:06:00 |
2.744722 |
-8.055139 |
-11.364361 |
2020-01-01 00:09:00 |
4.655620 |
-11.524496 |
-10.536002 |
2020-01-01 00:12:00 |
-10.546811 |
5.063887 |
11.776490 |
2020-01-01 00:15:00 |
8.795150 |
-12.828809 |
-8.393950 |
df_r2 = pd.DataFrame(np.random.randn(200, 3),index=pd.date_range('1/1/2020', freq='D', periods=200),
columns=['A', 'B', 'C'])
r = df_r2.resample('CBMS')
r.sum()
|
A |
B |
C |
2020-01-01 |
5.278470 |
1.688588 |
5.904806 |
2020-02-03 |
-3.581797 |
7.515267 |
0.205308 |
2020-03-02 |
-5.021605 |
-4.441066 |
5.433917 |
2020-04-01 |
0.671702 |
3.840042 |
4.922487 |
2020-05-01 |
4.613352 |
9.702408 |
-4.928112 |
2020-06-01 |
-0.598191 |
7.387416 |
8.716921 |
2020-07-01 |
-0.327200 |
-1.577507 |
-3.956079 |
2. 採樣聚合
r = df_r.resample('3T')
r['A'].mean()
2020-01-01 00:00:00 -0.048737
2020-01-01 00:03:00 0.021236
2020-01-01 00:06:00 0.015248
2020-01-01 00:09:00 0.025865
2020-01-01 00:12:00 -0.058593
2020-01-01 00:15:00 0.087952
Freq: 3T, Name: A, dtype: float64
r['A'].agg([np.sum, np.mean, np.std])
|
sum |
mean |
std |
2020-01-01 00:00:00 |
-8.772685 |
-0.048737 |
0.939954 |
2020-01-01 00:03:00 |
3.822484 |
0.021236 |
1.004048 |
2020-01-01 00:06:00 |
2.744722 |
0.015248 |
1.018865 |
2020-01-01 00:09:00 |
4.655620 |
0.025865 |
1.020881 |
2020-01-01 00:12:00 |
-10.546811 |
-0.058593 |
0.954328 |
2020-01-01 00:15:00 |
8.795150 |
0.087952 |
1.199379 |
類似地,可以使用函數/lambda表達式
r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})
|
A |
B |
2020-01-01 00:00:00 |
-8.772685 |
4.950006 |
2020-01-01 00:03:00 |
3.822484 |
5.711679 |
2020-01-01 00:06:00 |
2.744722 |
6.923072 |
2020-01-01 00:09:00 |
4.655620 |
6.370589 |
2020-01-01 00:12:00 |
-10.546811 |
4.544878 |
2020-01-01 00:15:00 |
8.795150 |
5.244546 |
3. 採樣組的迭代
採樣組的迭代和groupby迭代完全類似,對於每一個組都可以分別做相應操作
small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00'
, '2020-01-01 00:31:00','2020-01-01 01:00:00'
,'2020-01-01 03:00:00','2020-01-01 03:05:00']))
resampled = small.resample('H')
for name, group in resampled:
print("Group: ", name)
print("-" * 27)
print(group, end="\n\n")
Group: 2020-01-01 00:00:00
---------------------------
2020-01-01 00:00:00 0
2020-01-01 00:30:00 1
2020-01-01 00:31:00 2
dtype: int64
Group: 2020-01-01 01:00:00
---------------------------
2020-01-01 01:00:00 3
dtype: int64
Group: 2020-01-01 02:00:00
---------------------------
Series([], dtype: int64)
Group: 2020-01-01 03:00:00
---------------------------
2020-01-01 03:00:00 4
2020-01-01 03:05:00 5
dtype: int64
四、窗口函數
下面主要介紹pandas中兩類主要的窗口(window)函數:rolling/expanding
s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000))
s.head()
2020-01-01 0.305974
2020-01-02 0.185221
2020-01-03 -0.646472
2020-01-04 -1.430293
2020-01-05 -0.956094
Freq: D, dtype: float64
1. Rolling
(a)常用聚合
所謂rolling方法,就是規定一個窗口,它和groupby對象一樣,本身不會進行操作,需要配合聚合函數才能計算結果
s.rolling(window=50)
Rolling [window=50,center=False,axis=0]
s.rolling(window=50).mean()
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 NaN
2020-01-04 NaN
2020-01-05 NaN
...
2022-09-22 0.160743
2022-09-23 0.136296
2022-09-24 0.147523
2022-09-25 0.133087
2022-09-26 0.130841
Freq: D, Length: 1000, dtype: float64
min_periods參數是指需要的非缺失數據點數量閥值
s.rolling(window=50,min_periods=3).mean().head()
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 -0.051759
2020-01-04 -0.396392
2020-01-05 -0.508333
Freq: D, dtype: float64
count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函數
(b)rolling的apply聚合
使用apply聚合時,只需記住傳入的是window大小的Series,輸出的必須是標量即可,比如如下計算變異係數
s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 -10.018809
2020-01-04 -2.040720
2020-01-05 -1.463460
Freq: D, dtype: float64
(c)基於時間的rolling
s.rolling('15D').mean().head()
2020-01-01 0.305974
2020-01-02 0.245598
2020-01-03 -0.051759
2020-01-04 -0.396392
2020-01-05 -0.508333
Freq: D, dtype: float64
可選closed=‘right’(默認)‘left’‘both’'neither’參數,決定端點的包含情況
s.rolling('15D', closed='right').sum().head()
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
2. Expanding
(a)expanding函數
普通的expanding函數等價與rolling(window=len(s),min_periods=1),是對序列的累計計算
s.rolling(window=len(s),min_periods=1).sum().head()
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
s.expanding().sum().head()
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
apply方法也是同樣可用的
s.expanding().apply(lambda x:sum(x)).head()
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
(b)幾個特別的Expanding類型函數
cumsum/cumprod/cummax/cummin都是特殊expanding累計計算方法
s.cumsum().head()
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
s.cumsum().head()
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
shift/diff/pct_change都是涉及到了元素關係
①shift是指序列索引不變,但值向後移動
②diff是指前後元素的差,period參數表示間隔,默認爲1,並且可以爲負
③pct_change是值前後元素的變化百分比,period參數與diff類似
s.shift(2).head()
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 0.305974
2020-01-04 0.185221
2020-01-05 -0.646472
Freq: D, dtype: float64
s.diff(3).head()
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 NaN
2020-01-04 -1.736267
2020-01-05 -1.141316
Freq: D, dtype: float64
s.pct_change(3).head()
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 NaN
2020-01-04 -5.674559
2020-01-05 -6.161897
Freq: D, dtype: float64
五、問題與練習
【問題一】 如何對date_range進行批量加幀操作或對某一時間段加大時間戳密度?
【問題二】 如何批量增加TimeStamp的精度?
【問題三】 對於超出處理時間的時間點,是否真的完全沒有處理方法?
【問題四】 給定一組非連續的日期,怎麼快速找出位於其最大日期和最小日期之間,且沒有出現在該組日期中的日期?
【練習一】 現有一份關於某超市牛奶銷售額的時間序列數據,請完成下列問題:
(a)銷售額出現最大值的是星期幾?(提示:利用dayofweek函數)
(b)計算除去春節、國慶、五一節假日的月度銷售總額
(c)按季度計算週末(週六和週日)的銷量總額
(d)從最後一天開始算起,跳過週六和週一,以5天爲一個時間單位向前計算銷售總和
(e)假設現在發現數據有誤,所有同一周裏的週一與週五的銷售額記錄顛倒了,請計算2018年中每月第一個週一的銷售額(如果該周沒有周一或週五的記錄就保持不動)
pd.read_csv('data/time_series_one.csv').head()
|
日期 |
銷售額 |
0 |
2017/2/17 |
2154 |
1 |
2017/2/18 |
2095 |
2 |
2017/2/19 |
3459 |
3 |
2017/2/20 |
2198 |
4 |
2017/2/21 |
2413 |
【練習二】 繼續使用上一題的數據,請完成下列問題:
(a)以50天爲窗口計算滑窗均值和滑窗最大值(min_periods設爲1)
(b)現在有如下規則:若當天銷售額超過向前5天的均值,則記爲1,否則記爲0,請給出2018年相應的計算結果
(c)將©中的“向前5天”改爲“向前非週末5天”,請再次計算結果