第9章時序數據

import pandas as pd
import numpy as np

一、時序的創建

1. 四類時間變量

現在理解可能關於③和④有些困惑，後面會作出一些說明

名稱	描述	元素類型	創建方式
① Date times（時間點/時刻）	描述特定日期或時間點	Timestamp	to_datetime或date_range
② Time spans（時間段/時期）	由時間點定義的一段時期	Period	Period或period_range
③ Date offsets（相對時間差）	一段時間的相對大小（與夏/冬令時無關）	DateOffset	DateOffset
④ Time deltas（絕對時間差）	一段時間的絕對大小（與夏/冬令時有關）	Timedelta	to_timedelta或timedelta_range

2. 時間點的創建

（a）to_datetime方法

Pandas在時間點建立的輸入格式規定上給了很大的自由度，下面的語句都能正確建立同一時間點

pd.to_datetime('2020.1.1')
pd.to_datetime('2020 1.1')
pd.to_datetime('2020 1 1')
pd.to_datetime('2020 1-1')
pd.to_datetime('2020-1 1')
pd.to_datetime('2020-1-1')
pd.to_datetime('2020/1/1')
pd.to_datetime('1.1.2020')
pd.to_datetime('1.1 2020')
pd.to_datetime('1 1 2020')
pd.to_datetime('1 1-2020')
pd.to_datetime('1-1 2020')
pd.to_datetime('1-1-2020')
pd.to_datetime('1/1/2020')
pd.to_datetime('20200101')
pd.to_datetime('2020.0101')

Timestamp('2020-01-01 00:00:00')

下面的語句都會報錯

#pd.to_datetime('2020\\1\\1')
#pd.to_datetime('2020`1`1')
#pd.to_datetime('2020.1 1')
#pd.to_datetime('1 1.2020')

此時可利用format參數強制匹配

pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d')
pd.to_datetime('2020`1`1',format='%Y`%m`%d')
pd.to_datetime('2020.1 1',format='%Y.%m %d')
pd.to_datetime('1 1.2020',format='%d %m.%Y')

Timestamp('2020-01-01 00:00:00')

同時，使用列表可以將其轉爲時間點索引

pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))

2020-01-01    0
2020-01-02    1
dtype: int64

type(pd.to_datetime(['2020/1/1','2020/1/2']))

pandas.core.indexes.datetimes.DatetimeIndex

對於DataFrame而言，如果列已經按照時間順序排好，則利用to_datetime可自動轉換

df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]})
pd.to_datetime(df)

0   2020-01-01
1   2020-01-02
dtype: datetime64[ns]

（b）時間精度與範圍限制

事實上，Timestamp的精度遠遠不止day，可以最小到納秒ns

pd.to_datetime('2020/1/1 00:00:00.123456789')

Timestamp('2020-01-01 00:00:00.123456789')

同時，它帶來範圍的代價就是隻有大約584年的時間點是可用的

pd.Timestamp.min

Timestamp('1677-09-21 00:12:43.145225')

pd.Timestamp.max

Timestamp('2262-04-11 23:47:16.854775807')

（c）date_range方法

一般來說，start/end/periods（時間點個數）/freq（間隔方法）是該方法最重要的參數，給定了其中的3個，剩下的一個就會被確定

pd.date_range(start='2020/1/1',end='2020/1/10',periods=3)

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-05 12:00:00',
               '2020-01-10 00:00:00'],
              dtype='datetime64[ns]', freq=None)

pd.date_range(start='2020/1/1',end='2020/1/10',freq='D')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

pd.date_range(start='2020/1/1',periods=3,freq='D')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')

pd.date_range(end='2020/1/3',periods=3,freq='D')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')

其中freq參數有許多選項，下面將常用部分羅列如下，更多選項可看這裏

符號	D/B	W	M/Q/Y	BM/BQ/BY	MS/QS/YS	BMS/BQS/BYS	H	T	S
描述	日/工作日	周	月末	月/季/年末日	月/季/年末工作日	月/季/年初日	月/季/年初工作日	小時	分鐘

pd.date_range(start='2020/1/1',periods=3,freq='T')

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:01:00',
               '2020-01-01 00:02:00'],
              dtype='datetime64[ns]', freq='T')

pd.date_range(start='2020/1/1',periods=3,freq='M')

DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31'], dtype='datetime64[ns]', freq='M')

pd.date_range(start='2020/1/1',periods=3,freq='BYS')

DatetimeIndex(['2020-01-01', '2021-01-01', '2022-01-03'], dtype='datetime64[ns]', freq='BAS-JAN')

bdate_range是一個類似與date_range的方法，特點在於可以在自帶的工作日間隔設置上，再選擇weekmask參數和holidays參數

它的freq中有一個特殊的’C’/‘CBM’/'CBMS’選項，表示定製，需要聯合weekmask參數和holidays參數使用

例如現在需要將工作日中的週一、週二、週五3天保留，並將部分holidays剔除

weekmask = 'Mon Tue Fri'
holidays = [pd.Timestamp('2020/1/%s'%i) for i in range(7,13)]
#注意holidays
pd.bdate_range(start='2020-1-1',end='2020-1-15',freq='C',weekmask=weekmask,holidays=holidays)

DatetimeIndex(['2020-01-03', '2020-01-06', '2020-01-13', '2020-01-14'], dtype='datetime64[ns]', freq='C')

3. DateOffset對象

（a）DataOffset與Timedelta的區別

Timedelta絕對時間差的特點指無論是冬令時還是夏令時，增減1day都只計算24小時

DataOffset相對時間差指，無論一天是23\24\25小時，增減1day都與當天相同的時間保持一致

例如，英國當地時間 2020年03月29日，01:00:00 時鐘向前調整 1 小時變爲 2020年03月29日，02:00:00，開始夏令時

ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.Timedelta(days=1)

Timestamp('2020-03-30 02:00:00+0300', tz='Europe/Helsinki')

ts + pd.DateOffset(days=1)

Timestamp('2020-03-30 01:00:00+0300', tz='Europe/Helsinki')

這似乎有些令人頭大，但只要把tz（time zone）去除就可以不用管它了，兩者保持一致，除非要使用到時區變換

ts = pd.Timestamp('2020-3-29 01:00:00')
ts + pd.Timedelta(days=1)

Timestamp('2020-03-30 01:00:00')

ts + pd.DateOffset(days=1)

Timestamp('2020-03-30 01:00:00')

（b）增減一段時間

DateOffset的可選參數包括years/months/weeks/days/hours/minutes/seconds

pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)

Timestamp('2019-12-18 00:20:00')

（c）各類常用offset對象

freq	D/B	W	(B)M/(B)Q/(B)Y	(B)MS/(B)QS/(B)YS	H	T	S	C
offset	DateOffset/BDay	Week	(B)MonthEnd/(B)QuarterEnd/(B)YearEnd	(B)MonthBegin/(B)QuarterBegin/(B)YearBegin	Hour	Minute	Second	CDay(定製工作日)

pd.Timestamp('2020-01-01') + pd.offsets.Week(2)

Timestamp('2020-01-15 00:00:00')

pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1)

Timestamp('2020-03-02 00:00:00')

（d）序列的offset操作

利用apply函數

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))

0   2023-01-02
1   2024-01-01
2   2025-01-01
dtype: datetime64[ns]

直接使用對象加減

pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)

DatetimeIndex(['2023-01-02', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='A-DEC')

定製offset，可以指定weekmask和holidays參數（思考爲什麼三個都是一個值）

pd.date_range('20200105',periods=3,freq='D')

DatetimeIndex(['2020-01-05', '2020-01-06', '2020-01-07'], dtype='datetime64[ns]', freq='D')

pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='20200116').apply(i)
                                  for i in pd.date_range('20200105',periods=4,freq='D'))#

0   2020-01-15
1   2020-01-15
2   2020-01-15
3   2020-01-17
dtype: datetime64[ns]

因爲剛好holidays='2020010’是週五

二、時序的索引及屬性

1. 索引切片

這一部分幾乎與第二章的規則完全一致

rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts.head()

2020-01-05   -0.275349
2020-01-12    2.359218
2020-01-19   -0.447633
2020-01-26   -0.479830
2020-02-02    0.517587
Freq: W-SUN, dtype: float64

ts['2020-01-26']

-0.47982974619679947

合法字符自動轉換爲時間點

ts['2020-01-26':'20200726'].head()

2020-01-26   -0.479830
2020-02-02    0.517587
2020-02-09   -0.575879
2020-02-16    0.952187
2020-02-23    0.554098
Freq: W-SUN, dtype: float64

2. 子集索引

ts['2020-7'].head()

2020-07-05   -0.088912
2020-07-12    0.153852
2020-07-19    1.670324
2020-07-26    0.568214
Freq: W-SUN, dtype: float64

支持混合形態索引

ts['2011-1':'20200726'].head()

2020-01-05   -0.275349
2020-01-12    2.359218
2020-01-19   -0.447633
2020-01-26   -0.479830
2020-02-02    0.517587
Freq: W-SUN, dtype: float64

3. 時間點的屬性

採用dt對象可以輕鬆獲得關於時間的信息

pd.Series(ts.index).dt.week.head()

0    1
1    2
2    3
3    4
4    5
dtype: int64

pd.Series(ts.index).dt.day.head()

0     5
1    12
2    19
3    26
4     2
dtype: int64

利用strftime可重新修改時間格式

pd.Series(ts.index).dt.strftime('%Y-間隔1-%m-間隔2-%d').head()

0    2020-間隔1-01-間隔2-05
1    2020-間隔1-01-間隔2-12
2    2020-間隔1-01-間隔2-19
3    2020-間隔1-01-間隔2-26
4    2020-間隔1-02-間隔2-02
dtype: object

對於datetime對象可以直接通過屬性獲取信息

pd.date_range('2020','2021', freq='W').month

Int64Index([ 1,  1,  1,  1,  2,  2,  2,  2,  3,  3,  3,  3,  3,  4,  4,  4,  4,
             5,  5,  5,  5,  5,  6,  6,  6,  6,  7,  7,  7,  7,  8,  8,  8,  8,
             8,  9,  9,  9,  9, 10, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, 12,
            12],
           dtype='int64')

pd.date_range('2020','2021', freq='W').weekday

Int64Index([6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
            6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
            6, 6, 6, 6, 6, 6, 6, 6],
           dtype='int64')

三、重採樣

所謂重採樣，就是指resample函數，它可以看做時序版本的groupby函數

1. resample對象的基本操作

採樣頻率一般設置爲上面提到的offset字符

df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),
                  columns=['A', 'B', 'C'])
df_r.head()

	A	B	C
2020-01-01 00:00:00	-1.343925	1.184322	-0.540354
2020-01-01 00:00:01	1.003050	0.343605	1.541366
2020-01-01 00:00:02	-1.955152	-1.223350	-0.447216
2020-01-01 00:00:03	-1.164559	0.220829	2.008356
2020-01-01 00:00:04	-0.662060	0.339157	0.666090

r = df_r.resample('3min')
r

<pandas.core.resample.DatetimeIndexResampler object at 0x0000020F9A7D6F98>

r.sum()

	A	B	C
2020-01-01 00:00:00	-8.772685	-27.074716	2.134617
2020-01-01 00:03:00	3.822484	8.912459	-15.448955
2020-01-01 00:06:00	2.744722	-8.055139	-11.364361
2020-01-01 00:09:00	4.655620	-11.524496	-10.536002
2020-01-01 00:12:00	-10.546811	5.063887	11.776490
2020-01-01 00:15:00	8.795150	-12.828809	-8.393950

df_r2 = pd.DataFrame(np.random.randn(200, 3),index=pd.date_range('1/1/2020', freq='D', periods=200),
                  columns=['A', 'B', 'C'])
r = df_r2.resample('CBMS')
r.sum()

	A	B	C
2020-01-01	5.278470	1.688588	5.904806
2020-02-03	-3.581797	7.515267	0.205308
2020-03-02	-5.021605	-4.441066	5.433917
2020-04-01	0.671702	3.840042	4.922487
2020-05-01	4.613352	9.702408	-4.928112
2020-06-01	-0.598191	7.387416	8.716921
2020-07-01	-0.327200	-1.577507	-3.956079

2. 採樣聚合

r = df_r.resample('3T')

r['A'].mean()

2020-01-01 00:00:00   -0.048737
2020-01-01 00:03:00    0.021236
2020-01-01 00:06:00    0.015248
2020-01-01 00:09:00    0.025865
2020-01-01 00:12:00   -0.058593
2020-01-01 00:15:00    0.087952
Freq: 3T, Name: A, dtype: float64

r['A'].agg([np.sum, np.mean, np.std])

	sum	mean	std
2020-01-01 00:00:00	-8.772685	-0.048737	0.939954
2020-01-01 00:03:00	3.822484	0.021236	1.004048
2020-01-01 00:06:00	2.744722	0.015248	1.018865
2020-01-01 00:09:00	4.655620	0.025865	1.020881
2020-01-01 00:12:00	-10.546811	-0.058593	0.954328
2020-01-01 00:15:00	8.795150	0.087952	1.199379

類似地，可以使用函數/lambda表達式

r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})

	A	B
2020-01-01 00:00:00	-8.772685	4.950006
2020-01-01 00:03:00	3.822484	5.711679
2020-01-01 00:06:00	2.744722	6.923072
2020-01-01 00:09:00	4.655620	6.370589
2020-01-01 00:12:00	-10.546811	4.544878
2020-01-01 00:15:00	8.795150	5.244546

3. 採樣組的迭代

採樣組的迭代和groupby迭代完全類似，對於每一個組都可以分別做相應操作

small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00'
                                                 , '2020-01-01 00:31:00','2020-01-01 01:00:00'
                                                 ,'2020-01-01 03:00:00','2020-01-01 03:05:00']))
resampled = small.resample('H')
for name, group in resampled:
    print("Group: ", name)
    print("-" * 27)
    print(group, end="\n\n")

Group:  2020-01-01 00:00:00
---------------------------
2020-01-01 00:00:00    0
2020-01-01 00:30:00    1
2020-01-01 00:31:00    2
dtype: int64

Group:  2020-01-01 01:00:00
---------------------------
2020-01-01 01:00:00    3
dtype: int64

Group:  2020-01-01 02:00:00
---------------------------
Series([], dtype: int64)

Group:  2020-01-01 03:00:00
---------------------------
2020-01-01 03:00:00    4
2020-01-01 03:05:00    5
dtype: int64

四、窗口函數

下面主要介紹pandas中兩類主要的窗口(window)函數:rolling/expanding

s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000))
s.head()

2020-01-01    0.305974
2020-01-02    0.185221
2020-01-03   -0.646472
2020-01-04   -1.430293
2020-01-05   -0.956094
Freq: D, dtype: float64

1. Rolling

（a）常用聚合

所謂rolling方法，就是規定一個窗口，它和groupby對象一樣，本身不會進行操作，需要配合聚合函數才能計算結果

s.rolling(window=50)

Rolling [window=50,center=False,axis=0]

s.rolling(window=50).mean()

2020-01-01         NaN
2020-01-02         NaN
2020-01-03         NaN
2020-01-04         NaN
2020-01-05         NaN
                ...   
2022-09-22    0.160743
2022-09-23    0.136296
2022-09-24    0.147523
2022-09-25    0.133087
2022-09-26    0.130841
Freq: D, Length: 1000, dtype: float64

min_periods參數是指需要的非缺失數據點數量閥值

s.rolling(window=50,min_periods=3).mean().head()

2020-01-01         NaN
2020-01-02         NaN
2020-01-03   -0.051759
2020-01-04   -0.396392
2020-01-05   -0.508333
Freq: D, dtype: float64

count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函數

（b）rolling的apply聚合

使用apply聚合時，只需記住傳入的是window大小的Series，輸出的必須是標量即可，比如如下計算變異係數

s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()

2020-01-01          NaN
2020-01-02          NaN
2020-01-03   -10.018809
2020-01-04    -2.040720
2020-01-05    -1.463460
Freq: D, dtype: float64

（c）基於時間的rolling

s.rolling('15D').mean().head()

2020-01-01    0.305974
2020-01-02    0.245598
2020-01-03   -0.051759
2020-01-04   -0.396392
2020-01-05   -0.508333
Freq: D, dtype: float64

可選closed=‘right’（默認）‘left’‘both’'neither’參數，決定端點的包含情況

s.rolling('15D', closed='right').sum().head()

2020-01-01    0.305974
2020-01-02    0.491195
2020-01-03   -0.155277
2020-01-04   -1.585570
2020-01-05   -2.541664
Freq: D, dtype: float64

2. Expanding

（a）expanding函數

普通的expanding函數等價與rolling(window=len(s),min_periods=1)，是對序列的累計計算

s.rolling(window=len(s),min_periods=1).sum().head()

2020-01-01    0.305974
2020-01-02    0.491195
2020-01-03   -0.155277
2020-01-04   -1.585570
2020-01-05   -2.541664
Freq: D, dtype: float64

s.expanding().sum().head()

2020-01-01    0.305974
2020-01-02    0.491195
2020-01-03   -0.155277
2020-01-04   -1.585570
2020-01-05   -2.541664
Freq: D, dtype: float64

apply方法也是同樣可用的

s.expanding().apply(lambda x:sum(x)).head()

2020-01-01    0.305974
2020-01-02    0.491195
2020-01-03   -0.155277
2020-01-04   -1.585570
2020-01-05   -2.541664
Freq: D, dtype: float64

（b）幾個特別的Expanding類型函數

cumsum/cumprod/cummax/cummin都是特殊expanding累計計算方法

s.cumsum().head()

2020-01-01    0.305974
2020-01-02    0.491195
2020-01-03   -0.155277
2020-01-04   -1.585570
2020-01-05   -2.541664
Freq: D, dtype: float64

s.cumsum().head()

2020-01-01    0.305974
2020-01-02    0.491195
2020-01-03   -0.155277
2020-01-04   -1.585570
2020-01-05   -2.541664
Freq: D, dtype: float64

shift/diff/pct_change都是涉及到了元素關係

①shift是指序列索引不變，但值向後移動

②diff是指前後元素的差，period參數表示間隔，默認爲1，並且可以爲負

③pct_change是值前後元素的變化百分比，period參數與diff類似

s.shift(2).head()

2020-01-01         NaN
2020-01-02         NaN
2020-01-03    0.305974
2020-01-04    0.185221
2020-01-05   -0.646472
Freq: D, dtype: float64

s.diff(3).head()

2020-01-01         NaN
2020-01-02         NaN
2020-01-03         NaN
2020-01-04   -1.736267
2020-01-05   -1.141316
Freq: D, dtype: float64

s.pct_change(3).head()

2020-01-01         NaN
2020-01-02         NaN
2020-01-03         NaN
2020-01-04   -5.674559
2020-01-05   -6.161897
Freq: D, dtype: float64

五、問題與練習

【問題一】如何對date_range進行批量加幀操作或對某一時間段加大時間戳密度？

利用apply函數

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))

0   2023-01-02
1   2024-01-01
2   2025-01-01
dtype: datetime64[ns]

直接使用對象加減

pd.date_range('20200101',periods=3,freq='Y')+pd.offsets.BYearBegin(3)

DatetimeIndex(['2023-01-02', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='A-DEC')

【問題二】如何批量增加TimeStamp的精度？

pd.Timestamp('2020-01-01') + pd.offsets.Second(0)

Timestamp('2020-01-01 00:00:00')

pd.date_range('20200101',periods=3,freq='Y')+pd.offsets.Second(1)

DatetimeIndex(['2020-12-31 00:00:01', '2021-12-31 00:00:01',
               '2022-12-31 00:00:01'],
              dtype='datetime64[ns]', freq='A-DEC')

pd.Series(pd.offsets.Second(1).apply(i)for i in pd.date_range('20200101',periods=3,freq='Y') )

0   2020-12-31 00:00:01
1   2021-12-31 00:00:01
2   2022-12-31 00:00:01
dtype: datetime64[ns]

【問題三】對於超出處理時間的時間點，是否真的完全沒有處理方法？

個人覺得可以單獨索引出再處理時間內的時間點，進行處理，對於超出處理時間的時間點，我們可以使用apply函數對其時間進行長尾截斷，或者用其他的值來替換都可以

pd.Series(pd.offsets.Second(1).apply(i)for i in pd.date_range('20200101',periods=3,freq='Y') ).apply(lambda x: x-pd.offsets.Second(1)if x>(pd.Timestamp('2021-01-01') + pd.offsets.Second(1)) else x)

0   2020-12-31 00:00:01
1   2021-12-31 00:00:00
2   2022-12-31 00:00:00
dtype: datetime64[ns]

【問題四】給定一組非連續的日期，怎麼快速找出位於其最大日期和最小日期之間，且沒有出現在該組日期中的日期？

pd.date_range('20200101',periods=3,freq='D').min()

Timestamp('2020-01-01 00:00:00', freq='D')

a=pd.to_datetime(['2020/1/1','2020/1/3','2020/1/6'])
pd.Series(pd.date_range(start=a.min(),end=a.max(),freq='D')).apply(lambda x:x if x not in a else None).dropna()

1   2020-01-02
3   2020-01-04
4   2020-01-05
dtype: datetime64[ns]

【練習一】現有一份關於某超市牛奶銷售額的時間序列數據，請完成下列問題：

（a）銷售額出現最大值的是星期幾？（提示：利用dayofweek函數）

（b）計算除去春節、國慶、五一節假日的月度銷售總額

（c）按季度計算週末（週六和週日）的銷量總額

（d）從最後一天開始算起，跳過週六和週一，以5天爲一個時間單位向前計算銷售總和

（e）假設現在發現數據有誤，所有同一周裏的週一與週五的銷售額記錄顛倒了，請計算2018年中每月第一個週一的銷售額（如果該周沒有周一或週五的記錄就保持不動）

pd.read_csv('data/time_series_one.csv').head()

	日期	銷售額
0	2017/2/17	2154
1	2017/2/18	2095
2	2017/2/19	3459
3	2017/2/20	2198
4	2017/2/21	2413

【練習二】繼續使用上一題的數據，請完成下列問題：

（a）以50天爲窗口計算滑窗均值和滑窗最大值（min_periods設爲1）

（b）現在有如下規則：若當天銷售額超過向前5天的均值，則記爲1，否則記爲0，請給出2018年相應的計算結果

== 這週考試周只能先去複習數據結構了，等考完試一定會來補上。==

第9章 時序數據

第9章 時序數據

一、時序的創建

1. 四類時間變量

現在理解可能關於③和④有些困惑，後面會作出一些說明

2. 時間點的創建

（a）to_datetime方法

Pandas在時間點建立的輸入格式規定上給了很大的自由度，下面的語句都能正確建立同一時間點

下面的語句都會報錯

此時可利用format參數強制匹配

同時，使用列表可以將其轉爲時間點索引

對於DataFrame而言，如果列已經按照時間順序排好，則利用to_datetime可自動轉換

（b）時間精度與範圍限制

事實上，Timestamp的精度遠遠不止day，可以最小到納秒ns

同時，它帶來範圍的代價就是隻有大約584年的時間點是可用的

（c）date_range方法

一般來說，start/end/periods（時間點個數）/freq（間隔方法）是該方法最重要的參數，給定了其中的3個，剩下的一個就會被確定

其中freq參數有許多選項，下面將常用部分羅列如下，更多選項可看這裏

bdate_range是一個類似與date_range的方法，特點在於可以在自帶的工作日間隔設置上，再選擇weekmask參數和holidays參數

它的freq中有一個特殊的’C’/‘CBM’/'CBMS’選項，表示定製，需要聯合weekmask參數和holidays參數使用

例如現在需要將工作日中的週一、週二、週五3天保留，並將部分holidays剔除

3. DateOffset對象

（a）DataOffset與Timedelta的區別

Timedelta絕對時間差的特點指無論是冬令時還是夏令時，增減1day都只計算24小時

DataOffset相對時間差指，無論一天是23\24\25小時，增減1day都與當天相同的時間保持一致

例如，英國當地時間 2020年03月29日，01:00:00 時鐘向前調整 1 小時 變爲 2020年03月29日，02:00:00，開始夏令時

這似乎有些令人頭大，但只要把tz（time zone）去除就可以不用管它了，兩者保持一致，除非要使用到時區變換

（b）增減一段時間

DateOffset的可選參數包括years/months/weeks/days/hours/minutes/seconds

（c）各類常用offset對象

（d）序列的offset操作

利用apply函數

直接使用對象加減

定製offset，可以指定weekmask和holidays參數（思考爲什麼三個都是一個值）

二、時序的索引及屬性

1. 索引切片

這一部分幾乎與第二章的規則完全一致

合法字符自動轉換爲時間點

2. 子集索引

支持混合形態索引

3. 時間點的屬性

採用dt對象可以輕鬆獲得關於時間的信息

利用strftime可重新修改時間格式

對於datetime對象可以直接通過屬性獲取信息

三、重採樣

所謂重採樣，就是指resample函數，它可以看做時序版本的groupby函數

1. resample對象的基本操作

採樣頻率一般設置爲上面提到的offset字符

2. 採樣聚合

類似地，可以使用函數/lambda表達式

3. 採樣組的迭代

採樣組的迭代和groupby迭代完全類似，對於每一個組都可以分別做相應操作

四、窗口函數

下面主要介紹pandas中兩類主要的窗口(window)函數:rolling/expanding

1. Rolling

（a）常用聚合

所謂rolling方法，就是規定一個窗口，它和groupby對象一樣，本身不會進行操作，需要配合聚合函數才能計算結果

min_periods參數是指需要的非缺失數據點數量閥值

count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函數

（b）rolling的apply聚合

使用apply聚合時，只需記住傳入的是window大小的Series，輸出的必須是標量即可，比如如下計算變異係數

（c）基於時間的rolling

可選closed=‘right’（默認）‘left’‘both’'neither’參數，決定端點的包含情況

2. Expanding

（a）expanding函數

普通的expanding函數等價與rolling(window=len(s),min_periods=1)，是對序列的累計計算

apply方法也是同樣可用的

（b）幾個特別的Expanding類型函數

cumsum/cumprod/cummax/cummin都是特殊expanding累計計算方法

shift/diff/pct_change都是涉及到了元素關係

①shift是指序列索引不變，但值向後移動

②diff是指前後元素的差，period參數表示間隔，默認爲1，並且可以爲負

③pct_change是值前後元素的變化百分比，period參數與diff類似

五、問題與練習

【問題一】 如何對date_range進行批量加幀操作或對某一時間段加大時間戳密度？

利用apply函數

直接使用對象加減

【問題二】 如何批量增加TimeStamp的精度？

【問題三】 對於超出處理時間的時間點，是否真的完全沒有處理方法？

【問題四】 給定一組非連續的日期，怎麼快速找出位於其最大日期和最小日期之間，且沒有出現在該組日期中的日期？

第9章時序數據

第9章時序數據

例如，英國當地時間 2020年03月29日，01:00:00 時鐘向前調整 1 小時變爲 2020年03月29日，02:00:00，開始夏令時

【問題一】如何對date_range進行批量加幀操作或對某一時間段加大時間戳密度？

【問題二】如何批量增加TimeStamp的精度？

【問題三】對於超出處理時間的時間點，是否真的完全沒有處理方法？

【問題四】給定一組非連續的日期，怎麼快速找出位於其最大日期和最小日期之間，且沒有出現在該組日期中的日期？

【練習一】現有一份關於某超市牛奶銷售額的時間序列數據，請完成下列問題：

【練習二】繼續使用上一題的數據，請完成下列問題：