第9章 時序數據
import pandas as pd
import numpy as np
一、時序的創建
1. 四類時間變量
現在理解可能關於③和④有些困惑,後面會作出一些說明
名稱
描述
元素類型
創建方式
① Date times(時間點/時刻)
描述特定日期或時間點
Timestamp
to_datetime或date_range
② Time spans(時間段/時期)
由時間點定義的一段時期
Period
Period或period_range
③ Date offsets(相對時間差)
一段時間的相對大小(與夏/冬令時無關)
DateOffset
DateOffset
④ Time deltas(絕對時間差)
一段時間的絕對大小(與夏/冬令時有關)
Timedelta
to_timedelta或timedelta_range
2. 時間點的創建
(a)to_datetime方法
Pandas在時間點建立的輸入格式規定上給了很大的自由度,下面的語句都能正確建立同一時間點
pd. to_datetime( '2020.1.1' )
pd. to_datetime( '2020 1.1' )
pd. to_datetime( '2020 1 1' )
pd. to_datetime( '2020 1-1' )
pd. to_datetime( '2020-1 1' )
pd. to_datetime( '2020-1-1' )
pd. to_datetime( '2020/1/1' )
pd. to_datetime( '1.1.2020' )
pd. to_datetime( '1.1 2020' )
pd. to_datetime( '1 1 2020' )
pd. to_datetime( '1 1-2020' )
pd. to_datetime( '1-1 2020' )
pd. to_datetime( '1-1-2020' )
pd. to_datetime( '1/1/2020' )
pd. to_datetime( '20200101' )
pd. to_datetime( '2020.0101' )
Timestamp('2020-01-01 00:00:00')
下面的語句都會報錯
此時可利用format參數強制匹配
pd. to_datetime( '2020\\1\\1' , format = '%Y\\%m\\%d' )
pd. to_datetime( '2020`1`1' , format = '%Y`%m`%d' )
pd. to_datetime( '2020.1 1' , format = '%Y.%m %d' )
pd. to_datetime( '1 1.2020' , format = '%d %m.%Y' )
Timestamp('2020-01-01 00:00:00')
同時,使用列表可以將其轉爲時間點索引
pd. Series( range ( 2 ) , index= pd. to_datetime( [ '2020/1/1' , '2020/1/2' ] ) )
2020-01-01 0
2020-01-02 1
dtype: int64
type ( pd. to_datetime( [ '2020/1/1' , '2020/1/2' ] ) )
pandas.core.indexes.datetimes.DatetimeIndex
對於DataFrame而言,如果列已經按照時間順序排好,則利用to_datetime可自動轉換
df = pd. DataFrame( { 'year' : [ 2020 , 2020 ] , 'month' : [ 1 , 1 ] , 'day' : [ 1 , 2 ] } )
pd. to_datetime( df)
0 2020-01-01
1 2020-01-02
dtype: datetime64[ns]
(b)時間精度與範圍限制
事實上,Timestamp的精度遠遠不止day,可以最小到納秒ns
pd. to_datetime( '2020/1/1 00:00:00.123456789' )
Timestamp('2020-01-01 00:00:00.123456789')
同時,它帶來範圍的代價就是隻有大約584年的時間點是可用的
pd. Timestamp. min
Timestamp('1677-09-21 00:12:43.145225')
pd. Timestamp. max
Timestamp('2262-04-11 23:47:16.854775807')
(c)date_range方法
一般來說,start/end/periods(時間點個數)/freq(間隔方法)是該方法最重要的參數,給定了其中的3個,剩下的一個就會被確定
pd. date_range( start= '2020/1/1' , end= '2020/1/10' , periods= 3 )
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-05 12:00:00',
'2020-01-10 00:00:00'],
dtype='datetime64[ns]', freq=None)
pd. date_range( start= '2020/1/1' , end= '2020/1/10' , freq= 'D' )
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
'2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
'2020-01-09', '2020-01-10'],
dtype='datetime64[ns]', freq='D')
pd. date_range( start= '2020/1/1' , periods= 3 , freq= 'D' )
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')
pd. date_range( end= '2020/1/3' , periods= 3 , freq= 'D' )
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='D')
其中freq參數有許多選項,下面將常用部分羅列如下,更多選項可看這裏
符號
D/B
W
M/Q/Y
BM/BQ/BY
MS/QS/YS
BMS/BQS/BYS
H
T
S
描述
日/工作日
周
月末
月/季/年末日
月/季/年末工作日
月/季/年初日
月/季/年初工作日
小時
分鐘
pd. date_range( start= '2020/1/1' , periods= 3 , freq= 'T' )
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:01:00',
'2020-01-01 00:02:00'],
dtype='datetime64[ns]', freq='T')
pd. date_range( start= '2020/1/1' , periods= 3 , freq= 'M' )
DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31'], dtype='datetime64[ns]', freq='M')
pd. date_range( start= '2020/1/1' , periods= 3 , freq= 'BYS' )
DatetimeIndex(['2020-01-01', '2021-01-01', '2022-01-03'], dtype='datetime64[ns]', freq='BAS-JAN')
bdate_range是一個類似與date_range的方法,特點在於可以在自帶的工作日間隔設置上,再選擇weekmask參數和holidays參數
它的freq中有一個特殊的’C’/‘CBM’/'CBMS’選項,表示定製,需要聯合weekmask參數和holidays參數使用
例如現在需要將工作日中的週一、週二、週五3天保留,並將部分holidays剔除
weekmask = 'Mon Tue Fri'
holidays = [ pd. Timestamp( '2020/1/%s' % i) for i in range ( 7 , 13 ) ]
pd. bdate_range( start= '2020-1-1' , end= '2020-1-15' , freq= 'C' , weekmask= weekmask, holidays= holidays)
DatetimeIndex(['2020-01-03', '2020-01-06', '2020-01-13', '2020-01-14'], dtype='datetime64[ns]', freq='C')
3. DateOffset對象
(a)DataOffset與Timedelta的區別
Timedelta絕對時間差的特點指無論是冬令時還是夏令時,增減1day都只計算24小時
DataOffset相對時間差指,無論一天是23\24\25小時,增減1day都與當天相同的時間保持一致
例如,英國當地時間 2020年03月29日,01:00:00 時鐘向前調整 1 小時 變爲 2020年03月29日,02:00:00,開始夏令時
ts = pd. Timestamp( '2020-3-29 01:00:00' , tz= 'Europe/Helsinki' )
ts + pd. Timedelta( days= 1 )
Timestamp('2020-03-30 02:00:00+0300', tz='Europe/Helsinki')
ts + pd. DateOffset( days= 1 )
Timestamp('2020-03-30 01:00:00+0300', tz='Europe/Helsinki')
這似乎有些令人頭大,但只要把tz(time zone)去除就可以不用管它了,兩者保持一致,除非要使用到時區變換
ts = pd. Timestamp( '2020-3-29 01:00:00' )
ts + pd. Timedelta( days= 1 )
Timestamp('2020-03-30 01:00:00')
ts + pd. DateOffset( days= 1 )
Timestamp('2020-03-30 01:00:00')
(b)增減一段時間
DateOffset的可選參數包括years/months/weeks/days/hours/minutes/seconds
pd. Timestamp( '2020-01-01' ) + pd. DateOffset( minutes= 20 ) - pd. DateOffset( weeks= 2 )
Timestamp('2019-12-18 00:20:00')
(c)各類常用offset對象
freq
D/B
W
(B)M/(B)Q/(B)Y
(B)MS/(B)QS/(B)YS
H
T
S
C
offset
DateOffset/BDay
Week
(B)MonthEnd/(B)QuarterEnd/(B)YearEnd
(B)MonthBegin/(B)QuarterBegin/(B)YearBegin
Hour
Minute
Second
CDay(定製工作日)
pd. Timestamp( '2020-01-01' ) + pd. offsets. Week( 2 )
Timestamp('2020-01-15 00:00:00')
pd. Timestamp( '2020-01-01' ) + pd. offsets. BQuarterBegin( 1 )
Timestamp('2020-03-02 00:00:00')
(d)序列的offset操作
利用apply函數
pd. Series( pd. offsets. BYearBegin( 3 ) . apply ( i) for i in pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) )
0 2023-01-02
1 2024-01-01
2 2025-01-01
dtype: datetime64[ns]
直接使用對象加減
pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) + pd. offsets. BYearBegin( 3 )
DatetimeIndex(['2023-01-02', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='A-DEC')
定製offset,可以指定weekmask和holidays參數(思考爲什麼三個都是一個值)
pd. date_range( '20200105' , periods= 3 , freq= 'D' )
DatetimeIndex(['2020-01-05', '2020-01-06', '2020-01-07'], dtype='datetime64[ns]', freq='D')
pd. Series( pd. offsets. CDay( 3 , weekmask= 'Wed Fri' , holidays= '20200116' ) . apply ( i)
for i in pd. date_range( '20200105' , periods= 4 , freq= 'D' ) )
0 2020-01-15
1 2020-01-15
2 2020-01-15
3 2020-01-17
dtype: datetime64[ns]
因爲剛好holidays='2020010’是週五
二、時序的索引及屬性
1. 索引切片
這一部分幾乎與第二章的規則完全一致
rng = pd. date_range( '2020' , '2021' , freq= 'W' )
ts = pd. Series( np. random. randn( len ( rng) ) , index= rng)
ts. head( )
2020-01-05 -0.275349
2020-01-12 2.359218
2020-01-19 -0.447633
2020-01-26 -0.479830
2020-02-02 0.517587
Freq: W-SUN, dtype: float64
ts[ '2020-01-26' ]
-0.47982974619679947
合法字符自動轉換爲時間點
ts[ '2020-01-26' : '20200726' ] . head( )
2020-01-26 -0.479830
2020-02-02 0.517587
2020-02-09 -0.575879
2020-02-16 0.952187
2020-02-23 0.554098
Freq: W-SUN, dtype: float64
2. 子集索引
ts[ '2020-7' ] . head( )
2020-07-05 -0.088912
2020-07-12 0.153852
2020-07-19 1.670324
2020-07-26 0.568214
Freq: W-SUN, dtype: float64
支持混合形態索引
ts[ '2011-1' : '20200726' ] . head( )
2020-01-05 -0.275349
2020-01-12 2.359218
2020-01-19 -0.447633
2020-01-26 -0.479830
2020-02-02 0.517587
Freq: W-SUN, dtype: float64
3. 時間點的屬性
採用dt對象可以輕鬆獲得關於時間的信息
pd. Series( ts. index) . dt. week. head( )
0 1
1 2
2 3
3 4
4 5
dtype: int64
pd. Series( ts. index) . dt. day. head( )
0 5
1 12
2 19
3 26
4 2
dtype: int64
利用strftime可重新修改時間格式
pd. Series( ts. index) . dt. strftime( '%Y-間隔1-%m-間隔2-%d' ) . head( )
0 2020-間隔1-01-間隔2-05
1 2020-間隔1-01-間隔2-12
2 2020-間隔1-01-間隔2-19
3 2020-間隔1-01-間隔2-26
4 2020-間隔1-02-間隔2-02
dtype: object
對於datetime對象可以直接通過屬性獲取信息
pd. date_range( '2020' , '2021' , freq= 'W' ) . month
Int64Index([ 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4,
5, 5, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8,
8, 9, 9, 9, 9, 10, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, 12,
12],
dtype='int64')
pd. date_range( '2020' , '2021' , freq= 'W' ) . weekday
Int64Index([6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
6, 6, 6, 6, 6, 6, 6, 6],
dtype='int64')
三、重採樣
所謂重採樣,就是指resample函數,它可以看做時序版本的groupby函數
1. resample對象的基本操作
採樣頻率一般設置爲上面提到的offset字符
df_r = pd. DataFrame( np. random. randn( 1000 , 3 ) , index= pd. date_range( '1/1/2020' , freq= 'S' , periods= 1000 ) ,
columns= [ 'A' , 'B' , 'C' ] )
df_r. head( )
A
B
C
2020-01-01 00:00:00
-1.343925
1.184322
-0.540354
2020-01-01 00:00:01
1.003050
0.343605
1.541366
2020-01-01 00:00:02
-1.955152
-1.223350
-0.447216
2020-01-01 00:00:03
-1.164559
0.220829
2.008356
2020-01-01 00:00:04
-0.662060
0.339157
0.666090
r = df_r. resample( '3min' )
r
<pandas.core.resample.DatetimeIndexResampler object at 0x0000020F9A7D6F98>
r. sum ( )
A
B
C
2020-01-01 00:00:00
-8.772685
-27.074716
2.134617
2020-01-01 00:03:00
3.822484
8.912459
-15.448955
2020-01-01 00:06:00
2.744722
-8.055139
-11.364361
2020-01-01 00:09:00
4.655620
-11.524496
-10.536002
2020-01-01 00:12:00
-10.546811
5.063887
11.776490
2020-01-01 00:15:00
8.795150
-12.828809
-8.393950
df_r2 = pd. DataFrame( np. random. randn( 200 , 3 ) , index= pd. date_range( '1/1/2020' , freq= 'D' , periods= 200 ) ,
columns= [ 'A' , 'B' , 'C' ] )
r = df_r2. resample( 'CBMS' )
r. sum ( )
A
B
C
2020-01-01
5.278470
1.688588
5.904806
2020-02-03
-3.581797
7.515267
0.205308
2020-03-02
-5.021605
-4.441066
5.433917
2020-04-01
0.671702
3.840042
4.922487
2020-05-01
4.613352
9.702408
-4.928112
2020-06-01
-0.598191
7.387416
8.716921
2020-07-01
-0.327200
-1.577507
-3.956079
2. 採樣聚合
r = df_r. resample( '3T' )
r[ 'A' ] . mean( )
2020-01-01 00:00:00 -0.048737
2020-01-01 00:03:00 0.021236
2020-01-01 00:06:00 0.015248
2020-01-01 00:09:00 0.025865
2020-01-01 00:12:00 -0.058593
2020-01-01 00:15:00 0.087952
Freq: 3T, Name: A, dtype: float64
r[ 'A' ] . agg( [ np. sum , np. mean, np. std] )
sum
mean
std
2020-01-01 00:00:00
-8.772685
-0.048737
0.939954
2020-01-01 00:03:00
3.822484
0.021236
1.004048
2020-01-01 00:06:00
2.744722
0.015248
1.018865
2020-01-01 00:09:00
4.655620
0.025865
1.020881
2020-01-01 00:12:00
-10.546811
-0.058593
0.954328
2020-01-01 00:15:00
8.795150
0.087952
1.199379
類似地,可以使用函數/lambda表達式
r. agg( { 'A' : np. sum , 'B' : lambda x: max ( x) - min ( x) } )
A
B
2020-01-01 00:00:00
-8.772685
4.950006
2020-01-01 00:03:00
3.822484
5.711679
2020-01-01 00:06:00
2.744722
6.923072
2020-01-01 00:09:00
4.655620
6.370589
2020-01-01 00:12:00
-10.546811
4.544878
2020-01-01 00:15:00
8.795150
5.244546
3. 採樣組的迭代
採樣組的迭代和groupby迭代完全類似,對於每一個組都可以分別做相應操作
small = pd. Series( range ( 6 ) , index= pd. to_datetime( [ '2020-01-01 00:00:00' , '2020-01-01 00:30:00'
, '2020-01-01 00:31:00' , '2020-01-01 01:00:00'
, '2020-01-01 03:00:00' , '2020-01-01 03:05:00' ] ) )
resampled = small. resample( 'H' )
for name, group in resampled:
print ( "Group: " , name)
print ( "-" * 27 )
print ( group, end= "\n\n" )
Group: 2020-01-01 00:00:00
---------------------------
2020-01-01 00:00:00 0
2020-01-01 00:30:00 1
2020-01-01 00:31:00 2
dtype: int64
Group: 2020-01-01 01:00:00
---------------------------
2020-01-01 01:00:00 3
dtype: int64
Group: 2020-01-01 02:00:00
---------------------------
Series([], dtype: int64)
Group: 2020-01-01 03:00:00
---------------------------
2020-01-01 03:00:00 4
2020-01-01 03:05:00 5
dtype: int64
四、窗口函數
下面主要介紹pandas中兩類主要的窗口(window)函數:rolling/expanding
s = pd. Series( np. random. randn( 1000 ) , index= pd. date_range( '1/1/2020' , periods= 1000 ) )
s. head( )
2020-01-01 0.305974
2020-01-02 0.185221
2020-01-03 -0.646472
2020-01-04 -1.430293
2020-01-05 -0.956094
Freq: D, dtype: float64
1. Rolling
(a)常用聚合
所謂rolling方法,就是規定一個窗口,它和groupby對象一樣,本身不會進行操作,需要配合聚合函數才能計算結果
s. rolling( window= 50 )
Rolling [window=50,center=False,axis=0]
s. rolling( window= 50 ) . mean( )
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 NaN
2020-01-04 NaN
2020-01-05 NaN
...
2022-09-22 0.160743
2022-09-23 0.136296
2022-09-24 0.147523
2022-09-25 0.133087
2022-09-26 0.130841
Freq: D, Length: 1000, dtype: float64
min_periods參數是指需要的非缺失數據點數量閥值
s. rolling( window= 50 , min_periods= 3 ) . mean( ) . head( )
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 -0.051759
2020-01-04 -0.396392
2020-01-05 -0.508333
Freq: D, dtype: float64
count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函數
(b)rolling的apply聚合
使用apply聚合時,只需記住傳入的是window大小的Series,輸出的必須是標量即可,比如如下計算變異係數
s. rolling( window= 50 , min_periods= 3 ) . apply ( lambda x: x. std( ) / x. mean( ) ) . head( )
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 -10.018809
2020-01-04 -2.040720
2020-01-05 -1.463460
Freq: D, dtype: float64
(c)基於時間的rolling
s. rolling( '15D' ) . mean( ) . head( )
2020-01-01 0.305974
2020-01-02 0.245598
2020-01-03 -0.051759
2020-01-04 -0.396392
2020-01-05 -0.508333
Freq: D, dtype: float64
可選closed=‘right’(默認)‘left’‘both’'neither’參數,決定端點的包含情況
s. rolling( '15D' , closed= 'right' ) . sum ( ) . head( )
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
2. Expanding
(a)expanding函數
普通的expanding函數等價與rolling(window=len(s),min_periods=1),是對序列的累計計算
s. rolling( window= len ( s) , min_periods= 1 ) . sum ( ) . head( )
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
s. expanding( ) . sum ( ) . head( )
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
apply方法也是同樣可用的
s. expanding( ) . apply ( lambda x: sum ( x) ) . head( )
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
(b)幾個特別的Expanding類型函數
cumsum/cumprod/cummax/cummin都是特殊expanding累計計算方法
s. cumsum( ) . head( )
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
s. cumsum( ) . head( )
2020-01-01 0.305974
2020-01-02 0.491195
2020-01-03 -0.155277
2020-01-04 -1.585570
2020-01-05 -2.541664
Freq: D, dtype: float64
shift/diff/pct_change都是涉及到了元素關係
①shift是指序列索引不變,但值向後移動
②diff是指前後元素的差,period參數表示間隔,默認爲1,並且可以爲負
③pct_change是值前後元素的變化百分比,period參數與diff類似
s. shift( 2 ) . head( )
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 0.305974
2020-01-04 0.185221
2020-01-05 -0.646472
Freq: D, dtype: float64
s. diff( 3 ) . head( )
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 NaN
2020-01-04 -1.736267
2020-01-05 -1.141316
Freq: D, dtype: float64
s. pct_change( 3 ) . head( )
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 NaN
2020-01-04 -5.674559
2020-01-05 -6.161897
Freq: D, dtype: float64
五、問題與練習
【問題一】 如何對date_range進行批量加幀操作或對某一時間段加大時間戳密度?
利用apply函數
pd. Series( pd. offsets. BYearBegin( 3 ) . apply ( i) for i in pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) )
0 2023-01-02
1 2024-01-01
2 2025-01-01
dtype: datetime64[ns]
直接使用對象加減
pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) + pd. offsets. BYearBegin( 3 )
DatetimeIndex(['2023-01-02', '2024-01-01', '2025-01-01'], dtype='datetime64[ns]', freq='A-DEC')
【問題二】 如何批量增加TimeStamp的精度?
pd. Timestamp( '2020-01-01' ) + pd. offsets. Second( 0 )
Timestamp('2020-01-01 00:00:00')
pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) + pd. offsets. Second( 1 )
DatetimeIndex(['2020-12-31 00:00:01', '2021-12-31 00:00:01',
'2022-12-31 00:00:01'],
dtype='datetime64[ns]', freq='A-DEC')
pd. Series( pd. offsets. Second( 1 ) . apply ( i) for i in pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) )
0 2020-12-31 00:00:01
1 2021-12-31 00:00:01
2 2022-12-31 00:00:01
dtype: datetime64[ns]
【問題三】 對於超出處理時間的時間點,是否真的完全沒有處理方法?
個人覺得可以單獨索引出再處理時間內的時間點,進行處理,對於超出處理時間的時間點,我們可以使用apply函數對其時間進行長尾截斷,或者用其他的值來替換都可以
pd. Series( pd. offsets. Second( 1 ) . apply ( i) for i in pd. date_range( '20200101' , periods= 3 , freq= 'Y' ) ) . apply ( lambda x: x- pd. offsets. Second( 1 ) if x> ( pd. Timestamp( '2021-01-01' ) + pd. offsets. Second( 1 ) ) else x)
0 2020-12-31 00:00:01
1 2021-12-31 00:00:00
2 2022-12-31 00:00:00
dtype: datetime64[ns]
【問題四】 給定一組非連續的日期,怎麼快速找出位於其最大日期和最小日期之間,且沒有出現在該組日期中的日期?
pd. date_range( '20200101' , periods= 3 , freq= 'D' ) . min ( )
Timestamp('2020-01-01 00:00:00', freq='D')
a= pd. to_datetime( [ '2020/1/1' , '2020/1/3' , '2020/1/6' ] )
pd. Series( pd. date_range( start= a. min ( ) , end= a. max ( ) , freq= 'D' ) ) . apply ( lambda x: x if x not in a else None ) . dropna( )
1 2020-01-02
3 2020-01-04
4 2020-01-05
dtype: datetime64[ns]
【練習一】 現有一份關於某超市牛奶銷售額的時間序列數據,請完成下列問題:
(a)銷售額出現最大值的是星期幾?(提示:利用dayofweek函數)
(b)計算除去春節、國慶、五一節假日的月度銷售總額
(c)按季度計算週末(週六和週日)的銷量總額
(d)從最後一天開始算起,跳過週六和週一,以5天爲一個時間單位向前計算銷售總和
(e)假設現在發現數據有誤,所有同一周裏的週一與週五的銷售額記錄顛倒了,請計算2018年中每月第一個週一的銷售額(如果該周沒有周一或週五的記錄就保持不動)
pd. read_csv( 'data/time_series_one.csv' ) . head( )
日期
銷售額
0
2017/2/17
2154
1
2017/2/18
2095
2
2017/2/19
3459
3
2017/2/20
2198
4
2017/2/21
2413
【練習二】 繼續使用上一題的數據,請完成下列問題:
(a)以50天爲窗口計算滑窗均值和滑窗最大值(min_periods設爲1)
(b)現在有如下規則:若當天銷售額超過向前5天的均值,則記爲1,否則記爲0,請給出2018年相應的計算結果
(c)將©中的“向前5天”改爲“向前非週末5天”,請再次計算結果
== 這週考試周只能先去複習數據結構了,等考完試一定會來補上。==