時間序列數據是隨着時間的推移反覆捕獲的變量值,隨着時間的推移可以產生一系列的按時間順序索引的數據點。在時間序列中,數據具有自然的時間順序,即一個變量在特定時間的值依賴於過去的值。
傳統的機器學習算法不能捕捉時間序列數據的時間順序。數據科學家需要執行相關的特徵工程,將數據的重要特徵捕獲到幾個指標中。生成大量的時間序列特徵並從中提取相關特徵是一項耗時且繁瑣的工作。
python的tsfresh包可以爲時間序列數據生成標準的數百個通用特性。在本文中,我們將深入討論tsfresh包的使用。
tsfresh 是一個可以生成數百個相關的時間序列特徵的開源包。從 tsfresh 生成的特徵可用於解決分類、預測和異常值檢測用例。
tsfresh 包提供了對時間序列數據執行特徵工程的各種功能,包括:
- 特徵生成
- 特徵選擇
- 與大數據的兼容性
安裝tsfresh 也非常的簡單,官方提供了pip和conda的安裝方式:
pip install -U tsfresh
# or
conda install -c conda-forge tsfresh
1、特徵生成
tsfresh 包提供了一個自動特徵生成 API,可以從 1 個時間序列變量中生成 750 多個相關特徵。生成的特徵廣泛,包括:
- 描述性統計(平均值、最大值、相關性等)
- 基於物理的非線性和複雜性指標
- 數字信號處理相關功能
- 歷史壓縮特徵
完整文章:
https://avoid.overfit.cn/post/d0d74ed9d52a43d98beb10ddcb4ff1a4