端到端的特徵轉換示例:使用三元組損失和 CNN 進行特徵提取和轉換

雖然大多數的特徵策略都與領域相關,並且必須針對每個應用程序進行專門調整。但特徵工程是操縱原始數據和提取機器學習特徵的過程,探索性數據分析 (EDA) 可以使用特徵工程技術來可視化數據並在執行機器學習任務之前更好地識別模式和異常值。這是數據科學的重要一步,可以確保特定機器學習應用程序的預期結果。

使用 EDA 和特徵工程的組合具有多種優勢:

  • 提高準確性
  • 減少訓練時間
  • 減少過擬合
  • 簡化模型

特徵工程技術

有多種特徵工程方法可以用於機器學習的各種特定應用和數據類型。這些可以包括:

  • 轉換——縮放或編碼數據以便模型更好地理解
  • 分類編碼
  • 特徵縮放
  • 特徵選擇——挑選出不必要或導致模型準確性降低的特徵
  • 特徵創建——創建從其他特徵中提取或結合的新特徵,以便對模型更有用
  • 特徵提取——通常是某種形式的降維(PCA、ICA 等)
  • 自動編碼器

在典型的機器學習項目中,數據科學家會使用特徵工程技術的組合創建複雜的管道,處理數據併爲機器學習做好準備。這個過程通常是機器學習中最繁瑣和最需要技能的部分。

端到端的特徵轉換

複雜特徵工程管道的一個潛在替代方案是端到端的特徵轉換。在端到端方法中,機器學習從原始輸入數據到輸出預測的整個過程是通過一個連續的管道來學習的。端到端管道所需的配置較少,並且可以輕鬆應用於多種形式的數據。但是使用特徵工程的方法可以比端到端方法做得更好,因爲它們可以針對特定任務進行更好的調整。

端到端特徵工程方法不會取代 EDA。換句話說,端到端的特徵轉換方法也是一種特徵工程,它使用機器學習模型將原始數據直接轉換爲可用於提高模型準確性的數據。此過程幾乎不需要對數據進行預處理,並且可以輕鬆應用於許多領域。

在 Jean-Yves Franceschi 等人的論文“Unsupervised Scalable Representation Learning for Multivariate Time Series”。通過卷積和三元組損失學習數據的表示,並提出了一種端到端的特徵轉換方法,這種使用無監督卷積的方法簡化並應用於各種數據。

簡而言之,他們正在實現一個卷積神經網絡,該網絡將轉換和提取特徵,然後將其發送到你選擇的機器學習模型執行預測。經過適當訓練,這個 CNN 將能夠爲我們的模型提取重要特徵,並準確執行其給定任務。

完整文章:

https://avoid.overfit.cn/post/0c442306b8164f3c857de9769cc4dd42

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章