九、機器學習一些基本概念

一、數據科學項目的各個階段

1.定義業務問題

      Albert Einstein once quoted “Everything should be made as simple as possible, but not simpler” 這句話是定義業務問題的關鍵。  需要開發和構建問題陳述。需要建立明確的成功標準。根據我的經驗,業務團隊忙於處理他們的操作任務。這並不意味着他們沒有需要解決的挑戰。頭腦風暴會議,研討會和訪談可以幫助發現這些挑戰並提出假設。讓我用一個例子來說明這一點。讓我們假設一家電信公司由於客戶羣減少而導致其同比收入下降。 在這種情況下,業務問題可能定義爲:

  • 公司需要通過定位新細分和減少客戶流失來擴大客戶羣。

2.分解機器學習任務

業務問題一旦定義,就需要分解爲機器學習任務。 讓我們詳細說明我們在上面設置的示例。如果組織需要通過定位新細分並減少客戶流失來擴大客戶羣,那麼我們如何將其分解爲機器學習問題?以下是分解的示例:

  • 將 客戶流失率降低x%。
  • 確定有針對性的營銷的新客戶羣。

3.數據準備

一旦我們定義了業務問題並將其分解爲機器學習問題,我們就需要深入研究數據。數據理解應該明確手頭的問題。它應該有助於我們制定正確的分析策略。 需要注意的關鍵事項是數據來源,數據質量,數據偏差等。

4.探索性數據分析

宇航員穿越宇宙的未知數。同樣,數據科學家遍歷數據中模式的未知數,窺探其特徵的陰謀並制定未開發的模型。 探索性數據分析(EDA)是一項令人興奮的任務。我們可以更好地理解數據,研究細微差別,發現隱藏模式,開發新功能並制定建模策略。

5.建模

在EDA之後,我們進入建模階段。在這裏,根據我們特定的機器學習問題,我們應用有用的算法,如迴歸,決策樹,隨機森林等。

6.部署和評估

最後,部署了開發的模型。他們會不斷受到監控,以觀察他們在現實世界中的表現並相應地進行校準。

通常,建模和部署部分僅佔工作的20%。80%的工作是掌握數據,探索數據並理解數據。

二、機器學習問題類型

一般來說,機器學習有兩種任務:

監督學習

監督學習是一種  機器  學習任務,其中存在定義的目標。從概念上講,建模者將監督機器學習模型以實現特定目標。 監督學習可以進一步分爲兩類:

  • 迴歸: 迴歸是機器學習任務的主力。它們用於估計或預測數值變量。迴歸模型的幾個例子可以是:
  • 下個季度潛在收入的估計是多少?
  • 我明年可以關閉多少筆交易?
  • 分類: 顧名思義,分類模型對某些東西進行分類。估計哪個桶最合適。分類模型經常用於所有類型的應用程序。分類模型的幾個例子是:
  • 垃圾郵件過濾是  分類模型的流行實現。此處,根據特定特徵,每個傳入的電子郵件都被歸類爲垃圾郵件或非垃圾郵件。
  • 流失預測是分類模型的另一個重要應用。在電信公司中廣泛使用的流失模型可以對給定客戶是否會流失(即停止使用服務)進行分類。

無監督學習

無監督學習是一類沒有目標的機器學習任務。由於無監督學習沒有任何指定的目標,因此有時難以解釋它們產生的結果。有許多類型的無監督學習任務。關鍵是:

  • 聚類:  聚類是將類似事物組合在一起的過程。客戶細分使用聚類方法。
  • 協會:  協會是一種尋找經常相互匹配的產品的方法。零售市場籃子分析使用關聯方法將產品捆綁在一起。
  • 鏈接預測:  鏈接預測用於查找數據項之間的連接。Facebook,亞馬遜和Netflix採用的推薦引擎大量使用鏈接預測算法來推薦我們的朋友,購買的物品和電影。
  • 數據縮減:  數據縮減方法用於簡化從許多功能到少數功能的數據集。它需要一個包含許多屬性的大型數據集,並找到用較少屬性表達它們的方法。

三、機器學習任務模型算法

一旦我們將業務問題分解爲機器學習任務,一個或多個算法就可以解決給定的機器學習任務。 通常,模型是在多種算法上訓練的。選擇提供最佳結果的算法或算法集用於部署。

Azure Machine Learning具有30多種預構建算法,可用於訓練機器學習模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章