用數據解鎖機器學習

原創

2020-03-17 04:51

日益增長的數字經濟要求企業管理者對迅速變化的數字環境有深入的瞭解。其中人工智能（AI）是重要的利益相關者。希望爲自動化的未來做好準備的企業就應該對人工智能有透徹的瞭解。然而，人工智能是一個涵蓋多個學科的總括術語，每個學科對業務的影響略有不同。

人工智能可以分爲三個不同的領域：

面對現實世界，可以直接與人類互動的機器人技術。機器人可以以各種方式改善我們的工作。
面對人類世界的認知系統，例如聊天機器人。聊天機器人是幫助個人和企業進行對話的通信接口，是人與機器共同努力實現目標的例子。
面對信息世界的機器學習。機器使用數據進行學習，使用統計方法進行改進，旨在從數據中獲取意義。深度學習是機器學習的一個子集，支持多層神經網絡。

人工智能就是包括機器人技術，認知系統和機器學習的無縫集成。

我們今天要研究的就是其中一個領域——機器學習。機器學習的目的是從數據中獲取意義，因此數據是解鎖機器學習的關鍵。機器學習共有七個步驟，每個步驟都圍繞數據進行：

數據收集

首先是數據的收集。機器學習需要大量的訓練數據，其中包含大量已標記的數據（意味着監督學習）或未標記的數據（意味着無監督學習）。

數據準備

第二步是數據準備。原始數據並不能直接使用，數據需要準備、標準化、去重複、消除錯誤和偏差。數據可視化可用於查找模式和異常值，以查看數據是否已正確收集或是否丟失。

選擇模型

然後是選擇正確的模型，根據不同目的可以選擇不同模型。選擇模型時，要確保模型符合業務目標。此外，我們應該知道這一模型需要多少準備工作，模型的準確性和可擴展性。模型構成並不是越複雜越好。常用的機器學習算法包括線性迴歸、邏輯迴歸、決策樹、K均值、主成分分析（PCA）、支持向量機（SVM）、樸素貝葉斯、隨機森林和神經網絡。

訓練

接下來是訓練模型。訓練模型是機器學習的主要內容，目的是使用訓練數據逐步改善模型的預測。每個更新權重和偏差的週期都是一個訓練步驟。在有監督的機器學習中，模型是使用標記的樣本數據構建的，而無監督的機器學習則嘗試從未標記的數據中得出推論（不參考已知或標記的結果）。

評估

訓練模型後，即可評估模型。這需要針對未使用的控制數據集進行機器學習測試，以查看其性能。這可能代表了模型在現實世界中的工作方式，但也並不一定是這樣。現實世界中變量的數量越大，訓練和測試數據的數量就應越大。

參數調整

評估模型完成後，需要測試最初設置的參數以改進AI。增加訓練週期數量可以得到更準確的結果。但也需要定義模型何時判定爲足夠完善，否則調整模型不會停止。

預測

一旦完成了上述幾步的過程，就可以使用預測來回答問題了。這裏可以進行各種預測，從圖像識別到語義，再到預測分析等。

結論

機器學習使軟件可以更準確地預測結果。在未來幾年中，它將極大擴充使用率甚至實現業務流程全覆蓋。因此，機器學習將成爲未來自動化企業不可或缺的一部分。由於未來硬件速度會越來越快，我們將看到功能更強大、能夠提供更精確預測的模型。

但是，由於數據和數據分析師都存在片面性，降低模型偏差的挑戰也將持續。因此，我們應確保機器學習的模型和數據無偏差、訓練有素、經過評估和正確調整。只有這樣，企業才能真正從機器學習中受益。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

用數據解鎖機器學習

情報內生，聚合應變

新基建主旋律下的數據安全保障

涉疫情個人信息和數據安全保護態勢分析報告

涉疫情個人信息和數據安全保護態勢分析報告

央行：加強金融業網絡安全和信息化統籌指導，築牢金融網絡安全屏障

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結