GPT之路(二) AI基礎之機器學習ML工作原理

1.什麼是機器學習？

機器學習 (ML) 是人工智能 (AI) 的一部分，屬於計算科學領域，專門分析和解釋數據的模式及結構，以實現無需人工交互即可完成學習、推理和決策等行爲的目的。機器學習在沒有明確指令的情況下，依靠既有模式和推理來執行任務。計算機系統使用機器學習算法來處理大量歷史數據，並識別數據模式。這可讓計算機系統根據給出的輸入數據集更準確地預測結果。簡而言之，機器學習就是訓練機器去學習，而不需要明確編程。機器學習作爲 AI 的一個子集，以其最基本的形式使用算法來解析數據、學習數據，然後對現實世界中的某些內容做出預測或判斷。換句話說，機器學習使用算法從輸入到機器學習平臺的數據中自動創建模型。典型的程序化或基於規則的系統獲取程序化規則中的專家知識，但當數據發生變化時，這些規則可能會變得難以更新和維護。機器學習的優勢在於，它能夠從越來越多輸入算法的數據中學習，並且可以給出數據驅動的概率預測。這種在當今大數據應用中快速有效地利用和應用高度複雜算法的能力是一種相對較新的發展。幾乎任何可以用數據定義的模式或一組規則來完成的離散任務都可以通過自動化方式進行，因此使用機器學習可以大大提高效率。這使得公司可以改變以前只有人工才能完成的流程，包括客戶服務電話路由以及履歷審查等等。機器學習系統的性能取決於一些算法將數據集轉換爲模型的能力。不同算法適用於不同問題和任務，而這些問題的解決和任務的完成也取決於輸入數據的質量以及計算資源的能力。

2.爲何機器學習至關重要？

機器學習可促進企業發展、爲企業拓展新的收入源、解決企業難題，在多方面提供幫助。數據是商業決策背後的關鍵驅動力，但傳統上，公司大多使用不同來源的數據，例如客戶反饋、員工和財務數據。機器學習研究對這一流程進行了自動化和優化。通過使用能夠高速分析大量數據的軟件，企業可以更快取得成果。

3.機器學習可用在哪些領域？

3.1 製造業

機器學習可以爲製造業的預測性維護、質量控制和創新研究提供支持。機器學習技術還可以幫助公司改進物流解決方案，包括資產、供應鏈以及庫存管理。

3.2 醫護及生命科學

加速計算和 ML 正推動醫療健康領域的智能計算。NVIDIA Clara™ 提供單一平臺，整合醫學影像、基因組學、患者監控以及藥物研發，並可將該平臺部署在嵌入式系統、邊緣、每個雲端等任何地方，助力醫療健康行業進行創新並加快實現精準醫療的目標。

可穿戴傳感器和設備的激增產生了大量的健康數據。機器學習程序可以分析此信息，併爲醫生的實時診斷和治療提供支持。機器學習研究人員正在開發發現癌症腫瘤並診斷眼睛疾病的解決方案，這會對人類健康結果產生巨大影響。

3.3 金融服務

金融機構正在採用 ML 來提供更智能、更安全的服務。GPU 驅動的 ML 解決方案可以在大量數據中識別關鍵見解，通過自動化減輕員工的日常任務負擔，加速風險計算和欺詐檢測，並藉助更準確的推薦系統改善客戶服務。

金融機器學習方案改進了風險分析和監管程序。機器學習技術可讓投資者分析股市走勢、評估對沖基金或校準金融服務產品組合，從而發現新的機會。此外，它還有助於識別高風險貸款客戶，減少欺詐問題。

3.4 零售

領先的零售商正利用 ML 來減少損耗、改善預測、實現倉庫物流自動化、確定店內促銷活動和實時定價、爲客戶提供個性化服務和建議，以及在實體店和網店提供更出色的購物體驗。瞭解消費者行爲對於零售商而言變得更爲重要。爲了推動發展，採用智能推薦進行個性化營銷。爲提高收入，在線零售商使用由 GPU 提供支持的機器學習 (ML) 和深度學習 (DL) 算法來打造更快速、更準確的推薦引擎。購物者的購買以及網絡操作歷史記錄爲機器學習模型的分析提供了數據，從而得出建議，並支持零售商在促銷方面所作的努力。

3.5 媒體和娛樂

娛樂公司轉向使用機器學習，希望更好地瞭解他們的目標受衆，並根據受衆需求提供沉浸式的個性化內容。部署機器學習算法有助於設計預告片和其他廣告，爲消費者提供個性化的內容建議，甚至還可以簡化生產。

4.機器學習的工作原理是什麼？

機器學習的核心思想是任意輸入和輸出數據組合之間的現有數學關係。機器學習模型事先不知道這種關係，但如果給出足夠的數據集，它可以猜測出來。這意味着每個機器學習算法都是圍繞一個可修改的數學函數構建的。基本原理可以這樣理解：

1.我們爲算法提供了以下輸入/輸出 (i,o) 組合來“訓練”算法 – (2,10)、(5,19) 和 (9,31)
2.算法計算出輸入和輸出之間的關係爲：o=3*i+4
3.我們爲算法提供輸入 7，並要求算法預測輸出。算法會自動確定輸出爲 25。

雖然這只是機器學習的基本理解，但機器學習關注的是一個原則，即所有複雜的數據點都可以通過計算機系統建立數學關聯，只要它們有足夠的數據和計算能力來處理這些數據。因此，輸出的準確度與給定的輸入大小直接相關。

5.機器學習算法有哪些類型？

機器學習採用兩種主要技術，將算法的使用劃分爲不同類型：監督式、無監督式以及這兩種技術的組合。監督式學習算法使用已標記數據，無監督式學習算法在未標記數據中找規律。半監督式學習混合使用已標記和未標記數據。增強學習訓練算法，基於反饋更大限度地利用獎勵。根據預期輸出和輸入類型，算法可以分爲 4 種不同的學習風格

1.有監督機器學習
2.無監督機器學習
3.半監督學習
4.強化機器學習

5.1有監督機器學習

數據科學家爲算法提供標註和定義的訓練數據，以評估相關性。樣本數據指定了算法的輸入和輸出。例如，爲手寫數字的圖像添加註釋，指示它對應於哪個數字。有監督學習系統在樣本充分的情況下，可以識別與每個數字相關的像素和形狀的集羣。最終有監督學習系統可以識別手寫的數字，可以穩定地區分數字 9 和 4 或 6 和 8。有監督學習的優點是設計簡單易行。它在預測可能的有限結果集、將數據劃分爲類別，或組合其他兩種機器學習算法的結果時非常有用。但是，爲數百萬個未標註的數據集添加標註是一項難題。我們來深入瞭解下：

什麼是數據標註？

數據標註是根據相應的定義輸出值對輸入數據進行歸類的過程。有監督學習必需使用標註後的訓練數據。例如，數百萬張蘋果和香蕉圖片需要貼上“蘋果”或“香蕉”的標籤。然後機器學習應用程序就會在給出水果圖片後，使用此訓練數據猜測水果的名稱。

監督式機器學習（也稱爲預測分析）使用算法來訓練模型，以在包含標籤和特徵的數據集中找規律。然後，它使用經過訓練的模型預測新數據集的特徵標籤。

監督式學習可以進一步分爲分類和迴歸。分類根據已知項目的已標籤示例來確定一個項目屬於哪個類別。邏輯迴歸用於根據已知爲/非欺詐交易的特徵（交易金額、時間以及上次交易地點）來估計信用卡交易爲欺詐交易的概率（標籤）

其他分類示例包括：垃圾郵件檢測，文本情感分析，預測患者風險、敗血症或癌症

迴歸可估算目標結果標籤與一個或多個特徵變量之間的關係，以預測連續數值。在下面的簡單示例中，線性迴歸用於根據房屋面積（特徵）估算房價（標籤）

迴歸的其他示例包括：預測欺詐數量，預測銷售額

監督式學習算法包括：邏輯迴歸，線性迴歸，支持向量機，決策樹，隨機森林和梯度提升決策樹

5.2 無監督機器學習

無監督學習算法會使用未標註的數據進行訓練。該算法會掃描新數據，試圖在輸入和預先確定的輸出之間建立有意義的連接。它們可以發現模式並對數據進行分類。例如，無監督算法可以將來自不同新聞網站的新聞文章分爲體育、犯罪等常見類別。該算法可以利用自然語言處理來理解文章的意義和感情。在零售業中，無監督學習可以在顧客購買活動中發現一些模式，並提供數據分析結果，比如，如果顧客購買了黃油，那再購買麪包的可能性最大。無監督學習在模式識別、異常檢測、數據自動歸類方面十分有用。訓練數據不需要添加標註，因此設置十分簡單。這些算法還可用於清理和處理數據，以供進一步自動建模。這種方法的侷限性在於它不能給出精確的預測。此外，它也不能單獨挑出特定類型的數據結果。無監督式學習（也稱爲描述性分析）事先未提供已標記數據，因此有助於數據科學家發現先前未知數據規律。這些算法嘗試“學習”輸入數據中的固有結構，並發現相似性或規律性。

常見的無監督式任務包括聚類和關聯。

在聚類中，算法通過分析輸入示例之間的相似性將輸入分爲不同類別。聚類的一個示例是，爲了更好地定製產品和服務，公司希望對其客戶進行細分。客戶可以按人口統計數據和購買記錄等特徵進行分組。爲了得到更有價值的結果，通常將無監督式學習聚類與監督式學習聚類相結合。

其他聚類示例包括：搜索結果分組,對相似患者進行分組,文本分類和異常檢測（從集羣中找出不相似的地方，即異常值）

關聯或頻繁模式挖掘可以在大型數據項集合中發現頻繁同時發生的關聯（關係、依賴關係）。一個同時發生的關聯示例是經常一起購買的產品，例如有名的啤酒和紙尿褲。對購物者行爲的分析發現，購買紙尿褲的男性通常也會買啤酒。

無監督式學習算法包括：K-means，隱含狄利克雷分佈 (LDA)，高斯混合模型 (GMM)，交替最小二乘法 (ALS)和FP 增長

5.3 半監督學習

顧名思義，該方法結合了有監督學習和無監督學習。該技術使用少量已標註數據和大量未標註數據來訓練系統。首先，標註的數據用於部分訓練機器學習算法。然後，部分訓練後的算法本身會爲未標註數據添加標註。此流程被稱爲僞標註。然後，該模型在沒有明確編程的情況下，根據生成的數據組合進行重新訓練。該方法的優勢在於，您不需要大量的標註數據。當處理像長文檔這樣的數據時，它非常方便，因爲人工處理這些數據太費時了，難以閱讀和標註。

5.4 強化學習

強化學習是在算法必經的多個階段附加獎勵值的方法。因此，該模型的目標是積累儘可能多的獎勵積分，並實現最終目標。在過去的 10 年間，強化學習的大多實際應用都在電子遊戲領域。先進的強化學習算法在經典和現代遊戲中都取得了令人印象深刻的結果，往往大大超越人類的能力。這種方法在不確定且複雜的數據環境中表現非常好，但在商業環境中卻很少得到應用。該方法對於預先定義好的任務而言效率較低，並且開發人員的偏好也會影響結果。這是因爲數據科學家設計了獎勵，它們可以影響結果。

6.機器學習模型具有確定性嗎？

如果系統的輸出可預測，那麼它就可以說具有確定性。大多數軟件應用程序對用戶操作的反應都是可預測的，因此您可以說“如果用戶這樣做，他就能得到確定的結果”。但是，機器學習算法通過觀察和經驗來學習。因此，它們本質上具有概率性。上述語句現在更改爲：“如果用戶這樣做，他有 X% 的機率得到確定的結果。”在機器學習中，決定論是應用上述學習方法時使用的一種策略。有監督、無監督及其他訓練方法均可以根據企業想要的結果決定。研究問題、數據檢索、結構和存儲決策決定了採用的是確定性策略還是非確定性策略。

7.確定性方法與概率性方法

確定性方法注重準確性和收集的數據量，因此效率優先於不確定性。另一方面，非決定性（或概率性）流程旨在管理機會因素。機器學習算法中集成了內置工具，有助於量化、識別和衡量學習和觀察過程中的不確定性。

8.機器學習的優點和缺點都有哪些？

8.1 機器學習模型的優點：

1.可以識別人類可能遺漏的數據趨勢和模式。
2.設置後無需人工干預即可運作。例如，網絡安全軟件中的機器學習即使沒有管理員輸入，也能持續監控和識別網絡流量的異常情況。
3.結果會隨着時間推移越來越準確。
4.可以在動態、大容量和複雜的數據環境中處理各種數據格式。
5.以足夠及時的方式進行快速分析、預測和處理，使企業能夠快速做出基於數據的決策
6.通過快速識別高風險患者、推薦一系列藥物以及預測再入院率，促進準確的醫學預測和診斷
7.通過顯著減少由數據重複和其他不準確造成的錯誤，簡化數據輸入中的時間密集型文檔，同時使工作人員擺脫繁重的數據輸入任務
8.提高金融規則和模型的精確度，促進投資組合管理；實現算法交易、貸款承銷，重要的是推進欺詐檢測
9.改善客戶分割和生命週期價值預測，爲營銷人員提供寶貴信息以優化潛在客戶，更大限度地提高網絡流量，以及提高郵件和電子郵件活動的回報。

8.2 機器學習模型的缺點：

初始訓練成本較高且非常耗時。如果沒有充足的數據，可能難以運作。
如果在內部設置硬件，則機器學習是一種需要大量初始投資的計算密集型流程。
在沒有專家幫助的情況下，可能很難正確解釋結果並消除不確定性。