機器學習-Day_1

1.什麼是機器學習?
百度百科:機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

簡單來說:機器學習是一門能夠讓系統從數據中學習的計算機科學。

2.機器學習在那些方面表現突出,以及分類?
機器學習非常有利於:不存在已知算法解決方案的複雜問題,需要大量手動調整或是規則列表超長的問題,創建可以適應環境波動的系統,以及幫助人類學習(比如數據挖掘)

分類:

  • 是否在人類監督下訓練(監督式學習,無監督式學習,半監督式學習和強化學習)
  • 是否可以動態的進行增量學習(在線學習和批量學習)
  • 是簡單的將新的數據點和已知的數據點進行匹配,還是對訓練數據進行模式檢測,然後建立一個預測模型(基於實例的學習還是基於模型的學習)

3.什麼是被標記的訓練數據集?
被標記的訓練集是指包含每個實例所期望的解決方案的訓練集。

4.最常見的兩種監督式學習任務是什麼?
迴歸和分類

5.常見的無監督式學習任務是什麼?
聚類,可視化,降維和關聯規則學習

6.要讓機器人在未知的地形中行走,你會使用什麼類型的機器學習算法?
如果想讓機器人學會如何在各種未知地形上行走,強化學習可能表現最好,因爲這正是一個典型的強化學習擅長解決的問題。將這個問題表達爲監督式或半監督式學習問題也可以。

7.要講顧客分爲多個組,你會使用什麼類型的算法?
如果你不知道如何定義分組,那麼可以使用聚類算法將相似的顧客分爲一組。但是,如果你知道想要的是什麼樣的羣組,那麼可以將每個組的多個示例反饋給分類算法,它就可以將所有的顧客歸類到這些組中。

8.你會將垃圾郵件檢測的問題列爲監督式學習還是無監督式學習?
垃圾郵件檢測是個典型的監督式學習問題:將郵件和它們的標籤(垃圾郵件或者非垃圾郵件)一起提供給算法。

9.什麼是在線學習系統?
在線學習系統可以進行增量學習,與批量學習系統正好相反。這使得它能夠快速適應不斷變化的數據和自動化系統,並且能夠在大量的數據上進行訓練。

10.什麼是核外學習?
核外算法可以處理計算機主內存無法應對的大量數據。它將數據分割成小批量,然後使用在線學習技術從這些小批量中學習。

11.什麼類型的學習算法依賴相似度來做出預測?
基於實例的學習系統通過死記硬背來學習訓練數據,當給定一個新實例時,它會使用相似度度量來找到與之最相似的實例,並用他們進行預測。

12.模型參數與學習算法的超參數之間有什麼區別?
模型有一個或多個參數,這些參數決定了模型對新的給定實例會做出怎樣的預測。學習算法試圖找到這些參數的最佳值,使得該模型能夠很好地泛化至新實例。超參數是學習算法本身的參數,不是模型的參數。

13.基於模型的學習算法搜索的是什麼?它們最常用的策略是什麼?它們如何做出預測?
基於模型的學習算法搜索使模型泛化最佳的模型參數值。通常通過使成本函數最小化來訓練這樣的系統,成本函數衡量的是系統對
訓練數據的預測有多壞,如果模型有正則化,則再加上一個對模型複雜度的懲罰。學習算法最後找到的參數值就是最終得到的預測函數,只需要將實例特徵提供給這個預測函數即可進行預測。

14.你能提出機器學習中的四個主要挑戰嘛?
數據缺乏、數據質量差、數據不具備代表性、特徵不具信息量、模型過於簡單對訓練數據擬合不足,以及模型過於複雜對訓練數據過度擬合。

15.如果你的模型在訓練數據中表現很好,但是應用到新的實例上的泛化結果卻很糟糕,是怎麼回事?能提出3種可能的解決方案嘛?
該模型很可能是過度擬合訓練數據(或者在訓練數據上運氣太好)。可能的解決方案是:獲取更多數據,簡化模型(選擇更簡單的算法,減少使用的參數或者特徵數量、對模型正則化),或者是減少訓練數據中的噪聲。

16.什麼是測試集,爲什麼要使用測試集?
在模型啓動至生產環境之前,使用測試集來估算模型在新實例上的泛化誤差。

17.驗證集的目的是什麼?
驗證集用來比較不同模型。可以用來選擇最佳模型和調整超參數。

18.如果使用測試集調整超參數會出現什麼問題?
如果使用測試集來調整超參數,會有過度擬合測試集的風險,最後測量的泛化誤差會過於樂觀(最後啓動的模型性能比預期要差)。

19.什麼是交叉驗證?它爲什麼比驗證集更好?
通過交叉驗證技術,可以不需要單獨的驗證集實現模型比較(用於模型選擇和調整超參數)。這節省了寶貴的訓練數據。

知識點

監督式學習的算法

  • K-近鄰算法
  • 線性迴歸
  • 邏輯迴歸
  • 支持向量機
  • 決策樹和隨機森林
  • 神經網絡

無監督式學習

聚類算法

  • k-平均算法
  • 分層聚類分析
  • 最大期望算法

可視化與降維

  • 主成分分析
  • 核主成分分析
  • 局部線性嵌入
  • t-分佈隨機近臨嵌入

關聯規則學習

  • Apriori
  • Eclat
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章