機器學習相關基礎~

最近在看一本機器學習的書,在跟這裏面在學,記個博客就當做做筆記吧~

       現在主要討論一下 監督學習, 在監督學習裏面,我們只需要給定輸入樣本集,機器就可以從中推演出目標變量的可能結果。所以監督學習相對來說比較簡單,機器只需要從輸入的數據中預測合適的模型,並且從中計算出目標變量的結果

           然後關於監督學習的目標變量:  標稱型和數值型。 兩者一個很明顯的差別在於 : 標稱型變量的的結果只有在 有限集中間進行取值, 如 真與假,食物分類集合,動物分類集合;然而 數值型目標變量就可以從無限的數值集合中進行取值,如小數的集合,等等. 而且數值型變量通常用於迴歸分析。

          機器學習就是將 無序的數據轉換爲有用的信息! 所以機器學習對於任何需要 解釋並且操作數據 的領域都很有用。

機器學習會用到統計學知識,以及需要大量分類好的數據爲基礎。

           然後機器學習的主要任務就是進行分類,按照特徵進行分類。這裏的特徵是指事物的屬性,這些屬性往往是區分其他相類似事物的重要屬性。。。應該容易理解吧 許多機器學習算法都非常善於分類,如果我們決定了要用哪個機器學習算法進行分類,, 首先要做的就是 算法訓練,即學習如何進行分類,通常我們將算法輸入的大量已經分類好的數據作爲算法的 訓練集, 就是一個針對這個算法的數據樣本集合,訓練樣本中會包含一個 目標變量,這個目標變量就是機器學習算法的預測結果,在分類算法中,目標變量的類型通常都是 標稱型的。   爲了測試機器學習算法的效果,通常會使用兩套獨立的樣本集, 分別是 訓練數據和測試數據。 訓練數據作爲輸入,測試數據用於檢測結果。

          上面說了 機器學習的主要任務就是進行分類,但還有另外一個任務就是迴歸,它主要用於預測數值型數據。 分類和迴歸都都屬於監督學習,之所以稱爲監督學習,  是因爲這一類算法必須知道要預測什麼,就是目標變量和分類信息。

          與監督學習相對應的就是 無監督學習,這類數據沒有類別信息,也不會給定目標值。    無監督學習中,有一個概念叫做 聚類,  這個就是數據集合分類成有類似的對象組成的多個類的的過程。(似乎聽起來。。有點繞。。。) 。 還有一個概念叫做 密度估計, 這個是用於尋找描述數據統計值的過程。 

        使用機器學習以及選擇機器學習算法 時 需要明確兩點。 1:使用機器學習算法的目的,就是說我想要通過這個完成什麼樣的作用,2: 需要收集或者分析的數據有什麼。

        今晚先寫到這裏,這是第一篇博文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章