1、機器學習分爲有監督和無監督學習,標誌是有無標籤
2、無監督學習的代表是聚類和降維
3、歐氏距離
曼哈頓距離
馬氏距離:距離與尺度無關,會將每個屬性標準化。其中S是協方差矩陣
餘弦:
4、有監督學習:當輸出是離散的,認爲是分類任務,訓練好的模型叫分類器;當輸出是連續的,認爲是迴歸任務。
5、sklearn.linear_model,sklearn.preprocessing提供迴歸函數,前者是線性的。
6、任意關係都可以使用多元多項式表達,是因爲任意函數都可以表示問分段多項式的形式。因此只要不考慮計算量的問題,多元迴歸是一定有效的。
7、支持向量機(support vector machine,SVM)。所謂支持向量是指“支持”最大間隔向量的(最大間隔超平面)的兩個向量。
8、通常使用熵或者基尼係數來衡量一個決策樹的好壞,而不是誤差率。因爲前二者的分辨率高於後者。
9、機器學習當中迴歸和分類都是線性的,如支持向量機要劃分出一個超平面一定要求樣本線性(雖然可以使用核模型但也是要求使使用核模型後達到線性。)。
10、人工神經網絡使用於難以用準則來描述的數據。
11、多層感知器 = 人工神經網絡
12、
13、人工神經網絡非線性的關鍵在於激活函數。如果沒有激活函數就只是線性的關係,再多的隱含層都只相當於一層。
14、convlututional NN,適用於圖像處理
15、recurrent NN,使用於序列,如自然語言、單詞等
16、人類非常善於理解非結構化數據,但是機器非常善於理解結構化數據,由於神經網絡使得計算機更加容易理解非結構化數據
17、神經網絡結果的精確度和數據集的大小以及網絡的大小成正相關。
18、