台部落简简丹

定義採用不同特徵值之間的距離方法進行分類優點：精度高、對異常值不敏感、無數據輸入假定缺點：計算複雜度高、空間複雜度高適用：數值型與標稱型數據算法概述給定一個訓練集（其中的實例類別已定），對新的輸入實例（無標籤），比較

2019-03-25 14:20:36

數據流水線：一系列的數據處理組件。組件間是獨立的、異步運行、組件間的接口只是數據容器給定商業目標，確定輸出劃定問題：監督or非監督or強化學習？分類or迴歸？強化or在線？選擇性能指標迴歸問題典型指標數均方根誤差（RMS

2019-03-25 14:20:12

#DPMM採樣：已知前$ i-1$ 個觀測數據x−ix_{-i}x−i和其對應的主題z−iz_{-i}z−i，抽取第i個詞所屬的主題ziz_{i}zi 1.首先根據其他主題z−iz_{-i}z−i抽取第i個主題ziz_{i

2019-03-25 14:20:12

#基於用戶進行過濾 #基於物品進行過濾關鍵是理解兩張表2-2和2-3，理解兩者的區別，涉及到數據集的構建，數據集的變換，相似度的度量，皮爾遜相關係數度量，給用戶推薦相似用戶，給用戶推薦物品找尋物品的相似物品，根據用戶歷史打分物品

2019-03-25 14:20:12

1.概念：支持向量：離分隔超平面最近的那些點分隔超平面：分類的決策邊界，將數據分隔開來(wx+b) 間隔：點到分隔超平面之間的距離label(w*x+b),其中label取+1，-1 2.先找支持向量（具有最小間隔的點） SV

2019-03-25 14:20:12

一.卷積神經網絡結構： 1.輸入層：爲輸入的特徵數，如圖像的像素數 2.卷積層：主要結構爲卷積核（過濾器、內核）。一般經過卷積層之後節點矩陣會變得更深過濾器（作用、尺寸、調整結果矩陣的大小作用：將當前層神經網絡上的一個子節點矩陣（

2019-03-25 14:20:12

奇異值分解 1. 概念將一個複雜的矩陣分解爲3個小的簡單的矩陣，其中sigma矩陣只包含對角元素且對角元素降序排列，該對角線元素爲奇異值，爲原始數據最重要的特徵值。奇異值的取捨遵守兩種啓發式規則：取總量信息的90%，總量信息

2019-03-25 14:20:12

元算法（集成方法）：是對其他算法組合的一種方式。（K近鄰、樸素貝葉斯、邏輯迴歸、決策樹、支持向量機）、集成形式：不同算法的集成；同一算法在不同設置下的集成；數據集不同部分分配給不同分類器之後的集成。代表：AdaBoost 1.基於

2019-03-25 14:20:12

‘每一小節都給出代碼，並將運行結果截圖放在下面’ 概念：迴歸：假設現在有一些數據點，用一條直線對這些點進行擬合（該線成爲最佳擬合直線），擬合過程稱作迴歸邏輯迴歸的主要思想：根據現有數據對分類邊界線建立迴歸公式，以此進行分類（找到最

2019-03-25 14:20:12

第一部分——分類監督學習：給定輸入樣本集，計算出目標變量的結果。利用樣本輸入和期望輸出來學習如何預測的技術。例如，神經網絡，決策樹，支持向量機，貝葉斯過濾。目標變量：將分類問題中的目標變量稱爲類別。標稱型：在有限目標集中取值，離

2019-03-25 14:20:12

###numpy概述是python的一個矩陣類型，用於矩陣處理，內部運算通過C語言。是一個使運算更容易、執行更迅速的庫。 ###numpy數據類型數組 array 矩陣 mat(matrics) 兩種數據類型對比 ###方法

2019-03-25 14:20:12

#數據聚類一種用以尋找緊密相關的事、人或觀點，並將其可視化的方法。目的是採集數據，然後從中找出不同的羣組。 #分級聚類通過連續不斷地將最爲相似的羣組兩兩合併，來構造出一個羣組的層級結構。其中的每個羣組都是從單一元素開始的。 ##

2019-03-25 14:20:12

在線信息挖掘兩種方法：搜索與鏈接主題建模是一種統計方法，文檔語義挖掘利器主題模型： 1.LDA潛在狄利克雷分佈基礎假設：文檔由多主題構成的。 a.不考慮詞在文檔中的順序，那麼一個文檔就是一個詞袋 b.文檔的順序與LDA無關.主題

2019-03-25 14:20:12

1.GitHub萬星的ML算法面試大全 https://github.com/imhuay/Algorithm_Interview_Notes-Chinese

2019-03-25 14:20:12

算法主要研究問題（核心）：時間與空間複雜度使用大O記號（這個爲最壞的情況，是算法的上界，忽略常數係數）時間：基本操作次數（會變指令條數）空間：佔用內存字節數區別：空間可以再利用時間空間可以互換（Hash表）常見時間複雜

2019-03-25 14:20:12