原创 機器學習實戰系列2——KNN(近鄰)算法

定義 採用不同特徵值之間的距離方法進行分類 優點:精度高、對異常值不敏感、無數據輸入假定 缺點:計算複雜度高、空間複雜度高 適用:數值型與標稱型數據 算法概述 給定一個訓練集(其中的實例類別已定),對新的輸入實例(無標籤),比較

原创 上手機器學習項目——預測房價

數據流水線:一系列的數據處理組件。組件間是獨立的、異步運行、組件間的接口只是數據容器 給定商業目標,確定輸出 劃定問題:監督or非監督or強化學習?分類or迴歸?強化or在線? 選擇性能指標 迴歸問題典型指標數均方根誤差(RMS

原创 DPMM模型採樣

#DPMM採樣: 已知前$ i-1$ 個觀測數據x−ix_{-i}x−i​和其對應的主題z−iz_{-i}z−i​,抽取第i個詞所屬的主題ziz_{i}zi​ 1.首先根據其他主題z−iz_{-i}z−i​抽取第i個主題ziz_{i

原创 集體智慧編程ch2——提供推薦

#基於用戶進行過濾 #基於物品進行過濾 關鍵是理解兩張表2-2和2-3,理解兩者的區別,涉及到數據集的構建,數據集的變換,相似度的度量,皮爾遜相關係數度量, 給用戶推薦相似用戶,給用戶推薦物品 找尋物品的相似物品,根據用戶歷史打分物品

原创 機器學習實戰讀書筆記系列6——支持向量機

1.概念: 支持向量:離分隔超平面最近的那些點 分隔超平面:分類的決策邊界,將數據分隔開來(wx+b) 間隔:點到分隔超平面之間的距離label(w*x+b),其中label取+1,-1 2.先找支持向量(具有最小間隔的點) SV

原创 CNN

一.卷積神經網絡結構: 1.輸入層:爲輸入的特徵數,如圖像的像素數 2.卷積層:主要結構爲卷積核(過濾器、內核)。一般經過卷積層之後節點矩陣會變得更深 過濾器(作用、尺寸、調整結果矩陣的大小 作用:將當前層神經網絡上的一個子節點矩陣(

原创 機器學習實戰系列14——奇異值分解SVD

奇異值分解 1. 概念 將一個複雜的矩陣分解爲3個小的簡單的矩陣, 其中sigma矩陣只包含對角元素且對角元素降序排列,該對角線元素爲奇異值,爲原始數據最重要的特徵值。奇異值的取捨遵守兩種啓發式規則: 取總量信息的90%,總量信息

原创 機器學習實戰讀書筆記系列7——利用AdaBoost元算法提高分類性能

元算法(集成方法):是對其他算法組合的一種方式。(K近鄰、樸素貝葉斯、邏輯迴歸、決策樹、支持向量機)、 集成形式:不同算法的集成;同一算法在不同設置下的集成;數據集不同部分分配給不同分類器之後的集成。 代表:AdaBoost 1.基於

原创 機器學習實戰讀書筆記系列5——logistic迴歸

‘每一小節都給出代碼,並將運行結果截圖放在下面’ 概念:迴歸:假設現在有一些數據點,用一條直線對這些點進行擬合(該線成爲最佳擬合直線),擬合過程稱作迴歸 邏輯迴歸的主要思想:根據現有數據對分類邊界線建立迴歸公式,以此進行分類(找到最

原创 機器學習實戰系列1——基礎

第一部分——分類 監督學習:給定輸入樣本集,計算出目標變量的結果。利用樣本輸入和期望輸出來學習如何預測的技術。例如,神經網絡,決策樹,支持向量機,貝葉斯過濾。 目標變量:將分類問題中的目標變量稱爲類別。 標稱型:在有限目標集中取值,離

原创 numpy學習

###numpy概述 是python的一個矩陣類型,用於矩陣處理,內部運算通過C語言。是一個使運算更容易、執行更迅速的庫。 ###numpy數據類型 數組 array 矩陣 mat(matrics) 兩種數據類型對比 ###方法

原创 集體智慧編程ch3—發現羣組——聚類

#數據聚類 一種用以尋找緊密相關的事、人或觀點,並將其可視化的方法。目的是採集數據,然後從中找出不同的羣組。 #分級聚類 通過連續不斷地將最爲相似的羣組兩兩合併,來構造出一個羣組的層級結構。其中的每個羣組都是從單一元素開始的。 ##

原创 概率主題模型

在線信息挖掘兩種方法:搜索與鏈接 主題建模是一種統計方法,文檔語義挖掘利器 主題模型: 1.LDA潛在狄利克雷分佈 基礎假設:文檔由多主題構成的。 a.不考慮詞在文檔中的順序,那麼一個文檔就是一個詞袋 b.文檔的順序與LDA無關.主題

原创 找工作

1.GitHub萬星的ML算法面試大全 https://github.com/imhuay/Algorithm_Interview_Notes-Chinese

原创 數據結構系列1——算法初識

算法 主要研究問題(核心):時間與空間複雜度 使用大O記號(這個爲最壞的情況,是算法的上界,忽略常數係數) 時間:基本操作次數(會變指令條數) 空間:佔用內存字節數 區別:空間可以再利用 時間空間可以互換(Hash表) 常見時間複雜