原创 數據科學個人筆記:支持向量機

一、線性可分支持向量機 (一)分類器的構造 設某樣本的特徵向量xi爲超空間中的一點,則若這些樣本線性可分,我們就可以找到一個超平面將他們完全分隔開。若我們已經找出這個超平面,並令左邊的爲負例,y=-1,右邊的爲正例,y=1,則我們就構建了

原创 數據科學個人筆記:線性迴歸變種之彈性網絡迴歸+局部散點平滑估計

一、線性迴歸的變種:局部加權線性迴歸(本地散點平滑估計LOESS) 1.形式:一種非參數學習算法。局部加權線性迴歸中,針對每個要預測的樣本點,我們都要對整個訓練集進行一次擬合,因爲我們要根據不同訓練樣本與預測樣本的距離不同來調整每個樣本的

原创 計算機網絡個人筆記:第二章-物理層

二、物理層 (一)物理層機制概述 物理層實現比特流透明傳輸(無論比特流是什麼都能傳), 1.先對於接傳輸媒介(第0層)的接口特性進行定義 2.再對傳輸到媒介上的速率進行定義(爲避免失真,最大速度受到奈氏準則和香濃定理的限制), 3.以及對

原创 計算機網絡個人筆記:第三章-數據鏈路層

三、數據鏈路層 (一)數據鏈路層機制概述 1.將網絡層傳下來的數據報(分組)加上首尾部組裝成幀(組幀時要保證透明傳輸), 2.並在幀中添加一些校驗信息,保證其在接收方鏈路層能對幀錯和位錯進行檢錯和糾錯。 3.在決定是否發送數據(接收方決定

原创 計算機網絡個人筆記:第一章-概述

一、概述 (一)計算機網絡定義 1.計算機網絡是通過(通信設備)與(線路)將分散的(計算機系統)連接起來,由軟件實現(資源共享)和(信息傳遞)的系統。 2.網絡={計算機(即主機),結點(集線器、交換機、路由器、計算機等),鏈路}。網絡的

原创 數據科學個人筆記:神經網絡(矩陣化+正則化)

繼續吳恩達老師的深度學習課程筆記   一、算法實現中的矩陣化方法 到此,我們已經講完了構建並訓練出一個神經網絡的流程和其中的計算細節。但僅僅是知道這些還不夠,要想編寫代碼去實現這樣一個過程,我們需要將上述的計算過程矩陣化。 什麼是矩陣化呢

原创 數據科學個人筆記:推薦系統之推薦算法(基於圖+隱語義)

一、隱語義模型(LFM算法) (一)基礎算法 隱語義分析採取基於用戶行爲統計的自動聚類,計算出用戶和隱類的關係和物品和隱類的關係。 此處使用LFM算法,通過如下公式計算用戶u對物品i的興趣: Preference(u,i)=r(ui)=s

原创 數據科學個人筆記:集成方法簡單總結

周志華老師《機器學習》+李航老師《統計學習方法》學習筆記   (一)AdaBoost 1.Adaboost使用n個弱分類器的結果進行加權,求出的結果即作爲預測結果。初始化每個樣本的權重爲均分,每次訓練一個分類器G,訓練完成後計算誤差率e,

原创 數據科學個人筆記:推薦系統之推薦算法(基於協同過濾)

一、UserCF: (一)算法步驟 1.計算用戶兩兩間的相似度,相似度度量方法包括: Jaccard公式:Wuv=[兩用戶正反饋物品交集數]/[兩用戶正反饋物品並集數] 餘弦相似度:Wuv=[兩用戶正反饋物品交集數]/sqrt(u用戶正反

原创 數據科學個人筆記:貝葉斯分類器

一、前導內容 (一)貝葉斯決策論視角下的機器學習 1.設lambda(ij)爲將cj的樣本分類爲ci所產生的損失,則將特徵爲X的樣本分爲ci的期望損失(條件風險)R(ci|X)=sum[lambda(ij)*P(cj|X)],我們的任務是

原创 數據科學個人筆記:分佈式參數學習法+分佈式K-means聚類

本篇主要是論文閱讀心得,未整理。   一、分佈式參數學習法 (一)問題背景 設有n個成員(n>1),每兩個成員之間在每個時刻上有兩種可能的位置關係: 1.相鄰,則此二成員互爲鄰居; 2.不相鄰,則此二成員互不爲鄰居。 則我們可設每個成員(

原创 數據科學個人筆記:推薦系統之推薦算法(基於內容+標籤+半監督學習模型)

一、基於內容的模型 (一)推薦系統冷啓動問題 用戶冷啓動:給新用戶推薦 物品冷啓動:新物品被推薦 系統冷啓動:爲新開發的網站(還沒有用戶和用戶行爲,只有一些物品信息)設計推薦系統 冷啓動問題的一些解決方案:1.推薦熱門;2.用註冊信息進行

原创 數據科學個人筆記:K近鄰算法+感知機算法

一、感知機算法 感知機算法輸入R^n中的向量,輸出y={1,-1}。學習函數如下:fx=sign(wx+b),其中sign(x)=1(x>=0)或-1(x<0)。感知機算法僅能處理線性可分數據。 將wx+b=0看作向量空間中的分離超平面S

原创 數據科學個人筆記:神經網絡(網絡結構+反向傳播)

該篇主要是學習吳恩達老師的深度學習課程筆記,未完待續   一、待解決的問題 現在,我們有一堆樣本,每個樣本由一組輸入值(向量x表示)和一組輸出值(向量y表示,在我們舉例的模型中y是一個1*1的向量)。我們要解決的問題,是通過這些已知了輸入

原创 數據科學個人筆記:推薦系統之實驗、評測及結構

學習項亮《推薦系統實踐》筆記,未整理   一、推薦系統實驗方式: 1.離線實驗:將用戶日誌整理成標準數據集,劃分訓練集和測試集,通過離線指標評測。 優點:不需要有對實際系統的控制權,不需要用戶參與實驗,速度快可以測試大量算法。 缺點:無法