2017.04.18:網易2017校招數據分析開放題

1.異常值檢測

原因:

(1)數據來源於不同的類:某個數據對象可能不同於其他數據對象(即異常),因爲它術語一個不同的類型或類。Hawkins的離羣點定義:離羣點是一個觀測值,它與其他觀測值的差別如此之大,以至於懷疑它是由不同的機制產生的。

(2)自然變異:許多數據集可以用一個統計分佈建模,如正態(高斯)分佈建模,其中數據對象的概率隨對象到分佈中心距離的增加而急劇減少。換言之,大部分數據對象靠近中心(平均對象),數據對象顯著地不同於這個平均對象的似然性很小。

(3)數據測量和收集誤差:數據收集和測量過程中的誤差是另一個異常源。剔除這類異常是數據預處理(尤其是數據清理)的關注點。

 

異常檢測方法

(1)基於模型的技術:許多異常檢測技術首先建立一個數據模型。異常是那些同模型不能完美擬合的對象。

(2)基於鄰近度的技術:通常可以在對象之間定義鄰近性度量,並且許多移倉檢測方法都基於鄰近度。異常對象是那些遠離大部分其他對象的對象,這一鄰域的許多技術都基於距離,稱作基於距離的離羣點檢測技術。

(3)基於密度的技術:對象的密度估計可以相對直接地計算,特別是當對象之間存在鄰近度度量時。地密度區域中的對象相對遠離近鄰,可能被看做異常。


2.推薦系統的評價指標

1.平均誤差MAE(MeanAbsolute Error ):平均絕對誤差 MAE是評價推薦 算法質量 的標準之一 ,它通過計算預測評分與真實評價數 據上的差別來衡量推薦結果的準確性。MAE的值越小 ,推薦準確性越高。假設預測的用戶評分集合表示爲{P1,P2,⋯PN},對應 的實際用戶評分集合爲 {q1,q2,⋯ ,qN} ,則具體的 MAE計算公式爲


2.準確率與召回率(Precision& Recall)

準確率和召回率是廣泛用於信息檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統的查準率;召回率是指檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統的查全率。一般來說,Precision就是檢索出來的條目(比如:文檔、網頁等)有多少是準確的,Recall就是所有準確的條目有多少被檢索出來了。

正確率、召回率和 F1 值是在魚龍混雜的環境中,選出目標的重要評價指標。不妨看看這些指標的定義先:

    1. 正確率 = 提取出的正確信息條數 /  提取出的信息條數    

2. 召回率 = 提取出的正確信息條數 /  樣本中的信息條數   

3. F1值  = 正確率 * 召回率 * 2 / (正確率 + 召回率) (F 值即爲正確率和召回率的調和平均值)。

3.綜合評價指標(F-Measure)

P和R指標有時候會出現的矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F-Measure(又稱爲F-Score)。F-Measure是Precision和Recall加權調和平均:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章