個性化PageRank在欺詐檢測中的應用

論文:GOTCHA! Network-Based Fraud Detection for Social Security Fraud
作者:Véronique Van Vlasselaer, Tina Eliassi-Rad,
來源:Management Science 16

0.論文概況

本文提出針對公司偷稅逃稅這一類社會保證欺詐問題的檢測方法,全篇論文非常系統化接地氣,值得一讀:

  1. 通過對欺詐場景的分析建立“從欺詐公司繼承資源的公司存在高風險”的假設
  2. 設計了時間權重的公司-資源二分網絡,並擴展個性化PageRank在該網絡上進行欺詐風險傳播。
  3. 基於傳播得到的欺詐score,結合網絡拓撲結構設計特徵,輸入到機器學習模型中

1.欺詐場景

1.1 欺詐描述問題

存在一些公司轉移資源(公司地址、法人、買賣家、僱員、供應商)到其他公司,並宣佈破產從而達到逃稅的目的。

另外爲了不引人注目,會將資源分散轉移到多個公司,但這些公司背後有一家主公司負責組織資源交換。

1.2 公司之間轉移資源關係

  1. 副公司(Side Compony):進行資源交換的公司,他們之間若有資源轉換,則建立一跳實線邊。
  2. 主公司(key company):背後負責組織和操控副公司進行資源交換,但在數據上與副公司之間的邊是隱性的(故邊是虛線的)。

1.3 公司-資源二分關係

 

2. 欺詐假設和調戰

2.1 欺詐假設

假設欺詐公司繼承資源的公司存在高風險,即欺詐在網絡中是可以傳播的(如下圖所示)

2.2 五大欺詐挑戰及應對

1.不常見的(Uncommon):欺詐問題標籤樣本極不平衡,如何使用和學習?

——在機器學習中利用SMOTE算法合成更多正樣本

2.深思熟慮(Well-considered):欺詐者會精心準備,而僅依靠單規則(如孤立點)檢測,是不充分和不準確的。

——通過綜合自身特徵和網絡拓撲特徵,使用機器學習建模,可以提高性能。

3.時間演變(Time-evolving):欺詐行爲也會進化

——設計時間衰減關係權重,並使用多個基於時間劃分的評價集評估

4.精心組織(Carefully organized):欺詐者會受到盟友的影響而改變自己從而更好的不被察覺,故相比正常公司,欺詐者聯繫更緊密,具有同質性

——提取網絡拓撲中三角形、四邊形特徵

5.僞裝(Imperceptibly concealed):欺詐者會僞裝自己,與正常公司具有具有相同的特徵——通過集體推理方法(如網絡傳播),通過網絡傳播少量欺詐行爲,並推斷出網絡中每個節點的欺詐分。

3. 風險傳播算法設計

通過風險傳播得到每個節點的欺詐score,然後結合網絡拓撲結構設計特徵,作爲機器學習模型的輸入。

3.1 設計初衷

通過在時間加權的二分網絡進行欺詐傳播,爲每個節點推斷一個欺詐score,可以反映下面兩類特性:

  1. 哪類資源經常涉及欺詐,並且表現出很高的欺詐吸引其他公司?(分辨出資源和欺詐公司的連接是巧合還是具有欺詐的)
  2. 哪些公司對欺詐敏感。

3.2 個性化 PageRank

PageRank用於計算Web中網頁權威性,認爲指向頁面P的頁面越多,該P得到的權威值越高以及指向P的頁面權威值越高,則P得到的權威值也就越高。

每一次迭代過程:[公式]

  • r頁面被訪問到的概率,即爲PageRank值。
  • c爲重啓隨機遊走的概率
  • u爲頁面在重啓隨機遊走時被選中的概率,在PageRank中定義每個頁面的概率相同。
  • M爲歸一化的鄰接矩陣。

個性化PageRank設計初衷是計算特定頁面與所有頁面之間的相關性,從而可以進行推薦。與PageRank不同之處主要是:

  1. 每次重新遊走,從特定頁面集合中選擇一個頁面開始;而PageRank是在所有頁面中隨機選擇。
  2. 在初始化節點權重,設置特定頁面集合中節點=1,其他頁面=0;而PageRank是對全部頁面隨機初始化。

每一次迭代過程:[公式]

  • 很明顯與PageRank區別就在於頁面在重啓時被選擇的概率,對於個性化PageRank,設所有非特定頁面被選中概率爲0,而特定頁面概率均勻分佈。

3.3 改進個性化PageRank

通過改進個性化PageRank,以適應欺詐傳播場景

1. 加入時間衰減權重矩陣W替代鄰接矩陣M

相比多年前捕獲的欺詐公司,最近捕獲的欺詐公司可能是更重要的傳播源。 即檢測到的時間越久,欺詐傳播的傳播影響就越小。

設W爲指數時間衰變函數:

用W替代M: [公式]

2. 適用Company-Resource 二分網絡

將時間衰減權重矩陣W 擴展成NxN的矩陣Q(N=公司節點數c+資源節點數r):

Q替代W,並歸一化:

[公式]

3. 專注欺詐的設計

定義v,設欺詐公司節點 [公式] , 其他節點 [公式] 。這樣將欺詐公司節點作爲特定節點,每次重啓都是從這些欺詐節點開始遊走。

最終得到的score可以解釋爲與這些欺詐節點的相關性,相關性越高表示受感染程度越嚴重。

4.和度無關的傳播

在個性化PageRank中, [公式] 表示將節點score分散傳播給鄰居,但這會出現個問題:在score相等時,高度(鄰居數量多)節點傳播給鄰居較低的score,而低度節點傳播給鄰居較高的score。

但是在欺詐問題中,度高低應該與分配score無關,故通過放大高度節點的score,以保證傳播時不同度的節點鄰居得到的score在一個尺度上:

[公式] ,d爲節點度,並對z歸一化得到 [公式] 。

[公式]

 

4. 傳播增益

通過下面兩個傳播效應來說明,傳播所帶來的額外增益(相比“直接與欺詐公司相連”的規則)

  1. anticipating effect(預期效應),可以理解爲提升召回:雖然資源沒有和欺詐的公司關聯,但是周圍關聯了欺詐分較高的公司,那其欺詐分也高
  2. forgiving effect(寬容效應),可以理解爲提高準確:雖然資源連接了一個欺詐公司,但是時間比較久了,也沒有連接其他欺詐分較高的公司,那其應該被寬容,是正常的。

  • x:連接欺詐公司數量
  • y:欺詐傳播分
  • 水平線: 基於圖標和實際含義對high-risk和low-risk分隔
  • R^2:統計指標,欺詐分中有多少可以被解釋

5. 特徵設計

本節介紹獲得每個節點的欺詐傳播分數之後,如何結合網絡拓撲結構系統化衍生特徵。

 

每個特徵對於欺詐性的區分度:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章