論文:GOTCHA! Network-Based Fraud Detection for Social Security Fraud
作者:Véronique Van Vlasselaer, Tina Eliassi-Rad,
來源:Management Science 16
0.論文概況
本文提出針對公司偷稅逃稅這一類社會保證欺詐問題的檢測方法,全篇論文非常系統化接地氣,值得一讀:
- 通過對欺詐場景的分析建立“從欺詐公司繼承資源的公司存在高風險”的假設
- 設計了時間權重的公司-資源二分網絡,並擴展個性化PageRank在該網絡上進行欺詐風險傳播。
- 基於傳播得到的欺詐score,結合網絡拓撲結構設計特徵,輸入到機器學習模型中
1.欺詐場景
1.1 欺詐描述問題
存在一些公司轉移資源(公司地址、法人、買賣家、僱員、供應商)到其他公司,並宣佈破產從而達到逃稅的目的。
另外爲了不引人注目,會將資源分散轉移到多個公司,但這些公司背後有一家主公司負責組織資源交換。
1.2 公司之間轉移資源關係
- 副公司(Side Compony):進行資源交換的公司,他們之間若有資源轉換,則建立一跳實線邊。
- 主公司(key company):背後負責組織和操控副公司進行資源交換,但在數據上與副公司之間的邊是隱性的(故邊是虛線的)。
1.3 公司-資源二分關係
2. 欺詐假設和調戰
2.1 欺詐假設
假設欺詐公司繼承資源的公司存在高風險,即欺詐在網絡中是可以傳播的(如下圖所示)
2.2 五大欺詐挑戰及應對
1.不常見的(Uncommon):欺詐問題標籤樣本極不平衡,如何使用和學習?
——在機器學習中利用SMOTE算法合成更多正樣本
2.深思熟慮(Well-considered):欺詐者會精心準備,而僅依靠單規則(如孤立點)檢測,是不充分和不準確的。
——通過綜合自身特徵和網絡拓撲特徵,使用機器學習建模,可以提高性能。
3.時間演變(Time-evolving):欺詐行爲也會進化
——設計時間衰減關係權重,並使用多個基於時間劃分的評價集評估
4.精心組織(Carefully organized):欺詐者會受到盟友的影響而改變自己從而更好的不被察覺,故相比正常公司,欺詐者聯繫更緊密,具有同質性
——提取網絡拓撲中三角形、四邊形特徵
5.僞裝(Imperceptibly concealed):欺詐者會僞裝自己,與正常公司具有具有相同的特徵——通過集體推理方法(如網絡傳播),通過網絡傳播少量欺詐行爲,並推斷出網絡中每個節點的欺詐分。
3. 風險傳播算法設計
通過風險傳播得到每個節點的欺詐score,然後結合網絡拓撲結構設計特徵,作爲機器學習模型的輸入。
3.1 設計初衷
通過在時間加權的二分網絡進行欺詐傳播,爲每個節點推斷一個欺詐score,可以反映下面兩類特性:
- 哪類資源經常涉及欺詐,並且表現出很高的欺詐吸引其他公司?(分辨出資源和欺詐公司的連接是巧合還是具有欺詐的)
- 哪些公司對欺詐敏感。
3.2 個性化 PageRank
PageRank用於計算Web中網頁權威性,認爲指向頁面P的頁面越多,該P得到的權威值越高以及指向P的頁面權威值越高,則P得到的權威值也就越高。
每一次迭代過程:
- r頁面被訪問到的概率,即爲PageRank值。
- c爲重啓隨機遊走的概率
- u爲頁面在重啓隨機遊走時被選中的概率,在PageRank中定義每個頁面的概率相同。
- M爲歸一化的鄰接矩陣。
個性化PageRank設計初衷是計算特定頁面與所有頁面之間的相關性,從而可以進行推薦。與PageRank不同之處主要是:
- 每次重新遊走,從特定頁面集合中選擇一個頁面開始;而PageRank是在所有頁面中隨機選擇。
- 在初始化節點權重,設置特定頁面集合中節點=1,其他頁面=0;而PageRank是對全部頁面隨機初始化。
每一次迭代過程:
- 很明顯與PageRank區別就在於頁面在重啓時被選擇的概率,對於個性化PageRank,設所有非特定頁面被選中概率爲0,而特定頁面概率均勻分佈。
3.3 改進個性化PageRank
通過改進個性化PageRank,以適應欺詐傳播場景
1. 加入時間衰減權重矩陣W替代鄰接矩陣M
相比多年前捕獲的欺詐公司,最近捕獲的欺詐公司可能是更重要的傳播源。 即檢測到的時間越久,欺詐傳播的傳播影響就越小。
設W爲指數時間衰變函數:
用W替代M:
2. 適用Company-Resource 二分網絡
將時間衰減權重矩陣W 擴展成NxN的矩陣Q(N=公司節點數c+資源節點數r):
Q替代W,並歸一化:
3. 專注欺詐的設計
定義v,設欺詐公司節點 , 其他節點 。這樣將欺詐公司節點作爲特定節點,每次重啓都是從這些欺詐節點開始遊走。
最終得到的score可以解釋爲與這些欺詐節點的相關性,相關性越高表示受感染程度越嚴重。
4.和度無關的傳播
在個性化PageRank中, 表示將節點score分散傳播給鄰居,但這會出現個問題:在score相等時,高度(鄰居數量多)節點傳播給鄰居較低的score,而低度節點傳播給鄰居較高的score。
但是在欺詐問題中,度高低應該與分配score無關,故通過放大高度節點的score,以保證傳播時不同度的節點鄰居得到的score在一個尺度上:
,d爲節點度,並對z歸一化得到 。
4. 傳播增益
通過下面兩個傳播效應來說明,傳播所帶來的額外增益(相比“直接與欺詐公司相連”的規則)
- anticipating effect(預期效應),可以理解爲提升召回:雖然資源沒有和欺詐的公司關聯,但是周圍關聯了欺詐分較高的公司,那其欺詐分也高
- forgiving effect(寬容效應),可以理解爲提高準確:雖然資源連接了一個欺詐公司,但是時間比較久了,也沒有連接其他欺詐分較高的公司,那其應該被寬容,是正常的。
- x:連接欺詐公司數量
- y:欺詐傳播分
- 水平線: 基於圖標和實際含義對high-risk和low-risk分隔
- R^2:統計指標,欺詐分中有多少可以被解釋
5. 特徵設計
本節介紹獲得每個節點的欺詐傳播分數之後,如何結合網絡拓撲結構系統化衍生特徵。
每個特徵對於欺詐性的區分度: