論文：GOTCHA! Network-Based Fraud Detection for Social Security Fraud
作者：Véronique Van Vlasselaer, Tina Eliassi-Rad,
來源：Management Science 16

0.論文概況

本文提出針對公司偷稅逃稅這一類社會保證欺詐問題的檢測方法，全篇論文非常系統化接地氣，值得一讀：

通過對欺詐場景的分析建立“從欺詐公司繼承資源的公司存在高風險”的假設
設計了時間權重的公司-資源二分網絡，並擴展個性化PageRank在該網絡上進行欺詐風險傳播。
基於傳播得到的欺詐score，結合網絡拓撲結構設計特徵，輸入到機器學習模型中

1.欺詐場景

1.1 欺詐描述問題

存在一些公司轉移資源（公司地址、法人、買賣家、僱員、供應商）到其他公司，並宣佈破產從而達到逃稅的目的。

另外爲了不引人注目，會將資源分散轉移到多個公司，但這些公司背後有一家主公司負責組織資源交換。

1.2 公司之間轉移資源關係

副公司(Side Compony)：進行資源交換的公司，他們之間若有資源轉換，則建立一跳實線邊。
主公司（key company):背後負責組織和操控副公司進行資源交換，但在數據上與副公司之間的邊是隱性的（故邊是虛線的）。

1.3 公司-資源二分關係

2. 欺詐假設和調戰

2.1 欺詐假設

假設欺詐公司繼承資源的公司存在高風險，即欺詐在網絡中是可以傳播的（如下圖所示）

2.2 五大欺詐挑戰及應對

1.不常見的(Uncommon)：欺詐問題標籤樣本極不平衡，如何使用和學習？

——在機器學習中利用SMOTE算法合成更多正樣本

2.深思熟慮(Well-considered)：欺詐者會精心準備，而僅依靠單規則（如孤立點）檢測，是不充分和不準確的。

——通過綜合自身特徵和網絡拓撲特徵，使用機器學習建模，可以提高性能。

3.時間演變(Time-evolving)：欺詐行爲也會進化

——設計時間衰減關係權重，並使用多個基於時間劃分的評價集評估

4.精心組織(Carefully organized)：欺詐者會受到盟友的影響而改變自己從而更好的不被察覺，故相比正常公司，欺詐者聯繫更緊密，具有同質性

——提取網絡拓撲中三角形、四邊形特徵

5.僞裝(Imperceptibly concealed)：欺詐者會僞裝自己，與正常公司具有具有相同的特徵——通過集體推理方法（如網絡傳播），通過網絡傳播少量欺詐行爲，並推斷出網絡中每個節點的欺詐分。

3. 風險傳播算法設計

通過風險傳播得到每個節點的欺詐score，然後結合網絡拓撲結構設計特徵，作爲機器學習模型的輸入。

3.1 設計初衷

通過在時間加權的二分網絡進行欺詐傳播，爲每個節點推斷一個欺詐score，可以反映下面兩類特性：

哪類資源經常涉及欺詐，並且表現出很高的欺詐吸引其他公司？（分辨出資源和欺詐公司的連接是巧合還是具有欺詐的）
哪些公司對欺詐敏感。

3.2 個性化 PageRank

PageRank用於計算Web中網頁權威性，認爲指向頁面P的頁面越多，該P得到的權威值越高以及指向P的頁面權威值越高，則P得到的權威值也就越高。

每一次迭代過程：

r頁面被訪問到的概率，即爲PageRank值。
c爲重啓隨機遊走的概率
u爲頁面在重啓隨機遊走時被選中的概率，在PageRank中定義每個頁面的概率相同。
M爲歸一化的鄰接矩陣。

個性化PageRank設計初衷是計算特定頁面與所有頁面之間的相關性，從而可以進行推薦。與PageRank不同之處主要是：

每次重新遊走，從特定頁面集合中選擇一個頁面開始；而PageRank是在所有頁面中隨機選擇。
在初始化節點權重，設置特定頁面集合中節點=1，其他頁面=0；而PageRank是對全部頁面隨機初始化。

每一次迭代過程：

很明顯與PageRank區別就在於頁面在重啓時被選擇的概率，對於個性化PageRank，設所有非特定頁面被選中概率爲0，而特定頁面概率均勻分佈。

3.3 改進個性化PageRank

通過改進個性化PageRank，以適應欺詐傳播場景

1. 加入時間衰減權重矩陣W替代鄰接矩陣M

相比多年前捕獲的欺詐公司，最近捕獲的欺詐公司可能是更重要的傳播源。即檢測到的時間越久，欺詐傳播的傳播影響就越小。

設W爲指數時間衰變函數：

用W替代M：

2. 適用Company-Resource 二分網絡

將時間衰減權重矩陣W 擴展成NxN的矩陣Q（N=公司節點數c+資源節點數r）：

Q替代W，並歸一化：

3. 專注欺詐的設計

定義v，設欺詐公司節點 , 其他節點。這樣將欺詐公司節點作爲特定節點，每次重啓都是從這些欺詐節點開始遊走。

最終得到的score可以解釋爲與這些欺詐節點的相關性，相關性越高表示受感染程度越嚴重。

4.和度無關的傳播

在個性化PageRank中，表示將節點score分散傳播給鄰居，但這會出現個問題：在score相等時，高度（鄰居數量多）節點傳播給鄰居較低的score，而低度節點傳播給鄰居較高的score。

但是在欺詐問題中，度高低應該與分配score無關，故通過放大高度節點的score，以保證傳播時不同度的節點鄰居得到的score在一個尺度上：

,d爲節點度，並對z歸一化得到。

4. 傳播增益

通過下面兩個傳播效應來說明，傳播所帶來的額外增益（相比“直接與欺詐公司相連”的規則）

anticipating effect（預期效應），可以理解爲提升召回：雖然資源沒有和欺詐的公司關聯，但是周圍關聯了欺詐分較高的公司，那其欺詐分也高
forgiving effect（寬容效應），可以理解爲提高準確：雖然資源連接了一個欺詐公司，但是時間比較久了，也沒有連接其他欺詐分較高的公司，那其應該被寬容，是正常的。

x：連接欺詐公司數量
y：欺詐傳播分
水平線：基於圖標和實際含義對high-risk和low-risk分隔
R^2：統計指標，欺詐分中有多少可以被解釋

5. 特徵設計

本節介紹獲得每個節點的欺詐傳播分數之後，如何結合網絡拓撲結構系統化衍生特徵。

每個特徵對於欺詐性的區分度：

個性化PageRank在欺詐檢測中的應用

論文：GOTCHA! Network-Based Fraud Detection for Social Security Fraud
作者：Véronique Van Vlasselaer, Tina Eliassi-Rad,
來源：Management Science 16

0.論文概況

1.欺詐場景

2. 欺詐假設和調戰

2.1 欺詐假設

2.2 五大欺詐挑戰及應對

3. 風險傳播算法設計

4. 傳播增益

5. 特徵設計

druid數據源 xml配置

何時使用MLP，CNN和RNN神經網絡

IntelliJ IDEA導航特性Top20

HashMap的原理和使用

不小心觸雷的JAVA編程(A B C, 三個代碼塊分別輸出什麼?)

遞歸和循環兩種方式實現未知維度集合的笛卡爾積

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

個性化PageRank在欺詐檢測中的應用

論文：GOTCHA! Network-Based Fraud Detection for Social Security Fraud 作者：Véronique Van Vlasselaer, Tina Eliassi-Rad, 來源：Management Science 16

0.論文概況

1.欺詐場景

2. 欺詐假設和調戰

2.1 欺詐假設

2.2 五大欺詐挑戰及應對

3. 風險傳播算法設計

4. 傳播增益

5. 特徵設計

論文：GOTCHA! Network-Based Fraud Detection for Social Security Fraud
作者：Véronique Van Vlasselaer, Tina Eliassi-Rad,
來源：Management Science 16