互聯網風控模型需要多大數據?

近兩年來,“大數據”一詞廣受熱議,提高了企業對數據及數據所產生的價值的重視,整體上推進了我國在各項商務應用和政務應用中數據支持的比重,提升了量化決策和科學決策的水平。然而,在大數據概念提出之前,我們也一直從事數據分析和建模的工作,在這裏,我想談談大數據的出現,對互聯網金融風控模型構建帶來了哪些影響。


 

對大數據的理解

 

首先我們來談談對於大數據的理解。

大數據一詞由維克托邁爾-舍恩伯格教授提出。有一種觀點認爲大數據是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合。然而,各界對於大數據定義存在較大差異,比較通用的觀點是用4V特點來描述:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。


在互聯網金融領域,如何來理解呢?

互聯網金融可以應用的大數據,首先體現在社交數據:微博微信等社交平臺早已深入人們的日常生活中,產生了大量文本數據和圖像視頻數據,這些數據的處理和存儲,分析,對於相關互聯網企業產生了挑戰。相應的存儲,處理和分析的需求應運而生。

這些數據的第一個特點是非結構化,不是像傳統的數據,每個變量定義清晰,一條一條地存儲在數據表中。


第二個特點是多維度。比如,法律,旅遊,水電,社保,娛樂,消費……等等維度的增加,也體現了大數據的“大”。

在互聯網金融領域現階段,分析這些數據產生個人信用的評分,和P2P公司實際業務所需要的評分模型,還有一定差距。


 

單純基於大數據的模型

效用有限

 

互聯網金融的風險控制模型經常用到評分卡,例如:個人信用等級評分卡。然而要做評分卡,要計算相應的違約率,首先應該根據業務,定義目標變量,即輸出變量:什麼樣的客戶算好客戶,什麼樣的客戶是壞客戶。根據這個目標變量,我們再選擇相關的其它變量來考察各輸入變量對輸出變量的貢獻。


目前,很多企業在做單純基於大數據的評分模型,並沒有把違約與否的情況和網上的行爲數據拼接起來,貌似有了一個評分,那也不過是按照自己的理解,對網上行爲做了一個初步的整理,從模型的角度,已經有了偏差,即模型偏差。所以在應用上,要做到對風險進行準確定價,實用價值有限。


然而我並不是說所有的主要基於大數據的模型都不能用,我們要分開來看這個問題,對於像淘寶,京東等形成自己的業務閉環的商業模式中,儘可以使用各種方法對自己業務中產生大數據進行分析,因爲他們的目標變量和所謂大數據變量是可以拼接到一起的。但是對於P2P機構來說,由於並不是所有的貸款申請人都有淘寶賬戶,京東賬戶,所以這裏的所謂大數據,大數據模型要落地還是比較困難的。


迴歸到互聯網金融領域,對於申請人,如果拉一個央行的徵信報告,那還算方便,其實徵信報告的數據也比較規範,只不過是維度增加了;如果要拼接在網上的行爲,各方面難度就比較大了。


同時由於”大數據” 的收集,整理,存儲,預處理,分析等的投入都比較大,所以我在這裏說,有個所謂的費效比的8/2 效應。即對大數據分析投入的精力與其產出實際效應的比例約爲8:2。由此可見,單純基於大數據構建的互聯網金融風控模型意義是有限的。


如果爲P2P公司構建風控模型的工作中,使用的大多數是脫敏數據(不包含姓名等個人信息),這就使與大數據拼接十分困難。目前大數據對於互聯網金融領域的貢獻,我們認爲主要在反欺詐領域,我們爲P2P公司風險控制設計的反欺詐模型就利用了很多互聯網的數據源。


隨着互聯網金融和中國徵信行業的發展,我相信大數據也會越來越多的爲我們的風控模型貢獻價值。

 

傳統數據和大數據拼接

 

在社交數據出現之前,互聯網金融行業已經積累了大量的業務數據,這些業務數據基本上都是結構化存儲,而且數據質量都比較好,數據的業務定義也比較清晰。所以在應用”大數據”之前,怎麼發揮已有的結構化數據的價值,是我們數據分析建模工作的基礎,和目前的重點。


那麼具體的, 我們應該如何結合現有的數據選擇怎麼樣的算法來做這個事情呢?


在傳統銀行以及大多數互聯網金融機構,首先看的是違約,那麼就把違約與否作爲好壞客戶的定義,然後在選擇諸如,工資,性別,年齡,房產,車產等作爲輸入變量,這是所謂的傳統、結構化數據,我也稱之爲基礎數據;而對於大數據,我們認爲,應該在傳統數據的基礎上,相對於目標變量,做一個拼接,即:


目標變量 = 基礎變量 + 大數據變量


只有在此基礎上,做出來的模型纔有意義。但是,做這個拼接,從數據收集的角度來說,是有難度的。


實際上,在傳統金融領域,對於違約與否,主要考察的是兩個方面,還款能力和還款意願。理論上說,如果直接有這兩個變量,那我們就不需要其他的輸入變量了。我們所選擇的一些輸入變量,就是來還原這兩個方面。同時,我們之所以在模型中加入大數據,也是因爲某些數據的加入,能對更準確還原這兩方面貢獻一些信息。


同時,互聯網金融,有豐富多彩的業務模式,風險管理注重的方面也大大豐富了,如惡意欺詐,多頭負債,朋友貸中對信譽的高度重視,學生貸中考察他的學業能力, 等等。


 

風控模型需要多大數據

 

下面我們來聊聊互聯網金融風控模型需要多大的數據?這需要先回答一個問題: “最少需要多少數據?數據是不是越多越好?“


作爲IFRE技術負責人與客戶接觸的時候,經常碰到一個問題:由於衆所周知的原因,各家P2P機構對自己的違約率都比較敏感,擔心全量數據給我們之後,泄露商業機密,這是可以理解的。但是顯然,全量數據所做的模型應該是最準確的。


在沒有大數據這個名詞出現之前, 我們做模型對於數據的要求是這樣的:抽樣的樣本對於總體有代表性(representative):即樣本和總體的各項指標是一樣的,那麼用樣本做出來的模型,纔可以代表總體;第二個假設是,總體數據做隱含的規律是穩定的(stationary/stability)。


同時還有一個隱含的假設,做模型的數據表現和要用到模型的個體數據的統計性狀是相同的,即用歷史數據模擬的分數,和以後的客戶,如果評分相同,那麼他們的表現也相同。只有這樣,模型纔可以用。否則,還是會產生偏差。


假設有輸入變量,”性別”,包含兩個屬性:

男, 女; 身高,包含三個屬性:高,中,低。

那麼,所有的屬性組合是 2*3=6個屬性,即:

“男,高”,“男,中”, “男,低“,“女,高”,“女,中”, “女,低“。



引申開來,如果模型中有10個輸入變量,每個有兩個屬性,那麼至少需要2的十次方,1024 條數據, 才能把這些屬性組合覆蓋。我們才能說,哪一個屬性對於目標變量的貢獻是多少,然後是哪一個變量對於目標變量的貢獻是多少。隨着變量的增加,對於數據數量的要求是指數級增長。


由此可知,在互聯網金融風控模型搭建中,基於成本與效率考慮,數據並不是越多越好,同時我們需要具有穩定性數據,更需要對每一個變量背後的業務含義具有深刻的瞭解。後面的文章中,我會繼續探討數據倉庫搭建,數據清洗以及數據缺失值填補等問題。可以關注我們的公衆賬號跟我進一步探討交流

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章