paypal的web架構

 網址:

一直以來,Paypal 的技術信息都很封閉的,很少能看到披露後臺關於信息架構的東西。

Paypal 當前的數據倉庫用的是 NCR Teradata ,32 個節點,50 TB 的數據,耗時三年打造。而整個公司投入在 BI 範圍上的資金佔據全部 IT 投入的 60%。

之前 Paypal 用的是 Oracle 數據倉庫的解決方案,舊的 Oracle 數據倉庫環境其實類似生產環境 Schema 數據的鏡像。從 Oracle 到 Teradata ,不是簡單的遷移,而是完全重構了數據模型,對數據重新清洗並提高數據質量。

因爲歐美是依賴信用卡的消費習慣,所以 Paypal 面對的信用卡消費欺詐還是很嚴重的,一度高達 0.25% 的資損(印象中好像有段時間來自俄羅斯和東歐的欺詐特別多),這可能也是 Paypal 在數據倉庫/BI 上投入重金的一個原因(此外還收購Fraud Sciences 公司來減少這方面的風險)。

除了有效提供損益報告,Paypal 的數據倉庫還必須即時有效的提供的一個指標叫做 "Funny Mix",代表信用卡資金交易帳務平衡指標與 ACH(自動化清算所,Automated Clearing House) 帳務平衡。

作爲對比 eBay 數據倉庫環境每天新進來的數據就有 40TB(和Yahoo! 的DW不相上下),這樣的數據量,處理起來的難度還是有一點點的,據說原來技術人員 90% 的時間要花費在數據清洗上,現在也開始用 Teradata 大集中式數據倉庫的模式了。

儘管收集 Paypal 的信息非常不容易,但也希望能挖掘出點有意思的東西來。

--EOF--

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章