一直以來,Paypal 的技術信息都很封閉的,很少能看到披露後臺關於信息架構的東西。
Paypal 當前的數據倉庫用的是 NCR Teradata ,32 個節點,50 TB 的數據,耗時三年打造。而整個公司投入在 BI 範圍上的資金佔據全部 IT 投入的 60%。
之前 Paypal 用的是 Oracle 數據倉庫的解決方案,舊的 Oracle 數據倉庫環境其實類似生產環境 Schema 數據的鏡像。從 Oracle 到 Teradata ,不是簡單的遷移,而是完全重構了數據模型,對數據重新清洗並提高數據質量。
因爲歐美是依賴信用卡的消費習慣,所以 Paypal 面對的信用卡消費欺詐還是很嚴重的,一度高達 0.25% 的資損(印象中好像有段時間來自俄羅斯和東歐的欺詐特別多),這可能也是 Paypal 在數據倉庫/BI 上投入重金的一個原因(此外還收購了 Fraud Sciences 公司來減少這方面的風險)。
除了有效提供損益報告,Paypal 的數據倉庫還必須即時有效的提供的一個指標叫做 "Funny Mix",代表信用卡資金交易帳務平衡指標與 ACH(自動化清算所,Automated Clearing House) 帳務平衡。
作爲對比 eBay 數據倉庫環境每天新進來的數據就有 40TB(和Yahoo! 的DW不相上下),這樣的數據量,處理起來的難度還是有一點點的,據說原來技術人員 90% 的時間要花費在數據清洗上,現在也開始用 Teradata 大集中式數據倉庫的模式了。
儘管收集 Paypal 的信息非常不容易,但也希望能挖掘出點有意思的東西來。
--EOF--