介紹Kaggle上各種數據挖掘應用的文章

轉載一篇介紹Kaggle上各種數據挖掘應用的文章


假設你想知道價格上漲5%之後會導致多少顧客流失,或者是預測市場對大量拋售股票的反應,又或者是估算一下借款人拖欠還款的可能性,試試卡歌網(Kaggle)吧。這是一家位於美國舊金山的初創企業,在線經營商業模式的競賽。該網站在2010年啓動,獲得了1,100萬美元的風險投資。網站讓參與競賽的人根據一系列的數據提交預測運算法則,並且將預測結果與實際的歷史數據進行對比。最優秀的建模者能將獎金納入囊中(獎金由那些需要情報的公司提供),而且有機會提供諮詢服務。卡歌網在組織這些競賽時會向企業收取費用。今年28歲的戈德布盧姆(Anthony Goldbloom)是卡歌網的創始人兼首席執行官,他說:“這就像是職業高爾夫球巡迴賽,我們尋找數據科學世界裏面的伍茲(Tiger Woods)。”

以下是那些搗鼓數字的人處理的部分難題。

預測保險索賠情況

好事達保險公司(Allstate)希望能更好地預測與汽車相關的傷害索賠情況,以便更精確地制定價格。競爭者們根據2005年到2007年的數據(包括具體的汽車情況、以及每輛車相關的賠償支出次數和數量)進行建模,並將它們應用到2008年至2009年的數據上。澳大利亞悉尼的保險精算顧問卡爾(Matthew Carle)使用決策樹形式的運算法則來告訴計算機如何進行學習,藉此獲得了6,000美元的頭等獎。它的精確程度比好事達保險公司的模型要高出340%。

測量醫院病人流

根據美國衛生保健研究與質量管理處(Agency for Healthcare Research and Quality)的數據,美國醫療保健體系在可預防的住院醫療上要燒掉300億美元。HPN(Heritage Provider Network)是一家位於加利福尼亞州的醫療保健機構,它希望能夠幫助醫生們更快速地確診,從而控制成本。它贊助的競賽內容是,根據36個月內的一系列數據來預測哪些病人將會需要住院治療。該項競賽的頭獎金額爲300萬美元(卡歌網上獎金額最高的項目)。比賽從2011年5月份開始,將在2013年4月份結束。截至目前,已經有1,400支隊伍提交了近1萬份運算法則。

對旅遊業進行預測

航空公司高管、旅館經營者以及餐館經營者都迫切想知道他們需要多少燃料、食品和員工才能讓顧客們感到滿意。2010年,《國際預測雜誌》(International Journal of Forecasting)贊助了一場競賽,挑戰一個已經發表的基於不同時期和不同地點旅遊活動的預測公式。獲勝者是霍華德(Jeremy Howard)和貝克(Lee Baker)。他們開發的模型可以精確地考慮到一次性事件的影響,例如惡劣的暴風雨。他們獲得了500美元的獎金,以及發表建模結果的機會。霍華德本人之後繼續努力,還贏得了卡歌網組織的其他競賽,如今成爲了該公司的總裁兼首席科學家。

對國際象棋手進行排名

所謂的伊諾排名算法(Elo rating system),根據國際象棋手過去的表現來分析對弈兩人的實力強弱。卡歌網組織了兩場競賽,旨在對該算法進行改進。其中一場競賽的贊助人是國際棋聯組織(World Chess Federation,FIDE)和專業諮詢服務機構德勤公司(Deloitte),在這場競賽中,組織方向參賽者提供5.4萬人在11年裏近200萬局國際象棋比賽的情況,然後將他們的預測模型應用於此後進行的10萬局比賽,以驗證預測結果的精確性。薩利曼斯(Tim Salimans)拔得了頭籌。在他的模型中,有些變量的權重相比更大,例如棋手最近的表現、對手的技巧、以及他在單日裏必須進行的棋局數量等。薩利曼斯獲得的獎金是1萬美元。


原文見:http://www.forbeschina.com/review/201203/0015583.shtml


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章