推薦 Kaggle 大神Dan Becker與你分享他的數據科學之旅!

作者:ANALYTICS VIDHYA  翻譯:吳振東   校對:和中華

本文約4000字,建議閱讀10分鐘

本文中Kaggle大佬Dan Becker談論了自己從經濟學向數據科學的轉變,從零開始成爲數據科學家的旅程,並給予初學者們一些建議。

 

 “如果我下定決心要進入前1%,有可能在達成目標前我就放棄了。這是一個過於困難的目標,如果我心裏總想着這件事,那我永遠無法去完成它。”

——Dan Becker

 

我堅信對於很多已經拋棄Kaggle之旅的人來說都有這樣的經歷,無法進入榜單前1%,並且認爲練習也毫無意義。

 

好吧,Kaggle大佬系列帶着一篇新的採訪迴歸了,這次我們請來了Dan Becke。

 

Becker可謂是Kaggle Notebooks 大佬,目前排在該類別榜單的第二位。他編寫的Notebooks不僅被數據科學初學者們廣泛參考,也是Kaggle learn免費課程中的一部分。貝克爾還是Kaggle數據集與討論組的專家。

 

Becker還是一家名爲Decision.AI公司的創始人,該公司致力於幫助數據科學家們把他們的AI模型轉化成理想的商業業績。在此之前,他還在谷歌從事數據科學,很了不起對嗎?

 

這篇採訪包括了以下幾大主題:

  • Becker從經濟學到數據科學的跨界

  • Becker從零開始成爲大佬的Kaggle旅程

  • Becker給予數據科學初學者們的建議

 

讓我們來讀一下這篇採訪,看看從中會有怎樣的感悟吧!

貝克爾的學業和工作

Analytics Vidhya (AV):“看您的教育背景是經濟學博士。您能告訴我們自己是怎樣從經濟學轉戰到數據科學,從中面對過怎樣的挑戰嗎?”

 

Dan Becker (DB):“我最開始轉向數據科學,是在讀到一篇新聞時。那篇新聞報道稱有一個Kaggle競賽設置300萬美元的鉅額獎金。當時我使用經濟學中的傳統技術做了一次提交,結果我排在了排行榜的倒數10%。我至今仍記得自己在看到那一結果時的感覺。我本以爲自己在建模方面很擅長,所以很難接受自己排名墊底。但這個結果激勵了我進一步學習和進步。第二年,每天夜裏,我都在努力優化自己的結果,或者是學習更多關於機器學習的知識。我的排名每次都能前進幾名,在這項賽事中排在了1353個隊伍中的第二名。最終,我完成了自己成爲數據科學家的轉變。”

 

AV:“您曾在世界上最好的公司之一——谷歌任職數據科學崗位,在這樣的大公司擔任數據科學家角色需要運用到什麼技能或知識呢?”

DB:“根據具體的角色,在谷歌的每個人都會有所不同。加入谷歌時,我已經做了差不多有七八年的數據科學家。就我的性格來說,我總會擔心自己落後,所以一直在不斷學習。也因此,我在數據科學領域的知識面比較廣。從應聘面試角度來看,谷歌喜歡問算法問題。《程序員面試金典(Cracking the Coding Interview)》是很多大型科技公司的最佳面試準備材料。”

 

AV:“除Kaggle外,您創辦了Decision.ai,一個可以幫助數據科學家把AI模型轉化成商業業績的工具。您能解釋說明下是如何把AI模型轉化成商業模型的嗎?”

 

DB:“對於分析師和數據科學家來說,Decision AI是一個從他們所構建的機器學習模型中獲得更多商業價值的工具。監督學習模型能夠做出預測,但是對於如何去使用這些預測結果有些僵化。我來給你舉一個例子:

 

一個數據科學家構建了一個預測詐騙金融交易的模型。對於一筆交易,模型表示有5%的可能是欺詐。現在問題來了,你對此做怎樣的反應呢?有些人會用一個簡單的閾值,比如說駁回所有超過10%可能性是欺詐的交易。

 

你將預測結果轉化成真實世界行爲的方式被稱爲‘決策函數’。現在問題就變成了‘什麼是最佳的決策函數’。對於每一次交易,你可能要考慮客戶的價值,因爲這代表瞭如果拒絕這筆交易會帶來怎樣的後果。你要與接受欺詐交易的成本做比較,而這個成本可能取決於交易金額。

 

所以這筆交易所有的信息都需要在決策函數中有所考慮。我們不可能自動發現準確的決策函數。但是我們可以提供一個工具,讓數據科學家們嚴格優化做決策的過程。

 

這種情況並非金融詐騙所獨有。我們可以將其運用到供應鏈管理、預測性維護、產品定價、醫療衛生等其他一些領域。

 

在很多實際案例中,人們都會驚訝於他們能在做決策方面變得更好。在很多案例中,他們最開始認爲這不是數據科學家該做的工作,應該由其他人來做。但當使用了我們的工具後,他們意識到通過嚴格的決策優化可以增加多少利潤,即使免不了要與其他利益相關者合作。

貝克爾從零開始成爲Kaggle大師的旅程

 

AV:“你現在是Kaggle Notebooks大師,目前排名第二,首先爲此向你致敬,這真的是太了不起了!有一個很多人都想問你的問題:‘你對於創造一個專業級的Notebook,會使用什麼框架和策略?有一份清單嗎?’”

 

DB:“我並沒有列一份清單。我的很多Notebook都是在Kaggle Learn課程上精選的,這也是能夠吸引大家的一大原因。

 

一般情況下,我會把Notebook分爲兩類:

 

第一類Notebook是關於教育的,這種都涉及某個特定的技術。舉例說,你可以做一個關於如何使用Seaborn進行數據可視化的Notebook。在這裏面,我不會加入太多關於pandas或者scikit-learn的東西,因爲這些會分散注意力。

 

最理想的情況下,這篇Notebook可以解釋你自己對於seaborn的心智模型,而不只是列一堆示例。這樣的話,在讀完你的Notebook後我就能知道自己如何去做一些事情。

 

第二類Notebook是受好奇心驅使的。這些可能獲得較少的點贊,但我個人還是很喜歡。比如說,我可能會好奇森林大火隨着時間推移的趨勢是怎樣的。我找到一個數據集,接着繪製了幾副圖表,開始嘗試去回答這一問題。通常,在第一個圖表中,我會提出新問題,然後在用幾副圖表來回答它們。

 

AV:“這真的是太棒了。請問您在最初開啓Kaggle生涯時遇到的挑戰是什麼,又是怎樣克服的呢?”

 

DB:“最開始,我遇到的挑戰就是自己還不夠出色。我沒想過自己能夠進入前1%,但是我很享受進步的過程。這讓我每天都堅持努力。如果我總是期待自己進入前1%,我可能在完成目標前就放棄了。這實在是一個在我完成前就會考慮放棄的目標。

 

Kaggle 現在有很多頂級選手,我在10年前就開始參與。對於大多數來說,我不認爲這是邁向專業道路的絕佳途徑,對我來說,找到一個可以從中學到東西的社區更有希望。”

 

AV:“您現在有超過180篇Notebook被數據科學初學者廣泛引用。您是否考慮過專注於Notebook呢?還有您選擇Notebook的主題標準是什麼?”

 

DB:“我爲Kaggle Learn上的免費課程編寫了一些Notebook,很多我的Notebook都是來自於那裏。目前我沒有繼續做這塊,我所做的Notebook基本上都是受好奇心驅使,對真實世界某個問題的好奇。”

 

AV:“180+是一個不小的數字,您有哪5篇是自己最想推薦給我們社區的呢?”

 

DB:“我創辦了一個可解釋性機器學習課程,地址是 https://www.kaggle.com/learn/machine-learning-explainability 這些無疑都是我最喜歡的Notebook。”

 

AV:“考慮到您見證了Kaggle從最初到現在的成長,您能告訴我們在這一旅程中有沒有一兩個里程碑讓你覺得很關鍵?”

 

DB:“我在遺傳健康比賽中最終拿到了第二名的成績,毫無疑問那是我個人最大的里程碑。我還首次利用深度學習技巧完成了比賽。這是在Keras,PyTorch或者TensorFlow這樣的工具出現之前。當時我用了一個名爲PyLearn2的庫。在參加那次比賽時,我還爲PyLearn2的開源做了一些貢獻。”

對數據科學初學者的建議

 

AV:“作爲數據科學和機器學習的行業領導者,您能給予初學者們一些讓他們在這個行業立足的經驗嗎?”

 

DB:“我認爲先去學習大量的理論然後再去動手實踐是錯誤的。我看到有些人花了幾年的時間成爲數據科學家,結果他們對實際工作中如何運用這些理論卻不太瞭解。相反,我更喜歡先學一些最基礎的,能夠用來參加一個像Kaggle競賽這樣的項目。然後等你獲得足夠的經驗時,再去學習更多的理論,以便你能理解這些理論在哪裏被運用。

 

還有,你需要學習如何使用Git,如何和其他人合作。最後,要學會很好地使用Pandas。大多數數據科學家花費在處理和清洗數據上的時間要比使用高級算法的時間多10倍。或許深度學習很有意思,但是Pandas纔是更實用的。” 我認識很多想僱數據科學家的人,他們都抱怨熟練使用Pandas的數據科學家怎麼如此短缺。

 

AV:Kaggle對於成爲成功的數據科學家來說經常是敲門磚。您能夠給予初學者一些建議讓他們在這一平臺上產生影響力嗎?

 

DB:“有些人蔘與Kaggle爲了拿到一定的排名來幫助他們找到工作。這樣的方式是錯誤的。排名並不會幫助你找到工作,除非你贏下了一項競賽或者接近贏下競賽,可99.9%的參賽者無法完成這一目標。

 

幸運的是,Kaggle是一個對於學習很有幫助的地方。我非常看重從其他人身上學到東西。與比賽中的人一同合作,或者分享你的Notebook來獲得其他人的反饋或建議。

 

找到你覺得有趣的數據集,創造你自己的項目來分享。Kaggle可能是通過實踐來學習的最佳地點。如果你覺得自己還沒做好上述準備,那麼就從Kaggle Learn開始吧。”

 

AV:“經常見到有人蔘加黑客馬拉松甚至取得理想的結果,但當把結果轉化成商業或工業成果時,總是會遇到麻煩。基於您的經驗,你會給出他們怎樣的建議來跨越這兩者之間鴻溝?”

 

DB:“這很難,但這確實是一個很重要的問題。在解決商業問題時,有很多是你在黑客馬拉松或者業餘愛好項目中是不需要面對的。如果你能做到,找一個數據科學或數據分析的工作會對你發現這些問題很有幫助。我覺得這應該是你的首要目標。

 

除了這一點以外,對於每一個項目,你都需要花一點時間來明白今天要做出這些決定的方式,以及你可以在哪些方面提供幫助。如果這個決定是人爲的,那你可能要開始繪製一些圖表來讓他們覺得有所幫助。然後看一下你是否可以發送這些圖表,然後和他們開啓一段對話。這個過程可能不如建立機器學習模型有趣。但是你要知道,沒有人會因爲你發送給他們一個模型而啓動一個會談。所以我都是儘可能地涉及一個真實的決策過程。現在這些依舊很難。”

 

AV:您是那種每個人都想成爲的人。您能列舉出五位激勵您前進的數據科學專家嗎?

 

DB:“我期待強化學習在未來能夠起到深遠的影響(即便現在還沒達到),所以我特別喜歡閱讀Sergey Levine的研究。這些內容有點更偏重於研究,但 BAIR blog是我最喜歡的內容之一。

 

我非常尊重 Thomas Wiecki 以及其他讓貝葉斯相關方法的應用變得更加廣泛的人。

我和 Tim Salimans 在Kaggle競賽中有過合作,他非常的聰明。我們沒有經常聯繫,但在我讀到他的研究時還是很興奮。Susan Athey 以一種我非常欣賞的方式將經濟學和機器學習結合起來。Andrew Gelman  在對數據集的使用上有獨到的見解,他稱自己爲統計學家,但是我認爲區分統計學和數據科學不是很重要”。

 

結語

這是一篇相對嚴肅且鼓舞人心的採訪。我們希望你能從採訪裏所談論的內容中有所吸收,幫助你在數據科學旅程中向前邁進。

 

原文鏈接:

https://www.analyticsvidhya.com/blog/2020/12/kaggle-grandmaster-series-Notebooks-grandmaster-and-rank-2-dan-beckers-data-science-journey/

原文標題:

Kaggle Grandmaster Series – Notebooks Grandmaster and Rank #2 Dan Becker’s Data Science Journey!

譯者簡介:吳振東,法國洛林大學計算機與決策專業碩士。現從事人工智能和大數據相關工作,以成爲數據科學家爲終生奮鬥目標。來自山東濟南,不會開挖掘機,但寫得了Java、Python和PPT。

END

版權聲明:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。


合作請加QQ:365242293  

數據分析(ID : ecshujufenxi )互聯網科技與數據圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟覆蓋5000萬人羣。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章