如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

全文共2526字,預計學習時長8分鐘

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

圖源:unsplash

 

我的數據科學之路非常循規蹈矩。本科學的是經濟學,我從商業學位的課程中學習到了商業敏銳度;碩士學位是全球商業和計算機科學(方向是機器學習和人工智能),計算機科學學位的課程中教會我大部分的技術要素,並且我還擁有一份數據科學的實習。

 

回顧過去,我的道路沒有任何問題,但是,如果當時我就知道自己現在正在做什麼,我將會如何規劃自己的數據科學之旅呢?

 

這個問題對於剛接觸該領域的人來說特別重要。自從我開始投身該領域以來,很多事情都改變了。職位競爭更加激烈,學習選擇也更多。我希望我的經驗可以幫助其他人更快、更全面地學習數據科學,並獲得更好的工作機會。

 

每個人的學習都是不同的,我的話也不是真理,你很有可能會找到一些更適合你的東西。儘管如此,還是我希望這篇文章能讓你在學習這一領域時,提前瞭解宏觀層面的知識。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

 

第一課:分解

 

剛開始學習數據科學時,我一下子就被大量知識淹沒了。我必須學習編程語言和統計學、線性代數、微積分等方面的概念。面對如此多的選擇,我不知道該從哪裏開始。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

圖源:unsplash

 

幸運的是,我有課程作業來指導我的學習。我所學的學位將許多概念分解成更小的塊,它們變得更易於理解。雖然這個方法對我很有效,但學校對此採取了“一刀切”的方法,它們還包括許多你實際上並不需要的無關類。所以,如果我可以回到過去,我絕對會將我的數據科學學習之旅分解成更適合我的部分。

 

在分解數據科學之前,有必要了解該領域的組成部分。你可以將數據科學分解成更小和更容易理解的部分,而不是將它分解爲“課程”。我會將數據科學分解爲編程和數學。

 

編程——熟悉Python和/或R

 

· 變量

· 循環

· 功能

· 對象

· 軟件包(panda, numpy, matplotlib, sklearn,tensorflow, pytorch等)

 

數學

 

線性代數:微積分

 

統計學:

· 概率論

· 迴歸(線性,多重線性,嶺,套索,隨機森林,svm算法等)

· 分類(樸素貝葉斯,knn算法,決策樹,隨機森林,svm算法等)

· 聚類(k表示層次化)

 

通過將數據科學分解爲各個組成部分,你可以將其從抽象概念轉變爲具體步驟。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

 

第二課:從哪裏開始

 

最初,我癡迷於按照“正確”的順序學習事物。然而進入該領域後,我發現很多數據科學家學習技能的順序完全不同。我遇到過一些先學習數學的博士,他們是在參加訓練營後才學會編程概念的;還有一些很厲害的軟件工程師們,後來通過自學和實踐學會了數學。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

圖源:unsplash

 

從哪裏開始很重要,最好是從你感興趣的話題出發。學習是可以累加的,如果你學了一件事,你就不會放棄學習另一件事。

 

如果能回到過去,我會從當時我最感興趣的概念開始。一旦你學會了一個概念,你就可以在此基礎上去理解其他的概念。就像如果你學習了簡單的線性迴歸,那麼學會多元線性迴歸是相當容易的一步。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

 

第三課:構建最小可行知識(MVK)

 

經過這麼久的業內生活,我對所需的基礎知識有了不同的看法。嘗試過許多不同類型的自我學習之後,我發現通過做項目來學習是掌握一個領域最有效的方法。你應該理解這些概念,以便開始探索自己的項目。

 

這就是最小可行知識發揮作用的地方。你首先應該學習足夠的基礎知識知識,以便能夠從中學到東西,這個階段很難確定。當你第一次來到這裏的時候,你會覺得自己還沒有準備好。這是一件好事,這意味着你正在走出舒適區。

 

你可以通過入門的在線課程來達到這一知識水平,我推薦kaggle.com上的微課程。要完成這一步,需要了解python或R的基礎知識,並熟悉所使用的軟件包,之後可以通過將一些算法應用於現實世界的數據來開始學習數學。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

 

第四課:進行實踐

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

圖源:unsplash

 

有了基礎知識,最好儘快進入項目。這聽起來很可怕,其實關鍵在於你如何定義項目。早期階段,一個項目可能就像嘗試for循環一樣簡單。隨着學習的進展,可以使用kaggle上的數據來完成項目,最後可以使用你所收集的數據來完成項目。

 

學習數據科學的最好方法就是實踐。理論是非常重要的,但沒有人說你必須在開始應用它之前理解它。可以在對算法有功能上的理解之後,再開始回顧理論。對我來說,現實世界的例子總是能讓問題體現出來。

 

項目還可以讓數據科學變得更小。對於新學習者來說,最大的挑戰之一是數據科學領域規模太龐大了。把正在學習的東西限制在一個小項目的範圍內,可以讓你把事情分解得比你在第1課中還要小。

 

做項目還有另一個好處,他們會立即反饋你需要改進的地方。如果你正在從事一個項目,並且遇到了關於使用哪種軟件包、算法或可視化的障礙,你會發現自己的不足之處即刻開始查漏補缺。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

 

第五課:學習他人的代碼

 

能自己做項目確實很棒,但有時你會弄不清自己缺少哪些知識。我強烈建議你參考一下經驗更豐富的數據科學家的代碼,以瞭解下一步應該學習什麼,更好地理解邏輯或語法。

 

在Kaggle和GitHub上,有成千上萬(也許是數百萬個)內核,人們可以共享用於分析數據集的代碼,瞭解這些是補充項目的好方法。

 

建議列出你正在使用的軟件包,算法和視覺效果的列表,查看軟件包的文檔,並在那裏擴展知識。他們在文檔中幾乎都有例子說明如何使用,同樣,此列表可用於幫助你思考新的項目構想和實驗。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

圖源:unsplash

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

 

第六課:從頭開始構建算法

 

這是大多數數據科學家的必經之路。在你應用算法並瞭解其工作原理之後,最好自己試着從頭開始編寫它。這有助於你更好地理解使其工作的基礎數學和其他機制。這樣做時,毫無疑問,你得學習其背後的理論。

 

朝這個方向學習比嘗試掌握理論然後應用它要直觀得多。這是fastai在他們的免費慕課中採取的方法。如果對深度學習感興趣,我強烈建議你去看看。

 

我建議從線性迴歸開始。這將幫助你更好地理解梯度下降,這是一個非常重要的概念。隨着數據科學事業進一步發展,理論變得越來越重要。通過爲問題匹配正確的算法,可以帶來價值。

 

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

圖源:unsplash

 

數據科學之旅的美麗之處在於它永無止境。你需要不斷學習,以掌握它的新發展。就像前文中提到的,每個人的學習方法不同,你大可以選擇按照自己的路走。但最後這點毫無疑問對所有人都適用,永遠不要停止學習。

如果必須重新開始,我會怎樣開啓自己的數據科學之旅?

一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 “讀芯術”

(添加小編微信:dxsxbb,加入讀者圈,一起討論最新鮮的人工智能科技哦~)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章