數據科學難題,怎麼解釋到底什麼是數據科學

通過數據科學領域中幾個關鍵概念之間的關係來檢驗數據科學的難題。正如我們將要看到的那樣,不同意見的是具體的概念,不同意見是不可避免的;這只是另一個需要考慮的意見。

網絡上沒有任何文章比較和對比數據科學術語。所有類型的人都寫了各種各樣的文章,將他們的意見傳達給任何願意傾聽的人。這幾乎是壓倒性的。

所以,讓我直截了當地記錄,對於那些想知道這是否是這類帖子之一的人。是。是的。

爲什麼另一個?我認爲,雖然可能有很多意見部分定義和比較這些相關術語,但事實是這個術語的大部分都是流動的,並未完全同意,坦率地說,暴露於其他人羣的觀點是測試和改進自己的最佳方法之一。

因此,雖然我可能不完全(甚至是最低限度地)同意我對這個術語的大部分內容,但可能仍然有一些東西可以擺脫這一點。將研究數據科學的幾個核心概念。或者,至少,我認爲是核心。我會盡力提出它們之間的關係以及它們如何作爲一個更大拼圖的單個部分組合在一起。

作爲一些有些不同意見的例子,在單獨考慮任何概念之前,KDnuggets的Gregory Piatetsky-Shapiro彙總了以下維恩圖,其中概述了我們將在此考慮的相同數據科學術語之間的關係。我們鼓勵讀者將這個維恩圖與Drew Conway現在着名的數據科學維恩圖進行比較,以及下面我自己的討論以及帖子底部附近的修改過程/關係圖。我認爲,雖然存在差異,但這些概念在某種程度上具有相似性(參見前幾段)。

我們現在將對上述維恩圖中描述的相同的6個核心概念進行處理,並提供一些有關如何將它們組合到數據科學難題中的見解。 首先,我們很快就省去了過去十年中最熱門的話題之一。

大數據

有各種各樣的文章可用來定義大數據,我不會在這裏花太多時間在這個概念上。 我將簡單地說,大數據通常可以定義爲“超出常用軟件工具捕獲,管理和處理能力”的數據集。 大數據是一個不斷變化的目標; 這個定義既模糊又準確,足以捕捉其核心特徵。

至於我們將要研究的其餘概念,最好先了解一下他們的搜索術語流行度和N-gram頻率,以幫助將事實與炒作區分開來。 鑑於這些概念中的一對相對較新,我們從1980年到2008年的“老”概念的N-gram頻率如上所示。

最近的谷歌趨勢顯示了2個新術語的上升,2個其他人的持續上升趨勢,以及最後一個逐漸但明顯的下降。 請注意,由於已經對數據進行了定量分析,因此大數據未包含在上述圖形中。 請繼續閱讀以進一步瞭解觀察結果。

機器學習

根據Tom Mitchell在他關於這個主題的開創性着作中的說法,機器學習“關注的是如何構建自動改進的計算機程序的問題。”機器學習本質上是跨學科的,並且採用來自計算機科學,統計學和人工智能等領域的技術。機器學習研究的主要工件是可以從經驗中自動改進的算法,可以應用於各種不同領域的算法。

我認爲沒有人懷疑機器學習是數據科學的核心方面。我在下面給出了數據科學詳細處理這個術語,但是如果你認爲它的目標是從數據中提取洞察力,那麼機器學習就是讓這個過程自動化的引擎。機器學習與經典統計有很多共同之處,因爲它使用樣本來推斷和推廣。在統計學更多地關注描述性的情況下(雖然它可以通過推斷,可以預測),機器學習很少涉及描述性,並且僅將其用作中間步驟以便能夠進行預測。機器學習通常被認爲是模式識別的同義詞;雖然這對我來說真的不會有太大的分歧,但我相信模式識別這個術語意味着一套比機器學習實際上更復雜,更簡單的過程,這就是爲什麼我傾向於迴避它。

機器學習與數據挖掘有着複雜的關係。

數據挖掘

Fayyad,Piatetsky-Shapiro和Smyth將數據挖掘定義爲“從數據中提取模式的特定算法的應用”。這表明,在數據挖掘中,重點在於算法的應用,而不是算法本身。我們可以定義機器學習和數據挖掘之間的關係如下:數據挖掘是一個過程,在此過程中,機器學習算法被用作工具來提取數據集中保存的潛在有價值的模式。

數據挖掘作爲機器學習的姐妹術語,對數據科學也至關重要。事實上,在數據科學這個術語爆炸之前,數據挖掘作爲Google搜索術語獲得了更大的成功。看看谷歌趨勢比上圖所示延長了5年,數據挖掘曾經更受歡迎。然而,今天,數據挖掘似乎被分割爲機器學習和數據科學本身之間的概念。如果要支持上述解釋,那麼數據挖掘就是一個過程,那麼將數據科學視爲數據挖掘的超集以及後續術語是有意義的。

深度學習

深度學習是一個相對較新的術語,儘管它在最近的在線搜索急劇上升之前就存在了。由於在許多不同領域取得了令人難以置信的成功,研究和工業正在蓬勃發展,深度學習是應用深度神經網絡技術(即具有多個隱藏層的神經網絡架構)來解決問題的過程。深度學習是一個過程,如數據挖掘,它採用深度神經網絡架構,這是特定類型的機器學習算法。

深度學習最近取得了令人印象深刻的成就。鑑於此,至少在我看來,記住一些事情很重要:

深度學習不是靈丹妙藥 - 對於每個問題而言,它並不是一個簡單的“一刀切”的解決方案

它不是傳說中的主算法 - 深度學習不會取代所有其他機器學習算法和數據科學技術,或者至少它尚未證明如此

淬火期望是必要的 - 儘管最近在所有類型的分類問題上取得了很大進展,特別是計算機視覺和自然語言處理,以及強化學習和其他領域,當代深度學習不能擴展到處理非常複雜的問題,如“解決世界和平”

深度學習和人工智能不是同義詞

深度學習可以通過附加過程和工具的形式爲數據科學提供大量幫助,以幫助解決問題,並且當從這個角度觀察時,深度學習是數據科學領域的一個非常有價值的補充。

人工智能

大多數人發現人工智能的精確定義,通常甚至是廣泛定義,難以理解。我不是一名人工智能研究員,所以我的回答可能與那些在其他領域甚至可能會讓人不滿的人大不相同。多年來,我對人工智能的概念進行了多次哲學思考,我得出的結論是,人工智能,至少是我們在考慮它時通常會想到的概念,實際上並不存在。

在我看來,AI是一個標尺,一個移動的目標,一個無法實現的目標。每當我們走上人工智能成就的道路時,這些成就似乎會變成被稱爲別的東西。

我曾經讀過如下內容:如果你在20世紀60年代問過AI研究員他們對AI的看法是什麼,他們可能會同意一個適合我們口袋的小裝置,這可以幫助預測我們的下一步行動和願望,並且隨時可以獲得的全部人類知識,可能會達成共識,即所述設備是真正的AI。但我們今天都攜帶智能手機,我們中很少有人會將它們稱爲人工智能。

AI在哪裏適合數據科學?好吧,正如我所說,我不相信人工智能真的是有形的,我想很難說它適合任何地方。但是有許多與數據科學和機器學習相關的領域,其中AI提供了動力,有時與有形的同樣有價值;當然的深度學習研究,當然深刻的學習研究,如果不是無限期的,它們在某些方面都受益於人工智能精神,那麼計算機視覺肯定會浮現在腦海中。

人工智能很可能是具有最深口袋的研發設備,從來沒有在同行業中產生任何東西。雖然我會說從AI到數據科學的直線可能不是查看2之間關係的最佳方式,但兩個實體之間的許多中間步驟已經由AI以某種形式開發和完善。

數據科學

那麼,在討論了這些相關概念及其在數據科學中的位置之後,究竟什麼是數據科學?對我而言,這是試圖精確定義的最艱難的概念。數據科學是一門多方面的學科,它包括機器學習和其他分析過程,統計學和相關的數學分支,越來越多地借鑑高性能科學計算,所有這些都是爲了最終從數據中提取洞察力並使用這些新發現的信息來講故事。這些故事通常伴隨着圖片(我們稱之爲可視化),並且針對行業,研究,甚至僅僅針對我們自己,目的是從數據中收集一些新想法。

數據科學使用來自各種相關領域的各種不同工具(參見上文所述的所有內容)。數據科學既是數據挖掘的同義詞,也是包含數據挖掘的概念的超集。

數據科學產生各種不同的結果,但它們都有共同的洞察力。數據科學就是這一切以及更多,對你而言,它可能完全是另一回事......我們甚至還沒有涵蓋獲取,清理,爭論和預處理數據!順便說一下,數據甚至是什麼?它總是很大嗎?

我認爲我對數據科學難題的想法,至少是可以用上圖表示的數據的版本,與本文頂部的Piatetsky-Shapiro的維恩圖很好地吻合。我還建議它也主要與Drew Conway的數據科學維恩圖一致,儘管我會補充一點:我相信他非常合理且有用的圖形實際上指的是數據科學家,而不是數據科學。這可能是分裂的頭髮,但我不認爲{field |紀律|數據科學本身的概念包括黑客技能;我相信這是科學家們擁有的一項技能,以便能夠進行數據科學研究。不可否認,這可能是對語義的爭論,但在我看來這是有意義的。

當然,這不是一幅不斷髮展的景觀的全貌。例如,我記得在不久之前閱讀數據挖掘是商業智能的一個子領域!即使意見分歧,我也無法想象今天這是一個有效的想法(幾年前很難接受,說實話)。

而且你有它:你最喜歡的一些術語以新的方式變形,你不會原諒我。如果你現在感到憤怒,迫不及待地想告訴我我有多錯,請記住這篇文章的重點:你剛讀過一個人的意見。在這種精神中,您可以隨意在評論中發聲(可能是激烈的,尖銳的)對比的觀點。否則,我希望這或者讓新讀者接觸到數據科學的難題,或者強迫他們在他們的頭腦中看看他們自己的這個難題版本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章