大數據工具千千萬,到底誰纔是最強王者?

外面有成千上萬的大數據工具。它們都承諾可以爲你節省時間和資金,並幫助發掘之前從來見過的業務洞察力。雖然確實如此,可是面對那麼多的選擇,想理清這麼多的工具談何容易。

哪一種工具適合你的技能組合?哪一種工具適合你的項目?

爲了替你節省一點時間,並幫助你首次選對工具,我們列出了我們青睞的幾款數據工具,涉及數據提取、存儲、清理、挖掘、可視化、分析和整合等領域。

數據存儲和管理

如果你準備處理大數據,就要考慮該如何存儲大數據。大數據得到“大”這個名號,一方面在於,大數據太龐大了,傳統系統處理不了。一家優秀的數據存儲提供商應該可以爲你提供一套基礎設施,除了用來存儲和查詢數據外,你還可以在上面運行其他所有分析工具。

Hadoop

大數據工具千千萬,到底誰纔是最強王者?
Hadoop這個名稱已成爲了大數據的代名詞。它是一種開源軟件框架,用於在計算機集羣上分佈式存儲非常龐大的數據集。這一切意味着你可以擴大或縮小數據規模,沒必要爲硬件故障而擔心。Hadoop爲任何一種數據提供了海量存儲空間、強大的處理能力以及處理幾乎無限制的併發任務或作業這一功能。

Hadoop並不適合數據初學者。想真正發揮其功能,你其實需要知道Java。這可能需要一番投入,但是Hadoop無疑值得你付出努力――因爲其他許多公司和技術運行在它的基礎上或者與它整合起來。

Cloudera

大數據工具千千萬,到底誰纔是最強王者?
說到Cloudera,它其實是Hadoop的一個品牌名,上面添加了一些額外服務。它可以幫助貴公司構建一個企業數據樞紐,讓貴企業的人員可以更方便地訪問所存儲的數據。

雖然確實有開源組件,但Cloudera主要還是一款企業解決方案,幫助公司管理Hadoop生態系統。實際上,它可以替你處理管理Hadoop的大量繁重工作。它還提供了一定級別的數據安全性,如果你要存儲任何敏感數據或私人數據,這至關重要。

MongoDB

大數據工具千千萬,到底誰纔是最強王者?
MongoDB是新穎的現代數據庫方法,可謂是後起之秀。它好比是關係數據庫的替代技術。它適用於管理經常變化的數據或者非結構化或半結構化數據。

常見的使用場合包括:爲移動應用程序、產品目錄、實時個性化、內容管理以及跨多個系統提供單一視圖的應用程序存儲數據。MongoDB同樣不適合數據新手。與任何數據庫一樣,你確實需要了解如何使用一種編程語言來查詢它。

Talend

大數據工具千千萬,到底誰纔是最強王者?
Talend是另一家出色的開源公司,它提供許多數據產品。我們在這裏主要介紹其主數據管理(MDM)產品,該產品將實時數據、應用程序和流程整合與嵌入式數據質量及監管結合起來。

由於是開源產品,Talend完全免費,因而是個不錯的選擇,無論貴公司處於哪個發展階段。而且,它讓你沒必要構建和維護自己的數據管理系統――這是一項非常複雜而困難的任務。

開始入門

大數據工具千千萬,到底誰纔是最強王者?
如果你對大數據完全一無所知,數據庫可能不是最適合入手的方面。它們比較複雜,確實需要具備一定的編程知識才能上手(這不像下面提到的其他許多工具)。

然而,如果你確實想要從事或處理大數據,那知道數據庫的基本知識、聊起數據庫頭頭是道必不可少。你可以全面瞭解推動大數據的技術,包括數據庫和存儲發展史、關係數據庫和文檔數據庫的區別、大數據的挑戰以及必不可少的工具,還有Hadoop簡要介紹。

數據清理

大數據工具千千萬,到底誰纔是最強王者?
在你真正挖掘數據、獲取洞察力之前,需要清理數據。儘管創建一個整潔、結構清晰的數據集總是好做法,但有時這並非始終行得通。數據集可能形狀和大小不一(有些好的,有些不太好!),尤其是你從網上獲取數據時。下列公司可以幫助你完善和重組數據,處理成實用的數據集。

OpenRefine

大數據工具千千萬,到底誰纔是最強王者?
OpenRefine(以前叫GoogleRefine)是一種開源工具,專門用於清理凌亂的數據。你可以輕鬆快速地瀏覽龐大的數據集,即便數據有點非結構化。

就數據軟件而言,OpenRefine很易於使用。不過,熟悉數據清理原則肯定有所幫助。OpenRefine好就好在,它有一個龐大社區,擁有衆多貢獻者,這意味着這款軟件在不斷變得完善。要是遇到了難題,你可以向社區提問。可以查看其Github代碼庫

DataCleaner

大數據工具千千萬,到底誰纔是最強王者?
DataCleaner認識到數據處理是一項冗長乏味的任務。數據可視化工具只能讀取結構條理化、“乾淨”的數據集。DataCleaner可以替你幹髒活,將凌亂的半結構化數據集轉換成乾淨的、可讀取的數據集,那樣所有可視化公司都能讀取。

數據挖掘

大數據工具千千萬,到底誰纔是最強王者?
別將數據挖掘與後面介紹的數據提取混爲一談,數據挖掘是指發現數據庫裏面的洞察力,而不是從網頁提取數據、然後放入到數據庫。數據挖掘旨在對你手頭的數據進行預測和決策。

RapidMiner

RapidMiner擁有一大批客戶,包括貝寶、德勤、電子港灣和思科等,這是一款用於預測分析的出色工具。它功能強大、易於使用,還有一個優秀的開源社區。通過API,你甚至可以將自己的專用算法整合到RapidMiner中。

圖形化界面意味着,你不需要知道如何編程或不需要有博士學位,就可以使用其四款分析產品中的任何一款。

IBM SPSS Modeler

大數據工具千千萬,到底誰纔是最強王者?
IBM SPSS Modeler提供了一整套專門用於數據挖掘的解決方案。這包括文檔分析、實體分析、決策管理和優化。其五款產品提供了一系列高級算法和技巧,包括文檔分析、實體分析、決策管理和優化。

SPSS Modeler是一款功能強大的解決方案,很適合滿足大公司的需要。它可以在幾乎任何類型的數據庫上運行,你可以將它與其他IBM SPSS產品整合起來,比如SPSS協作及部署服務和SPSS Analytic服務器。

甲骨文數據挖掘

大數據工具千千萬,到底誰纔是最強王者?
數據挖掘領域的另一大巨頭是甲骨文。作爲其高級分析數據庫(Advanced Analytics Database)選件的一部分,甲骨文數據挖掘讓用戶可以發掘洞察力、進行預測並利用甲骨文數據。你可以構建模型來發現客戶行爲、鎖定最佳客戶並開發配置文件。

甲骨文數據挖掘GUI讓數據分析員、業務分析員和數據科學家能夠使用一種相當優雅的拖放式解決方案,在數據庫裏面處理數據。它還能創建SQL和PL/SQL腳本,用於整個企業裏面的自動化、調度和部署。

Teradata

大數據工具千千萬,到底誰纔是最強王者?
Teradata認識到這個事實:雖然大數據很出色,但如果你其實不知道如何分析和使用大數據,它就毫無價值。設想一下:擁有成千上萬個數據點,卻沒有查詢這些數據點的技能。這時候,Teradata應運而生。它爲數據倉庫、大數據、分析及營銷等應用提供了端到端解決方案和服務。這一切意味着,你可以真正成爲一家數據驅動型公司。

Teradata還提供一整套服務,包括實施、業務諮詢、培訓和支持。

FramedData

大數據工具千千萬,到底誰纔是最強王者?
如果你着眼於某一種類型的數據挖掘,有一批初創公司專門幫助公司利用數據解答難題。如果你擔心用戶流失,我們推薦FramedData,這家初創公司可以分析你的數據分析結果,告訴你哪些客戶即將拋棄你的產品。

它是一款完全託管的解決方案,這意味着你沒必要做任何事,只需等待洞察力呈現在面前。

Kaggle

大數據工具千千萬,到底誰纔是最強王者?
Kaggle是世界上最龐大的數據科學社區。許多公司和研究人員發佈數據,來自世界各地的統計人員和數據挖掘人員競相製作最佳模型。

數據分析

大數據工具千千萬,到底誰纔是最強王者?
數據挖掘旨在細查數據、尋找之前未發現的模式,數據分析則是對該數據進行分解,評估那些模式的影響。分析是指提出特定的問題,找到數據中的答案。你甚至可以提些關於將來會發生什麼方面的問題!

Qubole

大數據工具千千萬,到底誰纔是最強王者?
Qubole可針對存儲在AWS、谷歌或Azure雲上的數據,簡化、加快和擴展大數據分析工作負載。它消除了管理基礎設施方面的麻煩。一旦IT策略實施到位,衆多數據分析員就可以隨意地協作“點擊查詢”,享用Hive、Spark、Presto及其他衆多數據處理引擎的功能。

Qubole是一款企業級解決方案。它提供免費試用服務,該軟件的靈活性確實讓它有別於其餘解決方案,它還是所有平臺中最易於訪問的。

BigML

大數據工具千千萬,到底誰纔是最強王者?
BigML試圖簡化機器學習。它提供一項功能強大的機器學習服務,擁有易於使用的界面,以便你導入數據,並從中進行預測。你甚至可以使用其模型用於預測分析。

如果你想從BigML獲得最大的好處,深入瞭解模型無疑大有幫助,但並非必要條件。它有一款免費版工具,讓你可以創建16MB以下的任務,還提供按需付費方案和虛擬私有云,可以滿足企業級需求。

Statwing

大數據工具千千萬,到底誰纔是最強王者?
Statwing將數據分析帶到了新的水平,提供從漂亮視圖到複雜分析的各種功能。它很易於使用,實際上在5分鐘內就可以上手。

雖然不是免費使用,但價格方案相當優惠。基本套餐是每月50美元,你可以隨時取消。這讓你可以使用無限制的數據庫(最多50MB)。還有其他的企業方案,讓你能夠上傳更龐大的數據集。

數據可視化

大數據工具千千萬,到底誰纔是最強王者?
數據可視化公司讓你的數據栩栩如生。對任何數據科學家來說,挑戰一方面在於,將來自數據的洞察力傳達給貴公司的其餘人員。對你的大多數同事來說,MySQL數據庫和電子表格不管用。可視化是傳達複雜數據洞察力的一種好方法。最棒的是,它們大多根本不需要編程!

Tableau

大數據工具千千萬,到底誰纔是最強王者?
Tableau是一款數據可視化工具,主要側重於商業智能。你可以創建圖形、條形圖、散點圖及更多視圖,不需要編程。它最近發佈了一款Web連接件,讓你可以連接到數據庫或API,因而讓你能夠通過可視化呈現活動數據。

Tableau有五款產品,支持和功能程度不一。如果你是可視化方面的新手,我們推薦Tableau Public,這是其可視化工具的免費版。探究一番該工具,你應該會了解想要購買另外的哪款Tableau產品。

Silk

大數據工具千千萬,到底誰纔是最強王者?
Silk是一款比Tableau簡單得多的數據可視化和分析工具。它讓你只要點擊幾下鼠標,即可創建交互式地圖和圖形,因而爲你的數據賦予活力。Silk還讓你可以與衆多人協作處理可視化。

與本文介紹的許多可視化公司一樣,Silk不需要你是編程高手。如果你是數據可視化方面的新手,可以從它入手,因爲其最佳功能試圖自動可視化數據,你沒必要做事情。

CartoDB

CartoDB是一款數據可視化工具,專門用來繪製圖形。它讓你易於可視化位置數據,不需要任何編程。CartoDB可以管理衆多的數據文件和類型,甚至還有供你搗鼓的示例數據集,以便逐漸瞭解。

如果你有位置數據,CartoDB絕對值得關注。它也許不是用起來最容易的系統,但一旦你掌握了用法,它功能異常強大。它提供了企業軟件包,支持項目協作和受控制的訪問。

Chartio

大數據工具千千萬,到底誰纔是最強王者?
Chartio讓你可以在瀏覽器裏面合併數據源、執行查詢。只要點擊幾下,你就可以創建強大的儀表板。Chartio的可視化查詢語言讓任何人都能從任何地方獲取數據,沒必要知道SQL或其他複雜的模型語言。它還讓你可以調度安排PDF報告,那樣你可以導出儀表板,並以PDF文件的格式通過郵件發給你想發送的任何人。

Chartio的另一個優點是,它常常不需要數據倉庫。這意味着,可以更迅速地搭建並運行起來;實施成本會更低、更易於預測。

Plot.ly

大數據工具千千萬,到底誰纔是最強王者?
如果你想製作圖形,Plot.ly是不二的選擇。這個使用方便的平臺讓你可以製作效果出衆的2D和3D圖形(你確實需要眼見爲實!)。同樣根本不需要編程知識。

免費版讓你可以創建專有圖形和無限制的公共圖形,你還可以升級到企業軟件包,製作無限制的專有和公共圖形,另外還有這個選項:Vector導出和保存自定義主題。

Datawrapper

大數據工具千千萬,到底誰纔是最強王者?
我們介紹的最後一款可視化工具是Datawrapper。它是一款開源工具,可在幾分鐘內創建嵌入式圖形。由於是開源,它會不斷完善,因爲任何人都可以爲它貢獻代碼。它有一個出色的圖形庫,你可以看看別人用Datawrapper能製作出什麼樣的圖形。

類似這部分介紹的其他許多公司,它既有免費工具,也有收費工具,提供這一收費選項:預先安裝、定製的Datawrapper軟件包。

數據整合

大數據工具千千萬,到底誰纔是最強王者?
數據整合平臺如同每個程序之間的粘合劑。如果你想把使用Import.io提取的數據與推特整合起來,或者想在Facebook上自動共享之前用Tableau或Silk製作的可視化圖形,那麼下列整合服務正是你所需要的工具。

Blockspring

大數據工具千千萬,到底誰纔是最強王者?
Blockspring是一種獨特的程序,其獨特之處在於,它可以利用Excel和Google Sheets等熟悉平臺中的IFTTT和Zapier等服務的所有功能。你可以連接到一整批第三方程序,只要編寫一個Google Sheet公式。你可以從電子表格發佈推特消息,查看你的關注者在關注誰,並且連接到AWS、Import.io 和Tableau等。

Blockspring可免費使用,但也有企業軟件包,讓你可以創建和共享專有功能、添加自定義標記以便搜索和發現,並且爲你的整個企業同時設置API令牌。。

Pentaho

大數據工具千千萬,到底誰纔是最強王者?
Pentaho提供大數據整合功能,不需要編程知識。使用一個簡單的拖放式用戶界面,你就可以整合許多工具,基本上不需要編程。它還提供嵌入式分析和業務分析服務。

Pentaho是一款企業解決方案。你可以要求免費試用其數據整合產品,到期後需要付費。

數據語言

大數據工具千千萬,到底誰纔是最強王者?
在你的數據職業生涯中,有時一款工具根本無濟於事。雖然如今的工具變得功能更強大、更易於使用,但有時自行編程來得更好。即便你不是程序員,瞭解這些語言工作原理方面的基本知識還是讓你更清楚地知道許多這些工具是如何工作的、如何才能最有效地使用它們。

R

大數據工具千千萬,到底誰纔是最強王者?
R是一種面向統計計算和圖形的語言。如果上述數據挖掘和統計軟件無法處理你想處理的任務,學習R是出路。實際上,如果你打算成爲數據科學家,那就需要熟悉R。

它可以在Linux、Windows和MacOS上運行,你可以在此頁面(https://www.r-project.org)下載R。有一個龐大的社區,如今許多統計人員使用R,它的人氣一直在飆升

Python

大數據工具千千萬,到底誰纔是最強王者?
在數據社區人氣越來越旺的另一種語言就是Python。該語言於80年代問世,以《蒙提派森之飛行馬戲團》(Monty Python’s Flying Circus)命名,它一向躋身於全球最受歡迎的十大編程語言榜單。如果數據收集工具未能獲得所需的數據,許多新聞記者使用Python編寫自定義抓取器。人們喜歡它,是由於它與英語很相似。它使用“if”和“in”之類的單詞,這意味着腳本閱讀起來很輕鬆。它提供了爲不同類型的任務設計的一系列廣泛的庫

RegEx

大數據工具千千萬,到底誰纔是最強王者?
RegEx(正則表達式)是一套可處理和更改數據的字符。它主要用於將模式與字符串匹配,或字符串匹配。在Import.io,你可以在提取數據的同時使用RegEx,刪除字符串的一部分,或者保留字符串的某些部分。

處理數據提取工作時,它是一種很有用的工具,因爲你在提取數據可以獲得所需的那部分數據,這意味着你沒必要依賴上述那些數據處理公司!

XPath

大數據工具千千萬,到底誰纔是最強王者?
XPath是一種查詢語言,用於從XML文檔選擇某些節點。RegEx處理和更改數據標記,而XPath會提取準備用於RegEx的原始數據。

XPath最常用於數據提取。每當你點擊某個數據,Import.io實際上自動創建XPath――你根本看不到它們!還可以插入你自己的XPath,從下拉式菜單獲取數據以及網頁上標籤頁裏面的數據。簡而言之,XPath是個路徑,它爲網頁HTML的某個部分指明瞭方向。

數據收集

大數據工具千千萬,到底誰纔是最強王者?
在你存儲、分析或可視化數據之前,你得收集一些數據。數據提取就是拿來結構化數據(比如網頁),然後將它轉換成結構化表。一旦你有了結構化數據,就能以各種方式來處理,使用我們提到的這些工具,找到洞察力。

Import.io

大數據工具千千萬,到底誰纔是最強王者?
Import.io是用於提取數據的頭號工具。使用很簡單的點擊式用戶界面,我們拿來網頁後,可以轉換成易於使用的電子表格,然後可以分析、可視化和使用該電子表格,做出數據驅動的決策。

除了託管一款免費使用的工具外,Import.io還是數據提供商。我們爲每個客戶定製了數據集。隨後,這些數據定期更新,這意味着貴公司始終獲得的是最新數據。

結語

感謝您的觀看,如有不足之處,歡迎批評指正。
爲了幫助大家讓學習變得輕鬆、高效,給大家免費分享一大批資料,幫助大家在成爲大數據工程師,乃至架構師的路上披荊斬棘。在這裏給大家推薦一個大數據學習交流圈:658558542 歡迎大家進×××流討論,學習交流,共同進步。

當真正開始學習的時候難免不知道從哪入手,導致效率低下影響繼續學習的信心。

但最重要的是不知道哪些技術需要重點掌握,學習時頻繁踩坑,最終浪費大量時間,所以有有效資源還是很有必要的。

最後祝福所有遇到瓶疾且不知道怎麼辦的大數據程序員們,祝福大家在往後的工作與面試中一切順利。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章