盤點大數據分析的十二大殺手鐗

當數據以成百上千TB不斷增長的時候，我們需要一種獨特技術來應對這種前所未有的挑戰。

大數據分析迎來大時代

全球各行各業的組織機構已經意識到，最準確的商務決策來自於事實，而不是憑空臆想。這也就意味着，他們需要在內部交易系統的歷史信息之外，採用基於數據分析的決策模型和技術支持。互聯網點擊數據、傳感數據、日誌文件、具有豐富地理空間信息的移動數據和涉及網絡的各類評論，成爲了海量信息的多種形式。

極具挑戰性的是，傳統的數據庫部署不能處理數TB數據，也不能很好的支持高級別的數據分析。在過去十幾年中，大規模並行處理（MPP）平臺和列存儲數據庫開啓了新一輪數據分析史上的革命。而且近年來技術不斷髮展，我們開始看到，技術升級帶來的已知架構之間的界限變得更加模糊。更爲重要的是，開始逐步出現了處理半結構化和非結構化信息的NoSQL等平臺。

大數據分析迎來大時代

本文中，我們將向大家介紹迄今爲止，包括EMC的Greenplum、Hadoop和MapReduce等提供大數據分析的產品。此外，惠普前段時間收購實時分析平臺Vertica、IBM獨立的基於DB2智能分析系統和Netezza的相關產品。當然，也有微軟的Parallel Data Warehouse、SAP旗下公司Sybase的Sybase IQ數據倉庫分析工具等。下面，就讓我們來了解業界大數據分析的這十二大產品：

1.模塊化EMC Appliance處理多種數據類型

2010年EMC收購了Greenplum，隨後，利用EMC自身存儲硬件和支持複製與備份功能的Greenplum大規模並行處理（MPP）數據庫，推出了EMC Greenplum Data Computing Appliance (DCA)。通過與SAS和MapR等合作伙伴，DCA擴大了對Greenplum的數據庫支持。

支持大數據分析的EMC Appliance

今年5月，EMC推出了自己的Hadoop軟件工具，而且該公司還承諾，今年秋季發佈的模塊化DCA將支持Greenplum SQL/關係型數據庫，Hadoop部署也能在同樣的設備上得到支持。藉助Hadoop，EMC能夠解決諸如網絡點擊數據、非結構數據等真正大數據分析的困難。模塊化的DCA也能夠在同樣的設備上支持長期保留的高容量的存儲模塊，從而滿足監測需求。

2.Hadoop和MapReduce提煉大數據

Hadoop是一個開放源碼的分佈式數據處理系統架構，主要面向存儲和處理結構化、半結構化或非結構化、真正意義上的大數據（通常成百上千的TB甚至PB級別數據）應用。網絡點擊和社交媒體分析應用，正在極大地推動應用需求。Hadoop提供的MapReduce（和其他一些環境）是處理大數據集理想解決方案。

MapReduce能將大數據問題分解成多個子問題，將它們分配到成百上千個處理節點之上，然後將結果彙集到一個小數據集當中，從而更容易分析得出最後的結果。

MapReduce結構圖

Hadoop可以運行在低成本的硬件產品之上，通過擴展可以成爲商業存儲和數據分析的替代方案。它已經成爲很多互聯網巨頭，比如AOL、eHarmony（美國在線約會網站）、易趣、Facebook、Twitter和Netflix大數據分析的主要解決方案。也有更多傳統的巨頭公司比如摩根大通銀行，也正在考慮採用這一解決方案。

3.惠普Vertica電子商務分析

今年二月被惠普收購的Vertica，是能提供高效數據存儲和快速查詢的列存儲數據庫實時分析平臺。相比傳統的關係數據庫，更低的維護和運營成本，就可以獲得更快速的部署、運行和維護。該數據庫還支持大規模並行處理（MPP）。在收購之後，惠普隨即推出了基於x86硬件的HP Vertica。通過MPP的擴展性可以讓Vertica爲高端數字營銷、電子商務客戶（比如AOL、Twitter、 Groupon）分析處理的數據達到PB級。

惠普Vertica實時分析平臺

其實，早在惠普收購之前，Vertica就推出有包括內存、閃存快速分析等一系列創新產品。它是首個新增Hadoop鏈接支持客戶管理關係型數據的產品之一，也是首個基於雲部署風險的產品平臺之一。目前，Vertica支持惠普的雲服務自動化解決方案。

4.IBM提供運維和分析數據倉庫

去年，IBM推出了基於DB2的Smart Analytic System（圖中左側），那麼它爲何還要收購另外的Netezza方案平臺呢？因爲前者是具備高擴展性企業數據倉庫的平臺，可以支持成千上萬的用戶和各類應用操作。比如，呼叫中心通常擁有大量的僱員需要快速回撥客戶的歷史通話記錄。Smart Analytic System提供了整合信息的DB2數據庫，預配置Cognos BI軟件模塊，可以在IBM Power System（RISC或者X86架構）上運行。

Smart Analytic System及Netezza

Netezza致力於爲數字化營銷公司、電信、和其他挖掘成百上千TB甚至PB級別數據的公司，提供高可擴展分析應用的解決方案。IBM的Netezza TwinFin數據倉庫設備，支持大規模並行處理，可以在一天時間內部署完畢。Netezza支持多種語言和方式進行數據庫分析，其中包括Java、C、C++、Python和MapReduce。與此同時，它還支持如SAS，IBM SPSS使用的矩陣操作方法和R編程語言。IBM Netezza最近增加了一個高容量長期存檔設備以滿足更多要求。

5.Infobright減少DBA工作量和查詢時間

Infobright列存儲數據庫，旨在爲數十TB級別數據提供各類分析服務。而這一塊也正是甲骨文和微軟SQL Server的核心市場之一。InfoBright還表示，建立在MySQL基礎之上的數據庫也提供了另外一種選擇，它專門針對分析應用、低成本簡化勞動力工作、交付高性能的服務進行設計。

列存儲數據庫能夠自動創建索引，而且無需進行數據分區和DBA調整。相比傳統數據庫，它可以減少90%的人工工作量，而且由於其採用高數據壓縮，在數據庫許可和存儲等方面的開支也可以減少一半。

Knowledge Grid查詢引擎

InfoBright最新的4.0版本產品，新增了一個DomainExpert的功能。企業用戶可以藉此忽略不斷重複的那些數據，比如郵箱地址、URL和IP地址。與此同時，公司還可以增加與呼叫記錄、業務交易或者地理位置信息相關的數據。Kowledge Grid查詢引擎則可以幫助過濾那些靜態數據而只關注那些變化的數據。也就是說，它可以幫助節省數據查詢的時間，因爲那些無關的數據無需進行解壓縮和篩選。

6.Kognitio提供三倍速度和虛擬多維數據集

Kognitio是一家本身不生產硬件產品的數據庫廠商，它看到了客戶對快速部署的廣泛興趣和市場需求，推出了在惠普、IBM硬件產品上預配置有WX2數據庫的Lakes、Rivers和Rapids解決方案。

Lakes能夠以低成本、10TB數據存儲和每個模塊48個運算核心提供大容量存儲服務。電信或金融服務公司，可以使用這種配置來掃描大量的分支結構的各種信息記錄。Rivers則提供了容量和速度之間的平衡，預配置爲2.5TB存儲容量，它的每個模塊擁有48個運算核心。而追求查詢性能的Rapids，其預配置提供有96個運算核心，每個模塊僅僅爲1.5TB。該產品方案主要針對金融公司在算法交易或者其他高性能要求方面的需求。

Kognitio基於內存運算的數據倉庫和數據分析

今年， Kognitio新增了一個虛擬化OLAP風格的Pablo分析引擎。它提供了靈活的、爲企業用戶進行分析的解決方案。用戶可升級選用WX2構建一個虛擬多維數據集。因此，WX2數據庫中任何一個維度的數據都可在內存中用於快速分析。這種分析的前端接口是我們常見的Microsoft Excel。

7.微軟SQL Server新增PDW功能

今年年初微軟發佈的SQL Server R2 Parallel Data Warehouse（PDW，並行數據倉庫），一改以往SQL Server部署時間需要花費兩年半時間的歷史，它可以幫助客戶擴展部署數百TB級別數據的分析解決方案。支持這一產品的包括有合作伙伴惠普的硬件平臺。發佈之初，雖然微軟官網提供有讓利折扣，但PDW售價仍超過13000美元/TB（用戶和硬件訪問量）。

SQL Server PDW

和很多產品一樣，PDW使用了大規模並行處理來支持高擴展性，但微軟進入這一市場實屬“姍姍來遲”，而且在一定程度上說，數據倉庫分析和內存分析計算市場落下了後腿。目前，微軟寄希望於其整體數據庫平臺在市場上帶來的差異化競爭力。這意味着，所有沿襲了基於微軟平臺的數據和數據管理，將被廣泛應用在信息集成領域——Reporting and Analysis Services，而這一切都基於SQL Server數據庫。

微軟在今年10月12日通過推出Apache Hadoop和相關的SQL Azure Hadoop服務，宣佈進入大數據領域。Azure服務將在2011年底亮相，而相應的本地配套軟件要在明年上半年推出，現在也不清楚微軟是否會與其他硬件合作伙伴或者相關大數據設備廠商合作。

8.甲骨文講述Engineered Systems的故事

甲骨文表示，Exadata（圖中左側）是迄今以來發布的產品中最爲成功的產品，自從2008年推出以來，已經擁有超過1000名客戶。而engineered system使得甲骨文11g數據庫，可以支持基於X86的數據處理和磁盤存儲層，其閃存緩存也使得可以實現超快速查詢處理。

它既可應用在任意事務環境中，也可以應用在數據倉庫（但不能同時進行）。Exadata的混合柱狀壓縮能夠實現列存儲數據庫的某些高效率特點，提供高達10:1的壓縮比，而大部分行存儲數據庫的平均壓縮比爲4:1。

甲骨文在9月通過宣佈Oracle SuperCluster（圖中右側），擴展了engineered systems產品家族。它採用了最新的Sun Sparc T-4芯片。SuperCluster支持全機架/半機架配置，而且用戶可以在半機架容量基礎上進行擴容。滿額配置提供有1200個CPU線程，4TB內存，97TB至198TB磁盤存儲，8.66TB閃存。

甲骨文大數據分析系統設施

甲骨文聲稱，SuperCluster事務處理和數據倉庫性能相比傳統服務器架構能分別帶來10倍和50倍速度提升。但作爲一個專有的Unix機器，甲骨文想通過SuperCluster，在面向x86硬件的數據倉庫部署遷移大潮中力挽狂瀾。甲骨文的Exadata和Exalogic都基於x86架構而且運行Linux系統。

在十月召開的Oracle OpenWorld中，甲骨文宣佈將新增一個分佈式pache Hadoop軟件和相關的大數據設備。甲骨文也計劃推出一個獨立的基於開源BerkeleyDB產品的NoSQL。

9.ParAccel大打列存儲、MPP和數據庫分析組合拳

ParAccel是ParAccel Analytic Database（PADB）的開發廠商——提供快速、選擇性查詢和列存儲數據庫，並基於大規模並行處理優勢特點的產品。該公式表示，其平臺支持一系列針對各種複雜、先進應用的工作負載報告和分析。

ParAccel大數據解決方案

內置的分析算法可以爲分析師提供高級數學運算、數據統計、和數據挖掘等各種功能，同時，它還提供一個開放的API，可以擴展數據庫的各種數據處理能力和第三方分析應用。

Table functions被用來傳送和接收第三方和採用C、C++等編寫的定製算法的數據結果。ParAccel與Fuzzy Logix——一家提供各種描述統計學、統計實驗模擬和模式識別功能庫功能的服務商。此外， Table functions還支持MapReduce和廣泛應用在金融服務的700多種分析技術。

10.Sybase推進IQ列存儲數據庫

SAP旗下的Sybase是列存儲數據庫管理系統的首批廠商，而且目前仍然是擁有2000多個客戶的暢銷廠商。今年夏天推出了Sybase IQ 15.3版本，該版本產品能夠處理更多數據和更多數據類型，也能勝任更多查詢，當然這主要得益於其包含了一個名叫PlexQ 的大規模並行處理功能。

基於MPP大規模並行處理的PlexQ分佈式查詢平臺，通過將任務分散到網格配置中的多臺計算機，加速了高度複雜的查詢。有報道說，它能提供比現有的IQ部署快12倍的交付能力。

Sybase IQ

爲了支持不同的分析，15.3版本的產品增加了分佈式處理功能，來執行PlexQ網格中跨CPU的查詢服務。爲了確保實現最快速度的查詢，PlexQ包含了一個邏輯服務器——讓管理員對PlexQ網格的物理服務器組成虛擬羣集，以便優化分析工作負載、用戶需求和應用程序。

Sybase IQ和其他大多數的支持MPP功能的產品之間區別主要在於，它採用了全共享的方式。全共享的缺點是CPU會爭相訪問共享存儲（通常是SAN），而這會降低查詢性能。不過Sybase堅持認爲，從優化查詢的角度來說全共享會更加靈活，因爲所有的CPU 都會訪問所有的數據。所以，我們可以對某個特定的查詢儘可能多（或者少）地分配計算資源。

11.Teradata從EDWs跨入大規模分析領域

一旦成爲企業級數據倉庫（EDW）的宣傳者，近年來Teradata就已經放鬆了擴展Teradata數據庫產品家族的步伐。該公司的高性能、高容量產品被廣泛採用和複製，因爲其中包括了很多企業工作量管理的功能模塊，包括虛擬OLAP（三維立體式）分析模型。

Teradata在數據庫分析領域不斷推陳出新，但在結構化數據、半結構化數據和大部分非結構化數據領域幾乎沒有很大成果。這也就是爲什麼該公司要收購Aster Data——一家提供SQL-MapReduce框架的公司。MapReduce處理擁有廣泛的市場需求，因爲存在着大量的互聯網點擊數據、傳感數據和社交媒體內容。

Teradata平臺產品家族

Teradata日前宣佈了一項Aster Data MapReduce產品的計劃，它建立在以往產品同樣的硬件平臺之上，而且在Teradata和Aster Data之間新增了兩種集成方法。通過收購，Teradata打破了在數據倉儲業被認爲最廣泛、最具擴展性的界限。

12.1010data提供基於雲計算大數據分析

正如標題所說，1010data能夠提供基於雲計算的大數據分析平臺。很大數據庫平臺供應商提供基於雲的沙箱測試和開發環境，但1010data的管理數據庫服務，主要針對將整個工作負載遷移到雲的全過程。

該服務支持一種提供“豐富而又高級的內置分析功能”，其中包括有預測分析。其一大賣點是服務包括了數據建模和設計、信息集成和數據轉換。

1010data提供基於雲計算大數據分析

其客戶包括有對沖基金、全球各大銀行、證券交易商，零售商和包裝消費品公司。

何謂大數據？

大數據，也就是國外常說的Big Data。IBM把大數據概括成了三個V，即大量化（Volume）、多樣化（Variety）和快速化（Velocity）。這些特點也反映了大數據所潛藏的價值（Value），我們也可以認爲，四個V高度概括了大數據的基本特徵。

業界比較一致對大數據的定義是：大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。

http://www.china-cloud.com/yunjishu/shujuzhongxin/20111118_8012_3.html

盤點大數據分析的十二大殺手鐗

iCloud的特點和競爭對手

2011年十大新興企業級技術

再識雲計算雲計算的產品生態形式

細數2011轟動一時的開源軟件大事件

史蒂夫·喬布斯留給我們的兩件禮物

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結