數據分析繁華的背後,都隱藏着怎樣的哀傷

大數據技術的核心是什麼?

面對這個問題,相信大家都會回答是大數據分析系統。

大數據分析系統從海量類型多樣、增長快速、內容真實的數據背後挖掘、分析,從中找出可以幫助決策的價值信息,未知的單方/雙方/多方關係,並結合用戶需求有針對性地進行調整和優化。

今天,大數據分析系統已然紮根於各行各業,對信息安全、社會經濟生活、民生等起着十分重要的作用。但是,在它繁榮興盛的背後,又存在着哪些無奈呢?我們一起來梳理一下。

一、系統組件太多,孤島情況突出,運維和安全成本太高

目前,很多大數據分析系統的架構是這樣的。

第一層,數據採集與整合層,由雙向/單向數據同步系統、分佈式消息總線Kafka、數據集成系統ETL組成。

第二層,大數據存儲與分析層,由分佈式文件系統、分佈式數據庫系統作爲存儲組件,開源大數據計算框架Spark、Storm等作爲分析工具。

第三層,服務與接口層,部署SOA架構的服務總線系統以及大數據工具的集合。

第四,應用層,由各類自主研發的UI應用系統構成。

這種系統架構就像一個拼接的魔方,它既龐大又複雜。

IT資源種類及其數量不斷增多,網絡形態更加複雜。一方面給運維工作帶來巨大的壓力和挑戰,另一方面在實現數據資源共享和挖掘潛在價值方面,也暴露出包含大量敏感和重要信息的數據資源被泄露和非法利用的風險。

二、無法深度融合人工智能AI與商業智能BI的優勢

目前,市面上優秀的大數據分析系統比較多,可以將其劃分爲兩類:

第一類,以MapReduce和Spark計算框架等爲代表的高性能分析系統,以各種高性能處理算法、智能搜索與挖掘算法等爲主要研究內容,也是大數據分析的研究主流。

第二類,以大數據可視化分析(isual analytics of big data)爲主要代表(比如,Tableau),主要以人機交互爲主,強調以人作爲分析主體,結合各類精美的可視化圖表進行分析。

可見,第一類系統側重於AI,第二類系統側重於BI,他們各有特色,但並未深入的相互融合。

雖然,目前一些商業智能系統已開始整合AI功能,但並未深入融合AI技術,因此難以全面地支持人工智能。同時,大數據本身的新特點和多元化的用戶分析需求,也對AI與BI提出了更爲迫切的需求與更加嚴峻的挑戰。

三、非輕量級交互式編程語言,學習成本高且不利於交互分析

數據分析是一項需要具備較高的知識與技能的工作,除了要熟悉行業知識,掌握數學和統計學的方法外,還需要掌握一門分析編程語言才能駕馭大規模的海量數據!

常用的可編程分析語言有R語言、Spark、MATLAB等。這此語言由變量、賦值語句、表達式、控制語句等構成指令序列,有比較複雜的保存和編譯過程。

第一,無法逐句執行,不能執行一條輸出一個結果。非常不利於分析師定位錯誤,進行數據探索。

第二,不能靈活組合多種原語,無法將複雜的數據分析場景簡單化,更適合於有編程經驗的程序員,學習和入門門檻高。


四、可視化大屏只能看,不能交互

當數據驅動決策的大潮來襲後,對海量數據進行高效分析後,能夠進行多維度的高清展示就成爲每一個決策者心中的期待!爲了這份期待,很多數據公司提供了創造性的呈現方式及內容(美侖美奐的高清展示大屏、劃分清晰而完整的主題)。即便如此,在一些方面仍不能滿足用戶的需求。

第一,數據大屏的信息量太大,無法讓用戶迅速聚焦重點。

第二,無法快速瞭解多個屏幕在整體上的佈局情況,當需要尋找某一具體信息時,不能通過縮略佈局圖快速返回。

第三,目前大屏信息量較大,雖有劃分主題,但在宏觀上還是不好區分。快速定位的問題仍有待解決。

第四,不能有效地下鑽鏈接內容。

第五,同屏及多屏互動功能還處於空白階段。

拋開現象看本質,可視化是表象,分析內核纔是靈魂。如果表現形式不能很好地反映內在,即使做的再精美也是難以發揮價值的。

五、定製化需求太多,實施成本太高,要賺錢很難

首先,大數據開源技術的蓬勃興盛造就了大數據行業的低門檻,越來越多的IT公司正在或打算從事大數據業務,造成了激烈的行業競爭。但是開源技術雖然成熟,應用廣泛,但如果要作爲商用,承擔大任,就會存在如何根據用戶基礎架構和數據特點,進行開源組件優化和二次開發的問題。而開源技術存在涉及面廣、版本更新快的問題,對技術開發能力的要求是比較高的,無法普適於一般的數據分析師。

其次,定製化需求比較多。大數據時代,如何用數據充分挖倔價值是王道。每個客戶可能都有着不一樣的分析需求,不能用一款產品定製出多元化的項目是痛中之痛。

再次,我們知道做一個大數據分析項目的大致流程是這樣的:

需求分析 → 部署Hadoop/Spark等平臺 → 數據處理ETL  → 數據探索,構建模型 → 開發可視化界面 → 交互測試 。

可以看出,過程長而複雜,這就對開發人員提出了很高的要求。要求基礎平臺搭建工程師,擁有HADOOP、SPARK、ELK、Sqoop、UTL、關係型數據庫等技能;要求後臺開發工程師,擁有J2EE/XML/Web Servie、Map/Recude、Spark Driver、Spark streaming等技能;要求分析和數據挖掘工程師,擁有Hive/Impala/Spark SQL、spark MLLib/graphx、Matlab、ES QueryDSL/ESQL等技能;要求前端開發工程師,擁有HTML5\CSS3、JavaScript、JQuery\Bootstrap、Echars\D3.js等技能。一個項目需要這麼多的人力成本,且對技能的要求如此之高,讓項目管理負重而行。

以上問題共同造成了用戶的哀傷,如何解決,才能截然不“痛”呢?

下篇,OpenFEA將給出解決方案,敬請期待!

 

另外,以上總結歸納,如果您覺得還未擊中用戶痛點,歡迎在留言區補充,我們繼續討論。如果您覺這些問題有點以偏蓋全,也請留言,我們共同探討,一起提高大數據分析系統的實用價值,爲民族大數據分析產品的發展貢獻力量。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章