大數據的8個最佳實踐 原

  • 大數據如果應用不當可能很容易失控,並可能消耗企業資源和預算。在這裏將介紹避免混亂的一些大數據的最佳實踐。

 

大數據如果應用不當可能很容易失控,並可能消耗企業資源和預算。在這裏將介紹避免混亂的一些大數據的最佳實踐。

大數據可以爲用戶提供卓越的洞察力,也有可能讓企業不堪重負。而企業根據其收集數據做出自己的選擇。企業面臨的主要問題是大數據是由技術專業人員收集的技術解決方案,但最佳實踐是其業務流程。

大數據學習羣:716581014   專注大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智能,數據挖掘,AI等大數據內容分享交流。不定期舉辦線上線下大數據內容分享活動。同時有R語言,Python語言mysql Spss SAS 等知識課件和內容分享。Hadoop spark linux Hive等知識分享.

由於資源和輸入設備得到爆炸式增長,人們收集到的數據比以往更多。根據IBM公司的調查,大多數美國公司存儲的數據量爲100TB,而美國的政府部門和企業每年因數據損壞而造成損失高達3.1萬億美元。

然而,企業創建數據湖或數據倉庫並將它們存滿數據,其中大部分數據未被使用或曾被使用過。企業的數據湖將快速積累成爲存滿數據的信息池。

最基本的問題是許多數據只得到了部分處理或完全偏離了基礎。數據收集不正確或收集手段沒有正確定義。企業的業務很明顯與大數據有關。

這對於商業數據庫中使用的常規的、日常的、小級別的數據來說是個小問題。對於企業來說,需要大數據處理大量的信息。因爲其數據的規模巨大,獲得收益或混淆的可能性也越大。因此,“正確”變得更爲重要。

 

那麼在大數據中“正確”意味着什麼呢?

事實是,“大數據的最佳實踐”的概念正在演變,因爲數據分析領域本身正在迅速發展。不過,企業需要與可能的最佳策略進行競爭。因此提出一些最佳實踐,希望企業能夠避免被大量無用數據淹沒,不會淹沒在數據湖中。

(1)定義大數據業務目標

IT行業有一個壞習慣,就是像Hadoop集羣這樣的新鮮事物容易分散人們的注意力。在企業開始利用大數據分析過程之前,瞭解業務需求和目標應該是企業採取的第一步,也是最重要的一步。企業用戶必須明確他們想要的結果。

這是企業管理層必須率先實現,並且在技術方面必須遵循的地方。如果企業的管理層沒有明確的業務目標,那麼將不能收集並正確創建數據。很多組織收集了一切能夠收集的數據,然後再去清除他們不需要的東西。這會造成很多不必要的工作,因此企業應該清理出所需要的信息,而不是收集全部信息。

(2)評估並與合作伙伴制定戰略

大數據項目不應該由IT部門孤立完成。它必須涉及數據所有者,這將是一個業務部門,或者是一個提供大數據技術的供應商或諮詢機構,這些供應商可以爲組織帶來外部的視角和眼光,並評估組織當前的情況。

在制定戰略的過程中,應該持續進行檢查,以確保企業收集所需的數據,並且會爲企業提供所需的見解,就像廚師在整個烹飪過程中時刻檢查自己的工作一樣。而不只是收集所有內容之後再進行檢查,因爲如果在此期間數據出錯,這意味着檢查數據要一直回溯到起點,並在不必要的時候啓動。

企業通過與那些從項目中獲益的人一起工作,可以確保一起參與進來,從而取得成功。

(3)企業確定自己擁有什麼以及在大數據中需要什麼

大量的數據並不等同於良好可用的數據。企業可能會在某個地方將正確的數據混合在一起,但它會由企業自己決定。收集的隨機數據越多,越是經常雜亂無章,形式各異。

 

同樣重要的是確定企業所擁有的是其所沒有的東西。一旦收集了項目所需的數據,就確定可能缺少什麼,在這些工作開始之前一定要把一切都準備好。

企業並不總是能夠事先知道需要什麼數據字段,所以一定要確保軟件的靈活性,以便在實施過程中調整。這與確定企業擁有什麼以及在大數據中需要什麼的理念相吻合。

其底線是企業必須測試數據並檢查結果。企業可能會驚訝地發現沒有得到需要的答案。在企業首先開展該項目之前,最好先找出答案。

(4)保持持續的溝通和評估

有效的協作需要利益相關者和IT部門之間的持續溝通。企業的目標可能會在項目的進行期間發生變化,如果發生這種情況,必須將變更信息傳達給IT部門。企業可能需要停止收集一種形式的數據,並開始收集另一種形式的數據。企業不希望這種情況持續下去。

繪製一張清晰的地圖,在某些地點打破預期或期望的結果。如果是一個爲期12個月的項目,每三個月檢查一次。這給了企業一個複習和改變課程的機會。

(5)如果啓動緩慢,需要利用大數據快速反應

企業開展的第一個大數據項目不應該過於雄心勃勃。需要要從概念驗證或試點項目開始,這樣的項目規模相對較小,並且易於管理。

選擇企業想改善業務流程的一個領域,但是在事情出錯或錯誤嚴重的情況下它不會有太大的影響。另外,如果問題不需要解決,不要強迫採用大數據解決方案。

企業還應該使用敏捷技術和迭代方法來實現。敏捷是一種操作手段,並不侷限於開發。敏捷開發是什麼?例如寫一小段代碼,然後開始測試多種方法,然後再添加,再進行徹底測試、沖洗、重複。這是一種可以應用於任何過程的方法,而不僅僅是編程。

使用敏捷和迭代實現技術,可以根據當前需求在短時間內提供快速解決方案,而不是一次性瀑布方法。

(6)評估大數據技術要求

根據調研機構IDC公司的數據,絕大多數數據是非結構化的,可能高達90%。但是企業仍然需要查看數據來自哪裏以確定最佳數據存儲。企業可以選擇SQL或NoSQL以及兩種數據庫的各種變體。

 

企業需要實時洞察力還是在做事後評估?可能需要Apache Spark進行實時處理,或者可以使用Hadoop(這是一個批處理過程)。還有用於分散在多個地點的數據的地理數據庫,這可能是具有多個地點和數據中心的公司的要求。

 

另外,企業需要查看每個數據庫的具體分析功能,看看它們是否適用。IBM公司收購了高性能分析設備商Netezza公司,而Teradata和Greenplum嵌入了SAS加速器,Oracle在其Exadata系統的分析中使用了R語言的特殊實現,PostgreSQL具有特殊的分析編程語法。因此,需要查看這些工具如何能夠滿足其需求。

(7)與雲中的大數據保持一致

企業在採用雲計算時必須謹慎,因爲可能採用按量計費,而大數據意味着要處理大量數據。但是,雲計算也有很多優點。公共雲可以即時或至少非常快速地進行配置和擴展。Amazon EMR和Google BigQuery等服務允許快速建立原型。

 

首先是使用它來快速構建企業的環境原型。使用數據子集和亞馬遜和微軟等雲計算提供商提供的許多工具,企業可以在幾個小時內建立、開發和測試環境,並將其用於測試平臺。然後,當企業制定出一個堅實的運營模式時,將其移回內部部署的數據中心進行工作。

雲計算的另一個優點是企業收集的大部分數據都可能駐留在那裏。在這種情況下,企業沒有理由將數據轉移到內部部署數據中心。許多數據庫和大數據應用程序都支持來自雲計算和本地的各種數據源,因此,如果企業在雲中收集數據,請務必將其留在那裏。

(8)管理企業的大數據人才,並一直關注合規性和訪問的問題

大數據是一個新興的領域,而不是像Python或Java編程這些可以自學成才的領域。麥肯錫全球研究院的一項研究表明,2018年全球將缺乏140至190萬名擁有必要專業知識的人員,另外還缺乏基於分析結果作出決策的150萬名相關管理人員和分析師。

首先必須明確的是誰應該有權訪問數據,以及有多少訪問權限。數據隱私是當今的一個主要問題,尤其是歐洲即將實施嚴格的通用數據保護條例(GDPR),這將對企業的數據使用造成嚴格的限制。

企業確保清除所有數據隱私問題以及誰有權訪問敏感數據。企業應該關注其他治理問題,如營業額?確定哪些數據(如果有的話)可以進入公共雲,哪些數據必須保留在本地部署數據中心,以及誰控制什麼。

 

最後,雖然一些高校正在爲數據科學設置和增加相關課程,但這些課程並沒有標準,每個課程計劃在重點和技能方面都略有不同。所以,有時企業並不需要招聘具有數據科學碩士學位的技術人員,因爲他們可能不瞭解企業使用的工具或其所在的行業。再次,鑑於技能短缺的情況,企業可能需要做到這一點,可以在垂直行業中培訓他們。

大數據學習可以加去;716581014

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章