大數據分析：將大數據轉化爲鉅額資金前言及第一章

大數據分析：將大數據轉化爲鉅額資金

http://www.doc88.com/p-9773645686622.html

內容

前言

什麼是數據？這似乎是一個簡單的問題; 然而，根據解釋，數據的定義可以是從“記錄的東西”到“陽光下的一切”的任何東西。數據可以作爲所有經驗，無論是來自傳感器的機器記錄信息，個人拍照，或由科學家記錄的acosmic事件。換句話說，一切都是數據。然而，記錄和保存數據一直是挑戰，而技術限制了捕獲和保存數據的能力。

人腦的內存存儲容量應該在2.5千兆字節（或100萬千兆字節）左右。可以這樣想：如果你的電腦像電視中的數字視頻錄像機一樣，2.5PB就足以容納300萬小時的電視節目。您將不得不讓電視連續運行超過300年，以耗盡所有的存儲空間。用於存儲數據的可用技術無法進行比較，從而創建了一個名爲Big Data的技術領域，該領域呈指數級增長。

如今，企業正在記錄越來越多的信息，信息（或數據）正在增長，消耗的存儲空間越來越多，管理變得越來越難，從而創建了大數據。記錄如此大量信息的需要各不相同。有時候原因是遵守合規性規定，在其他情況下，需要保留交易，在許多情況下，它只是備份策略的一部分。

然而，保存數據需要花費時間和金錢，即使它只是用於保護數據。這是最大的挑戰：企業如何能夠繼續保存大量數據？幸運的是，那些已經提出減輕這些存儲問題的技術的人也想出了一種從許多人看來是負擔的價值中獲取價值的方法。這是一個稱爲大數據分析的過程。

大數據分析背後的概念實際上並不是什麼新鮮事。幾十年來，企業一直在使用商業智能工具，科學家們一直在研究數據集，以揭示多年來的祕密。但是，數據收集的規模正在變化，您可用的數據越多，您可以從中推斷出的信息就越多。

今天的挑戰是找到數據的價值，並以更有趣和適用的方式探索數據源，以開發能夠推動決策，找到關係，解決問題，提高利潤，生產力甚至生活質量的智能。

關鍵是要想大，這意味着大數據分析。

本書將探討大數據背後的概念，如何分析數據以及解釋分析數據的收益。

第1章討論大數據分析的起源，探討相關技術的演化，並解釋推導價值背後的基本概念。

第2章深入研究了不同類型的數據源，並解釋了這些來源對於尋求在數據集中尋找價值的企業非常重要。

第3章幫助那些希望利用數據分析來構建業務案例以刺激技術投資並開發成功提取智能和數據集所需技能的人員。

第4章將分析團隊的概念結合在一起，描述必要的技能集，並解釋如何將BigData集成到企業文化中。

第5章幫助尋找數據源以提供大數據分析，涵蓋各種公共和私人數據源，並識別可用於分析的不同類型的數據。

第6章通過描述構成大數據分析系統的元素來處理存儲，處理能力和平臺。

第7章介紹了安全性，合規性和審計的重要性 - 這些工具和技術使大數據源安全可用於分析。

第8章深入研究大數據的演變，並討論將作爲大數據發展的短期和長期變化，並被越來越多的組織採用。

第9章討論了數據分析的最佳實踐，涵蓋了使大數據分析更易於交付的一些關鍵概念，以及如何避免潛在陷阱以及如何避免它們。

第10章探討了數據管道的概念以及BigData如何在分析過程中移動，然後轉換爲可提供價值的可信信息。

有時，關於特定技術的最佳信息來自於那些爲促進利潤和增長而推廣該技術的人，因此白皮書的出生。白皮書旨在教育和激勵客戶關於特定技術領域，同時將這些潛在客戶輕輕地引向供應商的產品。

也就是說，最好採取含有一粒鹽的白皮書。然而，白皮書被證明是研究技術的極好來源，具有重要的教育價值。考慮到這一點，我在本書的附錄中包含了以下白皮書，每個白皮書都爲那些希望利用大數據解決方案的人提供了額外的知識：“ApacheHadoop的MapR發佈”和“高可用性：無單點故障， “都來自MapR Technologies。

第1章：什麼是大數據？

究竟什麼是大數據？乍一看，這個詞看起來很模糊，指的是大而且充滿信息的東西。該描述確實符合要求，但它沒有提供有關WhatBig Data真正的信息。大數據通常被描述爲超大型數據集，這些數據集已經超越了使用傳統數據處理工具管理和分析它們的能力。在網上尋找線索，揭示了一種幾乎普遍的定義，大多數推廣BigData意識形態的人都可以將其歸結爲類似的東西：

大數據定義了數據集已經發展到如此巨大的規模的情況，以至於常規信息技術無法再有效地處理數據集的大小或數據集的規模和增長。換句話說，數據集已經變得如此之大，以至於難以管理甚至更難以從中獲取價值。主要困難是數據的採集，存儲，搜索，共享，分析和可視化。

關於大數據究竟是什麼，還有很多話要說。概念已經發展到不僅包括數據集的大小，還包括利用數據所涉及的過程。大數據甚至與其他業務概念（例如商業智能，分析和數據挖掘）具有同義詞。

矛盾的是，大數據並不是那麼新鮮。雖然大量數據集是在過去兩年中創建的，但大數據的根源在於科學和醫學界，其中對藥物開發，物理建模和其他形式的研究進行了大量數據的複雜分析，所有這些都是涉及大型數據集。然而正是這一概念的根源改變了BigData的發展方向。

分析的到來

隨着分析和研究應用於大型數據集，科學家們得出結論：越多越好 - 在這種情況下，更多的數據，更多的分析和更多的結果。研究人員開始將相關的數據集，非結構化數據，檔案數據和實時數據整合到流程中，從而產生了我們現在所稱的大數據。

價值在哪裏？

在商業世界中，大數據都是關於機會的。根據IBM，我們每天創建2.5個五分之一（2.5×10 18）字節的數據，因此今天世界上90％的數據都是在過去兩年中創建的。這些數據來自各地：用於收集氣候信息的傳感器，用於社交媒體網站的帖子，在線發佈的數字圖片和視頻，在線購買的交易記錄以及手機GPS信號，僅舉幾例。這是BigData的催化劑，以及更重要的事實，即所有這些數據都具有可以使用分析，算法和其他技術推斷的內在價值。

大數據已經證明了它在幾個領域的重要性和價值。國家海洋和大氣管理局（NOAA），美國國家航空航天局（NASA），幾家製藥公司和衆多能源公司等組織已積累了大量數據和現有的大量資源。數據技術每天從中提取價值。

大數據已經證明了它在幾個領域的重要性和價值。國家海洋和大氣管理局（NOAA），美國國家航空航天局（NASA），幾家製藥公司和衆多能源公司等組織已積累了大量數據和現有的大量資源。數據技術每天從中提取價值。其他研究。製藥公司和能源公司已經利用大數據來獲得更有形的結果，例如藥物測試和地球物理分析。紐約時報

已經使用大數據工具進行了Fortext分析和Web挖掘，而沃爾特迪斯尼公司則使用它來關聯和理解其所有商店，主題公園和Web屬性中的客戶行爲。

大數據在當今的業務中扮演另一個角色：大型組織越來越需要維護大量結構化和結構化數據 - 從數據倉庫中的交易信息到員工推文，從供應商記錄到監管文件 - 遵守政府法規。最近的法院案件鼓勵公司保留大量的文件，電子郵件和其他電子通信，如即時通訊和互聯網提供，如果他們面臨訴訟，電子發現可能是必需的

價值在哪裏？

提取價值說起來容易做起來難。大數據充滿了挑戰，從技術到概念到運營，其中任何一個都可能破壞發現價值的能力和大數據的所有內容。也許最好以多維術語來思考大數據，其中四個維度涉及大數據的主要方面。該定義可以定義如下：

1.卷。

大數據有一種尺寸：大。企業充斥着數據，容易積累太字節甚至數PB的信息。

2.品種繁多。

大數據擴展到結構化數據之外，包括各種類型的結構化數據：文本，音頻，視頻，點擊流，日誌文件等。

3.準確性。

爲大數據目錄收集的大量數據可能導致統計錯誤和對收集信息的誤解。信息的純度對價值至關重要。

4.速度。

通常對時間敏感，必須使用大數據，因爲它正在流入企業，以便最大化其對業務的價值，但它仍然必須從檔案來源中獲得。

這些4V的大數據構成了分析的路徑，每個分析在發現價值的過程中都具有內在價值。然而，大數據的複雜性並不僅僅以四個維度結束。還有其他因素在起作用：大數據驅動的過程。這些過程是技術和分析的集合，用於定義數據源的價值，這轉化爲可以推動業務發展的可操作元素。

其中許多技術或概念並不新鮮，但已經成爲大數據的保護者。最佳定義爲分析類別，這些技術和概念包括以下內容：

傳統商業智能（BI）：這包括用於收集，存儲，分析和提供數據訪問的大量應用程序和技術。 BI提供可操作的信息，幫助企業用戶使用基於事實的支持系統做出更好的業務決策。 BI通過使用由數據庫，應用程序數據和其他有形數據源提供的詳細業務數據進行深入分析來工作。在某些圈子中，BIcan提供業務操作的歷史，當前和預測視圖。

數據挖掘：這是一個過程，在這個過程中，從不同的角度分析數據，然後將其轉換爲被認爲有用的摘要數據。數據挖掘通常與靜態數據或歸檔數據一起使用。數據挖掘技術專注於建模和知識發現，用於預測，而不是純粹的描述性目的 - 從大型數據集中發現新模式的理想過程。

統計應用：這些數據使用基於統計原理的算法來查看數據，並且通常集中於與民意調查，人口普查和其他靜態數據集相關的數據集。統計應用程序可以提供樣本觀察結果，可用於研究人口數據集，以進行估算，測試和預測分析。經驗數據，如調查和實驗報告，是可分析信息的主要來源。

預測分析：這是統計應用程序的一個子集，根據從數據庫收集的趨勢和信息，檢查數據集以提出預測。一旦將外部元素添加到數據集中，預測分析就會在金融和科學領域變得越來越大，其中趨勢推動預測。預測分析的主要目標之一是確定業務流程，市場和製造的風險和機會。

數據建模：這是分析的概念性應用，其中可以通過算法多個數據集應用多個“假設”場景。理想情況下，建模信息會根據算法可用的信息而變化，然後提供對變更對數據集的影響的洞察。數據建模與數據可視化密切相關，其中隱藏信息可以幫助進行特定的業務努力。

前面的分析類別僅構成了大數據流向的一部分，以及爲什麼它對業務具有內在價值。這種價值是由對永無止境的追求競爭優勢的驅動，鼓勵企業轉向大型公司和外部數據庫，以發現趨勢，統計數據和其他可行的信息，以幫助他們決定下一步行動。這有助於大數據的概念在技術專家和管理人員及其相關工具，平臺和分析中得到普及。

更多大數據，而不是眼睛：

數據集的體積和總體大小隻是BigData方程的一部分。越來越多的人認爲，半結構化和結構化數據源都包含業務關鍵信息，因此必須能夠滿足BI和運營需求。同樣，相關非結構化業務數據的數量不僅在增長，而且在可預見的未來將繼續增長。

數據可以分爲幾類：結構化數據，半結構化數據和非結構化數據。結構化數據通常在傳統數據庫（SQL或其他）中發現，其中數據根據定義的業務規則組織到表中。結構化數據通常被證明是最容易使用的數據類型，因爲數據被定義和索引，使訪問和過濾更容易。

相反，非結構化數據通常沒有BI。結構化數據不會組織到表中，也不能由應用程序本地使用或由數據庫解釋。結構化數據的一個很好的例子是二進制圖像文件的集合。

半結構化數據介於非結構化數據和結構化數據之間。半結構化數據沒有像包含表和關係的數據庫那樣的正式結構。但是，與非結構化數據不同，半結構化數據具有標記或其他標記來分隔元素，並提供定義數據的記錄和字段的層次結構。

處理大數據的數量

由於可以使用標準XML格式和行業特定的XML數據標準（例如，保險中的ACORD，醫療保健中的HL7）處理數據集的實用程序和應用程序，處理不同類型的數據正在融合。這些XML技術正在擴展可由大數據分析和集成工具處理的數據類型，但這些流程的轉換功能仍然因數據的複雜性和數量而緊張，導致現有轉換功能與新興需求之間的不匹配。這爲新型通用數據轉換產品打開了大門，該產品將允許爲所有類別的數據（結構化，半結構化和非結構化）定義轉換，無需編寫代碼，並且可以部署到任何軟件應用程序或平臺體系結構。

大數據的定義和相關分析的執行仍處於不斷變化的狀態; 工具，技術和程序不斷髮展。然而，這種情況並不意味着那些從大型數據集中尋求價值的人應該等待。對於採用觀望態度的業務流程而言，大數據非常重要。

大數據的真正訣竅是找到處理變化數據源的最佳方法，並仍然滿足分析過程的目標。這需要一種精明的方法，將硬件，軟件和過程集成到一個可管理的過程中，在可接受的時間內提供結果框架 - 這一切都始於數據。

存儲是大數據的關鍵要素。數據必須存儲在某個地方，易於訪問和保護。事實證明，這對許多組織來說是一個巨大的挑戰，因爲基於網絡的存儲（例如SANS和NAS）的購買和管理成本非常高。

存儲已經發展成爲典型數據中心中更爲行人的元素之一 - 畢竟，存儲技術已經成熟並且已經開始接近商品狀態。然而，今天的企業面臨着不斷變化的需求，這些需求可能會給儲存技術帶來壓力。一個典型的例子就是大數據分析的推動，即爲大數據集帶來BI功能的概念。

大數據分析流程需要的功能通常超出典型的存儲範例。傳統存儲技術（如SANS，NAS等）無法原生處理大數據提供的TB級和PB級非結構化信息。大數據分析的成功需要更多：處理大量數據的新方法，新的存儲平臺意識形態。

開源帶來了工具

進入Hadoop，這是一個開源項目，提供了一個使用Big Data的平臺。儘管Hadoop已經存在了一段時間，但現在越來越多的企業開始利用其功能。 Hadoop平臺旨在解決由大量數據引起的問題，尤其是包含複雜結構化數據和非結構化數據混合的數據，這些數據不適合放在表中。 Hadoop適用於需要支持深度和計算範圍廣泛的分析的情況，例如羣集和定位。

對於尋求利用大數據的決策者，Hadoop解決了與大數據相關的最常見問題：以有效的方式存儲和訪問大量數據。

Hadoop的內在設計允許它作爲一個平臺運行，該平臺能夠在大量不共享任何內存或磁盤的機器上工作。考慮到這一點，很容易看出Hadoop如何提供額外的價值：網絡管理員可以簡單地購買一大堆商品服務器，將它們放在機架中，然後運行Hadoop軟件。

Hadoop還有助於消除與大型數據集相關的大部分管理開銷。在操作上，當一個組織的數據被加載到Hadoop平臺時，該軟件將數據分解爲可管理的部分，然後自動將它們分散到不同的服務器上。數據的分佈式特性意味着沒有一個地方可以訪問數據; Hadoop會跟蹤datareside的位置，並通過創建多個副本存儲來保護數據。增強了靈活性，因爲如果服務器脫機或失敗，數據可以從已知的正常副本中自動複製。

Hadoop範例在處理數據方面還有幾個步驟。例如，與傳統的集中式數據庫系統相關的限制，可能包括連接到服務器類系統並具有多個處理器的大型磁盤驅動器。在Inthat場景中，分析受到磁盤性能的限制，並最終受到可購買的處理器數量的限制。

通過Hadoop集羣，集羣中的每個服務器都可以利用Hadoop在集羣中傳播工作和數據的能力來參與數據處理。換句話說，索引作業通過將代碼發送到集羣中的每個服務器來工作，然後每個服務器在其自己的一小部分數據上運行。結果然後作爲一個統一的整體被回傳。使用Hadoop，該過程稱爲MapReduce，其中代碼或進程映射到所有服務器，結果縮減爲單個集合。

這個過程使Hadoop在處理大量數據時非常擅長：Hadoop通過利用所有可用的集羣處理器並行工作來擴展數據並處理複雜的計算問題。

然而，冒險進入Hadoop世界並不是一種即插即用的體驗;必須滿足某些先決條件，硬件要求和配置工作才能確保成功。第一步是理解和定義分析過程。大多數主要信息官員熟悉業務分析（BA）或BI過程，並且可以與最常用的過程層相關：提取，轉換和加載（ETL）層以及它在構建BA或BI解決方案時所起的關鍵作用。大數據分析要求組織選擇要分析，合併它們的數據，然後在數據進行ETL過程之前應用聚合方法。這必須發生在大量數據中，這些數據可以是結構化的，非結構化的，也可以來自多個來源，例如社交網絡，數據日誌，網站，移動設備和傳感器。

Hadoop通過整合實用流程和考慮（例如容錯集羣架構），將計算能力移近數據，並行和/或批量處理大型數據集的能力以及支持企業架構層從數據存儲到開放的生態系統來實現這一目標。分析過程。

並非所有企業都需要大數據分析提供的服務;必須考慮Hadoop應對挑戰的能力。但是，Hadoop無法獨立完成所有事情。企業需要考慮構建Hadoop項目需要哪些額外的Hadoop組件。

例如，一組Hadoop組件的初始組件可能包括以下內容：用於數據管理的HDFS和HBase，用於處理框架的MapReduce和00ZIE，用於開發人員生產力的開發框架Pig和Hive，以及用於BI的開源Pentaho.A試點項目不需要大量的硬件。硬件要求可以像一對帶有多重核心的服務器，24或更多千兆字節的RAM，以及每個2兆兆字節的十幾個硬盤驅動器一樣簡單。這應該足以讓一個試點項目開始。

應預先警告數據管理員，Hadoop的有效管理和實施需要一些專業知識和經驗，如果沒有現成的專業知識，信息技術管理應考慮與能夠全面支持Hadoop項目的服務提供商合作。這種專業知識證明對安全特別重要; Hadoop，HDFS和HBase以集成安全性的形式提供非常小的功能。換句話說，仍然需要保護數據不受損害或被盜。

考慮到所有因素，內部Hadoop項目是大數據分析功能試點測試的最佳選擇。在試點之後，那些渴望進一步深入大數據分析領域的人可以使用大量的商業和/或託管解決方案。

大數據分析：將大數據轉化爲鉅額資金前言及第一章