迎戰大數據-Oracle篇

來自:http://www.cnblogs.com/wenllsz/archive/2012/11/16/2774205.html


瞭解大數據帶來的機遇;

  • 透視架構與工具;
  • 開源節流,獲得競爭優勢。

聚焦大數據

組織爲了變得更高效,盈利能力更強,或生產率更高,對信息的渴求似乎永遠也無法得到滿足。爲此它們一直在尋找更強大的數據存儲技術,包括超大型數據庫(VLDB),以滿足他們對信息存儲和獲取的需求。最近幾年數據的爆炸式增長催生了新的存儲技術。用於保存和管理大數據的技術作爲企業級數據庫技術的補充出現在了人們的視野中。

大數據有四個關鍵特性:容量,速度,多樣性和價值。對於IT管理者來說,容量和速度並不是什麼新問題;它們現在只是被放大了。大數據成爲新問題是因爲它們的多樣性和數據價值密度過低。與傳統的交易數據不同,大數據有各種不同的形式。它們的價值密度通常也都不高;數據本身一般沒太大價值,但數據之中所蘊藏的趨勢信息卻非常有意義。

爆炸式數據增長

全球數據大爆炸的產生有技術方面的原因,比如數字多媒體、智能手機和互聯網的增長。舉例來說,在瀏覽器成爲通用的客戶端之後,出現了數以億計的互聯網用戶點擊流數據。社交網站變得如此龐大,以致於現在的數據挖掘活動也變成了數以億計的行爲。智能手機爲基於位置的服務提供的信息很快就會出現在十幾億用戶手中。從Web服務器日誌、工具中的數據流、實時交易數據、博客,還有社交網站這些不同的數據源中,能提煉出非常有價值的信息。

目前的在線或移動金融交易、社交網站流量以及GPS定位每天所產生的數據已經超過了2.5 * 1021個字節(EB,260字節)


提示  數據量的單位 

  • KB ,2 的 10 次方 : 1024 BYTE.  
  • MB,2 的 20 次方 : 1048576 BYTE, 或 1024 KB.
  • GB ,2 的 30 次方 : 1073741824 BYTE, 或 1024 MB.
  • TB ,2 的 40 次方 : 1099511627776 BYTE, 或 1024 GB.
  • PB ,2 的 50 次方 : 1125899906842624 BYTE, 或 1024 TB.
  • EB ,2 的 60 次方 : 1152921504606846976 BYTE, 或 1024 PB.
  • ZB ,2 的 70 次方 : 1024 EB.
  • YB ,2 的 80 次方 : 1024 ZB.

應用和效益

因爲CPU和存儲越來越便宜,很多組織現在都有能力處理TB,甚至是PB級別的數據。他們都能從大數據中獲益。

利用好大數據,組織能對自己的用戶和客戶羣,運營和供應鏈,甚至競爭環境或監管環境有更深入的理解。如果處理得當,大數據會對組織產生積極的影響,在經過改善的BI基礎之上提供更好的服務,做出更好的決策。組織可以通過分析大數據開發並提煉出先進的預測分析體系,從而降低成本,提供可持續的競爭優勢。

如果組織能利用大數據增強對客戶的瞭解,對行業和政府都有好處。比如說在零售行業,產生了用於點擊流監測、消費者信息指數分析,以及對在線客戶進行推薦所需的數據集。在金融服務業,加強對客戶的認識可以使欺詐檢測及預測更準確,還能通過分析消費習慣增強每客戶盈利能力。而且無論是在公共醫療還是私人保健領域,大數據都有望能幫助行業降低成本,提高效率,從而也會使病人護理得到改善。

基於大數據的應用及其所能帶來的收益,行業分析師預測大數據技術和服務市場將得到迅猛發展。

發展大數據策略很複雜,要面對不同的數據種類,新的用例,還要增加軟件投入。最重要的是,對企業有什麼價值呢? 請看視頻

架構

大數據代表着爲了做出決策而採用的技術發生了翻天覆地的變化。組織所要整合和分析的數據來自多種不同的數據源,要用來自社交網絡、視頻、智能移動設備和其它來源的數據補充企業數據庫。爲涵蓋大數據而產生的信息架構演化很可能會爲新一代的企業基礎設施提供基礎。要利用這些來源不同的數據做決策,必須開發出一套行之有效的策略,做好大數據的獲取組織分析工作,由此產生新的業務洞察力,做出更好的決策。

大數據提煉過程中的每一步都需要合適的軟硬件。可以對現有數據倉庫基礎設施進行擴充,以應對大數據的規模需求和不同的分析需求。但要獲取和組織好新的數據類型,必須有新的軟件,Hadoop就是這種新型軟件之一。

Hadoop有兩個主要組成部分:用於數據存儲的Hadoop分佈式文件系統(HDFS),以及用來管理數據處理過程的MapReduce編程框架。組織可以使用Hadoop的工具套件組織原始(通常是非結構化的)數據,並對其進行轉換,以便能把它們加載到數據倉庫和數據集市中,然後進行綜合分析。

Hadoop支持大數據的並行處理機制,用集羣或計算網格來處理大數據工作負荷。它主要運行在HDFS上,HDFS有很好的容錯性,並且可以擴展到多個帶有上千節點的集羣上。Hadoop MapReduce提供了用大量處理器分析海量數據集的能力。Yahoo的研究人員曾在一個有3800個節點的集羣上用16.25個小時完成了對1PB數據的排序操作。

Hadoop是很多大數據架構中的核心構件。它可以用於數據獲取和存儲,在組織內部,它還有三個主要用途。 請看視頻

數據獲取

大數據的數據源有很多。線上活動、RFID、儀器儀表、社交網絡、點擊流和交易系統這樣的數據源,具有交易數據量大,數據流速快,數據格式多樣的特點。數據獲取所需的延遲也不同,既有需要在一秒內響應服務請求的交互式系統,也有把數據存起來用於以後進行離線分析的批量式系統。

內容的多樣性要求軟件在高吞吐量的情景下操作結構化和非結構化數據。一個有效的大數據解決方案必須爲數據採集、組織和提煉大量數據提供存儲和處理能力,甚至是PB級別的數據集。

在選擇正確的存儲技術時,既要理解準備存儲的數據種類,也要知道將來怎麼使用。儘管有很多針對特定場景專門優化的專業存儲技術,但其中主要有兩種用例。

比較偏批處理的系統對響應時間、更新和查詢的要求都不太嚴格,通常會使用Hadoop分佈式文件系統(HDFS)。而對於時間限制更加嚴格,需要亞秒級查詢響應時間的應用,或者要經常更新現有數據的,通常會使用某種NoSQL數據庫。Amazon、 Google、LinkedIn 和 Twitter 這樣的公司要在嚴格的延遲時間限制下跟史無前例的數據量做鬥爭,在鬥爭過程中,出現了NoSQL技術。利用非結構化和半結構化的數據源開發新的業務分析模型,分析像網站點擊流這樣的大容量實時數據能取得顯著的業務優勢。因此,這些企業在研究了十多年的分佈式哈希表(DHT)基礎之上,或者利用傳統的關係型數據庫系統,或者利用嵌入式鍵/值存儲數據庫(比如Berkeley DB),開發出了高可用的分佈式鍵值存儲庫。

組織獲取和存儲多種結構化和非結構信息。他們必須明白自己的用例是需要亞秒級的交互響應,還是可以慢一些的批量操作。 請看視頻

數據組織

從大數據中汲取價值的過程是一個從原始數據獲取有價值信息提煉的多階段過程。數據獲取,比如從點擊流和社交媒體訂閱源中取得數據,是對數據進行轉換和組織以汲取商業價值的前提。之後還需要預處理過程將那些沒什麼價值的數據篩選掉,並將剩餘數據結構化以用於分析。因爲大數據形態多樣,大小不一,並且格式各異,所以把數據轉移到分析環境之前的轉換至關重要,不可或缺。

把大數據收集過來之後,在進一步提煉和分析之前,要先對其進行轉換和組織,形成先導數據。 用Hadoop轉換和組織數據

提煉過的大數據可以和企業數據一起進行分析。在得到原始數據之後,可以用HDFS或NoSQL數據庫把數據存儲起來,並在經過預處理後加載到分析環境中,比如運行在Oracle數據庫雲服務器Exadata 上的數據倉庫。

這種工作一般是由Hadoop來處理的。現在通常都是由開發人員定製開發Java代碼,與MapReduce編程框架一起處理和轉換節點上存儲的數據。總體來說,數據遷移達到了最小化,因爲只有預處理的最終結果纔會被加載到數據倉庫中。

準備好加載到Oracle數據庫雲服務器Exadata上的數據後,對大數據與傳統企業數據進行集成分析的舞臺就算是搭建起來了。

數據分析

很久以前,組織就開始通過搭建數學模型和大容量數據的篩選來汲取有價值的信息。一旦經過提煉,大數據就會擴展已有模型,並很有可能爲使用數據倉庫的BI應用透視組織情況提供豐富的信息源。

大數據的分析與以前的數據分析是不同的。請看它如何揭示事情發生的原因,以及補充了哪些新的分析工具和流程。 視頻:用統計分析產生新的見解

  • Oracle R 企業版
  • 數據庫內分析 
    • 數據挖掘
    • 文本分析
    • 語義分析
    • 空間分析

數據倉庫是大數據分析的關鍵。儘管數據的來源多種多樣,但新的見解是通過對所有數據的集成分析得到的。因此,現代數據倉庫中不光要存儲更多的傳統企業數據,還要存儲Hadoop才產生的彙總數據。

新的數據源是不同的,對數據的理解可能更少,也可能因歷史原因不太精確,或者與問題的相關性只是間接的。所以,爲了從大數據中汲取價值,我們必須轉向一種迭代的、不斷細化的分析流程。每次迭代或者揭示新的見解,或者只是簡單地讓分析師排除某條查詢語句。大數據分析不僅僅是要充分理解數據集並做出報告,還要發現新的關係。

先進的分析方法

傳統的分析工具依然很重要,但要充分利用好大數據,還需要同時涉及到統計分析和數據挖掘的先進分析方法。開源的統計編程語言R自1997年發展至今,已經吸引了大量用戶羣。R在分析師和數據科學家之中相當流行,在學術界也得到了廣泛應用,所以訓練有素的R開發人員也大有人在。

一種被稱爲預測分析的統計分析技術已經引起了各行各業的注意,其中包括金融、零售、保險、醫療健康、製藥和電信等多種行業。預測分析可以利用客戶數據來構建並優化預測模型。組織使用預測指標來指導其營銷活動,使其更加有效。藉助計算能力的提升,對預測分析激增的興趣已經變成了可能。藉助現代化的工具,可以創建尖端的預測分析模型,並在大量數據集合上執行多種情景的模擬計算。

決策

現如今這個年代,我們所做的每個決定後面都充斥着大量的數據,我們可以用強大的工具提煉數據,展示信息,使決策過程更加智能。使用自動化的分析工具,我們可以做出數據驅動的決策。可以把大數據變成可執行的洞察力,並且如果技術得當,還可以達到實時的效果。

數據可視化和商業智能儀表盤是決策過程的強力輔助工具,特別是在處理海量數據時。統計分析軟件是數據分析、商業智能和決策支持的關鍵要素。運行統計分析語言R腳本的Web界面可以集成到儀表盤中,爲決策過程提供分析和流式圖形。

實時決策

大數據的容量和速度對數據分析軟件和BI工具的擴展性及性能提出了新的要求。服務器容量,高速互聯能力和網絡帶寬的提升對新一代軟件的出現做出了貢獻,使它們可以實現在內存中、數據庫中的實時分析。

比如說,內存數據庫給了我們實時決策的能力。現代系統的64位尋址能力使我們可以在服務器上配置TB(240B)級的內存。這就是說,某些超過了十幾億行記錄的數據庫可以被加載到內存中,維繫更快的決策所需的高性能、低延遲處理。

大數據軟件

友情提示:即將進入Oracle廣告時段,請自行判斷以下內容的可信度。

Oracle 提供了一系列的軟件,包括專爲應對大數據挑戰而專門設計的新功能。這些軟件既可以運行在Oracle工程系統上,也可以運行在自行集成的硬件上。

Oracle NoSQL 數據庫

應用軟件的架構和性能需求各不相同,對數據存儲和獲取能力的需求也各不相同。很多大數據應用軟件都希望能有快速、精簡的數據存儲方式,能夠支持大容量數據的交互式查詢和更新。

Oracle NoSQL數據庫能迅速獲取和組織無模式、非結構化,或半結構化的數據。它是一個“永遠可用”的分佈式鍵-值數據存儲庫,具有查詢延時可預測、響應快速的特點,並且所支持的交互用例範圍廣泛。它的編程模型也很簡單,易於集成到新的大數據應用軟件中。

Oracle Endeca 信息探索平臺

Oracle Endeca 信息探索平臺是一個對複雜多變的數據進行高級勘探和分析的企業數據探索平臺。從多個分散的源系統中加載進來的信息被存儲在一個對變化中的數據提供動態支持的多面體數據模型中。這些經過整合的豐富數據可以由交互式的、可配置的應用程序進行搜索、探索和分析。Oracle Endeca直觀的界面讓企業用戶可以輕鬆地對大數據進行探索,以確定其潛在的價值。

用信息探索快速回答新問題

Oracle 數據集成工具

Oracle Data Integrator 爲Oracle 數據庫、Oracle 應用程序和其它第三方應用軟件源提供數據抽取,加載和轉換(E-LT)服務。Oracle GoldenGate具備大容量數據實時轉換的能力,並把數據加載到數據倉庫或數據集市中。這些產品與Oracle大數據連接器(Oracle Big Data Connectors)一起提供了一個集成大數據的網關。數據大爆炸使得這些產品變得更重要了,因爲孤立的大數據是沒用的。

Oracle 大數據連接器

Oracle 已經開發了一套軟件來集成Oracle數據庫和Hadoop。Oracle大數據連接器即可作爲Oracle 大數據應用軟件的一部分,也可以作爲獨立的軟件產品。它們能幫助Oracle數據庫訪問Hadoop分佈式文件系統(HDFS),也可以從Hadoop中把數據加載的Oracle數據庫中。它們還爲HDFS和MapReduce框架提供了原生的R接口,使得Oracle 數據集成工具能夠生成Hadoop MapReduce 程序。

Oracle 高級分析平臺

大數據和分析經常出現在同一句話中,因爲技術的發展,我們可以分析不斷增長的大數據集。至少這些發展讓Oracle數據庫能夠把分析嵌入到數據庫中,這是一個具備可擴展性、性能卓越並且安全的架構層解決方案。這個架構把分析工作從內存有限的計算機上卸載下來,讓分析過程更加靠近數據。這樣可以消除不必要的網絡往返時間,充分利用企業級數據庫,並能降低硬件成本。

Oracle 高級分析平臺把Oracle數據庫變成了一個先進的分析平臺,爲分析大數據做好了準備。它和Oracle R 企業版(開源R語言的改進版本)的Oracle 數據挖掘能力結合在一起。因爲Oracle高級分析平臺不需要爲了進行分析而在數據庫和其外部客戶端之間封送數據,所以消除了網絡延時。這比在數據庫外進行分析處理提高了10到100倍的性能。把分析邏輯封裝在數據庫中還可以利用數據庫的多層安全模型,並且數據庫也因此能夠管理實時預測模型和它所產生的結果。

工程系統

通過部署Oracle的工程系統,組織可以把大數據方案作爲業務系統、數據倉庫、分析軟件和商業智能過程的補充。工程系統是預先集成好的,所以部署起來更容易,支持維護也方便,而且它們的性能是經過調優的。它們既可以單獨部署,也可以集成到已有的基礎設施中。

Oracle大數據應用(Oracle Big Data Appliance)是一個全面的、企業級的軟硬件組合,藉助它可以輕鬆快速的啓用大數據。它被設計成用Hadoop和Oracle NoSQL數據庫來獲取數據,用Hadoop MapReduce算法組織數據,並加載到數據倉庫中進行綜合分析。

Oracle已經跟Cloudera聯合,在Oracle大數據應用中提供 Hadoop的Cloudera版本。確保客戶能夠使用一個全面集成並得到支持的Hadoop版本,它能部署在上萬個節點上,部署速度更快,持有成本更低。

Oracle雲服務器Exadata(Oracle Exadata Database Machine)是先進的軟硬件結合的代表,它易於部署、完全可擴展、安全並且冗餘。像Exadata智能掃描, Exadata 智能閃存 和 混合列式壓縮 這些技術創新讓Exadata的性能表現極其優秀,無論是在數據倉庫中,還是在線事務處理,以及混合的工作負荷上,都非常棒。Oracle Exadata使用大規模並行架構和高速InfiniBand網絡來維繫數據庫服務器、存儲服務器,以及其它工程系統(比如Oracle大數據應用和Oracle Exalytics)之間的高速帶寬連接。

Oracle Exadata支持大規模數據倉庫的部署,以及發現新關係,開發新見解所需的迭代式分析。這種分析一旦得以實施,決策者就可以據此採取行動,實現商業價值。

Oracle 內存服務器Exalytics是爲不會超出預算的快速決策提供內存分析的軟硬件集成方案。部署它可以支持需求預測,收入和收益管理,定價,庫存管理,以及無數的其他應用。此外,它也可以用在高速InfiniBand 連接的Oracle Exadata的數據倉庫上,爲訪問大數據倉庫的BI應用提供實時分析。

Oracle 內存服務器Exalytics能夠實現“像思考一樣快速的分析。”這從根本上改變了你和BI軟件交互的方式,對數據的利用會更加充分,因此產生更大的商業價值。

結論

要從大數據中汲取真正的商業價值,需要用合適的工具從不同的數據源捕獲類型多變的數據,然後組織好它們,把它們放在所有企業數據的上下文中。藉助這些工具,它們分析起來並不困難。Oracle的工程系統及其補充軟件能打開大數據的財富之門,爲得到大數據中的商業價值鋪平道路。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章