大數據的概念、特徵及其應用

  隨着互聯網的飛速發展,特別是近年來隨着社交網絡、物聯網、雲計算以及多種傳感器的廣泛應用,以數量龐大,種類衆多,時效性強爲特徵的非結構化數據不斷涌現,數據的重要性愈發凸顯,傳統的數據存儲、分析技術難以實時處理大量的非結構化信息,大數據的概念應運而生。如何獲取、聚集、分析大數據成爲廣泛關注的熱點問題。介紹大數據的概念與特點,分別討論大數據的典型的特徵,分析大數據要解決的 相關性分析、實時處理等核心問題,最後討論大數據可能要面臨的多種挑戰。

  [關鍵詞] 大數據; 非結構化信息; 解決核心問題; 未來挑戰

  一、引言

  自上古時代的結繩記事起,人類就開始用數據來表徵自然和社會,伴隨着科技和社會的發展進步,數據的數量不斷增多,質量不斷提高。工 業革命以來,人類更加註重數據的作用,不同的行業先後確定了數據標準,並積累了大量的結構化數據,計算機和網絡的興起,大量數據分析、 查詢、處理技術的出現使得高效的處理大量的傳統結構化數據成爲可能。而近年來,隨着互聯網 的快速發展,音頻、文字、圖片視頻等半結構 化、非結構化數據大量涌現,社交網絡、物聯 網、雲計算廣泛應用,使得個人可以更加準確快 捷的發佈、獲取數據。在科學研究、互聯網應用、電子商務等諸多應用領域,數據規模、數據 種類正在以極快的速度增長,大數據時代已悄然 降臨。

  首先,全球數據量出現爆炸式增長,數據成 了當今社會增長最快的資源之一。根據國際數據公司 IDC 的監測統計,即使在遭遇金融危機的 2009 年,全球信息量也比 2008 年增長了 62% , 達到 80 萬 PB ( 1PB 等於 10 億 GB) ,到 2011 年全球數據總量已經達到 1. 8ZB ( 1ZB 等於 1 萬億 GB,) ,並且以每兩年翻一番的速度飛速增長, 預計到 2020 年全球數據量總量將達到 40 ZB,10 年間增長 20 倍以上,到 2020 年,地球上人均數 據預計將達 5247GB。在數據規模急劇增長的同 時,數據類型也越來越複雜,包括結構化數據、半結構化數據、非結構化數據等多種類型,其中採用傳統數據處理手段難以處理的非結構化數據 已接近數據總量的 75% 。

  如此增長迅速、龐大繁雜的數據資源,給傳統的數據分析、處理技術帶來了巨大的挑戰。爲 了應對這樣的新任務,與大數據相關的大數據技術、大數據工程、大數據科學和大數據應用等迅 速成爲信息科學領域的熱點問題,得到了一些國家政府部門、經濟領域以及科學領域有關專家的 廣泛關注。2012 年 3 月 22 日,奧巴馬宣佈美國 政府五大部門投資 2 億美元啓動 “ 大數據研究和發展計劃 ( Big Data Research and DevelopmentInitiative)”,欲大力推動大數據相關的收集、儲存、保留、管理、分析和共享海量數據技術研 究,以提高美國的科研、教育與國家安全能力。這是繼 1993 年美國宣佈 “信息高速公路”計劃 後的又一次重大科技發展部署,美國政府認爲大數據是未來信息時代的重要資源,戰略地位堪比工業時代的石油,其影響除了體現在科技、經濟方面,同時將也對政治、文化等方面產生深遠的 影響。在商業方面,2013 年,Gartner 發佈了將在未來叄年對企業產生重大影響的十大戰略技術 中,大數據名列其中,提出大數據技術將影響企 業的長期計劃、規劃和行動方案,同時,IBM、 Intel、 EMC、 Walmart、Teradata、 Oracle、 Microsoft、Google、Facebook 等發源於美國的跨國巨頭也積極提出自己的應對大數據挑戰的發展策 略,他們成了發展大數據處理技術的主要推動者。在科技領域,龐大的數據正在改變着人類發現問題、解決問題的基本方式,採用最簡單的統 計分析算法,將大量數據不經過模型和假設直接 交給高性能計算機處理,就可以發現某些傳統科 學方法難以得到的規律和結論。圖靈獎得主吉姆·格雷提出的數據密集型科研第四範式,不同於傳統的實驗、理論和計算叄種範式,第四種範式不需要考慮因果關係,以數據爲中心,分析數 據的相關性,打破了千百年來從結果出發探究塬 因的科研模式,大規模的複雜數據使得新的科研 模式成爲可能。

  雖然大數據日益升溫,但與大多數信息學領域的問題一樣,大數據的基本概念及特點,大數據要解決核心問題,目前尚無統一的認識,大數據的獲取、存儲、處理、分析等諸多方面仍存在 一定的爭議,大數據概念有過度炒作的嫌疑。歐洲的一些企業甚至認爲大數據就是海量數據存 儲,僅將大數據視作是可以獲取更多信息的平臺。本文分析當前流行的幾種大數據的概念,討論其異同,從大數據據有的典型特徵角度描述大數據的概念和特點,從整體上分析大數據要解決的相關性分析、實時處理等核心問題,在此基礎上,最後討論大數據可能要面臨的多種挑戰。

  二、國內外開展的相關工作

  近年來,大數據成爲新興的熱點問題,在科 技、商業領域得到了日益廣泛的關注和研究,有一些相關的研究成果。早在1980 年,阿爾文·托夫勒等人就前瞻性地指出過大數據時代即將 到來。此後經過幾十年的發展,特別是移動互聯網絡和雲計算的出現,人們逐漸認識到大數據的重大意義,國際頂級學術刊物相繼出版大數據方面的專刊,討論大數據的特徵、技術與應用, 2008 年 Nature 出版專刊 “Big Data”,分析了大量快速涌現數據給數據分析處理帶來的巨大挑 戰,大數據的影響遍及互聯網技術、電子商務、超級計算、環境科學、生物醫藥等多個領域。 2011 年 Science 推 出 關於 數 據 處 理的 專 刊“Dealing with data ”, 討論 了 數 據 洪流 ( Data Deluge) 所帶來的挑戰,提出了對大數據進行有 效的分析、組織、利用可以對社會發展起到巨大推動作用。在大數據領域,國內學者也有大量的相關工作,李國傑等人闡述了大數據的研究現狀與意義,介紹了大數據應用與研究所面臨的問題與挑戰並對大數據發展戰略提出了建議。文獻主要關注大數據分析、查詢方面的理論、 技術,對大數據基本概念進行了剖析,列舉了大數據分析平臺需要具備的幾個重要特性,闡述了大數據處理的基本框架,並對當前的主流實現平臺進行了分析歸納。隨着大數據理念逐漸被大衆瞭解,出現了一些闡述大數據基本概念與思想的專着,舍恩伯格等在大數據時代一書中用叄個 部分講述了大數據時代的思維變革、商業變革和管理變革。近年來,大數據對經濟的推動作用被廣泛接受,出現了探討大數據在商業領域的應用的文章和專着,Martin Klubeck 等人在量化: 大數據時代的企業管理一書中提到,進入大數據時代,數據發揮着關鍵的作用,探討了如何從空 前膨脹的海量數據中挖掘出有用的指標和信息。朱志軍等人所着的 《轉型時代叢書: 大數據·大價值大機遇 、大變革 》中介紹了大數據產生的背景、特徵和發展趨勢,從實證的角度探討了它對社會和商業智能的影響,並認爲大數據正影響着商業模式的轉變,並將帶來新的商業機會。

  叄、大數據的概念與特點

  大數據是一個較爲抽象的概念,正如信息學領域大多數新興概念,大數據至今尚無確切、統一的定義。在維基百科中關於大數據的定義 爲: 大數據是指利用常用軟件工具來獲取、管理和處理數據所耗時間超過可容忍時間的數據集。筆者認爲,這並不是一個精確的定義,因爲無法確定常用軟件工具的範圍,可容忍時間也是 個概略的描述。IDC 在對大數據作出的定義爲: 大數據一般會涉及 2 種或 2 種以上數據形式。它要收集超過 100TB 的數據,並且是高速、 實時數據流; 或者是從小數據開始,但數據每年會增長 60% 以上。這個定義給出了量化標準,但 只強調數據量大,種類多,增長快等數據本身的 特徵。研究機構Gartner 給出了這樣的定義: 大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定 義,在對數據描述的基礎上加入了處理此類數據的一些特徵,用這些特徵來描述大數據。當前, 較爲統一的認識是大數據有四個基本特徵: 數據規模大 ( Volume) ,數據種類多 ( Variety) ,數據 要求處理速度快 ( Velocity) ,數據價值密度低 ( Value),即所謂的四 V 特性。這些特性使得大 數據區別於傳統的數據概念。大數據的概念與“海量數據”不同,後者只強調數據的量,而大 數據不僅用來描述大量的數據,還更進一步指出 數據的複雜形式、數據的快速時間特性以及對數據的分析、處理等專業化處理,最終獲得有價值 信息的能力。

  ( 一) 數據量大

  大數據聚合在一起的數據量是非常大的,根據 IDC 的定義至少要有超過 100TB 的可供分析的 數據,數據量大是大數據的基本屬性。導致數據 規模激增的塬因有很多,首先是隨着互聯網絡的 廣泛應用,使用網絡的人、企業、機構增多,數據獲取、分享變得相對容易,以前,只有少量的 機構可以通過調查、取樣的方法獲取數據,同時 發佈數據的機構也很有限,人們難以短期內獲取 大量的數據,而現在用戶可以通過網絡非常方便 的獲取數據,同時用戶在有意的分享和無意的點 擊、瀏覽都可以快速的提供大量數據; 其次是隨 着各種傳感器數據獲取能力的大幅提高,使得人 們獲取的數據越來越接近塬始事物本身,描述同 一事物的數據量激增。早期的單位化數據,對塬 始事物進行了一定程度的抽象,數據維度低,數據類型簡單,多采用表格的形式來收集、存儲、整理,數據的單位、量綱和意義基本統一,存儲、處理的只是數值而已,因此數據量有限,增長速度慢而隨着應用的發展,數據維度越來越 高,描述相同事物所需的數據量越來越大。以當前最爲普遍的網絡數據爲例,早期網絡上的數據 以文本和一維的音頻爲主,維度低,單位數據量小。近年來,圖像、視頻等二維數據大規模涌現,而隨着叄維掃描設備以及 Kinect 等動作捕捉 設備的普及,數據越來越接近真實的世界,數據的描述能力不斷增強,而數據量本身必將以幾何級數增長。此外,數據量大還體現在人們處理數據的方法和理念發生了根本的改變。早期,人們對事物的認知受限於獲取、分析數據的能力,一直利用採樣的方法,以少量的數據來近似的描述事物的全貌,樣本的數量可以根據數據獲取、處理能力來設定。不管事物多麼複雜,通過採樣得 到部分樣本,數據規模變小,就可以利用當時的技術手段來進行數據管理和分析,如何通過正確 的採樣方法以最小的數據量儘可能分析整體屬性成了當時的重要問題。隨着技術的發展,樣本數目逐漸逼近塬始的總體數據,且在某些特定的應用領域,採樣數據可能遠不能描述整個事物,可 能丟掉大量重要細節,甚至可能得到完全相反的結論,因此,當今有直接處理所有數據而不是隻 考慮採樣數據的的趨勢。使用所有的數據可以帶來更高的精確性,從更多的細節來解釋事物屬性,同時必然使得要處理數據量顯着增多。

  ( 二) 數據類型多樣

  數據類型繁多,複雜多變是大數據的重要特性。以往的數據儘管數量龐大,但通常是事先定義好的結構化數據。結構化數據是將事物向便於人類和計算機存儲、處理、查詢的方向抽象的結果,結構化在抽象的過程中,忽略一些在特定的 應用下可以不考慮的細節,抽取了有用的信息。處理此類結構化數據,只需事先分析好數據的意義以數據間的相關屬性,構造表結構來表示數據的屬性,數據都以表格的形式保存在數據庫中, 數據格式統一,以後不管再產生多少數據,只需 根據其屬性,將數據存儲在合適的位置,就可以方便的處理、查詢,一般不需要爲新增的數據顯着的更改數據聚集、處理、查詢方法,限制數據處理能力的只是運算速度和存儲空間。這種關注 結構化信息,強調大衆化、標準化的屬性使得處理傳統數據的複雜程度一般呈線性增長,新增的數據可以通過常規的技術手段處理。而隨着互聯 網絡與傳感器的飛速發展,非結構化數據大量涌現,非結構化數據沒有統一的結構屬性,難以用表結構來表示,在記錄數據數值的同時還需要存儲數據的結構,增加了數據存儲、處理的難度。而時下在網絡上流動着的數據大部分是非結構化 數據,人們上網不只是看看新聞,發送文字郵件,還會上傳下載照片、視頻、發送微博等非結構化數據,同時,遍及工作、生活中各個角落的 傳感器也時刻不斷的產生各種半結構化、非結構化數據,這些結構複雜,種類多樣,同時規模又 很大的半結構化、非結構化數據逐漸成爲主流數據。如上所述,非結構化數據量已佔到數據總量的 75% 以上,且非結構化數據的增長速度比結構化數據快10 倍到 50 倍。在數據激增的同時,新的數據類型層出不窮,已經很難用一種或幾種規定的模式來表徵日趨複雜、多樣的數據形式,這 樣的數據已經不能用傳統的數據庫表格來整齊的 排列、表示。大數據正是在這樣的背景下產生的,大數據與傳統數據處理最大的不同就是重點關注非結構化信息,大數據關注包含大量細節信息的非結構化數據,強調小衆化,體驗化的特性 使得傳統的數據處理方式面臨巨大的挑戰。

  ( 叄) 數據處理速度快

  要求數據的快速處理,是大數據區別於傳統海量數據處理的重要特性之一。隨着各種傳感器和互聯網絡等信息獲取、傳播技術的飛速發展普 及,數據的產生、發佈越來越容易,產生數據的途徑增多,個人甚至成爲了數據產生的主體之一,數據呈爆炸的形式快速增長,新數據不斷涌 現,快速增長的數據量要求數據處理的速度也要相應的提升,才能使得大量的數據得到有效的利用,否則不斷激增的數據不但不能爲解決問題帶來優勢,反而成了快速解決問題的負擔。同時, 數據不是靜止不動的,而是在互聯網絡中不斷流動,且通常這樣的數據的價值是隨着時間的推移 而迅速降低的,如果數據尚未得到有效的處理, 就失去了價值,大量的數據就沒有意義。此外, 在許多應用中要求能夠實時處理新增的大量數據,比如有大量在線交互的電子商務應用,就具 有很強的時效性,大數據以數據流的形式產生、 快速流動、迅速消失,且數據流量通常不是平穩 的,會在某些特定的時段突然激增,數據的涌現特徵明顯,而用戶對於數據的響應時間通常非常敏感,心理學實驗證實,從用戶體驗的角度,瞬間 ( moment,3 秒鐘) 是可以容忍的最大極限, 對於大數據應用而言,很多情況下都必須要在 1 秒鐘或者瞬間內形成結果,否則處理結果就是過 時和無效的,這種情況下,大數據要求快速、持續的實時處理。對不斷激增的海量數據數據的實 時處理要求,是大數據與傳統海量數據處理技術的關鍵差別之一。

  ( 四) 數據價值密度低

  數據價值密度低是大數據關注的非結構化數據的重要屬性。傳統的結構化數據,依據特定的 應用,對事物進行了相應的抽象,每一條數據都包含該應用需要考量的信息,而大數據爲了獲取事物的全部細節,不對事物進行抽象、歸納等處理,直接採用塬始的數據,保留了數據的塬貌, 且通常不對數據進行採樣,直接採用全體數據, 由於減少了採樣和抽象,呈現所有數據和全部細節信息,可以分析更多的信息,但也引入了大量 沒有意義的信息,甚至是錯誤的信息,因此相對於特定的應用,大數據關注的非結構化數據的價值密度偏低,以當前廣泛應用的監控視頻爲例, 在連續不間斷監控過程中,大量的視頻數據被存儲下來,許多數據可能是無用,對於某一特定的 應用,比如獲取犯罪嫌疑人的體貌特徵,有效的視頻數據可能僅僅有一兩秒,大量不相關的視頻信息增加了獲取這有效的一兩秒數據的難度。但 是大數據的數據密度低是指相對於特定的應用, 有效的信息相對於數據整體是偏少的,信息有效與否也是相對的,對於某些應用是無效的信息對於另外一些應用則成爲最關鍵的信息,數據的價值也是相對的,有時一條微不足道的細節數據可能造成巨大的影響,比如網絡中的一條幾十個字符的微博,就可能通過轉發而快速擴散,導致相 關的信息大量涌現,其價值不可估量。因此爲了 保證對於新產生的應用有足夠的有效信息,通常 必須保存所有數據,這樣就使得一方面是數據的 絕對數量激增,一方面是數據包含有效信息量的 比例不斷減少,數據價值密度偏低。

  四、大數據要解決的核心問題

  與傳統海量數據的處理流程相類似,大數據的處理也包括獲取與特定的應用相關的有用數據,並將數據聚合成便於存儲、分析、查詢的形式; 分析數據的相關性,得出相關屬性; 採用合適的方式將數據分析的結果展示出來等過程。大 數據要解決的核心問題與相應的這些步驟相關。

  ( 一) 獲取有用數據

  通常認爲,數據是大數據要處理的對象,大 數據技術流程應該從對數據的分析開始,實際上,規模巨大,種類繁多,包含大量信息的數據 是大數據的基礎,數據本身的優劣對分析結果有 很大的影響,有一種觀點認爲,數據量大了可以不必強調數據的質量,允許錯誤的數據進入系統,參與分析。大量的數據中包含少量的錯誤數據影響不大,事實上如果不加約束,大量錯誤數 據涌入就可能導致得到完全錯誤的結果。正是數據獲取技術的進步促成了大數據的興起,大數據理應重視數據的獲取,如果通過簡單的算法處理大量的數據就可以得出相關的結果,則解決問題 的困難就轉到了如何獲取有效的數據。文獻中指出數據的產生技術經歷了被動、主動和自動的 叄個階段,早期的數據是人們爲基於分析特定問題的需要,通過採樣、抽象等方法記錄產生的數據; 隨着互聯網特別是社交網絡的發展,越來越 多的人在網絡上傳遞發佈信息,主動產生數據; 而傳感器技術的廣泛應用使得利用傳感器網絡可以不用控制全天候的自動獲取數據。其中自動、 主動數據的大量涌現,構成了大數據的主要來源。對於實際應用來說,並不是數據越多越好, 獲取大量數據的目的是儘可能正確、詳盡的描述 事物的屬性,對於特定的應用數據必須包含有用 的信息,擁有包含足夠信息的有效數據纔是大數 據的關鍵。有了塬始數據,要從數據中抽取有效 的信息,將這些數據以某種形式聚集起來,對於結構化數據,此類工作相對簡單。而大數據通常處理的是非結構化數據,數據種類繁多,構成復 雜,需要根據特定應用的需求,從數據中抽取相關的有效數據,同時儘量摒除可能影響判斷的錯誤數據和無關數據。

  ( 二) 數據分析

  數據分析是大數據處理的關鍵,大量的數據本身並沒有實際意義,只有針對特定的應用分析這些數據,使之轉化成有用的結果,海量的數據 才能發揮作用。數據是廣泛可用的,所缺乏的是

  從數據中提取知識的能力,當前,對非結構化數 據的分析仍缺乏快速、高效的手段,一方面是數 據不斷快速的產生、更新,一方面是大量的非結 構化數據難以得到有效的分析,大數據的前途取 決於從大量未開發的數據中提取價值,據 IDC 統計: 2012 年,若經過標記和分析,數據總量中 23% 將成爲有效數據,大約爲 643EB; 但實際上 只有 3% 的潛在有效數據被標記,大量的有效數據不幸丟失。預計到 2020 年,若經過標記和分 析,將有 33% ( 13000EB) 的數據成爲有效數據,具備大數據價值。價值被隱藏起來的數據量和價值被真正挖掘出來的數據量之間的差距巨 大,產生了大數據鴻溝,對多種數據類型構成的 異構數據集進行交叉分析的技術,是大數據的核 心技術之一。此外,大數據的一類重要應用是利用海量的數據,通過運算分析事物的相關性,進而預測事物的發展。與只記錄過去,關注狀態, 簡單生成報表的傳統數據不同,大數據不是靜止不動的,而是不斷的更新、流動,不只記錄過 去,更反映未來發展的趨勢。過去,較少的數據量限制了發現問題的能力,而現在,隨着數據的 不斷積累,通過簡單的統計學方法就可能找到數據的相關性,找到事物發生的規律,指導人們的決策。

  ( 叄) 數據顯示

  數據顯示是將數據經過分析得到的結果以可見或可讀形式輸出,以方便用戶獲取相關信息。對於傳統的結構化數據,可以採用數據值直接顯示、數據表顯示、各種統計圖形顯示等形式來表示數據,而大數據處理的非結構化數據,種類繁多,關係複雜,傳統的顯示方法通常難以表現, 大量的數據表、繁亂的關係圖可能使用戶感到迷茫,甚至可能誤導用戶。利用計算機圖形學和圖像處理的可視計算技術成爲大數據顯示的重要手段之一,將數據轉換成圖形或圖像,用叄維形體來表示複雜的信息,直接對具有形體的信息進行操作,更加直觀,方便用戶分析結果。若採用立 體顯示技術,則能夠提供符合立體視覺塬理的繪製效果,表現力更爲豐富。對於傳統的數據表示方式,圖表、數據通常是二維的,用戶與計算機交互容易,而通過叄維表現的數據,通常由於數據過於複雜,難以定位而交互困難,可以通過最近興起的動作捕捉技術,獲取用戶的動作,將用戶與數據融合在一起,使用戶直接與繪製結果交互,便於用戶認識、理解數據。數據顯示以準確、方便的向用戶傳遞有效信息爲目標,顯示方法可以根據具體應用需要來選擇。

  ( 四) 實時處理數據的能力

  大數據需要充分、及時地從大量複雜的數據 中獲取有意義的相關性,找出規律。數據處理的 實時要求是大數據區別於傳統數據處理技術的重要差別之一。一般而言,傳統的數據處理應用對時間的要求並不高。運行 1 - 2 天獲得結果依然是可以接受的。而大數據領域相當大的一部分應 用需要在 1 秒鐘內或瞬間內得到結果,否則相關 的處理結果就是過時的、無效的。先存儲後處理的批處理模式通常不能滿足需求,需要對數據進 行流處理。由於這些數據的價值會隨着時間的推移不斷減少,實時性成了此類數據處理的關鍵。而數據規模巨大、種類繁多、結構複雜,使得大數據的實時處理極富挑戰性。數據的實時處理要求實時獲取數據,實時分析數據,實時繪製數 據,任何一個環節慢都會影響系統的實時性。當 前,互聯網絡以及各種傳感器快速普及,實時獲取數據難度不大; 實時分析大規模複雜數據是系統的瓶頸,也是大數據領域亟待解決的核心問題; 數據的實時繪製是可視計算領域的熱點問題,GPU 以及分佈式並行計算的飛速發展使得複雜數據的實時繪製成爲可能,同時數據的繪製可以根據實際應用和硬件條件選擇合適的繪製方式。

  五、大數據面臨的挑戰

  當今社會,互聯網絡和傳感器技術飛速發展,大規模非結構化數據快速積累,適應時代發展的大數據理論和技術其前瞻性是顯而易見的, 但同時,大數據的概念也有過分炒作的可能。大數據這種新的理念一出現,就出現了大數據當立,傳統方案當下的論調,似乎大數據是萬能的,傳統的數據分析、處理方法可以淘汰了,以數據爲中心,當數據多到一定程度時,用最簡單的算法就可以得到結果,不需要關注算法的優劣,只需關注數據的質量,大數據帶來的巨大運 算量可以由計算優勢來應對。實際上,大數據是一種新興的理論,大數據的概念、技術、方法還遠不成熟,在其發展的過程中還將面臨多種挑 戰,不應過分誇大其先進性。

  ( 一) 不能完全代替傳統數據

  當前大數據尚不能完全取代傳統結構化數 據,儘管大數據關注的非結構化數據的絕對數據量佔總數據量的 75% ,但由於非結構化數據的價 值偏低,有效的非結構化數據與結構化數據相比並不佔絕對優勢,對於某些特定的應用,結構化 數據仍然佔據主導地位。對於互聯網、社交網絡、傳感器網絡等應用,利用大數據分析可以更好的分析相關的非結構化海量數據,因此前面所述的 EMC、Google、Facebook 等面臨數據爆炸的商業巨頭積極推動大數據技術發展。而對於傳統 的結構化數據密集型的應用,相關研究已經持續 了幾十年,傳統數據處理方法可以很好的處理這 些結構化數據,對於這些應用則沒有必要應用大 數據相關技術,沒有必要盲目的追逐潮流。此 外,商業上一些所謂大數據應用,甚至就是對塬來技術進行新的包裝,並沒有革命性的突破。大數據當立,傳統方案當下的論調當前並不準確, 非結構化數據完全替代傳統數據尚需時日,用戶需要根據實際應用需要選擇合適的數據處理方 式。

  ( 二) 數據保護

  大數據時代,互聯網絡的發展使得獲取數據十分便利,給信息安全帶來了巨大的挑戰。當前,數據安全形勢不容樂觀,需要保護的數據量增長已超過了數據總量的增長。據IDC 統計: 2010 年僅有不到 1 /3 的數據需要保護,到 2020 年這一比例將超過 2 /5; 2012 年的統計顯示,雖 然有 35% 的信息需要保護,但實際得到保護的不到 20% 。在亞洲、南美等新興市場,數據保護的缺失更加嚴重。首先個人隱私更容易通過網絡泄 露,隨着電子商務、社交網絡的興起,人們通過網絡聯繫的日益緊密,將個人的相關數據足跡聚 集起來分析,可以很容易獲取個人的相關信息, 隱私數據就可能暴露,而數據在網絡上的發佈機制使得這種暴露似乎防不勝防;在國家層面,大 數據可能給國家安全帶來隱患,如果在大數據處理方面落後,就可能導致數據的單向透明,美國發布大數據研發計劃,大力發展大大數據技術就有增強國家安全方面的戰略考量。

  ( 叄) 相關性預知

  大數據時代,人們不再認爲數據是靜止和陳舊的,而是流動的、不斷更新的。大數據是人們獲得新的認知,創造新的價值的源泉,通過分析 數據的相關性可能預知事物的發展方向。但是從數據來的結論不一定能反映真實,比如隨着數據 的增多,會帶來部分錯誤的數據,使得數據價值大大降低,影響分析的結果,甚至可能得出錯誤 的結論。此外,大數據獲取的統計學上的宏觀結 論,對於一些微觀的問題並沒有意義,比如拋硬幣,拋的次數越多,得到正反兩面的次數越接 近,概率越接近 0. 5,但不管已經拋了多少次, 還是不能分析出下一次得到正面還是反面。因 此,不能希望通過大數據可以預知一切。

  六、結語鄭州×××醫院××× http://jbk.39.net/yiyuanzaixian/aynjyy/

  隨着社交網絡、物聯網、雲計算的飛速發展,大量非結構化數據呈指數級快速增長,數據樣式高度複雜,爲人類認識世界、改造世界提供 了重要的資源,企業和個人通過網絡可以大規模 的收集和分析數據,也可以產生、發佈數據,個體在互聯的網絡中既是數據的消費者又是數據的 生產者,大規模生產、分享、應用數據的大數據時代已經來臨。與此同時,數量巨大、種類繁多的數據給傳統的數據獲取、分析、處理、存儲、 檢索技術帶來了挑戰,大數據成爲廣泛關注且亟待解決的熱點問題,並已經開始影響社會的發展與人們的日常生活。然而大數據的概念和相關技 術還遠未成熟,尚存在着一定的爭議,面臨着諸 多挑戰,甚至有人認爲大數據有過分炒作的可 能。本文從幾種常見的描述大數據的概念出發, 分析大數據的典型的特徵,依據這些特徵來討論大數據技術可能的要解決的核心問題,最後討論了大數據可能要面臨的多種挑戰。

  大數據的概念來源於、發展於美國,並向全球擴展,必將給我國未來的科技與經濟發展帶來深遠影響。根據 IDC 統計,目前數據量在全球比 例爲: 美國 32% 、西歐 19% 、中國13% ,預計到 2020 年中國將產生全球 21% 的數據,我國是 僅次於美國的數據大國,而我國大數據方面的研 究尚處在起步階段,如何開發、利用保護好大數 據這一重要的戰略資源,是我國當前亟待解決的問題。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章