大數據的概念定義及其發展歷史

  大數據(Big Data)又稱爲巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。“大數據”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數據時代》中提出,指不用隨機分析法(抽樣調查)的捷徑,而是採用所有數據進行分析處理。大數據有4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

  一、大數據概念定義

  對於“大數據”(Big data)研究機構Gartner給出了定義,“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

  大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

  從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須採用分佈式架構。它的特色在於對海量數據進行分佈式數據挖掘,但它必須依託雲計算的分佈式處理、分佈式數據庫和雲存儲、虛擬化技術。

  隨着雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲臺》的分析師團隊認爲,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因爲實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

  大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分佈式文件系統、分佈式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。

  最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:

  8bit= 1Byte

  1KB= 1,024 Bytes

  1MB= 1,024 KB = 1,048,576 Bytes

  1GB= 1,024 MB = 1,048,576 KB

  1TB= 1,024 GB = 1,048,576 MB

  1PB= 1,024 TB = 1,048,576 GB

  1EB= 1,024 PB = 1,048,576 TB

  1ZB= 1,024 EB = 1,048,576 PB

  1YB= 1,024 ZB = 1,048,576 EB

  1BB= 1,024 YB = 1,048,576 ZB

  1NB= 1,024 BB = 1,048,576 YB

  1 DB = 1,024 NB = 1,048,576 BB

  二、發展歷史

  1887–1890年

  美國統計學家赫爾曼·霍爾瑞斯爲了統計1890年的人口普查數據發明了一臺電動器來讀取卡片上的洞數,該設備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球範圍內引發了數據處理的新紀元。

  1935–1937年

  美國總統富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項數據收集項目,IBM最終贏得競標,即需要整理美國的2600萬個員工和300萬個僱主的記錄。共和黨總統候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而調用大規模的現場調查人員去核實那些信息不完整的人員記錄。”

  1943年

  一家英國工廠爲了破譯二戰期間的納粹密碼,讓工程師開發了系列開創性的能進行大規模數據處理的機器,並使用了第一臺可編程的電子計算機進行運算。該計算機被命名爲“巨人”,爲了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費數週時間才能完成的工作量壓縮到了幾個小時。破譯德國部隊前方陣地的信息以後,幫助盟軍成功登陸了諾曼底。

  1997年

  美國宇航局研究員邁克爾·考克斯和大衛·埃爾斯沃斯首次使用“大數據”這一術語來描述20世紀90年代的挑戰:超級計算機生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和可視化的。數據集通常之大,超出了主存儲器、本地磁盤,甚至遠程磁盤的承載能力。”他們稱之爲“大數據問題。”

  2002年

  在9/11襲擊後,美國政府爲阻止恐怖主義已經涉足大規模數據挖掘。前國家安全顧問約翰·波因德克斯特領導國防部整合現有政府的數據集,組建一個用於篩選通信、犯罪、教育、金融、醫療和旅行等記錄來識別可疑人的大數據庫。一年後國會因擔憂公民自由權而停止了這一項目。

  2004年

  9/11委員會呼籲反恐機構應統一組建“一個基於網絡的信息共享系統”,以便能快處理應接不暇的數據。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通訊日報。與此同時,零售商積累關於客戶購物和個人習慣的大量數據,沃爾瑪自吹已擁有一個容量爲460字節的緩存器——比當時互聯網上的數據量還要多一倍。

  2007–2008年

  隨着社交網絡的激增,技術博客和專業人士爲“大數據” 概念注入新的生機。“當前世界範圍內已有的一些其他工具將被大量數據和應用算法所取代”。《連線》的克里斯·安德森認爲當時處於一個“理論終結時代”。一些政府機構和美國的頂尖計算機科學家聲稱,“應該深入參與大數據計算的開發和部署工作,因爲它將直接有利於許多任務的實現。”

  2009年1月

  印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,併爲每人分配12位的數字ID號碼,將數據彙集到世界最大的生物識別數據庫中。官員們說它將會起到提高政府的服務效率和減少腐敗行爲的作用,但批評者擔心政府會針對個別人進行剖面分析並與分享這些人的私密生活細節。

  2009年5月

  大數據或成反恐分析利器

  美國總統巴拉克·奧巴馬政府推出data.gov網站作爲政府開放數據計劃的部分舉措。該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯尼亞到英國範圍內的政府們相繼推出類似舉措。

  2009年7月

  應對全球金融危機,聯合國祕書長潘基文承諾創建警報系統,抓住“實時數據帶給貧窮國家經濟危機的影響” 。聯合國全球脈衝項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。

  2011年2月鄭州×××醫院××× http://jbk.39.net/yiyuanzaixian/aynjyy/

  掃描2億年的頁面信息,或4兆兆字節磁盤存儲,只需幾秒即可完成。IBM的沃森計算機系統在智力競賽節目《危險邊緣》中打敗了兩名人類挑戰者。後來紐約時報配音這一刻爲一個“大數據計算的勝利。”

  2012年3月

  美國政府報告要求每個聯邦機構都要有一個“大數據”的策略,作爲迴應,奧巴馬政府宣佈一項耗資2億美元的大數據研究與發展項目。國家衛生研究院將一套人類基因組項目的數據集存放在亞馬遜的計算機雲內,同時國防部也承諾要開發出可“從經驗中進行學習”的“自主式”防禦系統。中央情報局局長戴維·彼得雷烏斯將軍在發帖討論阿拉伯之春機構通過雲計算收集和分析全球社會媒體信息之事時,不禁驚歎我們已經被自卸卡車倒進了“‘數字塵土”中。

  2012年7月

  美國國務卿希拉里·克林頓宣佈了一個名爲“數據2X”的公私合營企業用來收集統計世界各地的婦女和女童在經濟、政治和社會地位方面的信息。“數據不只是測量過程——它能給予我們啓發,”她解釋說。“一旦人們開始對某個問題實施測量時,就更傾向於採取行動來解決它們,因爲沒有人願意排到名單的最低端去。”讓大數據開始競賽吧。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章