大數據時代的4個V

       
        “大數據”的經典定義是可以歸納爲4個V:海量的數據規模(volume)、快速的數據流轉和動態的數據體系(velocity)、多樣的數據類型(variety)和巨大的數據價值(value)。

        大數據首先要考慮的應該是“大”——海量的數據規模。谷歌執行董事長艾瑞克.施密特曾說,現在全球每兩天所創造的數據量等同於從人類文明至2003年間產生的數據量的總和。而具體到企業應用領域,漫無邊際、浩如煙海的數據對企業並無意義,日立數據系統公司(HDS)副總裁兼CTO Hubert Yoshida表示,數據量的“大”是相對而言的概念,對於像SAP的HANA那樣的“內存數據庫”來說,能把2 TB的數據用好就是勝利;而對於像谷歌這樣的搜索引擎,EB(1024×1024 TB)的數據量才能稱得上是大數據。


        然而,海量數據的危機並不單純是數據量的爆炸性增長,它還牽涉到數據類型的改變。原來的數據都可以用二維表結構存儲在數據庫中,如常用的Excel軟件所處理的數據,稱之爲結構化數據。但是現在更多互聯網多媒體應用的出現,使諸如圖片、聲音和視頻等非結構化數據佔到了很大比重。有統計顯示,全世界結構化數據年增長率大概是32%,而非結構化數據則是63%。2012年,非結構化數據佔有比例已經達到互聯網整個數據量的75%以上。而產生智慧的大數據,往往是這些非結構化數據。


        “互聯網產生的非結構化數據佔比越來越大,約爲大數據總容量的85%,傳統行業的數據大概只有15%。”對於百度這樣的互聯網公司,建立數據體系、研發消費者畫像、品牌探針等基於大數據的應用簡直是天經地義。百度副總裁王湛將百度的大數據策略描述爲“數據+工具+應用”,包括百度指數、司南、統計、搜索風雲榜和研究中心在內的五大平臺數據已經形成了一個數據集合體,全程記錄消費者從需求、搜索、購買,到使用和分享的整個歷程,對客戶進行精準營銷。“通過5億消費者的千億級行爲數據,百度構建了搜索營銷、無線推廣、聯盟受衆引擎、社交化營銷、品牌洞察等多維度體系的百度商業產品藍圖。”


        大數據帶來的挑戰還在於它的實時處理。在數據倉庫誕生的第一天,一直就有一個話題——要把大查詢分解成小任務,這些小任務由一臺臺的機器來完成。“我們的要求在於,上億條數據的分析能夠在5秒鐘內完成。”中國民族證券信息技術部總經理顏陽表示。因爲過往關聯性數據庫產品處理大量數據時的運算速度都不快,Hadoop等加速數據查詢的分佈式開源數據庫從邊緣走向主流;另外,數據存儲的廠商也不再拘泥於用傳統硬盤來存儲數據,而嘗試使用快速閃存。


在商業社會中,“從數據中得到價值”一直都不是什麼新鮮的東西,但是當大數據時代到來,經濟的新增量逐漸顯露出來。儘管數據挖掘從“啤酒與尿布”開始做了幾十年,但是“大數據”與我們通常所說的“數據”還是有顯著的不同。


        花旗集團今年聘請了一位名叫沃森的天才顧問,幫助其增強數字銀行業務。這位沃森還同時爲包括WellPoint在內的醫療服務公司提供諮詢,去年,他還在工作之餘獲得了電視智力競賽節目《危險邊緣》的頭獎。據沃森的朋友講,他還有其他不願透露的企業職務,年收入很快就會超過10億美元。這一天文數字的收入使他成爲美國打工者中的超級精英……只不過,沃森是一臺機器。


        對數據進行挖掘分析正在顛覆每一種類型的企業。位於紐約長島的文藝復興科技公司(Renaissance Technologies)所管理的對衝基金,目前管理着150億美元的資產。這家公司或許是20年來業績最佳的對衝基金,而領導這家公司的是兩名來自IBM人工智能實驗室的科學家,他們開發了許多數學模型用來進行分析和交易,這些模型都是建立在海量數據基礎上的,具有可靠性並可進行實際預測,而最後的結果往往與他們預想的一樣。


        瞧,當我們在談論大數據的時候,我們最終談論的還是——錢。


        8米長虛擬鱷魚的大數據


        今年夏天上映的《百萬巨鱷》是國內首部特效驚悚怪獸類型電影,片中的真正主角並不是嬌弱的大S,而是一條長八米重達兩噸的巨型鱷魚,名叫“阿毛”。


        “阿毛”是完全由特效製作產生,特效製作動物的關鍵就在於質感——皮膚的柔軟度、牙齒、眼神等細小部位的刻畫,稍有不慎就很容易露怯。爲此,製作方北京歌亮傳媒有限公司召集了國內最頂級的特效技術人員,花了3個月的時間爲鱷魚形象做準備。特效製作過程分爲多個工種,如建模、燈光、材質、渲染、動畫、骨骼、肌肉動力學、特效、毛髮等。其中,水和毛髮的製作被認爲是最難製作的特效種類的代表,但這也是電影《百萬巨鱷》中運用最多的部分。


        傳統電影經過前期策劃、拍攝以及後期調色、配音並加入音樂等幾個步驟後就可以上映了。但是拍攝一部需要特效製作的影片,前期拍攝與後期製作所需的時間通常是1:6,後期的特效製作成了一個十分關鍵的環節。《百萬巨鱷》的拍攝和製作週期超過3年,其中大量的時間都花在了特效製作上,如何儘量縮短電影的製作週期,節省時間,以便更快獲得收益至關重要,而如此複雜的製作特效工作,需要多臺特效終端能夠及時、快速地處理大量影像數據,在有限的工期內高效地完成全片的特效製作工作,要求歌亮傳媒的存儲系統擁有更好的I/O處理能力和更高的數據吞吐量、更快的圖片渲染和下載速度,大幅減少數據量大造成的系統處理瓶頸,從而實現更適合海量影像文件處理的數據管理、虛擬化和數據保護。


        最後,歌亮傳媒選擇的是參與了《阿凡達》、《功夫熊貓》、《哈利波特》系列以及《暮光之城》等後期製作的日立數據系統公司的大數據存儲平臺。僅2011年,使用該平臺的影視作品全年爲全球影視產業貢獻了近40億美元的票房收入。


        在影片的後期處理過程中,特效製作需要快速調用容量很大的圖片和影像素材等文件,因此特效師往往需要等待系統處理來搜索到想要的圖片,這段時間就成爲對特效師工作無效的“純等待”時間。通過解決多用戶併發訪問文件系統較慢的問題,歌亮的整個系統的數據讀取速度得到了明顯提升——可以同時爲多人提供優越的讀寫服務,散文件讀寫也更加流暢,特效師和相關工作人員直接獲得影像文件的速度提高30%~40%,大大提高了特效師們的創作效率,也不會讓一些即興的創作靈感因爲數據調用的等待而消失殆盡。同時,通過多系統平臺的統一管理和權限設置,使得操作人員的誤操作減少,從另一個方向上提高了工作效率;得益於存儲系統的高可靠性,在讀取大量素材數據文件時,能夠保障特效渲染工作長期不間斷穩定運行,把浪費的時間降到最低。


        多方合力,爲整個《百萬巨鱷》特效製作工作的快速高質完成提供了重要保障。所有的工作人員都能夠將時間和金錢花在“刀刃”上,讓最終所產出作品的質量得到了實質性的提升,電影震撼力也大大加強。


        “電子眼”的後端智慧


        大數據對於視頻監控行業不是個新鮮話題。


        海康威視副總裁兼CTO蔣海青介紹,大數據技術已經在一些地方政府主導的“智慧城市”項目中有了實施,“平安城市”視頻監控應用是項目的重要組成部分。


        作爲全球視頻監控產品的領軍企業,海康威視在國內參與的“平安城市”應用是視頻監控領域規模最大、業務最複雜的系統,其視頻接入規模從成千上萬到十幾萬、甚至幾十萬都有,其中涉及了治安監控、指揮通信、偵查破案、規範執法、社會服務等多個分區領域,“而且現在視頻監控所採集的視頻質量也從標清進步到了高清的時代,因此大家可以想象一個大型‘平安城市’項目所產生的數據信息量有多大?而視頻監控所產生的數據無論在規模還是結構上,都符合大數據的定義。”蔣海青表示。


        “平安城市”視頻監控採集到的海量數據也和其他種類的大數據一樣,只有進行智能、高效處理才更具價值。蔣海青指出:“傳統的視頻監控通常都需要人工監控,可人一般對視頻只有20分鐘的有效監控,之後注意力和關注點就下降了。”相比之下,智能化的監控技術不但不會像人一樣產生疲勞,能夠不間斷地運行,而且它“還能從大量非結構化的視頻數據中提取出有價值的信息,將視頻監控的應用範圍從過去和目前以事後查看爲主,慢慢轉變爲事前預警,這就可以爲公安、交通等各行各業提供更爲有效的業務信息支持。”


        上述兩個特點決定了“平安城市”視頻監控應用需要大數據技術的支撐。“我們也曾經想過用原有的關係型數據庫來承載相關的數據和應用,但是關係型數據庫已經沒有辦法支持海量的、非結構化或半結構化的數據。”蔣海青稱,海康威視最終選擇的是英特爾的Hadoop大數據平臺。


        海康威視認爲應用端需要的採集點很多、視頻通道非常大,因此“處理平臺不能是全集中式也不可能是全分佈式,而應該是兩者的結合”,而Hadoop的靈活性對此非常適用;海康威視要在Hadoop的數據管理和組織層上加入用於視頻數據的圖像處理、分析、分類技術,基於語義的分佈式視頻搜索技術來對它們進行挖掘,英特爾的開放平臺也提供了充足的創新空間。這一方案目前已經在海康威視參與部署的某些城市的智能交通監控領域得到了應用,它可以掌控城市交通攝像頭覆蓋區域中任一車輛的行駛狀態、運行軌跡,分析出其是否違章行爲或有潛在犯罪可能性,而且還能對海量交通信息進行比對、分析和預測,實現車輛布控、擁堵狀態服務、出行最優路徑規劃、交通管理服務等功能。


        未來,海康威視還計劃將這一方案應用於小微企業或個人用戶,例如將一些小店鋪、連鎖超市的視頻監控通過雲服務的方式整合起來,通過分析其視頻監控數據提供潛在風險的預警。“這樣的系統是完全基於互聯網的平臺,所以它的數據量可能比‘平安城市’的規模還要大,數據的採集、分析、存儲及檢索的難度還要高。”蔣海青稱。


        3G上網“明白賬”


        用微信聯繫上一羣好友,然後在手機上找到一家附近的特色餐廳,大家紛紛開着導航過去,上菜前低頭看微博,菜上了不吃先拍照分享,這就是一部分當代都市人的真實生活寫照。


        在智能手機走進千家萬戶,3G網絡普及,流量飛速增長的今天,對於流量、上網記錄的投訴也同時以不可控制的速度遞增,甚至運營商也曾被消費者以“欺詐”等名義起訴,類似於“您的智能手機可能進行了系統或軟件的更新”等含糊的解答再也應對不了消費者的質疑。爲客戶提供上網記錄查詢並非我們想象的這麼簡單。


        這個查詢系統需要提供海量級的數據應用。今年上半年,我國移動互聯網用戶已達3.88億,同期國內某電信運營商月移動上網記錄也增至上萬億條之多,而且每半年時間其上網記錄數量都會成倍遞增。特別是移動上網記錄擁有高容量、數據類型多樣化、持續不斷增長刷新以及能夠從中挖掘出有價值的信息這四個基本特徵,算是典型的“大數據”,傳統的關係數據庫根本無法應對上網記錄的存儲、管理和處理重任。


        有運營商已進行過測試:當傳統關係型數據庫承載百億條數據的時候,就已開始有心無力,一個查詢請求有可能幾個小時都不能返回結果。所以,針對大數據的一系列管理和處理技術也就成爲了運營商構建高效透明查詢系統,樹立誠信服務的關鍵技術。


        國內某3G服務的運營商近期就採用一套基於英特爾架構的解決方案率先化解了這個難題。這套解決方案的核心硬件和軟件平臺分別是基於英特爾至強處理器的服務器,以及英特爾Hadoop發行版,後者可以爲大數據提供分佈式、橫向可擴展的數據組織與管理功能,並將應用負載分散到硬件系統的每個節點上。


        最終,該運營商成功構建了移動用戶上網記錄查詢與分析支持系統。該系統使得相關記錄檢索速度達到了秒級,即輸入任何一個城市的號碼,其詳細上網記錄會在1~2秒種的時候內被檢索出來;在用戶界面中輸入號碼後,瞬間就可以得到每天的流量記錄,詳細的網站地址,在什麼位置上的網,用的是什麼網絡以


        起始時間等等,用戶再有任何質疑,運營商的客服人員都可以通過清晰明確地答覆,消除他的疑慮。


        “因爲有了大數據,有了現在的這些技術支持,以前需要3-6個月才能查詢的記錄我們現在只需要幾分鐘,甚至更快。”運營商負責人表示,“這些數據的挖掘分析還將爲最終客戶的使用體驗展現出更高的價值。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章