試讀《大數據日知錄:架構與算法》有感

活動地址:http://blog.csdn.net/blogdevteam/article/details/39894901

其實“大數據”這個詞在我的腦海中還沒有一個比較確切的定義,幾年前我接觸了一個名詞“海量數據”,它主要是指在數據庫中如何處理優化查詢海量數據的SQL,或者使用NoSQL(Not only SQL)進行處理,進而進行數據分析、數據挖掘等,從大量無規律的數據中提取出有價值的信息,總之海量數據是與數據庫緊密關聯的。而這兩年興起了“大數據”浪潮,我認爲“海量數據”強調的是數據量的大小,而大數據則不僅僅是數據量的大小,還指數據本身的大小。用《大數據時代》中的4V特點來概括大數據就是:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

大數據的應用場景

大數據時代已經來臨,比如淘寶網的日交易記錄、用戶瀏覽商品的記錄就是大數據的典型應用場景,根據這些“數據”能夠推斷出用戶購買商品的習慣、用戶喜歡什麼樣的商品,進而更加準確的推薦一些商品給用戶,以此提高交易額和交易量。再比如微信的應用,6億多用戶本身就是“大數據”,再加上6億多用戶彼此之間的關係,更是形成了一張巨大的社交網絡。如何爲這6億用戶提供高質量的實時通信交流、如何提供精確的搜索,都是大數據應用領域需要研究的課題。

pagerank 排名算法

pagerank即搜索引擎是根據什麼樣的規則、應用什麼樣的算法來對網頁進行關聯度篩選的,正好試讀部分提供了這部分的內容。以前曾經寫過簡單的網頁爬蟲程序,抓取指定網站的頁面的新聞等。原理很簡單,就是通過請求網站獲取返回的html進行分析,用正則篩選出包含關鍵字的頁面的href和標題,然後存入數據庫中。而通過試讀部分我瞭解到,pagerank即網頁的頁面等級基於兩個假設:數量假設、質量假設。pagerank算法剛開始賦予每個網頁相同的重要性得分,通過迭代遞歸計算來更新每個頁面節點的pagerank得分,直到得分穩定爲止。


TAO圖數據庫

我還關注到了試讀當中介紹的Facebook的TAO這個跨數據中心分佈式圖數據庫。它由分佈在多個數據中心的數千臺服務器構成,爲了能夠實時響應應用請求,系統架構更重視可用性和低延時,尤其是對讀操作做了很多優化。

通過主cache和從cache的二級緩存機制,降低緩存之間的耦合,同時系統也易於擴展。


未來大數據將會在各個領域不斷髮展和演變,並深刻的影響人類的生活。它涉及到的新技術、新架構非常繁雜,包括分佈式、機器學習、數據挖掘等各個技術方向,並作爲移動互聯網、雲計算、物聯網等應用領域的核心支撐。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章