試讀《大數據日知錄：架構與算法》有感

原創

2020-06-15 23:26

活動地址：http://blog.csdn.net/blogdevteam/article/details/39894901。

其實“大數據”這個詞在我的腦海中還沒有一個比較確切的定義，幾年前我接觸了一個名詞“海量數據”，它主要是指在數據庫中如何處理優化查詢海量數據的SQL，或者使用NoSQL（Not only SQL）進行處理，進而進行數據分析、數據挖掘等，從大量無規律的數據中提取出有價值的信息，總之海量數據是與數據庫緊密關聯的。而這兩年興起了“大數據”浪潮，我認爲“海量數據”強調的是數據量的大小，而大數據則不僅僅是數據量的大小，還指數據本身的大小。用《大數據時代》中的4V特點來概括大數據就是：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（價值）。

大數據的應用場景

大數據時代已經來臨，比如淘寶網的日交易記錄、用戶瀏覽商品的記錄就是大數據的典型應用場景，根據這些“數據”能夠推斷出用戶購買商品的習慣、用戶喜歡什麼樣的商品，進而更加準確的推薦一些商品給用戶，以此提高交易額和交易量。再比如微信的應用，6億多用戶本身就是“大數據”，再加上6億多用戶彼此之間的關係，更是形成了一張巨大的社交網絡。如何爲這6億用戶提供高質量的實時通信交流、如何提供精確的搜索，都是大數據應用領域需要研究的課題。

pagerank 排名算法

pagerank即搜索引擎是根據什麼樣的規則、應用什麼樣的算法來對網頁進行關聯度篩選的，正好試讀部分提供了這部分的內容。以前曾經寫過簡單的網頁爬蟲程序，抓取指定網站的頁面的新聞等。原理很簡單，就是通過請求網站獲取返回的html進行分析，用正則篩選出包含關鍵字的頁面的href和標題，然後存入數據庫中。而通過試讀部分我瞭解到，pagerank即網頁的頁面等級基於兩個假設：數量假設、質量假設。pagerank算法剛開始賦予每個網頁相同的重要性得分，通過迭代遞歸計算來更新每個頁面節點的pagerank得分，直到得分穩定爲止。

TAO圖數據庫

我還關注到了試讀當中介紹的Facebook的TAO這個跨數據中心分佈式圖數據庫。它由分佈在多個數據中心的數千臺服務器構成，爲了能夠實時響應應用請求，系統架構更重視可用性和低延時，尤其是對讀操作做了很多優化。

通過主cache和從cache的二級緩存機制，降低緩存之間的耦合，同時系統也易於擴展。

未來大數據將會在各個領域不斷髮展和演變，並深刻的影響人類的生活。它涉及到的新技術、新架構非常繁雜，包括分佈式、機器學習、數據挖掘等各個技術方向，並作爲移動互聯網、雲計算、物聯網等應用領域的核心支撐。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

試讀《大數據日知錄：架構與算法》有感

水晶報表製作實例

從京東技術演進看互聯網企業的成長曆程

Android服務開發——WebService

GDI+ 如何將圖片繪製成圓形的圖片

誰擁有鯊魚

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結