原创 數據結構-05 |圖

  1. 圖的概念  圖(Graph)另一種非線性表數據結構。 樹中的元素稱爲節點,圖中的元素叫作頂點(vertex)。圖中的一個頂點可以與任意其他頂點建立連接關係。這種建立的關係叫作邊(edge)。跟頂點相連接的邊的條數叫作頂點的度(de

原创 算法-02 | 分治| 回溯

  算法的開章,遞歸是實現其他高級算法如深度優先、分治等的基礎; 碰到一個題目就找它的重複性,重複性有最近的重複性(根據重複性怎麼構造怎麼分解-->分治、回溯等辦法,本質就是遞歸),或者最優重複性(即動態規劃)。 本質上就是找它的重複性。

原创 數據結構-05 |遞歸

  1. 遞歸Recursion 1.1 概念  生活中就有很多用到遞歸的例子。     週末帶着女朋友去電影院看電影,女朋友問,咱們現在坐在第幾排啊?電影院裏面太黑了,看不清 於是你就問前面一排的人他是第幾排,你想只要在他的數字上加一,就

原创 數據結構-03 |哈希表| 映射| 集合

    哈希表(HashTable )& 集合(Set) 1. 哈希表 HashTable  1.1 概念  哈希表(Hash table),也叫散列表,是根據關鍵碼值(Key value)而直接進行訪問的數據結構。 它通過把關鍵碼值映射

原创 數據結構-02 |棧 |隊列| 雙端隊列| 優先隊列

   棧Stack |隊列Queue| 雙端隊列Deque| 優先隊列PriorityQueue 堆棧和隊列特點: 1. Stack - First In Last Out(FILO) 先入後出,先進來的被壓入棧底 .Array o

原创 CDH| Spark升級

  升級之Spark升級 在CDH5.12.1集羣中,默認安裝的Spark是1.6版本,這裏需要將其升級爲Spark2.1版本。經查閱官方文檔,發現Spark1.6和2.x是可以並行安裝的,也就是說可以不用刪除默認的1.6版本,可以直接安裝

原创 CDH| 安全之Kerberos安全認證

    1 Kerberos概述  1 什麼是Kerberos Kerberos是一種計算機網絡授權協議,用來在非安全網絡中,對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算機軟件。軟件設計上採用客戶端/服

原创 CDH |集羣資源管理| 性能測試| 資源管理| 郵件報警| 數據備份| 節點的添加

  測試之集羣性能測試  1 DFSIO測試 在Hadoop中包含很多的基準測試,用來驗證集羣的HDFS是不是設置合理,性能是不是達到預期,DFSIO是Hadoop的一個基準測試工具,被用來分析集羣HDFS的I/O性能。 DFSIO後臺執行

原创 CDH組件的使用-Flume| Kafka| Oozie基於Hue的任務調度

    日誌採集Flume配置  1)Flume配置分析        Flume直接讀log日誌的數據,log日誌的格式是app-yyyy-mm-dd.log。  2)Flume的具體配置如下:     (1)在CM管理頁面上點擊Flum

原创 CDH| 安全之Sentry權限管理

  Sentry概述 cdh版本的hadoop在對數據安全上的處理通常採用Kerberos+Sentry的結構。 kerberos主要負責平臺用戶的權限管理,sentry則負責數據的權限管理。   Sentry是什麼 Apache Sent

原创 CDH| Hive| Hue| Sqoop| Impala等組件安裝部署

    一. 添加Hive服務 將 Hive 服務添加到 Cluster 1 配置hive元數據 測試通過後繼續 自動啓動Hive進程 修改Hive配置 /opt/cloudera/parcels/HADOOP_LZO-0.4.1

原创 CDH組件的安裝| HDFS的配置 | Flume| Kafka|

  一. HDFS的參數配着  1. 修改HDFS的權限檢查配置 關閉HDFS中的權限檢查:dfs.permissions。   2. 配置Hadoop支持LZO   點擊主機,在下拉菜單中點擊Parcel          點擊配置  

原创 Flink| 容錯機制

  一致性檢查點(checkpoint) 從檢查點恢復狀態 Flink檢查點算法 保存點(save point) 1. 一致性檢查點(checkpoint) Flink--有狀態的流式處理     如上圖sum_even (2+4),su

原创 Apache Atlas安裝和配置

  Atlas概述 Apache Atlas爲組織提供開放式元數據管理和治理功能,用以構建其數據資產目錄,對這些資產進行分類和管理,併爲數據分析師和數據治理團隊,提供圍繞這些數據資產的協作功能。  Atlas架構原理   Atlas安裝及使

原创 OLAP分析工具之Presto

  Presto     Presto是一個開源的分佈式SQL查詢引擎,數據量支持GB到PB字節,主要用來處理秒級查詢的場景。 雖presto可以解析SQL,但它不是一個標準的數據庫,不是MySQL、Oracle的代替品,也不能用來處理在線