原创 Spark自定義函數(1)

記錄:Spark有個需求需要把某個ip字段進行點分十進制的轉換,使用自定義函數實現,在此處記錄實現過程 點分十進制轉換函數 此時的函數僅是scala代碼,無法再DataFrame中使用 Spark自定義函數的點分十進制轉換

原创 Spark優化----開發調優(下)

上次講到避免使用shuffle類算子,接下來繼續5、使用map-side預聚合的shuffle操作如果因爲業務需要,一定要使用shuffle操作,無法用map類的算子來替代,那麼儘量使用可以map-side預聚合的算子。所謂的map-sid

原创 Hbase 關聯 hive 表

Hbase 是可以支持實時查詢的非關係行數據庫,採用列存儲的同時也是的直接查詢的數據不太直觀,對此,我們可以將之關聯hive表,通過HQL大到查詢Hbase的目的Hbase 關聯 hive 表有兩種方式(通過建立hive管理表 和 外表的方

原创 高可用集羣獲取活躍NameNode的信息

今天在工作中同事問我在高可用集羣下如何獲取活躍的NameNode的信息。當時有點懵,一時間不知道咋獲取。 然後度娘了一下,最後找到了辦法。 首先先說一下啥事高可用 HA的意思是High Availability高可用,指噹噹前工作中的機器宕

原创 鳥哥linux私房菜_筆記_Linux的文件權限與目錄配置

5.1 使用者與羣組1. 文件擁有者:2. 羣組概念:3. 其他人的概念:Linux 使用者身份與羣組記錄的文件默認的情況下,所有的系統上的帳號與一般身份使用者,還有那個root的相關信息, 都是記錄在/etc/passwd這個文件內的。至

原创 多線程基礎(一)

什麼是線程?首先講一下程序、進程和線程的區別:程序:指令集,靜態的概念:進程:操作系統 調度程序, 動態的概念。每個進程都有獨立的代碼和數據空間(進程上下文),進程間的切換會有較大的開銷,一個進程包含1--n個線程。線程:在進程內多條執行路

原创 Spark 錯誤記錄

scheduler.LiveListenerBus: Listener SQLListener threw an exception java.lang.NullPointerException image.png 在這個報

原创 二叉樹

樹和二叉樹1、樹的定義樹(Tree)是由 一個 或 多個結點  組成的有限集合T,且滿足:①有且僅有一個稱爲根的結點;②其餘結點分成n(n≥0)個互不相交的集合T1,T2,…Tn,其中每個集合都是一棵樹,並且稱Ti (1≤i≤n) 爲根的子

原创 Hadoop學習筆記

注:本文是我學習Hadoop權威指南的時候一些關鍵點的記錄,並不是全面的知識點 Hadoop 避免數據丟失的方法:副本 冗餘硬盤隊列數據結合問題:結合不同來源的數據進行分析MapReduce  自身具有很高的穩定性,對外部只提供Map 和

原创 Spark 任務提交

提交的應用程序Spark的bin目錄中的Spark -submit腳本用於在集羣上啓動應用程序。它可以通過一個統一的接口使用所有Spark支持的集羣管理器,這樣您就不必爲每一個都配置您的應用程序。綁定應用程序的依賴關係如果您的代碼依賴於其他