台部落lillcol

記錄：Spark有個需求需要把某個ip字段進行點分十進制的轉換，使用自定義函數實現，在此處記錄實現過程點分十進制轉換函數此時的函數僅是scala代碼，無法再DataFrame中使用 Spark自定義函數的點分十進制轉換

2018-10-12 06:39:45

上次講到避免使用shuffle類算子，接下來繼續5、使用map-side預聚合的shuffle操作如果因爲業務需要，一定要使用shuffle操作，無法用map類的算子來替代，那麼儘量使用可以map-side預聚合的算子。所謂的map-sid

2018-10-01 06:39:30

Hbase 是可以支持實時查詢的非關係行數據庫，採用列存儲的同時也是的直接查詢的數據不太直觀，對此，我們可以將之關聯hive表，通過HQL大到查詢Hbase的目的Hbase 關聯 hive 表有兩種方式（通過建立hive管理表和外表的方

2018-10-01 06:39:30

今天在工作中同事問我在高可用集羣下如何獲取活躍的NameNode的信息。當時有點懵，一時間不知道咋獲取。然後度娘了一下，最後找到了辦法。首先先說一下啥事高可用 HA的意思是High Availability高可用，指噹噹前工作中的機器宕

2018-10-01 06:39:30

5.1 使用者與羣組1. 文件擁有者：2. 羣組概念：3. 其他人的概念：Linux 使用者身份與羣組記錄的文件默認的情況下，所有的系統上的帳號與一般身份使用者，還有那個root的相關信息，都是記錄在/etc/passwd這個文件內的。至

2018-10-01 06:39:30

什麼是線程？首先講一下程序、進程和線程的區別：程序：指令集，靜態的概念：進程：操作系統調度程序，動態的概念。每個進程都有獨立的代碼和數據空間（進程上下文），進程間的切換會有較大的開銷，一個進程包含1--n個線程。線程：在進程內多條執行路

2018-10-01 06:39:30

scheduler.LiveListenerBus: Listener SQLListener threw an exception java.lang.NullPointerException image.png 在這個報

2018-10-01 06:39:30

樹和二叉樹1、樹的定義樹(Tree)是由一個或多個結點組成的有限集合T，且滿足：①有且僅有一個稱爲根的結點；②其餘結點分成n(n≥0)個互不相交的集合T1,T2,…Tn，其中每個集合都是一棵樹，並且稱Ti (1≤i≤n) 爲根的子

2018-10-01 06:39:29

注：本文是我學習Hadoop權威指南的時候一些關鍵點的記錄，並不是全面的知識點 Hadoop 避免數據丟失的方法：副本冗餘硬盤隊列數據結合問題：結合不同來源的數據進行分析MapReduce 自身具有很高的穩定性，對外部只提供Map 和

2018-10-01 06:39:29

提交的應用程序Spark的bin目錄中的Spark -submit腳本用於在集羣上啓動應用程序。它可以通過一個統一的接口使用所有Spark支持的集羣管理器，這樣您就不必爲每一個都配置您的應用程序。綁定應用程序的依賴關係如果您的代碼依賴於其他

2018-10-01 06:39:29