原创 Spark 集羣搭建詳細步驟

1修改主機名和hosts [root@localhost ~] hostname master [root@localhost ~] vi /etc/hostname #將裏面內容改爲: master  [root@localhost ~

原创 awk加Sort實現對前N-1個字段作Key,最後一個字段作Value的排序

最近有一些數據,形如: a1,asdff,dddd,23 zz,ss,ff,hh,kk,56 pppp,90 Wwww,qqq,eee,ttt,yyy,44 這樣的數據,需要將前面的N-1個字段作爲Key,最後一個字段做Value,並根據

原创 Ambari server安裝步驟及問題解決

環境: Ubuntu 15.04 1.配置軟件源 cd /etc/apt/source.list.d/ wget  http://s3.amazonaws.com/dev.hortonworks.com/ambari/ubuntu12/2

原创 Scala 將時間字符串轉爲時間戳

    今天需要將Nginx日誌中的時間字符串轉爲時間戳,再加以分析,由於剛學Scala不久,Java也只是一知半解,所以在時間轉換的時候浪費了一些時間,故在此備忘,也希望能幫到有需要的同學。    部分日誌格式如下圖:        需

原创 Flume 1.5.2 日誌中出現agent-shutdown-hook ,然後結束進程

    最近在使用Flume收集日誌,發現每隔幾個小時就flume進程就會掛掉,但是日誌中又沒有Error 和Exception,進程結束前的一些日誌如下: 09 Apr 2015 14:47:21,160 INFO [agent-sh

原创 Ubuntu 15.04 下 Docker 1.7.1 中DOCKER_OPTS配置不生效的解決

     本人最近在學習Docker,在Ubuntu 15.04下做測試,安裝方法是使用Docker官方提供的apt庫,然後使用apt-get安裝,具體方法參照這裏。     我想要測試使用自己的私有庫,由於私有庫沒有配置證書,所以需要在

原创 Spark on yarn Container beyond virtual memory limits

    最近在調試Spark 運行在Yarn上,但是奇怪的是我有兩個不同的Yarn集羣,其中一個集羣中的spark能在yarn正常提交和執行任務,但是另外一個集羣確不行,花了兩天時間才找到問題!下面說一說問題及解決方法。     問題描述

原创 Ubuntu 網卡橋接及橋接後網絡不通的解決方法

     最近在學習Docker,需要將局域網中不同機器上運行的Docker網絡調通,打算使用橋接的方式。下面記錄了一些相關的操作及遇到的問題和解決方法。     1. 安裝bridge-utils(系統爲Ubuntu 15.04)  

原创 Hadoop 磁盤配額測試

     最近需要使用到HDFS的磁盤配額(Quotas)功能,故稍微學習了一下,並做了一些簡單的測試。      HDFS的Quotas分爲兩種: Name Quotas :用於限制HDFS指定目錄下的文件或文件夾的數量;Space

原创 Linux查看每個CPU負載及進程IO

yum install -y sysstat 查看所有CPU內每一個處理器負載,刷新頻率1S(根據物理CPU個數)  mpstat -P ALL 1    查看指定的處理器負載(-P 後的數字從0開始),刷新頻率1S  mpstat -

原创 Scala ListBuffer使用備忘

    最近在學習Scala,在使用可變長度List 時,得知可以使用 scala.collection.mutable.ListBuffer ,在需要的時候可以使用append方法,但是由於剛接觸Scala,對其中的一些細節不再注意,

原创 Scala 讀取網頁數據測試及備忘

    最近在學習Scala,發現Scala確實很簡潔、強大。用Scala居然可以直接像打開本地文件一樣讀取網頁內容,確實很方便,但是稍不注意也會容易出錯。以下就是我的學習記錄:     Scala中文件讀取操作在scala.io.Sou

原创 Spark 提交任務時,報: Invalid signature file digest for Manifest main attributes

    今天在自己的電腦上,Ubuntu 14.04 中用Idea + SBT編寫Spark測試代碼,並打包成jar,上傳到Spark集羣上,submit時報錯: Exception in thread "main" java.la

原创 Spark Streaming 報錯:NoSuchMethodError: scala.Predef$.ArrowAssoc

   最近在學習Spark ,做了一些練習,發現了一些問題。    昨天在做Spark Streaming 的練習,編譯打包項目時沒有任何錯誤,但是運行時報錯: 15/05/26 21:33:24 INFO cluster.SparkD

原创 Scala 中Array,List,Tuple的區別

               雖然學了一段時間的Scala了,但是總覺得基礎不是太紮實,還有很多的基礎知識比較模糊,於是最近又打算重新學習基礎.     Scala中的三種集合類型包括:Array,List,Tuple.那麼到底這三種有哪