原创 Hive 中類SQL語言中的 oder by,gruop by的區別

order by 是按字段排序 group by 是按字段分組,即select 字段必須是“分組依據字段”  order by 從英文翻譯出發,就是行的排序方式,默認的爲升序。 order by 後面必須列出排序的字段名,可以是多個字段名

原创 Scala學習之Option類

今天特意學習一下Option類型 一般來說,對於每種語言都會有一個關鍵字來表示一個對象引用的“無”。比如在Java中使用的是null。 在Scala中是融合了函數式編程的風格,當預計到變量或者函數返回值可能不會引用任何值的時候,使

原创 簡要描述安裝配置apache的一個開源Hadoop集羣

安裝Hadoop集羣的簡要步驟 (1)集羣準備工作 a. 準備三臺客戶機(配置IP,編寫主機名,配置網絡,關閉防火牆......) (2)安裝JDK,安裝hadoop (3)配置JAVA_HOME 和 HADOOP_HOME的環境變量 (

原创 Scala的初步學習(一)

聲明變量: val var 常用類型: Short Byte Int Char Long Double Boolean apply update option 數據結構有如下: 集合特質: 可變和不可變 集合:沒有重複 數組:定長(Arr

原创 什麼是軟連接,軟連接的作用

什麼是軟連接,其實就是別名,簡單的理解就是相當於windows的快捷方式。   ln -s /opt/dir /tmp/ddd 命令行格式如下: ln  -s  源目錄 目標軟連接 進入軟連接 cd /opt/dir     實際上d

原创 Scala初步學習(二)

問題: 思考統計一個字符串中字符出現的頻率問題   代碼解決方法主要有兩種 (一) val freq = scala.collection.mutable.Map[Char, Int]() for (c <- "Mississippi"

原创 hadoop 關閉datanode節點時發生異常:no datanode to stop

在開啓Hadoop時,集羣中的所有節點是沒有問題的,在關閉時datanode節點時發生異常:顯示 no datanode to stop 關閉時,出現這樣的問題,在我百度N+1次之後,好多博文顯示說需要對hadoop進行格式化,

原创 hdfs客戶端的學習理解

對hdfs客戶端的理解 (1)該客戶端的形式有多種 a.網頁形式 b. 命令行形式 c.客戶端在哪兒運行,都可以,只要該客戶端可以和集羣聯網就行   (2)文件的切塊大小和存儲的副本數量,都是由客戶端決定! 所謂的由客戶端決定,是通過配

原创 Hive中類SQL語言中的where 與having

1.用的地方不一樣    where可以用於select、update、delete和insert...into語句中。    having只能用於select語句中 2.執行的順序不一樣   where 子句在聚合之前起作用,不能放在

原创 Scala學習之 java.net.BindException: 無法指定被請求的地址: Service 'sparkDriver' failed

在Scala本地運行時,出現無法指定被請求地址,通過朋友幫助終於解決問題` java.net.BindException: 無法指定被請求的地址: Service ‘sparkDriver’ failed after 16 ret

原创 Linux之df命令

df  命令是用來檢查linux服務器的文件系統的磁盤空間佔用情況。可以利用df來獲取硬盤被佔用了多少空間,剩多少空間。                功能:     顯示指定文件的可用空間。如果沒有文件名被指定,則所有當前被掛在的文件系

原创 大數據學習之Hadoop任務輸出到多個目錄中

有可能使 Hadoop 任務輸出到多個目錄中嗎?如果可以的話,怎麼做? 1)可以輸出到多個目錄中,採用自定義OutputFormat。 2)實現步驟: (1)自定義outputformat, (2)改寫recordwriter,具

原创 Scala初步學習(三)

拉鍊操作   作用於兩個集合,將對應的元素合併成一個元組。 val p = List(1,2,3,4) val q = List(11,12,13,14) p zip q    

原创 Hadoop之mapReduce有幾種排序及排序發生的階段

1)排序的分類: (1)部分排序: MapReduce根據輸入記錄的鍵對數據集排序。保證輸出的每個文件內部排序。 (2)全排序: 如何用Hadoop產生一個全局排序的文件?最簡單的方法是使用一個分區。但該方法在處理大型文件時效率極

原创 hadoop中的序列化和反序列化

談談Hadoop序列化和反序列化及自定義bean對象實現序列化 1)序列化和反序列化 序列化就是把內存中的對象,轉換成字節序列(或其他數據傳輸協議)以便於存儲(持久化)和網絡傳輸。  反序列化就是將收到字節序列(或其他數據傳輸協議)或者是