原创 Programming In Scala筆記-第十九章、類型參數,協變逆變,上界下界

  本章主要講Scala中的類型參數化。本章主要分成三個部分,第一部分實現一個函數式隊列的數據結構,第二部分實現該結構的內部細節,最後一個部分解釋其中的關鍵知識點。接下來的實例中將該函數式隊列命名爲Queue。 一、函數式隊列  

原创 Programming In Scala筆記-第七章、Scala中的控制結構

  所謂的內建控制結構是指編程語言中可以使用的一些代碼控制語法,如Scala中的if, while, for, try, match, 以及函數調用等。需要注意的是,Scala幾乎所有的內建控制結構都會返回一個值,這是由於函數式編

原创 Spark Streaming編程指南

  本文基於Spark Streaming Programming Guide原文翻譯, 加上一些自己的理解和小實驗的結果。    一、概述   Spark Streaming是基於Core Spark API的可擴展,高吞吐量

原创 IntelliJ IDEA在Local模式下Spark程序消除日誌中INFO輸出

  在使用Intellij IDEA,local模式下運行Spark程序時,會在Run窗口打印出很多INFO信息,輔助信息太多可能會將有用的信息掩蓋掉。如下所示      要解決這個問題,主要是要正確設置好log4j文件,本文主

原创 Programming In Scala筆記-第九章、控制抽象

  本章主要講解在Scala中如何使用函數值來自定義新的控制結構,並且介紹Curring和By-name參數的概念。 一、減少重複代碼 1、重複代碼的場景描述   前面定義的函數,將實現某功能的代碼封裝到一起形成一個特定功能的代碼

原创 【TensorFlow】Day-1 TensorFlow環境準備&參考資料

文章目錄一、環境準備1、安裝2、驗證二、算法學習路徑1、初學者模式2、進階模式3、算法學習路徑(1)基礎課程(2)TensorFlow實戰(3)練習(4)深入學習TF4、Keras三、Resources四、參考資料1、官方文檔(1

原创 【Hive】Hive Metrics體系

Hive常用的長服務主要有HiveServer2和MetaStore,這兩者都可以配置一些監控數據。HiveServer2可以配置若干監控,有關HiveServer2的更多介紹可以查看文檔Setting Up Hiveser2。

原创 Programming In Scala筆記-第五章、Scala中的變量類型和操作

  這一章的一些基礎性的東西,主要包括Scala中的基本變量類型,以及相關的一些操作符。    一、簡單類型   下表中列出Scala語言中的基本類型,以及其字節長度,其中Byte, Short, Int, Long以及Char

原创 Programming In Scala筆記-第十五章、Case Classes和模式匹配

  本章主要分析case classes和模式匹配(pattern matching)。 一、簡單例子   接下來首先以一個包含case classes和模式匹配的例子來展開本章內容。   下面的例子中將模擬實現一個算術運算,這

原创 Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)

  這篇博客是基於Spark Streaming整合Kafka-0.8.2.1官方文檔。   本文主要講解了Spark Streaming如何從Kafka接收數據。Spark Streaming從Kafka接收數據主要有兩種辦法,

原创 Azkaban-2.5及Plugins的安裝配置

  Azkaban是由LinkedIn開發的調度工具,可以用於調度Hadoop中的相互依賴的Job。有時候,在Hadoop集羣中運行的Job是相互依賴的,某些任務需要順序的執行,這種場景下使用Azkaban能夠很好的解決問題。

原创 Kafka系列之-Kafka監控工具KafkaOffsetMonitor配置及使用

  KafkaOffsetMonitor是一個可以用於監控Kafka的Topic及Consumer消費狀況的工具,其配置和使用特別的方便。源項目Github地址爲:https://github.com/quantifind/Kaf

原创 Sqoop-1.4.6 Merge源碼分析與改造使其支持多個merge-key

  Sqoop中提供了一個用於合併數據集的工具sqoop-merge。官方文檔中的描述可以參考我的另一篇博客Sqoop-1.4.5用戶手冊。   Merge的基本原理是,需要指定新數據集和老數據集的路徑,根據某個merge-ke

原创 Programming In Scala筆記-第四章、類和對象

  類似於Java,Scala中也有類和對象的概念。 一、類、屬性和方法 1、類   類是對一類事物的抽象,當一個類被定義後,就可以以該定義爲模板,定義該類的一系列對象。比如說有以下一個模板 人類: 有姓名; 有一個大腦

原创 Spark-SQL之DataFrame操作大全

  Spark SQL中的DataFrame類似於一張關係型數據表。在關係型數據庫中對單表或進行的查詢操作,在DataFrame中都可以通過調用其API接口來實現。可以參考,Scala提供的DataFrame API。   本文中