原创 SparkStreaming

1、Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和簡單的TCP套接字等等。數據輸入後可以用Spark的高度抽象原語如:ma

原创 SparkSQL

1、Spark SQL是Spark用來處理結構化數據的一個模塊,它提供了2個編程抽象:DataFrame和DataSet,並且作爲分佈式SQL查詢引擎的作用。 Hive,它是將Hive SQL轉換成MapReduce然後提交到集羣上執行,

原创 scala語言——函數式編程

函數式編程基礎 1、在scala中,方法和函數幾乎可以等同,只是函數的使用方式更加的靈活多樣  [方法轉函數]。 函數式編程充分利用函數、 支持的函數的多種使用方式。 函數是一等公民,像變量一樣,既可以作爲函數的參數使用,也可以將函數賦值

原创 Hbase簡介

1、HBase是一個高可靠性、高性能、面向列(列族存儲)、可伸縮的分佈式存儲系統。 HBase利用Hadoop HDFS作爲其文件存儲系統,HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據,HBase利用Zo

原创 scala語言——基本語法

1、輸出的三種方式 字符串通過+號連接(類似java)     println("name=" + name + " age=" + age + " url=" + url) printf用法 (類似C語言)字符串通過 % 傳值。(格式化

原创 spark基礎解析

1、概述 Spark是一種基於內存的快速、通用、可擴展的大數據分析引擎。 2、內置模塊 Spark Core Spark SQL:通過Spark SQL,我們可以使用 SQL或者Apache Hive版本的SQL方言(HQL)來查詢數據

原创 Kafka總結

Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列,主要應用於大數據實時處理領域。 1、消息隊列 1)點對點模式(一對一) 消費者主動拉取數據,消息收到後消息清除 2)發佈/訂閱模式(一對多) 消費者消費數據之後不會清除消息,生產者產生

原创 Hive的基本使用2

查詢 [WITH CommonTableExpression (, CommonTableExpression)*]    (Note: Only available starting with Hive 0.13.0) SELECT

原创 hive的基本使用1

DDL數據定義 1、創建數據庫 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH

原创 hdfs簡介

1、概述:hdfs是一種分佈式文件系統,將大的數據量,存儲到更多的操作系統管理的磁盤中。適合一次寫入,多次讀出的場景,且不支持文件的修改。 2、組成架構 NameNode、DataNode、Client、Secondary NameNod

原创 Yarn簡介

1、Yarn是一個資源調度平臺,負責爲運算程序提供服務器運算資源,相當於一個分佈式的操作系統平臺,而MapReduce等運算程序則相當於運行於操作系統之上的應用程序。 hdfs用於儲存數據,mapreducey負責分析計算,yarn負責資

原创 Hive簡介

1、Hive:基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張表,並提供類SQL查詢功能。 本質是將HQL轉化成MapReduce程序 hive處理的數據存儲在HDFS中,Hive分析數據底層的實現是MapReduce

原创 MapReduce簡單介紹

1、MapReduce缺點是不擅長實時計算、流式計算、有向圖(DAG)計算 MapReduce編程模型只能包含一個Map階段和一個Reduce階段,如果用戶的業務邏輯非常複雜,那就只能多個MapReduce程序,串行運行。 2、具體執行

原创 編譯程序

1、單一程序 1)、一個動作 在預設的狀態下,如果我們直接以 gcc 編譯原始碼,並且沒有加上任何參數,則執行檔的檔名會被自動設定爲 a.out 這個文件名! 所以妳就能夠直接執行 ./a.out 這個執行檔啦! 2)、兩個動作 咦!那

原创 Linux 賬號管理與ACL 權限設定

使用者標識符: UID 與GID 每一個文件都具有『擁有人與擁有羣組』的屬性嗎?沒錯啦~每個登入的使用者至少都會取得兩個ID ,一個是使用者ID (User ID ,簡稱UID)、一個是羣組ID (Group ID ,簡稱GID)。兩者相