台部落JustSleep

1、Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和簡單的TCP套接字等等。數據輸入後可以用Spark的高度抽象原語如：ma

2020-03-18 05:17:25

1、Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了2個編程抽象：DataFrame和DataSet，並且作爲分佈式SQL查詢引擎的作用。 Hive，它是將Hive SQL轉換成MapReduce然後提交到集羣上執行，

2020-03-18 05:17:25

函數式編程基礎 1、在scala中，方法和函數幾乎可以等同，只是函數的使用方式更加的靈活多樣 [方法轉函數]。函數式編程充分利用函數、支持的函數的多種使用方式。函數是一等公民，像變量一樣，既可以作爲函數的參數使用，也可以將函數賦值

2020-03-14 23:47:29

1、HBase是一個高可靠性、高性能、面向列（列族存儲）、可伸縮的分佈式存儲系統。 HBase利用Hadoop HDFS作爲其文件存儲系統，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據，HBase利用Zo

2020-03-14 23:47:19

1、輸出的三種方式字符串通過+號連接（類似java） println("name=" + name + " age=" + age + " url=" + url) printf用法（類似C語言）字符串通過 % 傳值。(格式化

2020-03-14 23:47:19

1、概述 Spark是一種基於內存的快速、通用、可擴展的大數據分析引擎。 2、內置模塊 Spark Core Spark SQL：通過Spark SQL，我們可以使用 SQL或者Apache Hive版本的SQL方言(HQL)來查詢數據

2020-03-14 23:47:19

Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列，主要應用於大數據實時處理領域。 1、消息隊列 1）點對點模式（一對一）消費者主動拉取數據，消息收到後消息清除 2）發佈/訂閱模式（一對多）消費者消費數據之後不會清除消息，生產者產生

2020-03-13 10:38:42

查詢 [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0) SELECT

2020-03-13 10:38:42

DDL數據定義 1、創建數據庫 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH

2020-03-13 10:38:42

1、概述：hdfs是一種分佈式文件系統，將大的數據量，存儲到更多的操作系統管理的磁盤中。適合一次寫入，多次讀出的場景，且不支持文件的修改。 2、組成架構 NameNode、DataNode、Client、Secondary NameNod

2020-03-11 23:52:52

1、Yarn是一個資源調度平臺，負責爲運算程序提供服務器運算資源，相當於一個分佈式的操作系統平臺，而MapReduce等運算程序則相當於運行於操作系統之上的應用程序。 hdfs用於儲存數據，mapreducey負責分析計算，yarn負責資

2020-03-11 23:52:52

1、Hive：基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張表，並提供類SQL查詢功能。本質是將HQL轉化成MapReduce程序 hive處理的數據存儲在HDFS中，Hive分析數據底層的實現是MapReduce

2020-03-11 23:52:52

1、MapReduce缺點是不擅長實時計算、流式計算、有向圖（DAG）計算 MapReduce編程模型只能包含一個Map階段和一個Reduce階段，如果用戶的業務邏輯非常複雜，那就只能多個MapReduce程序，串行運行。 2、具體執行

2020-03-11 23:52:52

1、單一程序 1）、一個動作在預設的狀態下,如果我們直接以 gcc 編譯原始碼,並且沒有加上任何參數,則執行檔的檔名會被自動設定爲 a.out 這個文件名! 所以妳就能夠直接執行 ./a.out 這個執行檔啦! 2）、兩個動作咦!那

2019-09-19 22:18:45

使用者標識符： UID 與GID 每一個文件都具有『擁有人與擁有羣組』的屬性嗎？沒錯啦～每個登入的使用者至少都會取得兩個ID ，一個是使用者ID (User ID ，簡稱UID)、一個是羣組ID (Group ID ，簡稱GID)。兩者相

2019-09-15 23:41:02