台部落PeixinYe

Hive：轉換成MapReduce作業；Shark：轉換成spark作業；Hive中SQL查詢的MapReduce作業轉化過程Spark三種部署方式：Standalone；Spark on Mesos（官方推薦，更好支持）；Spark o

2020-07-03 12:42:55

基本概念：作業：是對一組輸入流進行處理轉化成輸出流的程序。分區：Samza的流數據單位既不是Storm中的元組，也不是Spark Streaming中的DStream，而是一條條消息；Samza中的每個流都被分割成一個或多個分區，對於流裏

2020-07-03 12:42:55

RDD實現管道化，避免中間數據存儲；RDD：是一個分佈式對象集合，本質上是一個只讀的分區記錄集合，每個RDD可分成多個分區，每個分區就是一個數據集片段，並且一個RDD的不同分區可以被保存到集羣中不同的節點上，從而可以在集羣中的不同節點上進

2020-07-03 12:42:55

作者：賈元宏鏈接：https://www.zhihu.com/question/23534782/answer/108093123來源：知乎著作權歸作

2020-07-03 12:42:55

storm：Storm可用於許多領域中，如實時分析、在線機器學習、持續計算、遠程RPC、數據提取加載轉換等Storm具有以下主要特點：整合性簡易的API可擴展性可靠的消息處理支持各種編程語言快速部署免費、開源storm主要包括：Strea

2020-07-03 12:42:55

Pregel計算模型以有向圖作爲輸入有向圖的每個頂點都有一個String類型的頂點ID每個頂點都有一個可修改的用戶自定義值與之關聯每條有向邊都和其源頂

2020-07-03 12:42:55

Impala是由Cloudera公司開發的新型查詢系統，它提供SQL語義，能查詢存儲在Hadoop的HDFS和HBase上的PB級大數據，在性能上比H

2020-07-03 12:42:55

RT 點贊收藏分享文章舉報

2020-02-22 05:24:23

基本概念：RDD：是Resillient Distributed Dataset（彈性分佈式數據集）的簡稱，是分佈式內存的一個抽象概念，提供了一種高度受限的共享內存模型DAG：是Directed Acyclic Graph（有向無環圖）的

2020-02-22 05:24:23

1、小型貿易：“先找廁所，再找食堂”，做箇中介；2、推銷圖紙樣機或技術，利用定金賺時間差；3、用知識或技術找中小國企合作；4、帶別人樣品去推銷；點贊收藏分享文章舉報 Pe

2020-02-22 05:24:23

編程題：猴子爬山、str1、str2、str3混序匹配；3次握手，4次揮手；sizeof（）；strlen（）；鎖相關內容；int，float，char字節數大小；.........其他想不起來了。。最不該的是編程題這個居然忘了。。內容知

2020-02-22 05:24:23

Spark特點：運行速度快：使用DAG執行引擎以支持循環數據流與內存計算；容易使用：支持使用Scala、Java、Python和R語言進行編程，可以通過Spark Shell進行交互式編程通用性：Spark提供了完整而強大的技術棧，（基

2020-02-22 05:24:23

支持多種數據源：Kafka、Flume、HDFS、普通TCP套接字等；基本原理：實時輸入數據流以時間片（秒級）爲單位進行拆分，然後經Spark引擎以類似批處理的方式處理每個時間片數據；Spark Streaming最主要的抽象是DStre

2020-02-22 05:24:23

特點：數據關聯性強；常常表現出比較差的內存訪問局部性針對單個頂點的處理工作過少計算過程中伴隨着並行度的改變大型圖計算主要包括兩種：基於遍歷算法的、實時的圖數據庫，如Neo4j、OrientDB、DEX和 Infinite Graph；以圖

2020-02-22 05:24:23

流數據特點：實時獲取來自不同數據源的海量數據，經過實時分析處理，獲得有價值的信息快速持續到達；來源多，格式複雜；數據量大，但不關心存儲；注重整體價值；順序顛倒或不完整；數據的價值隨着時間的流逝而降低；流計算系統要求：高性能海量式實時性分佈

2020-02-22 05:24:23