原创 Spark SQL------學習筆記

Hive:轉換成MapReduce作業;Shark:轉換成spark作業;Hive中SQL查詢的MapReduce作業轉化過程Spark三種部署方式:Standalone;Spark on Mesos(官方推薦,更好支持);Spark o

原创 Samza框架-----學習筆記

基本概念:作業:是對一組輸入流進行處理轉化成輸出流的程序。分區:Samza的流數據單位既不是Storm中的元組,也不是Spark Streaming中的DStream,而是一條條消息;Samza中的每個流都被分割成一個或多個分區,對於流裏

原创 RDD運行原理------學習筆記

RDD實現管道化,避免中間數據存儲;RDD:是一個分佈式對象集合,本質上是一個只讀的分區記錄集合,每個RDD可分成多個分區,每個分區就是一個數據集片段,並且一個RDD的不同分區可以被保存到集羣中不同的節點上,從而可以在集羣中的不同節點上進

原创 凱利公式-----應用

作者:賈元宏鏈接:https://www.zhihu.com/question/23534782/answer/108093123來源:知乎著作權歸作

原创 Storm流數據框架------學習筆記

storm:Storm可用於許多領域中,如實時分析、在線機器學習、持續計算、遠程RPC、數據提取加載轉換等Storm具有以下主要特點:整合性簡易的API可擴展性可靠的消息處理支持各種編程語言快速部署免費、開源storm主要包括:Strea

原创 Pregel圖計算模型--------學習筆記

Pregel計算模型以有向圖作爲輸入有向圖的每個頂點都有一個String類型的頂點ID每個頂點都有一個可修改的用戶自定義值與之關聯每條有向邊都和其源頂

原创 Impala簡介------學習筆記

Impala是由Cloudera公司開發的新型查詢系統,它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase上的PB級大數據,在性能上比H

原创 今天起一天一更!

RT 點贊 收藏 分享 文章舉報

原创 Spark運行架構------學習筆記

基本概念:RDD:是Resillient Distributed Dataset(彈性分佈式數據集)的簡稱,是分佈式內存的一個抽象概念,提供了一種高度受限的共享內存模型DAG:是Directed Acyclic Graph(有向無環圖)的

原创 原始積累方法----總結

1、小型貿易:“先找廁所,再找食堂”,做箇中介;2、推銷圖紙樣機或技術,利用定金賺時間差;3、用知識或技術找中小國企合作;4、帶別人樣品去推銷; 點贊 收藏 分享 文章舉報 Pe

原创 CTVE筆試2018總結C/C++

編程題:猴子爬山、str1、str2、str3混序匹配;3次握手,4次揮手;sizeof();strlen();鎖相關內容;int,float,char字節數大小;.........其他想不起來了。。最不該的是編程題這個居然忘了。。內容知

原创 Spark概述-------學習筆記

Spark特點:運行速度快:使用DAG執行引擎以支持循環數據流與內存計算;容易使用:支持使用Scala、Java、Python和R語言進行編程,可以通過Spark Shell進行交互式編程 通用性:Spark提供了完整而強大的技術棧,(基

原创 Spark Streaming總結-----學習筆記

支持多種數據源:Kafka、Flume、HDFS、普通TCP套接字等;基本原理:實時輸入數據流以時間片(秒級)爲單位進行拆分,然後經Spark引擎以類似批處理的方式處理每個時間片數據;Spark Streaming最主要的抽象是DStre

原创 圖計算-----學習筆記

特點:數據關聯性強;常常表現出比較差的內存訪問局部性針對單個頂點的處理工作過少計算過程中伴隨着並行度的改變大型圖計算主要包括兩種:基於遍歷算法的、實時的圖數據庫,如Neo4j、OrientDB、DEX和 Infinite Graph;以圖

原创 流數據------學習筆記

流數據特點:實時獲取來自不同數據源的海量數據,經過實時分析處理,獲得有價值的信息快速持續到達;來源多,格式複雜;數據量大,但不關心存儲;注重整體價值;順序顛倒或不完整;數據的價值隨着時間的流逝而降低;流計算系統要求:高性能海量式實時性分佈