台部落yixl

spark2.x 連接 cassandra 示例 import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} def

2020-06-16 13:47:46

flume 監聽linux下的文件夾下所有文件，並將文件內容存入到hdfs，生成多個以時間戳結尾的文件，通過spark批量讀取數據。配置 flume-spooldir.conf ### define agent a3.sou

2019-03-10 03:49:05

spark 源碼簡單分析 sparksql 作爲spark1.0所支持的lib庫中唯一新增加的lib庫，可見其重要地位。分析內容： spark sql執行流程; hive on spark 和 hive on hadoop 的比較

2019-02-19 06:40:44

RDD（彈性分佈式數據集）作爲spark的核心概念，RDD其實就是一個不可變的分佈式的元素集合什麼是彈性：在任何實收都能進行重新計算，當保存RDD數據的一臺機器掛了，spark還可以使用這種特性來重新計算出丟掉的分區，對用戶也完

2019-01-09 19:54:26

spark RDD簡介彈性分佈式數據集RDD是Spark框架中的核心概念。可以將RDD視作數據庫中的一張表。其中可以保存任何類型的數據。Spark將數據存儲在不同分區上的RDD之中。 RDD可以幫助重新安排計算並優化數據處理過程

2019-01-07 20:31:17

scala基本操作分解 scala> import scala.io.Source import scala.io.Source scala> val lines = Source.fromFile("./TestFile.txt")

2019-01-07 20:30:55

大數據分析主要依靠機器學習和大規模計算。機器學習包括監督學習、非監督學習、強化學習等，而監督學習又包括分類學習、迴歸學習、排序學習、匹配學習等。分類是最常見的機器學習應用問題，比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網頁歸

2019-01-07 20:30:55