原创 SparkStreaming--輸出(輸出文本 * saveAS&&foreachRDD)

object Output_01 { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "E:\\software\\

原创 廣告黑名單-SparkStreaming

動態過濾,黑名單時刻發生改變,不再是一個固定名單 * updatastatabykey * 黑名單中(aa, true) (bb, false) 黑名單動態生成 * aa, true 黑名 * bb, false 進入黑名單,等待

原创 sparkstreaming-transform

object Transform { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "E:\\software\

原创 SparkStreaming--輸入源(本地文件)

//輸入源 object WordCountHDFSSource { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir",

原创 json格式數據導入到mysql

/* * json依賴 * <dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifact

原创 SparkStreaming--輸入源(卡夫卡kafka)

object WCKafka extends App{ System.setProperty("hadoop.home.dir", "E:\\software\\bigdate\\hadoop-2.6.0-cdh5.15.0\\h

原创 sparkstreaming--入門

//單詞統計流式處理 object WordCountStreaming { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.d

原创 sparksql--JDBC

val mapOptitons=Map[String,String]( ("url","jdbc:mysql://wangfutai:3306/hive"), ("user","hive"), ("pass

原创 sparksql--hive

//與hive表進行連接: // 1.一種通過conf.set 設置或直接將hive配置hive-site.xml文件拷貝工程 // 2.加載mysql驅動 //從hive中讀取數據,驅動不是SQLContext,而是HiveC

原创 sparksql--hbase

val conf = new SparkConf() conf.setMaster("local") conf.setAppName("patition") val sc = new SparkContext(conf)

原创 sparksql文件的讀寫-json和parquet

//1.讀取一個json文本 val df1= ssc.read.json("E:\\sparkdata\\person.json") //2.讀取數據,在format方法中指定類型 val df2=ssc.read.format

原创 sparksql--json/parquet/hive/jdbc/rdd結合

/** * json id name t1 * parquet id age t2 * rdd id sex t3 * hive id addr t4 * mysql id hob

原创 數據分析--DataFrame(4)

import numpy as np import pandas as pd # 1.讀取Pokemon.csv df=pd.read_csv('Pokemon.csv',encoding='utf-8') print(df) # 2.

原创 數據分析--DataFrame(1)

import pandas as pd import numpy as np #1.DataFrame結構類型於數據庫結構的數據結果 lst=[[1,2,3],[4,5,6],[7,8,9]] print(pd.DataFrame(ls

原创 數據分析--numpy使用

1.安裝numpy,scipy, pandas numpy 高級數組,線性代數中矩陣 scipy 科學計算基礎公式庫 pandas 數據分析工具 matplotlib 繪圖 import numpy as np import ra