原创 RDD應用實例之詞頻分析

一、數據 It hurts to love someone and not be loved in return. But what is more painful is to love someone and never fin

原创 SparkSQL之DataFrame使用詳解

一、應用 1.show def show1(ss:SparkSession):Unit={ val df=ss.read.json("E:\\data\\spark\\dataframe\\test\\read\\pe

原创 Spark之RDD使用詳解

一、創建 1.外部數據源 (1)讀取win讀取win (讀取多個文件) val conf=new SparkConf().setAppName("New Test").setMaster("local") val sc=new Spar

原创 RDD算子之sample、takeSample源碼詳解

一、sample 1.描述 根據給定的隨機種子,從RDD中隨機地按指定比例選一部分記錄,創建新的RDD。返回RDD[T] 2.源碼 //返回此RDD的抽樣子集 defsample(withReplacement: Boolean,

原创 RDD應用實例之app版本升級分析

一、數據 2020-05-14,張三,王者榮耀,華爲應用,北京,v1.0 2020-05-14,李四,王者榮耀,應用寶,北京,v1.2 2020-05-14,張三,王者榮耀,華爲應用,天津,v1.2 2020-05-14,張三,王

原创 Spark之基本架構和工作原理

一、基本概念 Spark是一個基於內存的分佈式批處理引擎 二、基本用途 數據處理: 快速處理數據,兼具容錯性與擴張性 迭代計算: 有效應對多步數據處理邏輯 數據挖掘: 在海量數據基礎上進行復雜的挖掘分析,支持多種數據挖掘和機

原创 IDEA創建Maven的Spark項目詳解

一、Pom文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xs

原创 Windows搭建Spark開發環境

一、下載 官網下載:spark-2.4.6-bin-hadoop2.7.tgz 二、安裝 1.解壓 2.環境變量 3.啓動 # 啓動 spark-shell # 退出 :quit

原创 Windows搭建Hadoop開發環境

一、安裝Java 版本1.8,安裝過程省略… 二、安裝Hadoop 1.下載 下載安裝包 Hadoop2.9.0 解壓 推薦放到D盤,C盤會有權限問題。路徑示例:‪C:\Software\hadoop-2.9.0 2.配

原创 pom中更換阿里雲倉庫

一、配置repository 加載項目本身的依賴 <repository> <id>aliyun</id> <url>https://maven.aliyun.com/repository/public<

原创 IDEA創建Maven的Scala項目詳解

一、Windows安裝Scala 官網下載:Scala 解壓。例如解壓到D:\Software\scala-2.13.2 新建系統變量SCALA_HOME,爲D:\Software\scala-2.13.2,添加入PATH

原创 Windows安裝MySQL8

一、下載 官網下載:MySQL下載 二、安裝 1.解壓到本地 2.添加系統變量 3.生成Data文件 mysql安裝目錄下打開cmd窗口 執行命令 mysqld --initialize-insecure --use

原创 Win10右鍵菜單添加管理員方式打開cmd

1.打開註冊表 2.打開HKEY_CLASSES_ROOT\Directory\Background\shell目錄 新建runas項 runas下新建DWORD32類型的值,名稱爲ShowBasedOnVelocityId

原创 SpringBoot整合Redis示例

一、添加依賴 <!--Redis--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-star

原创 Echarts之餅狀圖詳解

一、簡單使用 1.引入Echarts <script src="echarts.min.js"></script> 2.準備Dom容器 <div id="ecPie" style="width: 600px;height:400