原创 StructuredStreaming動態更新參數

StructuredStreaming動態更新參數 版本說明:Spark 2.4 1 前言 在使用StructuredStreaming的時候,我們可能會遇到在不重啓Spark應用的情況下動態的更新參數,如:動態更新某個過濾條件、

原创 StructuredStreaming 內置數據源及實現自定義數據源

StructuredStreaming 內置數據源及實現自定義數據源 版本說明: Spark:2.3/2.4 代碼倉庫:https://github.com/shirukai/spark-structured-datasource.

原创 linux配置yum本地源

linux配置yum本地源 往往安裝某些軟件時,依賴的東西太多,或者網絡原因,容易造成軟件安裝失敗,這時候我們可以配置yum本地源,將需要的軟件的rpm包同步到本地,然後使用本地源。例如安裝ambari的時候,我們通常把ambari

原创 Spark讀寫Elasticsearch

Spark讀寫Elasticsearch 版本說明 Spark:2.3.1 Elasticsearch: elasticsearch-6.4.0 1 Scala環境下Spark讀寫Elasticsearch 1.1 依賴包 1.1

原创 CentOS7下yum安裝MariaDB與簡單配置

CentOS7下yum安裝MariaDB與簡單配置 開始之前要確保已經安裝yum並且配置好相關的源。 一、 安裝命令: yum -y install mariadb mariadb-server 二、啓動MariaDB system

原创 SparkSQL數據源操作

SparkSQL數據源操作 版本說明: spark-2.3.0 SparkSQL支持很多數據源,我們可以使用Spark內置的數據源,目前Spark支持的數據源有:json,parquet,jdbc,orc,libsvm,csv,t

原创 CDH Manager API 操作Yarn資源池

CDH Manager API 操作Yarn 資源池 版本說明:CDH 5.11.0 API版本:v16 1 API 權限認證 在使用REST API 訪問 CDH Manager 提供的相關接口的時候,需要進行權限認證。認證的類

原创 SparkStreaming 解析Kafka JSON格式數據

SparkStreaming 解析Kafka JSON格式數據 項目記錄:在項目中,SparkStreaming整合Kafka時,通常Kafka發送的數據是以JSON字符串形式發送的,這裏總結了五種SparkStreaming解析K

原创 SparkStreaming 讀寫Kafka

Spark/Streaming 讀寫Kafka 版本說明 kafka:2.12-2.0.0 spark: <spark.version>2.3.0</spark.version> scala依賴包: <dependency>

原创 Python基於單例模式實現具有時效性的內存緩存

Python基於單例模式實現具有時效性的內存緩存 版本說明:Python 2.7 Python有不少第三方的緩存庫,如cacheout、memcached等。因爲項目需求,這裏不使用第三方庫,自己實現具有時效性的內存緩存,用來緩存

原创 Elasticsearch與Kibana部署及使用

Elasticsearch與Kibana部署及使用 安裝環境 Mac OS 適用於Linux 版本說明 Elasticsearch:6.4.0 Kibana:6.4.0 1 Elasticsearch部署及使用 官網:http

原创 HBase單機僞分佈式安裝

HBase單機僞分佈式安裝 版本說明: hadoop-2.7.6 zookeeper-3.4.13 hbase-2.1.0 1 下載安裝包 官網地址:http://hbase.apache.org/downloads.html 1

原创 Spark DataFrame列的合併和拆分

Spark DataFrame 列的合併與拆分 版本說明:Spark-2.3.0 使用Spark SQL在對數據進行處理的過程中,可能會遇到對一列數據拆分爲多列,或者把多列數據合併爲一列。這裏記錄一下目前想到的對DataFrame

原创 SparkSQL內置函數

Spark SQL 內置函數 版本說明:spark-2.3.0 SparkSQL內置函數官網API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apac

原创 Sprinboot整合Quartz實現定時任務調度管理

Sprinboot整合Quartz實現定時任務調度管理 版本說明: springboot版本:2.0.0.RELEASE quartz版本:2.3.0 github地址:https://github.com/shirukai/qua