原创 spark分區,廣播,累加器等

spark 重分區算子 repartition 和 partitionBy  都是對數據進行重新分區,默認都是使用 HashPartitioner,區別在於partitionBy 只能用於 PairRdd,但是當它們同時都用於 PairR

原创 TortoiseSVN的bin目錄中沒有svn.exe

TortoiseSVN的bin目錄中沒有svn.exe 爲什麼沒有,是因爲安裝TortoiseSVN的時候沒有勾選指定安裝項;找到svn的安裝包,不用卸載舊的直接安裝: 1、選擇Modify 2、注意這一點:勾選command line

原创 spark-shell 設置資源爲yarn

spark配置文件需要配置hadoop的根目錄與hadoop配置文件目錄 spark-env.sh     添加 export HADOOP_HOME=/data/br/base/hadoop/hadoop-2.7.7 export HA

原创 sparkStreaming流式處理

1.下載nc造假數據(生產者)   yum install -y nc 2.往指定端口發送數據  nc -lk  9999 3.編寫sparkStreaming程序 引入依賴2.11表示scala版本  1.6.1表示spark版本 <

原创 hbase性能調優

1.HBase客戶端優化 和大多數系統一樣,客戶端作爲業務讀寫的入口,姿勢使用不正確通常會導致本業務讀延遲較高實際上存在一些使用姿勢的推薦用法,這裏一般需要關注四個問題: 1.1. scan緩存是否設置合理? 優化原理:在解釋這個問題之前

原创 協同過濾推薦算法

協同過濾推薦算法分爲 基於用戶推薦相似度,基於物品相似度推薦,基於內容相似度推薦 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPai

原创 mysql在線安裝

1.查看是否有安裝mysql文件       rpm -qa|grep mysql 2.卸載mysql       rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_64 注意:如果以前安裝過mysq

原创 內存分析

1.獲取程序運行的id號  (jps) 2.獲取對應進程的dump.log文件 jmap -dump:live,format=b,file=dump.log 23354                             (這個命令

原创 java程序安全退出邏輯

Runtime.getRuntime().addShutdownHook(new Thread() { @Override public void run() { System.out.println("

原创 hbase-spark組合使用

依賴 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

原创 mysql yum安裝

centos6.8 yum安裝mysql 5.6 (完整) 一、檢查系統是否安裝其他版本的MYSQL數據 #yum list installed | grep mysql #yum -y remove mysql-libs.x86_6

原创 redis集羣安裝

一 : 安裝redis 1.安裝redis依賴       yum install gcc-c++ 2.下載redis安裝包      官網下載..... 3. 解壓reids包,進入redis根目錄編譯 make     cd redi

原创 java調度器Quartz/Timer/TimerTask

Timer/TimerTask調度 import java.util.Timer; import java.util.TimerTask; public class MyTask extends TimerTask { pri

原创 mysql參數調優

配置url添加參數rewriteBatchedStatements 即 jdbc:mysql://192.168.21.103:3306/yzhs?rewriteBatchedStatements=true 

原创 ES使用的api JAVA

導入依賴 <dependencies> <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport