原创 HDFS文件詳情查看

/** * HDFS文件詳情查看 * @throws IOException * @throws InterruptedException * @throws URISyntaxExceptio

原创 HDFS文件下載

/** * 文件下載 * @throws IOException * @throws InterruptedException * @throws URISyntaxException

原创 HDFS修改文件名

/** * 修改文件名 * @throws IOException * @throws InterruptedException * @throws URISyntaxException

原创 HDFS文件夾刪除

/** * 文件夾刪除 * @throws IOException * @throws InterruptedException * @throws URISyntaxException

原创 HDFS文件上傳

/** * 將本地文件上傳到hdfs * @throws IOException * @throws InterruptedException * @throws URISyntaxEx

原创 HDFS文件和文件夾判斷

/** * HDFS文件和文件夾判斷 * @throws IOException * @throws InterruptedException * @throws URISyntaxExcepti

原创 redis工具類(scala)

object RedisUtil { var jedisPool:JedisPool=null def getJedisClient: Jedis = { if(jedisPool==null){ //

原创 spark之JVM調優一:降低cache操作的內存佔比

 靜態內存管理機制 根據Spark靜態內存管理機制,堆內存被劃分爲了兩塊,Storage和Execution。Storage主要用於緩存RDD數據和broadcast數據,Execution主要用於緩存在shuffle過程中產生的中間數據

原创 knn算法案例

train.csv row_id,x,y,accuracy,time,place_id 0,0.7941,9.0809,54,470702,8523065625 1,5.9567,4.7968,13,186555,1757726713

原创 spark算子調優五:reduceByKey本地聚合

reduceByKey相較於普通的shuffle操作一個顯著的特點就是會進行map端的本地聚合,map端會先對本地的數據進行combine操作,然後將數據寫入給下個stage的每個task創建的文件中,也就是在map端,對每一個key對應

原创 httpclient的方式發送信息給服務器

public static void sendLogStream(String log){ try{ //不同的日誌類型對應不同的URL URL url =new UR

原创 Docker經常用的命令

  Docker常用命令 幫助命令     docker version:查看docker的版本     docker info:查看docker的相關信息     docker --help:查看docker相關的幫助信息

原创 yarn源碼分析之CoarseGrainedExecutorBackend

1. CoarseGrainedExecutorBackend     -- main:啓動當前類的main方法         -- run             -- onStart:點擊圖片中紅線部分進行入,找到onstar

原创 高併發的異常之ConcurrentModificationException

1 故障現象 java.util.ConcurrentModificationException 2 導致原因 線程不安全 3 解決方法 3.1 new Vector<>() 3.2 Co

原创 spark常規性能調優四:廣播大變量

默認情況下,task中的算子中如果使用了外部的變量,每個task都會獲取一份變量的複本,這就造成了內存的極大消耗。一方面,如果後續對RDD進行持久化,可能就無法將RDD數據存入內存,只能寫入磁盤,磁盤IO將會嚴重消耗性能;另一方面,tas