原创 Spark緩存 之 Collect Cache Persist

Spark緩存 之 Collect Cache Persist   三者都有匯聚數據,拉取數據存儲的作用,mark一下各自的作用。 Collect: /** * Return an array that contains al

原创 java.lang.NoSuchMethodError 之 依賴衝突解決方案

NoSuchMethodError 解決方案大全   問題: 本機測試環境運行無誤,在服務器和別的jar包一起打包在一起運行報錯,這種大概率爲依賴衝突問題 java.lang.NoSuchMethodError:com.google.pr

原创 Maven 打包踩坑之ClassNotFoundException 與 NoClassDefFoundError

Maven 打包踩坑之ClassNotFoundException 與 NoClassDefFoundError    問題: spark streaming程序在本地運行正常,上傳至服務器運行時出現如下錯誤: Caused by: j

原创 io.netty | ERROR org.apache.spark.network.client.TransportClient - Failed to send RPC

問題: 使用Spark時 RDD的map,foreach等操作正常,執行collect到本地時報錯,本地文件大小約爲5m。 解決: 在博客上查報錯信息有如下解釋: 1.dirver端內存不足,spark強制關閉了任務,這裏本地文件爲5m,

原创 Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解決方法

Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解決方法   問題: 導入spark依賴包後,local模式下運行spark本地程序報錯: Caused by: java.

原创 Spark LogisticRegression 線性迴歸總結

LogisticRegression 是機器學習中最常用的算法,這裏根據使用情況總結了Spark LR的使用demo: Tip: 本文使用數據格式爲Libsvm   一.Lr線性迴歸推導與python實現在之前的博文已經介紹過 ,本文着重

原创 Scala 實現Python Arange

使用scala時有arange的需求,但是沒有找到相對應函數,只找到了group,sliding函數,於是自己實現一個:   目標: 給定起點,終點和份數,得到arange結果   實現: 計算起始點長度與分類數,得到每一步的Step,然

原创 HDFS 誤刪恢復

Tip: 這裏是hadoop已配置trash功能,沒有trash的暫時還不知道怎麼恢復 = = mark一下,手殘不小心刪掉了自己的根目錄 1.找路徑 誤刪文件夾後,會出現提示 類似於Moved 誤刪文件 to trash at: 回收站

原创 Scala 優雅的break

Break Scala Scala使用map的foreach過程中,發現無法中途break,必須全部遍歷,對於達到一定條件即退出的程序很不友好,於是改變思路,找到幾種退出循環的方法: 1.while循環使用Boolean def o

原创 Scala 之 讀取文件第二次沒有內容

Scala IO 最近接觸了Scala語言 最基礎的就是讀文件操作數據了 可是發現使用 Source.fromFile(inputFile) 多次讀取文件時出現了第二次讀取時數據爲空的問題   先看下問題: 在主函數中調用Source.f

原创 Spark Streaming 接任意數據源作爲 Stream

Spark Streaming 接任意數據源作爲 Stream 問題出發點 工程中遇到流式處理的問題時,多采用Spark Streaming 或者 Storm 來處理;Strom採用Spout的流接入方式,Streaming採用Strea

原创 Java Map Compute ComputeIfAbsent ComputeIfPresent方法

Compute,ComputeIfAbsent,ComputeIfPresent 簡介 Compute爲計算,即當前key的newValue值基於oldValue而得來,與merge方法類似,compute方法也可以自定義Function

原创 Shell 用for循環和while遍歷日期

Shell執行任務時有時需要對hive表做遍歷操作並按照dt進行分區,dt數較少時可以採用for循環,但有時需要對一個時間段內的日期進行遍歷,這時候就可以使用while對日期進行遍歷。 下面分別採用for循環和while循環對日期進行遍歷

原创 GitLab 本地分支關聯遠程分支

本地分支關聯到遠程分支,遠程分支不存在: 在本地新建了分支 branch_A ,修改功能,想要在遠程關聯origin/branch_A,但遠程未創建origin/branch_A. git add . git commit -m "更新

原创 Scala Set使用與性能分析

Scala 經常遇到需要去重和取交集的情況,這裏對Set簡單使用和性能進行分析: val a = Set(1,2,3) val b = Set(2,3,4) 1.交集 println(a & b) pr