原创 spark內核架構深度剖析(standalone模式下)

深入理解spark程序運作的整個流程,對我們編寫高質量的spark工程,以及排查程序運行過程中遇到的錯誤都非常重要。 spark資源調度器包括standalone模式自帶、yarn、mesos等,理解spark程序從提交到運行結束整個運行

原创 Spark共享變量(廣播變量、累加器)

Spark兩種共享變量:廣播變量(broadcast variable)與累加器(accumulator) 累加器用來對信息進行聚合,而廣播變量用來高效分發較大的對象。 共享變量出現的原因: 通常在向 Spark 傳遞函數時,比如使用 m

原创 Spark性能調優:RDD的複用以及RDD持久化

避免創建重複的RDD   通常來說,開發一個Spark作業時,首先是基於某個數據源(比如Hive表或HDFS文件)創建一個初始的RDD;接着對這個RDD執行某個算子操作,然後得到下一個RDD;以此類推,循環往復,直到計算出最終我們需要的結

原创 記一篇海康交通大數據面試經歷

鼠年多災多難的,換工作風險可能比較大,但是我還是想試試,因爲現在公司實在是待不住了。。。 五一節後約面了海康交通大數據,主要考慮和以前北京的職位,有很多業務交叉,說實話成都這邊想找個業務相關度高的工作比較難,想找個自己稱心如意的工作是難上

原创 tensorflow手動指定GPU以及顯存大小

以前我們組就一塊顯卡,不存在指定設備的問題。近期剛插了一塊新的gtx 1080ti,幾人公用兩塊卡來做訓練、測試、預測等等,網上找了個方式可以指定使用的設備,並且限定使用的顯存大小,還是很有用的,親測可行,拿過來分享給大家~~~~~ 爲了

原创 運行deeplab測試遇到的ModuleNotFoundError: No module named 'deeplab'錯誤解決

最近徹底決定轉型做機器學習和AI了,睡眠時間也比平時一度減少了2小時,會不會禿頂 最近的任務是研究一下圖像語義分割,自然少不了被引誘去看deeplab系列,剛開始構建就沒那麼順利: 網上查了一下說需要搞一下環境變量,那就搞唄: vi

原创 每天一個Linux命令——管道命令(pine、"|")

管道命令詳解:以前只知道用管道命令,並沒有深究。其實管道就是用"|"符號來連接兩個命令,以前面命令的標準輸出作爲後面命令的標準輸入,如下圖所示(是不是很形象)。注意:1、管道命令會自動忽略錯誤的標準輸入2、管道命令後面接的命令必須能夠接收

原创 docker進入容器的4種方式

在使用Docker創建了容器之後,大家比較關心的就是如何進入該容器了,其實進入Docker容器有好幾多種方式,這裏我們就講一下常用的幾種進入Docker容器的方法。進入Docker容器比較常見的幾種做法如下:使用docker attach

原创 每天一個Linux命令——cat命令

Linux命令:CAT使用權限:所有用戶(即root帳號和所有普通帳號)使用方法:cat [參數] 文件名說明:cat 是一個文本文件查看和連接工具。查看一個文件的內容,用cat比較簡單,就是cat 後面直接接文件名,如cat linux

原创 docker從入門到放棄——搭建私有倉庫

可能會有人關心,都已經有docker hub了,幹嘛還要搭私有倉庫,以下是一些原因:引自: https://blog.csdn.net/RonnyJiang/article/details/71189392  (1)有時我們在從docke

原创 每天一個Linux命令——vi命令(三種模式、命令大全、常用)

vi編輯器是所有Unix及Linux系統下標準的編輯器,它的強大不遜色於任何最新的文本編輯器,這裏只是簡單地介紹一下它的用法和一小部分指令。由於 對Unix及Linux系統的任何版本,vi編輯器是完全相同的,因此您可以在其他任何介紹vi的