原创 sbt 使用筆記

本文爲個人的摘錄,將持續更新。完全資料在 https://github.com/sbt/sbt-assembly 打包時將 Spark 的包排除在外,使用 provided。 libraryDependencies += "org

原创 致遠行的人,自編TensorFlow教程(1)

這是本人自編的 TensorFlow 教程,本人對 TensorFlow 理解有限,請各位看官輕噴。本教程適用於 Python 基礎不夠好的同學,但仍然要求懂一些Python的基本語法。因爲追求更加通俗易懂,本教程追求代碼完整,描述冗長,

原创 在IDEA中配置Gradle Home

本文只是轉載 StackOverflow 上的一個問題,同時做個記錄,將來方便查找。 在用 HomeBrew 安裝 Gradle 之後,IDEA 導入項目時需要輸入 Gradle Home,一開始我是這樣寫的 $ echo $GRAD

原创 修改 Hive Metastore 裏記錄的 InputFormat、OutputFormat

解決方案寫在前面:alter table xxxx set fileformat parquet 因爲同事升級Spark時出的bug,誤以爲需要修改 Hive Metastore 的記錄。然後歷程比較坎坷,所以記錄一下 Spark 1

原创 Shell curl 命令報錯:(60) SSL certificate problem: self signed certificate

curl 命令向服務器發送 https 請求 root@53c79d8a7095:~# curl --header "PRIVATE-TOKEN: Nf1kK4MeF4fPMo7d4jY2" https://172.16.0.168/

原创 Spark 源碼調試總結

最近在測試 Spark 2.3 的性能,其中踩的一些坑,調試源碼的一些技巧,適當記錄一下。本文是個人隨筆,也許邏輯不夠清晰,內容較多,敬請諒解。 首先 Spark 源碼的基本斷點調試,包括修改,仍然首推老大翟士丹的blog,其中有一些

原创 Markdown 入門教程

本文檔使用 Markdown 語法編寫,同時這是一篇水文,只是專門寫的教程,但是不捨得成爲抽屜文學。 爲什麼要有 Markdown ?(以下爲個人理解) 平常大家在 Windows 下都是使用 Word 去編輯一些文字。對於程序員而

原创 TensorFlow的個人理解

本篇文章只是基於自己對TensorFlow使用過程中的個人理解,以及一些基本注意事項。 TensorFlow™ 是一個採用數據流圖(data flow graphs),用於數值計算的開源軟件庫。節點(Nodes)在圖中表示數學操作,圖中

原创 致遠行的人,自編TensorFlow教程(2)

在上一篇文章中,我們介紹了使用TensorFlow框架有兩部分組成:構建計算圖,用會話啓動計算圖。今天我們來介紹 tf.placeholder,feed_dict,實現一個 Wx+b 的函數。本文章仍然保持不夠專業的傳統,只求達到效果,可

原创 Spark Worker 啓動報錯:No subfolder can be created in

解決方案寫在前面:在spark-env.sh裏有個參數 SPARK_LOCAL_DIRS,是存放shuffle數據落盤的目錄,這個報錯就是這個目錄不存在導致的。創建目錄重啓worker,再將核數和內存均衡一下。 附錄一下報錯: 18/