原创 TensorFlow多機分佈式訓練

TF分佈式訓練 導讀:記錄如何使用tensorflow進行多機分佈式訓練,主要參考文檔:https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_ke

原创 TensorFlowOnSpark運行demo

TensorFlowOnSpark運行demo 導讀:記錄正常運行tensorflowOnSpark的數據轉換、模型訓練、模型inference的流程,只看官方的文檔很難成功運行。主頁:https://github.com/ya

原创 matlab畫柱狀圖並填充

導讀:記錄一下如何使用matlab畫柱狀圖,並進行填充。 版本: matlab 2017b. 注意:使用matlab2016版本似乎會有bug。 1.輔助函數makehatch.m function A = makeha

原创 Flink讀取HDFS中的數據源碼分析

Flink版本:1.4.2 目的:本文主要是瞭解Flink中DataSource是如何從HDFS中讀取數據的。 梳理一下大致流程:   在JobManager處,通過提交得來的JobGraph生成ExecutionGraph時

原创 Ubuntu下安裝Gurobi

環境:   Ubuntu16.04   Gurobi8.1 step1.   去官網下載gurobi,網址:http://www.gurobi.com/downloads/gurobi-optimizer step2:   解壓下

原创 Flink中的RangePartition

Flink中的RangePartition 導讀:   RangePartition是Flink批處理中的一個算子,用於數據分區。   在Flink批處理的優化器中,會專門針對RangePartition算子進行一次優化,主要是通過

原创 Flink集羣的啓動

導讀:記錄一下Flink源碼的閱讀過程 Flink版本:1.4.2 1.start-cluster.sh   集羣啓動的腳本,在腳本中通過運行jobmanager.sh和TMSlaves start來啓動JobManager和

原创 對Flink集羣進行遠程調試

導讀:在學習或者使用各個大數據框架的時候,往往想對runtime層次的代碼進行調試或者跟蹤閱讀,但其往往部署在其他機器上,因此需要進行遠程調試。本文以Flink爲例,介紹如何通過IDEA進行Flink的runtime層次的遠程調試

原创 ubuntu16.04下teamviewer啓動不顯示界面

導讀:在Ubuntu下使用teamviewer的時候,通過命令行輸入 teamviewer ,不會出現界面。 就像這樣,沒有顯示teamviewer的界面: [adminuser@adminuser-pc ~]$ teamviewer

原创 Ubuntu下Java調用matlab

導讀:記錄一下java調用matlab遇到的問題 環境: Ubuntu16.04 java 1.8 matlab 2017a 1.matla打jar包: 參考:https://blog.csdn.net/cs_fang_dn/a

原创 Beam中流的join之kafka和文件join

導讀:讀取文件中的數據和kafka讀取的數據進行join 雖然可以從kafka讀,但寫入文件不能採用Unbounded的形式,因此只能讀前幾條記錄或者一段時間的記錄進行處理(代碼第104行左右)。 完整代碼: /** * 利用k

原创 通過Apache Beam官方實例User Score實驗流式join

不建議閱讀,太亂了 使用UserScore例子中的Input.UnboundedGenerator() 不使用window的時候,無界數據是不能和有界數據join的。 Join需要使用相同的窗口。不能一個是globalWindow

原创 Beam中的join

++Beam版本:2.3++ Beam中默認的API中沒有提供join算子,但是提供了一個額外的庫,可以進行join。將以下添加到pom.xml文件中即可使用: <dependency> <groupId>org.apac

原创 將Flink中的批處理的WordCount轉化爲流處理的WordCount

將Flink中的批處理的WordCount轉化爲流處理的WordCount 目的:將Flink中批處理的WordCount轉化爲流處理的WordCount 作用:感覺毫無用處 如何實現:將批的environmentBatch中的各個

原创 水塘採樣(Reservoir sampling)算法

最近看了Flink中的rangePartition使用了水塘採樣算法,因此參考維基百科詳細瞭解了一下。 採樣的關鍵在於對每個元素的選取需要是等概率的。水塘採樣其目的在於從包含n個項目的集合S中選取k個樣本,其中n爲一很大或未知的數量