原创 TensorFlow多機分佈式訓練
TF分佈式訓練 導讀:記錄如何使用tensorflow進行多機分佈式訓練,主要參考文檔:https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_ke
原创 TensorFlowOnSpark運行demo
TensorFlowOnSpark運行demo 導讀:記錄正常運行tensorflowOnSpark的數據轉換、模型訓練、模型inference的流程,只看官方的文檔很難成功運行。主頁:https://github.com/ya
原创 matlab畫柱狀圖並填充
導讀:記錄一下如何使用matlab畫柱狀圖,並進行填充。 版本: matlab 2017b. 注意:使用matlab2016版本似乎會有bug。 1.輔助函數makehatch.m function A = makeha
原创 Flink讀取HDFS中的數據源碼分析
Flink版本:1.4.2 目的:本文主要是瞭解Flink中DataSource是如何從HDFS中讀取數據的。 梳理一下大致流程: 在JobManager處,通過提交得來的JobGraph生成ExecutionGraph時
原创 Ubuntu下安裝Gurobi
環境: Ubuntu16.04 Gurobi8.1 step1. 去官網下載gurobi,網址:http://www.gurobi.com/downloads/gurobi-optimizer step2: 解壓下
原创 Flink中的RangePartition
Flink中的RangePartition 導讀: RangePartition是Flink批處理中的一個算子,用於數據分區。 在Flink批處理的優化器中,會專門針對RangePartition算子進行一次優化,主要是通過
原创 Flink集羣的啓動
導讀:記錄一下Flink源碼的閱讀過程 Flink版本:1.4.2 1.start-cluster.sh 集羣啓動的腳本,在腳本中通過運行jobmanager.sh和TMSlaves start來啓動JobManager和
原创 對Flink集羣進行遠程調試
導讀:在學習或者使用各個大數據框架的時候,往往想對runtime層次的代碼進行調試或者跟蹤閱讀,但其往往部署在其他機器上,因此需要進行遠程調試。本文以Flink爲例,介紹如何通過IDEA進行Flink的runtime層次的遠程調試
原创 ubuntu16.04下teamviewer啓動不顯示界面
導讀:在Ubuntu下使用teamviewer的時候,通過命令行輸入 teamviewer ,不會出現界面。 就像這樣,沒有顯示teamviewer的界面: [adminuser@adminuser-pc ~]$ teamviewer
原创 Ubuntu下Java調用matlab
導讀:記錄一下java調用matlab遇到的問題 環境: Ubuntu16.04 java 1.8 matlab 2017a 1.matla打jar包: 參考:https://blog.csdn.net/cs_fang_dn/a
原创 Beam中流的join之kafka和文件join
導讀:讀取文件中的數據和kafka讀取的數據進行join 雖然可以從kafka讀,但寫入文件不能採用Unbounded的形式,因此只能讀前幾條記錄或者一段時間的記錄進行處理(代碼第104行左右)。 完整代碼: /** * 利用k
原创 通過Apache Beam官方實例User Score實驗流式join
不建議閱讀,太亂了 使用UserScore例子中的Input.UnboundedGenerator() 不使用window的時候,無界數據是不能和有界數據join的。 Join需要使用相同的窗口。不能一個是globalWindow
原创 Beam中的join
++Beam版本:2.3++ Beam中默認的API中沒有提供join算子,但是提供了一個額外的庫,可以進行join。將以下添加到pom.xml文件中即可使用: <dependency> <groupId>org.apac
原创 將Flink中的批處理的WordCount轉化爲流處理的WordCount
將Flink中的批處理的WordCount轉化爲流處理的WordCount 目的:將Flink中批處理的WordCount轉化爲流處理的WordCount 作用:感覺毫無用處 如何實現:將批的environmentBatch中的各個
原创 水塘採樣(Reservoir sampling)算法
最近看了Flink中的rangePartition使用了水塘採樣算法,因此參考維基百科詳細瞭解了一下。 採樣的關鍵在於對每個元素的選取需要是等概率的。水塘採樣其目的在於從包含n個項目的集合S中選取k個樣本,其中n爲一很大或未知的數量