原创 keras些許分享

原创 【@deprecated】Hadoop3,IDEA遠程訪問集羣進行調試,Scala+Java混合開發

文章目錄一、Hadoop3部分變化1-1、擦除編碼1-2、Hadoop 3 端口號的改變1-3、支持2個以上的NameNode1-4、內部數據節點平衡器二、IDEA遠程訪問控制集羣2-1 創建Maven項目,添加hadoop-cl

原创 大數據/深度學習機器組機以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1

文章目錄組機緣由:深度學習需要什麼樣的GPU?NVIDIA 部分GPU的技術參數:如何選擇:最終決定的配置:裝機裝機後的感想CUDA10還是CUDA9,Python3.6還是3.7?最終的深度學習環境TensorRT 5推理加速引

原创 在Tekton Pipeline中,使用python基本環境容器運行Python項目

目標 在Tekton Pipeline中,使用python基本環境容器(下稱A)運行python項目(下稱B),B讀取集羣NFS共享數據(下稱C),處理數據後寫入C。 (B的項目文件需要上傳到Git,A中任務依賴Git中該資源)

原创 乾貨:Spark RDD寫入HBase 優化

文章目錄一、HBase部分1-1、hbase.regionserver.handler.count1-2、壓縮1-3、分裂1-4、hbase.regionserver.optionallogflushinterval1-5、hba

原创 Bulk Load——Spark 批量導入多列數據到HBase(scala/Java)

文章目錄一、最終流程二、使用Put寫入三、批量寫入,BulkLoad四、Java BulkLoad 多列KeyValue(未成功-not Cell)五、Scala BulkLoad 多列KeyValue(未成功-相同RowKey)

原创 Tekton pipeline DEMO + 探索一些tkn命令

https://github.com/tektoncd/pipeline/blob/master/docs/tutorial.md 安裝Tekton CLI(與Tekton交互的CLI) curl -LO https://gi

原创 Tekton安裝(記錄)

kubectl apply --filename https://storage.googleapis.com/tekton-releases/pipeline/previous/v0.9.2/release.yaml

原创 Tekton pipeline打包Java代碼爲JAR(PipelineResource+Task+TaskRun)

一、定義PipelineResource apiVersion: tekton.dev/v1alpha1 kind: PipelineResource metadata: name: resource-git-for-mave

原创 Spark shuffle調優

一、優化前: shuffle寫的比例爲輸入數據的1.5倍: 二、優化後: 三、RDD壓縮 spark.shuffle.compress 序列化後,shuffle write仍然較大,考慮壓縮 sparkConf.set("sp

原创 Spark遞歸遍歷HDFS並篩選文件,Spark集羣模式記錄自己的調試日誌

文章目錄一、遞歸遍歷HDFS並篩選文件1-1、對於本地文件系統1-2、對於HDFS文件系統二、Spark集羣模式記錄自己的調試日誌2-1、Spark默認log4j配置2-2、Yarn運行時,使用自定義配置文件的幾種方式2-3、自定

原创 tensorflow 恢復模型部分權重,CNN輸出到LSTM

一、需求 語音增強遷移訓練時,希望在CNN後面接2層LSTM 但是後面幾層CNN(VGG16)的feature map尺寸太小,怕LSTM學不到東西 恢復前7層CNN的權重,然後第7層的輸出reshape之後作爲LSTM的輸入 恢復

原创 水文之大數據/深度學習機器組機實記《一》

組機緣由: 最近兩次實習的工作內容,都與大數據關聯不大,所積累的一些本就學得不深的知識便忘得不少。 深度學習和大數據都很感興趣,考慮到畢設是深度學習項目,故準備過幾天投一些大數據的實習崗。利用週末的時間,搗鼓畢設。這樣一來,做大數據,

原创 pydoc些許分享

原创 模型訓練batch數據抽樣

自定義DataGenerator 生成器,結合for循環以及yield來產生數據 import numpy as np class DataGenerator(object): def __init__(self, b