原创 pyspark dataframe 去重
pyspark dataframe 去重 兩種去重,一種是整行每一項完全相同去除重複行,另一種是某一列相同去除重複行。 整行去重 dataframe1 = dataframe1.distinct() 某一列或者多列相同的去除重複
原创 docker--k8s---終端terminal和普通程序以及jupyter notebook-創建永久的靜態環境變量--創建動態的環境變量
終端terminal和普通程序 linux系統的中主要有兩種啓用系統環境的情況,一種是 用戶登錄,比如進入bash或者sh等命令行操作shell界面,一種是 用戶不登錄,而是程序自動運行。 根據 兩種情況,適用的創建永久的環境變量
原创 python--積累--帶有用戶認證Authorization的post請求
class.py 如下: import ssl ssl._create_default_https_context = ssl._create_unverified_context import json import urlli
原创 python--積累--class轉json,複雜格式轉json
簡單對象或者字典轉json import json d = {'a': 'aaa', 'b': ['b1', 'b2', 'b3'], 'c': 100} json_str = json.dumps(d) print json_
原创 python----積累---python對象排序的方法收集
需要針對對象序列進行排序的,尤其是針對對象的某個屬性排序的場景最爲常見。 直接調用序列的sort方法 class Person(object): def __init__(self,age,name):
原创 Debian系統apt-get使用的sourcelist選擇梳理
對Debian 源的理解 使用Debian系統apt-get在線安裝軟件,首先需要配置source.list文件。 source.list文件位於"/etc/apt"或者目錄下,可以使用"vi"編輯去編輯此文件。 查看和編輯 使用
原创 遇到問題---pod使用pvc存儲時報錯---had volume affinity conflict
遇到問題 使用yaml創建mysql服務時使用pvc作爲持久存儲,使用的yaml如下: storageclass.yml kind: StorageClass apiVersion: storage.k8s.io/v1 meta
原创 Kubernetes--k8s---kubectl安裝和設置
使用Kubernetes命令行工具kubectl可以在Kubernetes上部署和管理應用程序。 使用kubectl,可以檢查集羣資源; 創建,刪除和更新組件。 以下是安裝kubectl的幾種方法。 通過curl安裝kubectl
原创 kubernetes--k8s--web管理界面使用--dashboardv1.8.3版本安裝詳細步驟
安裝dashboard監控界面 (僅主節點運行) dashboard官網參考 使用命令 kubectl create -f https://raw.githubusercontent.com/kubernetes/dashboar
原创 遇到問題--Cannot make a static reference to the non-static field logMongoTemplate-----Spring注入靜態方法
有時候 我們需要在靜態的方法中使用 spring 注入的 數據庫 實例。 但是通過@Autowired注入的實例變量 是不能直接用於 靜態static的方法中的。 會提示 Cannot make a static referenc
原创 docker---通過images的鏡像反推出Dockerfile
沒有命令直接 通過image鏡像 就能反編譯 獲得 Dockerfile。 但是 我們可以根據 docker history命令 進行反推。 docker history --help Usage: docker histor
原创 遇到問題---spark on k8s部分spark_home的conf配置不生效
遇到的問題 部分pod 執行s3操作和日誌打印debug失敗,沒有讀取配置的log4j.properties文件和spark-defaults.conf的配置。 比如在conf目錄中放入log4j.properties文件,已經在
原创 遇到問題----hadoop組件---spark實戰-----spark on k8s---hail--Expected n part files but found 0
遇到問題 在jupyter notebook中使用hail進行操作,使用命令如下: import hail as hl mt = hl.import_vcf("s3a://test-env/tmp/zzq/202003170723
原创 hadoop組件---spark實戰-----airflow----調度工具airflow部署到k8s中使用
在之前的文章中 我們已經瞭解了airflow 和 它的工作原理。 hadoop組件—spark實戰-----airflow----調度工具airflow的介紹和使用示例 Scheduler進程,WebServer進程和Worker
原创 hadoop組件---spark實戰-----airflow----調度工具airflow的介紹和使用示例
Airflow是什麼 Airflow是一個可編程,調度和監控的工作流平臺,基於有向無環圖(DAG),airflow可以定義一組有依賴的任務,按照依賴依次執行。airflow提供了豐富的命令行工具用於系統管控,而其web管理界面同樣