原创 pyspark dataframe 去重

pyspark dataframe 去重 兩種去重,一種是整行每一項完全相同去除重複行,另一種是某一列相同去除重複行。 整行去重 dataframe1 = dataframe1.distinct() 某一列或者多列相同的去除重複

原创 docker--k8s---終端terminal和普通程序以及jupyter notebook-創建永久的靜態環境變量--創建動態的環境變量

終端terminal和普通程序 linux系統的中主要有兩種啓用系統環境的情況,一種是 用戶登錄,比如進入bash或者sh等命令行操作shell界面,一種是 用戶不登錄,而是程序自動運行。 根據 兩種情況,適用的創建永久的環境變量

原创 python--積累--帶有用戶認證Authorization的post請求

class.py 如下: import ssl ssl._create_default_https_context = ssl._create_unverified_context import json import urlli

原创 python--積累--class轉json,複雜格式轉json

簡單對象或者字典轉json import json d = {'a': 'aaa', 'b': ['b1', 'b2', 'b3'], 'c': 100} json_str = json.dumps(d) print json_

原创 python----積累---python對象排序的方法收集

需要針對對象序列進行排序的,尤其是針對對象的某個屬性排序的場景最爲常見。 直接調用序列的sort方法 class Person(object): def __init__(self,age,name):

原创 Debian系統apt-get使用的sourcelist選擇梳理

對Debian 源的理解 使用Debian系統apt-get在線安裝軟件,首先需要配置source.list文件。 source.list文件位於"/etc/apt"或者目錄下,可以使用"vi"編輯去編輯此文件。 查看和編輯 使用

原创 遇到問題---pod使用pvc存儲時報錯---had volume affinity conflict

遇到問題 使用yaml創建mysql服務時使用pvc作爲持久存儲,使用的yaml如下: storageclass.yml kind: StorageClass apiVersion: storage.k8s.io/v1 meta

原创 Kubernetes--k8s---kubectl安裝和設置

使用Kubernetes命令行工具kubectl可以在Kubernetes上部署和管理應用程序。 使用kubectl,可以檢查集羣資源; 創建,刪除和更新組件。 以下是安裝kubectl的幾種方法。 通過curl安裝kubectl

原创 kubernetes--k8s--web管理界面使用--dashboardv1.8.3版本安裝詳細步驟

安裝dashboard監控界面 (僅主節點運行) dashboard官網參考 使用命令 kubectl create -f https://raw.githubusercontent.com/kubernetes/dashboar

原创 遇到問題--Cannot make a static reference to the non-static field logMongoTemplate-----Spring注入靜態方法

有時候 我們需要在靜態的方法中使用 spring 注入的 數據庫 實例。 但是通過@Autowired注入的實例變量 是不能直接用於 靜態static的方法中的。 會提示 Cannot make a static referenc

原创 docker---通過images的鏡像反推出Dockerfile

沒有命令直接 通過image鏡像 就能反編譯 獲得 Dockerfile。 但是 我們可以根據 docker history命令 進行反推。 docker history --help Usage: docker histor

原创 遇到問題---spark on k8s部分spark_home的conf配置不生效

遇到的問題 部分pod 執行s3操作和日誌打印debug失敗,沒有讀取配置的log4j.properties文件和spark-defaults.conf的配置。 比如在conf目錄中放入log4j.properties文件,已經在

原创 遇到問題----hadoop組件---spark實戰-----spark on k8s---hail--Expected n part files but found 0

遇到問題 在jupyter notebook中使用hail進行操作,使用命令如下: import hail as hl mt = hl.import_vcf("s3a://test-env/tmp/zzq/202003170723

原创 hadoop組件---spark實戰-----airflow----調度工具airflow部署到k8s中使用

在之前的文章中 我們已經瞭解了airflow 和 它的工作原理。 hadoop組件—spark實戰-----airflow----調度工具airflow的介紹和使用示例 Scheduler進程,WebServer進程和Worker

原创 hadoop組件---spark實戰-----airflow----調度工具airflow的介紹和使用示例

Airflow是什麼 Airflow是一個可編程,調度和監控的工作流平臺,基於有向無環圖(DAG),airflow可以定義一組有依賴的任務,按照依賴依次執行。airflow提供了豐富的命令行工具用於系統管控,而其web管理界面同樣