台部落张小凡vip

pyspark dataframe 去重兩種去重，一種是整行每一項完全相同去除重複行，另一種是某一列相同去除重複行。整行去重 dataframe1 = dataframe1.distinct() 某一列或者多列相同的去除重複

2020-06-17 05:36:51

終端terminal和普通程序 linux系統的中主要有兩種啓用系統環境的情況，一種是用戶登錄，比如進入bash或者sh等命令行操作shell界面，一種是用戶不登錄，而是程序自動運行。根據兩種情況，適用的創建永久的環境變量

2020-06-17 05:36:51

class.py 如下： import ssl ssl._create_default_https_context = ssl._create_unverified_context import json import urlli

2020-06-04 06:16:27

簡單對象或者字典轉json import json d = {'a': 'aaa', 'b': ['b1', 'b2', 'b3'], 'c': 100} json_str = json.dumps(d) print json_

2020-06-04 06:16:27

需要針對對象序列進行排序的，尤其是針對對象的某個屬性排序的場景最爲常見。直接調用序列的sort方法 class Person(object): def __init__(self,age,name):

2020-06-04 06:16:27

對Debian 源的理解使用Debian系統apt-get在線安裝軟件，首先需要配置source.list文件。 source.list文件位於"/etc/apt"或者目錄下，可以使用"vi"編輯去編輯此文件。查看和編輯使用

2020-05-16 23:24:29

遇到問題使用yaml創建mysql服務時使用pvc作爲持久存儲，使用的yaml如下: storageclass.yml kind: StorageClass apiVersion: storage.k8s.io/v1 meta

2020-05-12 10:05:42

使用Kubernetes命令行工具kubectl可以在Kubernetes上部署和管理應用程序。使用kubectl，可以檢查集羣資源; 創建，刪除和更新組件。以下是安裝kubectl的幾種方法。通過curl安裝kubectl

2020-04-27 22:05:40

安裝dashboard監控界面 (僅主節點運行) dashboard官網參考使用命令 kubectl create -f https://raw.githubusercontent.com/kubernetes/dashboar

2020-04-27 22:05:30

有時候我們需要在靜態的方法中使用 spring 注入的數據庫實例。但是通過@Autowired注入的實例變量是不能直接用於靜態static的方法中的。會提示 Cannot make a static referenc

2020-04-27 22:05:30

沒有命令直接通過image鏡像就能反編譯獲得 Dockerfile。但是我們可以根據 docker history命令進行反推。 docker history --help Usage: docker histor

2020-04-27 22:05:30

遇到的問題部分pod 執行s3操作和日誌打印debug失敗，沒有讀取配置的log4j.properties文件和spark-defaults.conf的配置。比如在conf目錄中放入log4j.properties文件，已經在

2020-04-24 19:44:17

遇到問題在jupyter notebook中使用hail進行操作，使用命令如下: import hail as hl mt = hl.import_vcf("s3a://test-env/tmp/zzq/202003170723

2020-03-27 13:16:17

在之前的文章中我們已經瞭解了airflow 和它的工作原理。 hadoop組件—spark實戰-----airflow----調度工具airflow的介紹和使用示例 Scheduler進程，WebServer進程和Worker

2020-02-29 04:01:11

Airflow是什麼 Airflow是一個可編程，調度和監控的工作流平臺，基於有向無環圖(DAG)，airflow可以定義一組有依賴的任務，按照依賴依次執行。airflow提供了豐富的命令行工具用於系統管控，而其web管理界面同樣

2020-02-27 18:57:58