原创 Git重命名遠程分支

一、重命名本地分支 將hot_fix分支重命名爲bug_fix git branch -m hot_fix bug_fix 二、推送重命名後的本地分支到遠程倉庫 git push origin bug_fix 此時本地倉庫舊分支名稱不

原创 Git修改提交歷史中的作者及郵箱信息

一、使用rebase 如圖,紅圈中提交的用戶名及郵箱是需要改的,則需要複製需要改的提交記錄的上一個記錄hashcode,在本例中就是a0a891a48f92b51201042fccbe61ed12646eda5e git rebase

原创 Git配置多個github賬號免密登錄

在公司開發中,有時候會存在公司賬戶跟私人賬戶共存,並隨時需要切換的情況,這種情況下git可以配置多個ssh-key,無縫切換賬號。 假如有兩個github賬號,一個是私人github賬號,一個是公司github賬號 私人賬號: gith

原创 Git配置ssh免密登錄

一、在用戶目錄下的.ssh目錄下生成祕鑰與公鑰 如果用戶目錄下沒有.ssh目錄,則需要新建一個 cd ~/.ssh ssh-keygen -t rsa 一路回車即可 注:國內很多博客都會帶上-C "xxx郵箱" 這個參數,但其實-C

原创 Spark算子 - groupBy

釋義 根據RDD中的某個屬性進行分組,分組後形式爲(k, [(k, v1), (k, v2), ...]),即groupBy 後組內元素會保留key值 方法簽名如下: def groupBy[K](f: T => K)(implicit

原创 Spark算子 - groupByKey

釋義 根據RDD中的某個屬性進行分組,分組後形式爲(k, [v1, v2, ...]) 方法簽名如下: def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { ...

原创 Pandas之groupby分組

釋義 groupby用來分組,調用groupby 之後返回pandas.core.groupby.generic.DataFrameGroupBy,其實就是由一個個格式爲(key, 分組後的dataframe)的元組,組成的列表: [(k

原创 Pandas中缺失值/NaN值/空值的處理

isna() 釋義 篩選爲NaN的布爾值,可接受單個標量或者數組 舉例 篩選stu_name爲NaN的所有行: df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack',

原创 Ubuntu18關機時出現 A stop job is running for ...導致關機很慢

1. 修改/etc/systemd/system.conf sudo vim /etc/systemd/system.conf 2. 找到一下兩行 #DefaultTimeoutStartSec=90s #DefaultTimeout

原创 Spark算子 - reduceByKey

釋義 reduceByKey類似reduce,但reduceByKey 是先根據key進行分組,再將每個組內的記錄歸併成1個記錄,最終返回一個PairRDD,k爲key類型,v爲每個組歸併後的記錄類型 方法簽名如下: def reduce

原创 Spark算子 - reduce

釋義 reduce將partition內所有記錄最終計算成1個記錄,結果類型與reduce 時數據類型一致 方法簽名如下: def reduce(f: (T, T) => T): T = withScope { ... } f

原创 Pandas常用操作 - 去重

1. 使用 drop_duplicates 去重 1.1 初始化數據 df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [1

原创 Pandas常用操作 - 新增數據列

初始化測試數據 df = pd.DataFrame({'stu_name': ['Nancy', 'Tony', 'Tim', 'Jack', 'Lucy'], 'stu_age': [17, 16, 16, 21, 19]}) st

原创 Spark算子 - aggregateByKey

釋義: aggregateByKey邏輯類似 aggregate,但 aggregateByKey針對的是PairRDD,即鍵值對 RDD,所以返回結果也是 PairRDD,結果形式爲:(各個Key, 同樣Key對應的Value聚合後的值

原创 Spark入門案例 - wordcount

代碼: object WordCount { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder().ap