原创 Sparkexception: Values to assemble cannot be null
使用VectorAssembler的時候出現Sparkexception: Values to assemble cannot be null的錯誤,原因是因爲Vector不能包含null值。 解決方法如下: assembler
原创 python中的quicksort 和mergesort
def quicksort(alist): return quicksorthelper(alist, 0 , len(alist)-1) def quicksorthelper(alist, first, la
原创 python計算server時區時間差
記錄一段python中關於timezone的小代碼,將另一個時區服務器的時間轉爲utc+8 import time from bson import ObjectId from datetime import datetime,
原创 pyspark OneHotEncoder用法實例
def encode_columns(df, col_list): indexers = [ StringIndexer(inputCol=c, outputCol=f'{c}_indexed').setHandleInval
原创 pyspark target mean encoding入門版
寫了一個簡單版本的target mean encoding, 代碼如下: from pyspark.sql.functions import create_map from itertolls import chain agg =
原创 'requirement failed: Cannot have an empty string for name. '
今天測試pyspark重的encode出現了 pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Cannot have an empty string
原创 Spark中對dataframe內重複列求和
前言 在處理dataframe中的字段名是,發現有些字段名在處理後是重複,於是新定義了策略,對這些相同列名的字段進行求和合並 summing the duplicated columns 代碼實現 #Hanle Duplicate
原创 shell同時後臺運行多個進程並等待
代碼如下 job_list='job1 job2 job3' pids='' for j in `echo $job_list`;do run_job $j & pids="$pids $!" done for pid in
原创 整理一些HBase相關的文章
HBase相關的文章前言文章列表HBase入門HBase原理HBase最佳實踐 前言 學習HBase過程中搜集的的一些文章,整理如下。 文章列表 HBase入門 數據模型 組件 讀寫與刪除原理 壓縮、分裂與故障恢復 HBase
原创 spark中遞歸join一系列dataframe
代碼如下: def join_dfs(df_list,key=['id']): if len(df_list) == 1: retirm df_list[0] def join_df(df1,df2,key=['id'])
原创 注意pyspark中替換nan值的問題
在PySpark中,NaN與Null不同。 兩者都與空字符串“”不同,因此,可能需要在所有數據集特定填充值的基礎上檢查每個字符。 本來想使用df.replace(float('nan'),None)將dataframe中的 n
原创 Hive中使用parquet
如何創建parquet外部表 CREATE EXTERNAL TABLE IF NOT EXISTS XXXX ( ... ) STORED AS PARQUET LOCATION '/data/hive/xxxx' TBLPRO
原创 pyspark中獲取dataframe的大小
代碼如下: from pyspark.serializers import PickleSerializer, AutoBatchedSerializer def _to_java_obj_rdd(df): rdd=df.rd
原创 python 實現鏈表反轉操作
代碼如下: class ListNode(): def __init__(self,x): self.val =x self.next = None def printN
原创 python實現樹的前序/中序/後序遍歷以及深度/廣度遍歷等
代碼如下: class Node(): def __init__(self, x): self.val = x self.left = self.right = None