原创 Sparkexception: Values to assemble cannot be null

使用VectorAssembler的時候出現Sparkexception: Values to assemble cannot be null的錯誤,原因是因爲Vector不能包含null值。 解決方法如下: assembler

原创 python中的quicksort 和mergesort

def quicksort(alist): return quicksorthelper(alist, 0 , len(alist)-1) def quicksorthelper(alist, first, la

原创 python計算server時區時間差

記錄一段python中關於timezone的小代碼,將另一個時區服務器的時間轉爲utc+8 import time from bson import ObjectId from datetime import datetime,

原创 pyspark OneHotEncoder用法實例

def encode_columns(df, col_list): indexers = [ StringIndexer(inputCol=c, outputCol=f'{c}_indexed').setHandleInval

原创 pyspark target mean encoding入門版

寫了一個簡單版本的target mean encoding, 代碼如下: from pyspark.sql.functions import create_map from itertolls import chain agg =

原创 'requirement failed: Cannot have an empty string for name. '

今天測試pyspark重的encode出現了 pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Cannot have an empty string

原创 Spark中對dataframe內重複列求和

前言 在處理dataframe中的字段名是,發現有些字段名在處理後是重複,於是新定義了策略,對這些相同列名的字段進行求和合並 summing the duplicated columns 代碼實現 #Hanle Duplicate

原创 shell同時後臺運行多個進程並等待

代碼如下 job_list='job1 job2 job3' pids='' for j in `echo $job_list`;do run_job $j & pids="$pids $!" done for pid in

原创 整理一些HBase相關的文章

HBase相關的文章前言文章列表HBase入門HBase原理HBase最佳實踐 前言 學習HBase過程中搜集的的一些文章,整理如下。 文章列表 HBase入門 數據模型 組件 讀寫與刪除原理 壓縮、分裂與故障恢復 HBase

原创 spark中遞歸join一系列dataframe

代碼如下: def join_dfs(df_list,key=['id']): if len(df_list) == 1: retirm df_list[0] def join_df(df1,df2,key=['id'])

原创 注意pyspark中替換nan值的問題

在PySpark中,NaN與Null不同。 兩者都與空字符串“”不同,因此,可能需要在所有數據集特定填充值的基礎上檢查每個字符。 本來想使用df.replace(float('nan'),None)將dataframe中的 n

原创 Hive中使用parquet

如何創建parquet外部表 CREATE EXTERNAL TABLE IF NOT EXISTS XXXX ( ... ) STORED AS PARQUET LOCATION '/data/hive/xxxx' TBLPRO

原创 pyspark中獲取dataframe的大小

代碼如下: from pyspark.serializers import PickleSerializer, AutoBatchedSerializer def _to_java_obj_rdd(df): rdd=df.rd

原创 python 實現鏈表反轉操作

代碼如下: class ListNode(): def __init__(self,x): self.val =x self.next = None def printN

原创 python實現樹的前序/中序/後序遍歷以及深度/廣度遍歷等

代碼如下: class Node(): def __init__(self, x): self.val = x self.left = self.right = None