原创 Joining multiple DataFrames only supported for joining on index

pandas中多個dataframe想進行按列操作時,需要用join函數,根據函數參數列表 DataFrame.join(self, other, on=None, how='left', lsuffix='', rsuffix='',

原创 pyspark join 出現重複列的問題

設有兩個dataframe:df1,df2 如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner") df3就會出現兩個相同列 device_number 此時改成df

原创 pandas 中dataframe,groupby後得到的Series轉換成dataframe

方法是先將整個結果使用dict形式創建dataframe,再用reset_index轉換列名 psdt1=df3.groupby(['id_number', 'prod_name'])['active_days'].sum() psdt2

原创 pyspark:dataframe使用pandas_udf做groupby,帶多參數實現

pypsark的dataframe經常遇到要做groupby的場景,有兩種方式可以實現,dataframe的pandas_udf、rdd的mapValues,後者需要先將dataframe轉換成rdd再操作 下面介紹dataframe的p

原创 pandas MultiIndex重新整理列

pandas中對dataframe進行groupby+統計操作後會生成MultiIndex 如對df4的'prod_label_name2'進行聚合後,對'm_up_flow'列進行describe操作 df55=df4.groupby

原创 ValueError:not enough values to unpack/ too many values to unpack

當pandas中對每一列進行apply操作,如果輸出變量設置有問題,會報錯ValueError:not enough values to unpack/ too many values to unpack def mono_bin_re

原创 Python裝包報錯:無法定位程序輸入點OPENSSL_sk_new_reserve於動態鏈接庫

剛開始在cmd 用conda install selenium 安不上 搜索看到別的博主是替換Anaconda3\DLLs和Anaconda3\Library\bin其中一個libssl-1_1-x64 dlls文件到另一個文件夾 在我的

原创 基於不完整數據集進行用戶行爲週期發掘(python)

本文主要算法閱讀《ePeriodicity: Mining Event Periodicity from Incomplete Observations》這篇論文,進行了python的代碼實現,並做出了相應改進,該算法的主要功能是,可以無

原创 VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

使用pyspark 中的VectorAssembler出現報錯 vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='feat

原创 faiss:AssertionError: assert x.flags.contiguous

Faiss是Facebook AI團隊開源的針對聚類和相似性搜索庫 用自己數據跑faiss示例代碼報錯: %time index = faiss.IndexFlatL2(d) # build the index print(inde

原创 創建dataframe並插入一行時報錯:ValueError: Shape of passed values is (1, X), indices imply (X, X)

list=[0,0,....0] shape(list)=1063 colum=[1,2,3....,1603] 試圖 test=pd.DataFrame(list,columns=id_column) 報錯Value

原创 sql 遇到多個重複列名報錯:Ambiguous column reference ***

1.執行下段sql報錯,原因是a表和b表都有user_log_acct,item_third_cate_cd,它不會自動合併一列的!!只會有兩列都叫這個,故c表裏有兩列user_log_acct,沒辦法和d表匹配上!SELECT

原创 Python 中dict 字典方法小結

Python 中dict 字典方法小結 1.dict的方法:除了直接定義: dict1={‘zhang’:’張’,’wang’:’王’,’li’:’李’} s還可以用etdefault進行初始化。用get用於獲取,dict[]也可以用