台部落Alex.liu

pandas用read_json讀取json文件 pandas.read_json語法如下 pandas.read_json(path_or_buf=None, orient=None, typ='frame', dtype=Tr

2020-06-27 15:15:59

pandas利用transform實現窗口函數 array = [ ['a', 2, 29], ['a', 1, 18], ['a', 0, 18], ['b', 2, 25], ['b'

2020-06-27 15:15:48

使用spark操作hive的時候，當需要對hive的分區表進行動態更新分區內容時，可在SparkSession中進行如下設置 SparkSession.builder() .master("yarn")

2020-06-11 03:40:03

<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

2020-06-11 03:40:03

import pandas as pd import jieba def cut_word(word): cw = jieba.cut(word) return list(cw) df['cut_word'] = d

2020-04-04 07:32:07

不同長度的Series和DataFrame合併 # s1爲一個DataFrame，s2爲一個Series def expand_columns(s1, s2): s1.np.array(s1).tolist() data =

2020-03-06 10:29:11

用pd.Series.nunique在pandas中實現分組計數功能 grouped = data.groupby(["col1", "col2"]) grouped.agg({"col3": "count", "col4": p

2019-07-05 04:41:04

//collect_set去除重複元素；collect_list不去除重複元素 df.withColumn( "new_col_name", size(collect_set($"need_count_col_name

2019-06-28 05:33:17

代碼 package cn.spark.sql import org.apache.http.client.methods.HttpGet import org.apache.http.impl.client.DefaultHt

2019-06-24 04:41:42

通過SparkSession進行設置 val spark = SparkSession .builder() .appName("AWSMMonitorInfo") .enableHiveSup

2019-06-18 05:58:14

隨機抽樣 import pandas as pd #對dataframe隨機抽取2000個樣本 pd.sample(df, n=2000) 分層抽樣利用sklean中的函數靈活進行抽樣 from sklearn.model_s

2019-06-11 11:57:45

//service_prod_code字段類型爲array val df_info = spark.sql( """ select product, service_prod_code

2019-06-11 11:57:45

lag 該函數的格式如下: lag(字段名,N) over(partition by 分組字段 order by 排序字段排序方式) lag括號裏理由兩個參數，第一個是字段名，第二個是數量N，這裏的意思是，取分組排序後比該條記錄

2019-04-12 05:15:31

import pandas as pd df = pd.DataFrame([['A',1,'2019-03-01 00:00:30'], ['A',3,'2019-04-01 00:00:30'

2019-04-11 04:59:55

import pandas as pd df = pd.read_table(read_file, header=0, dtype=str, sep='\t') res_file = fileDir + r'\filename.xls

2019-04-03 04:48:20