台部落In-spite-of

在python開發過程中，有些函數的參數前面是帶*的，和**的，也有的沒有任何*，怎麼理解，什麼意思呢？def add(data): sum = 0 for i in data: sum = sum + i

2020-06-19 13:32:31

import operator from functools import reduce a = [[1,2,3], [4,6], [7,8,9,8]] print(reduce(operator.add, a)) >>> [1

2020-06-19 13:32:31

加載模型 import xgboost as xgb model = xgb.Booster({'nthread':1}) model.load_model("./card_xgb_model_v5") # 查看模型重要性 sorte

2020-06-19 13:32:31

Pandas常用的功能函數和數據處理技巧修改列名稱 file_data = pd.read_csv(‘data.csv’) file_data.rename(columns = {file_name.columns[0]:’new_

2020-06-19 13:32:31

需求是需要存儲一個map結構的數據，map裏面存儲list類型的數據： from collection import defaultdict obj = defaultdict(lambda :defaultdict(list)) 如

2020-06-19 13:32:31

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging at java.lang.ClassLoader

2020-06-19 13:32:31

Exception in thread "main" java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.internal

2020-06-19 13:32:31

代碼參考如下：scala實現 https://github.com/dmlc/xgboost/blob/master/jvm-packages/xgboost4j-example/src/main/scala/ml/dmlc/xgboo

2020-06-19 13:32:31

import pandas as pd import os def read_josn(fn): df = pd.read_json(fn,lines=True) return df # 核心思想是根據index與大

2020-06-19 13:32:31

主要是對說說關於密度聚類DBSCAN，這個算法比較新。確實表現的效果也比較好，能夠解決一些問題。密度聚類，是假設聚類結構能夠通過樣本分佈的緊密程度來確定，使用密度聚類纔有效。首先掌握該算法要知道幾個關鍵的屬性：鄰域，核心對象，密度

2020-06-19 13:32:31

from ast import literal_eval a = "[2,3,4,5]" literal_eval(a) >>> [2, 3, 4, 5] 非常奏效，推薦使用！

2020-06-19 13:32:31

這個過程需要兩個文件，其中一個是my.sh文件 DT=$1 …… --driver-memory 6g \ --executor-memory 6g \ --executor-cores 2 \ feat_2.py $DT 另外一個是

2020-05-24 23:32:41

在寫spark streaming的時候依賴報錯解決方式：刪掉報錯的依賴包，讓maven重新下載，然後就解決了。

2020-04-27 12:57:08

創建嵌套字典結構： ('3', {'test': {'aaa': [[44, 5]]}}), ('2', {'test': {'bbb': [[2, 4], [3, 4]]}}) # 存儲這樣的數據，schema怎麼寫 def g

2020-04-27 10:18:37

需求是需要存儲一個map結構的數據，map裏面存儲list類型的數據： from collection import defaultdict obj = defaultdict(lambda :defaultdict(list)) 如

2020-04-25 03:07:47