原创 python中的參數*和**的問題

在python開發過程中,有些函數的參數前面是帶*的,和**的,也有的沒有任何*,怎麼理解,什麼意思呢?def add(data): sum = 0 for i in data: sum = sum + i

原创 python 二維數組轉一維數組

import operator from functools import reduce a = [[1,2,3], [4,6], [7,8,9,8]] print(reduce(operator.add, a)) >>> [1

原创 python加載xgb模型文件,並查看特徵重要性

加載模型 import xgboost as xgb model = xgb.Booster({'nthread':1}) model.load_model("./card_xgb_model_v5") # 查看模型重要性 sorte

原创 Pandas工作實踐數據分析總結

Pandas常用的功能函數和數據處理技巧 修改列名稱 file_data = pd.read_csv(‘data.csv’) file_data.rename(columns = {file_name.columns[0]:’new_

原创 python建立字典的嵌套——字典嵌套字典

需求是需要存儲一個map結構的數據,map裏面存儲list類型的數據: from collection import defaultdict obj = defaultdict(lambda :defaultdict(list)) 如

原创 spark報錯java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging at java.lang.ClassLoader

原创 spark報錯Error while instantiating 'org.apache.spark.sql.internal.SessionState'

Exception in thread "main" java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.internal

原创 spark分佈式平臺訓練xgboost一個需要注意的地方

代碼參考如下:scala實現 https://github.com/dmlc/xgboost/blob/master/jvm-packages/xgboost4j-example/src/main/scala/ml/dmlc/xgboo

原创 python將大文件分割成小文件

import pandas as pd import os def read_josn(fn): df = pd.read_json(fn,lines=True) return df # 核心思想是根據index與大

原创 對於密度聚類的關鍵掌握

主要是對說說關於密度聚類DBSCAN,這個算法比較新。確實表現的效果也比較好,能夠解決一些問題。密度聚類,是假設聚類結構能夠通過樣本分佈的緊密程度來確定,使用密度聚類纔有效。首先掌握該算法要知道幾個關鍵的屬性:    鄰域,核心對象,密度

原创 python將列表格式的字符串轉化爲列表

from ast import literal_eval a = "[2,3,4,5]" literal_eval(a) >>> [2, 3, 4, 5] 非常奏效,推薦使用!

原创 pyspark:通過sh腳本傳參到python文件中

這個過程需要兩個文件, 其中一個是my.sh文件 DT=$1 …… --driver-memory 6g \ --executor-memory 6g \ --executor-cores 2 \ feat_2.py $DT 另外一個是

原创 spark報錯:scala.reflect.internal.MissingRequirementError: object java.lang.Object in compiler mirror

在寫spark streaming的時候依賴報錯 解決方式: 刪掉報錯的依賴包,讓maven重新下載,然後就解決了。

原创 pyspark 字典嵌套

創建嵌套字典結構: ('3', {'test': {'aaa': [[44, 5]]}}), ('2', {'test': {'bbb': [[2, 4], [3, 4]]}}) # 存儲這樣的數據,schema怎麼寫 def g

原创 python建立字典的字典

需求是需要存儲一個map結構的數據,map裏面存儲list類型的數據: from collection import defaultdict obj = defaultdict(lambda :defaultdict(list)) 如