原创 lightgbm(gpu)在linux(centos7)安裝

#保證gpu是正常可用的: nvidia-smi nvcc -V #進入root權限,且python環境爲你正常使用環境,比如anaconda3,而不是python2.7 #依賴:sudo apt-get install --n

原创 spark sql 中排序的坑

sort by 之後多組排序不要帶括號,不然spark sql 語法解析就有 bug了。

原创 terminal及vim高亮

在~/.bash_profile中修改: 1 ## terminal hignlight: 2 export CLICOLOR=1 3 export LSCOLORS=gxfxaxdxcxegedabagacad

原创 tensorflow2.x使用cuda10.2(非常簡單)

# 目前tensorflow2.2官方標配cuda10.1,也是官方在github給出方案,修改cuda軟鏈接即可,非常簡單。也不影響pytorch1.5(cuda10.2)的繼續使用。 # 前提是你已經正確安裝cuda10.2

原创 pyspark參數設置,常用時間函數

spark-submit --master yarn-client --num-executors 8 --driver-memory 4g --executor-memory 2g spark_demo.py spark =

原创 linux命令(殺任務,看日誌,查目錄大小,打包壓縮, pyspark json jar)

yarn application -list yarn application -kill hadoop job -list hadoop job -kill ps -ef | grep /home/xxx/project/r

原创 hive_sql優化

-- 優化時間計算導致的資源消耗 -- -- 優化hive性能:tez,spark,lmpala,mapreduce; 矢量化-- set hive.execution.engine = spark; set hive.vec

原创 pyspark,pandas,sql之分組排序

# coding=utf-8 import pandas as pd from pyspark.sql import SparkSession, Window from pyspark.sql import functions

原创 linux(centos_redhat)裸機配置

sudo yum upgrade #sudo yum update sudo yum -y install # anaconda: libXcomposite libXcursor libXi libXtst libXrandr

原创 linux: export path

PATH=$PATH:$HOME/.local/bin:$HOME/bin export PATH export SPARK_HOME=/Users/xyl/Install/spark_install/spark-2.4.5-b

原创 python必裝包

pip install scipy numba numpy pandas pandas_profiling dask mpi4py sqlalchemy pymysql pymongo redis rediscluster py

原创 安裝cuDNN官方教程

http://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#install-windows

原创 python迭代對象降維

迭代對象降維至一維: # coding=utf-8 from collections import Iterable def oneDim(L): for each in L: if not isins

原创 python--for...else...,while...else...

for i in range(5): print(i) #break else: print('else?') s = [1,2,3] while s: print(s.pop()) #b

原创 python--raise Exception

def printError(v): if v: pass else: raise Exception('Not exiests `V`.')