原创 lightgbm(gpu)在linux(centos7)安裝
#保證gpu是正常可用的: nvidia-smi nvcc -V #進入root權限,且python環境爲你正常使用環境,比如anaconda3,而不是python2.7 #依賴:sudo apt-get install --n
原创 spark sql 中排序的坑
sort by 之後多組排序不要帶括號,不然spark sql 語法解析就有 bug了。
原创 terminal及vim高亮
在~/.bash_profile中修改: 1 ## terminal hignlight: 2 export CLICOLOR=1 3 export LSCOLORS=gxfxaxdxcxegedabagacad
原创 tensorflow2.x使用cuda10.2(非常簡單)
# 目前tensorflow2.2官方標配cuda10.1,也是官方在github給出方案,修改cuda軟鏈接即可,非常簡單。也不影響pytorch1.5(cuda10.2)的繼續使用。 # 前提是你已經正確安裝cuda10.2
原创 pyspark參數設置,常用時間函數
spark-submit --master yarn-client --num-executors 8 --driver-memory 4g --executor-memory 2g spark_demo.py spark =
原创 linux命令(殺任務,看日誌,查目錄大小,打包壓縮, pyspark json jar)
yarn application -list yarn application -kill hadoop job -list hadoop job -kill ps -ef | grep /home/xxx/project/r
原创 hive_sql優化
-- 優化時間計算導致的資源消耗 -- -- 優化hive性能:tez,spark,lmpala,mapreduce; 矢量化-- set hive.execution.engine = spark; set hive.vec
原创 pyspark,pandas,sql之分組排序
# coding=utf-8 import pandas as pd from pyspark.sql import SparkSession, Window from pyspark.sql import functions
原创 linux(centos_redhat)裸機配置
sudo yum upgrade #sudo yum update sudo yum -y install # anaconda: libXcomposite libXcursor libXi libXtst libXrandr
原创 linux: export path
PATH=$PATH:$HOME/.local/bin:$HOME/bin export PATH export SPARK_HOME=/Users/xyl/Install/spark_install/spark-2.4.5-b
原创 python必裝包
pip install scipy numba numpy pandas pandas_profiling dask mpi4py sqlalchemy pymysql pymongo redis rediscluster py
原创 安裝cuDNN官方教程
http://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#install-windows
原创 python迭代對象降維
迭代對象降維至一維: # coding=utf-8 from collections import Iterable def oneDim(L): for each in L: if not isins
原创 python--for...else...,while...else...
for i in range(5): print(i) #break else: print('else?') s = [1,2,3] while s: print(s.pop()) #b
原创 python--raise Exception
def printError(v): if v: pass else: raise Exception('Not exiests `V`.')