原创 ETL 之kettle 8下載

最近了解到ETL利器kettle,但是國內下載都非常慢,國內有個鏡像網站但是隻提供kettle 7及以下版本,這裏提供kettle 8 版本地址 鏈接:https://pan.baidu.com/s/1iiMq4tI3vzPTkjuApl

原创 Pyspark ValueError: Cannot run multiple SparkContexts at once 解決之道

pyspark執行可能就遇到問題 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master

原创 八斗十六期系列學習比記--The authenticity of host 'node2 (xxx.xxx.xxx.xxx)' can't be established.

交了高昂的學費,報名了八斗16期,升級了筆記本內存和硬盤,希望能夠學有所成。 今天是搭環境,用虛擬機搭了hadoop2.7.7,本來一切按教程都很順利,最後啓動時出現這個問題: The authenticity of host 'node

原创 windows 和 Linux 添加環境變量

1、先了解一下什麼是PATH環境變量 (1)環境變量 環境變量相當於“快捷鍵”。 一個“HOME=/home/ACCP286”的環境變量指明你在這個電腦上的個人主目錄是“/home/ACCP286”,你每次要回到個人主目錄時,不需要輸入

原创 Vscode python debug過程中Terminal 終端路徑的設置

昨天用Vscode 調試python程序 ,debug過程中Termianl路徑總是自動跳轉到一個莫名其妙的路徑,如圖: 因爲程序涉及判斷路徑下的文件是否存在,所以路徑不對就很難受,查了很多終於找到原因。 原來這個涉及python的虛擬

原创 使用anaconda虛擬python環境使用pyspark的一種方式

大數據學習之pyspark環境搭建。 安裝anaconda、配置好虛擬環境之後,可以編輯家目錄下.bashrc文件, 我的用戶名是bdbp,虛擬環境名稱也是bdbp 編輯.bashrc添加以下內容 export PYSPARK_PYTH

原创 python連接zookeeper、hbase

背景: os:centos 7.6 zookeeper:3.4.14 hbase:1.4.13 python:anaconda3-python3.6.8 準備工作: 先啓動集羣,包括zookeeper,hbase,和ThriftServe

原创 python安裝 pycurl

操作系統:CentOS7.6  64位 Python版本:3.6.8 安裝pycurl的時候報錯     ERROR: Command errored out with exit status 1:      command: /home

原创 解決python 讀取hive表的char類型字段返回 keyerror:21

這是python不支持char類型所致,使用cast函數將char類型的字段轉數據類型即可,比如 select cast(finish_flag as string) finish_flag from sor_data.test1; 這樣

原创 cdh hive支持update delete參數配置方法

以下配置項必須被設定:      Client端: hive.support.concurrency – true hive.enforce.bucketing – true hive.exec.dynamic.partition.mod

原创 centos 虛擬機 Name or service not known 解決方法

今天打開虛擬機安裝docker 突然發現網絡不通,ping 某度 出現 ”Name or service not known“, 而我記得週五還在用的,今天週日就不能用了? 經過多方排查才發現是 網卡設置有問題----網卡的網關和虛擬機設

原创 df.describe() 用法概述

python數據清理方面一般都會用到df.describe()這個函數,但其實這是可以傳參數的。比如以泰坦尼克號生存預測爲例 df = pd.read_csv('./train.csv') df.describe() df.descri

原创 CENTOS7下安裝REDIS

一、安裝redis 第一步:下載redis安裝包 wget http://download.redis.io/releases/redis-4.0.6.tar.gz [root@iZwz991stxdwj560bfmadtZ loca

原创 Linux下 python3.7.X 安裝相關問題 zipimport.ZipImportError ModuleNotFoundError: No module named '_ctypes'

今日安裝centos 安裝 python 3.7.4出現兩個問題,記錄一下,方便其他人排錯。 ipimport.ZipImportError: can't decompress data; zlib not available cents

原创 使用pandas對數據進行清洗

目錄: 數據表中的重複值 duplicated() drop_duplicated() 數據表中的空值/缺失值 isnull()&notnull() dropna() fillna() 數據間的空格 查看數據中的空格 去除數據中的空格