原创 python多進程編程,如何讓主進程和子進程都退出

  python的多線程不是真正的多線程,所以使用多進程來實現高併發,比如訓練模型讀取數據時,但是kill只會殺死相應的進程ID,由於真實環境下子進程太多,一個一個去kill太麻煩,下面實現了只需要殺死主進程id即可同時使子進程也退出:

原创 hive表跨集羣遷移

數據量比較大時,選擇官方推薦方案distcp; 1.創建目標數據庫 CREATE DATABASE IF NOT EXISTS xxxxxx LOCATION '/xxx/xxx/xxxx/xxxx.db'; 2.創建目標表,與原表信息博

原创 pyspark拉取kafka數據

1.創建kafka的topic: ./kafka-topics.sh --create --zookeeper xxxx:2181,xxxx:2181 --replication-factor 3 --partitions 3 --top

原创 ambari下線機器節點流程步驟

1.下線前如果數據不均衡,需要均衡一下數據:     hdfs dfsadmin -setBalancerBandwidth 67108864     hdfs balancer -threshold 5 2.ambari WEB管理平臺

原创 flume消費kafka消息的offset查看方法

kafka版本1.0.1 flume版本1.8.0   offset已經不在zookeeper存儲了,存儲在__consumer_offsets這個topic裏面,具體哪個consumer group存儲在這個topic的哪個partit

原创 pykafka壓力測試代碼

利用pykafka壓力測試kafka,利用了多進程模式,根據自己機器調高進程數; with topic.get_producer(delivery_reports=True) as producer: 如果使用上面的delivery_re

原创 centos查看在線用戶及踢出方法

只需要在SHELL終端中輸入命令:w  16:16:06 up 12 min,  1 user,  load average: 0.14, 0.18, 0.13 USER     TTY      FROM             LOG

原创 hadoop2.7遷移到hadoop3.1,hive數據遷移

本文采用distcp的方式遷移數據,有關distcp如何使用,請移步如下鏈接自行學習: https://hadoop.apache.org/docs/r3.1.0/hadoop-distcp/DistCp.html 關於distcp的幾點

原创 關於PHP技術棧的總結

    做PHP技術棧開發有4年有餘了,在此做個總結,送給即將轉入大數據的自己,希望對PHP技術棧從業者也有些許幫助!     自從AI相關技術興起之後,互聯網的發展就進入了成熟與理性期,對於很多沒有學歷與一線公司背景的web從業者來說是

原创 Ambari2.7.0離線部署實戰

一、下載安裝包 wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0/ambari-2.7.0.0-centos7.tar.gz wget

原创 hive或者pyspark或者別的程序需要與hive交互時,拋出權限異常的處理辦法!

shell輸入命令hive去連接,或者執行pyspark程序時,遇到以下錯誤,是因爲遇到權限問題了,只需要在命令行執行以下shell,然後再執行hive命令或者執行pyspark程序就可以了: [root@ ~]$ export HADO

原创 hadoop的Configured Capacity和DFS Remaining變成0的解決辦法

Configured Capacity: 0 Configured Remote Capacity: 0 B DFS Used: 0 KB (0%) Non DFS Used: 0 GB DFS Remaining: 0 GB (0%)