台部落loveProLife

python的多線程不是真正的多線程，所以使用多進程來實現高併發，比如訓練模型讀取數據時，但是kill只會殺死相應的進程ID，由於真實環境下子進程太多，一個一個去kill太麻煩，下面實現了只需要殺死主進程id即可同時使子進程也退出：

2020-05-07 16:30:51

數據量比較大時，選擇官方推薦方案distcp； 1.創建目標數據庫 CREATE DATABASE IF NOT EXISTS xxxxxx LOCATION '/xxx/xxx/xxxx/xxxx.db'; 2.創建目標表，與原表信息博

2018-11-20 12:04:06

1.創建kafka的topic: ./kafka-topics.sh --create --zookeeper xxxx:2181,xxxx:2181 --replication-factor 3 --partitions 3 --top

2018-11-08 11:01:26

1.下線前如果數據不均衡，需要均衡一下數據： hdfs dfsadmin -setBalancerBandwidth 67108864 hdfs balancer -threshold 5 2.ambari WEB管理平臺

2018-10-13 11:12:32

kafka版本1.0.1 flume版本1.8.0 offset已經不在zookeeper存儲了，存儲在__consumer_offsets這個topic裏面，具體哪個consumer group存儲在這個topic的哪個partit

2018-09-30 11:16:28

利用pykafka壓力測試kafka，利用了多進程模式，根據自己機器調高進程數； with topic.get_producer(delivery_reports=True) as producer: 如果使用上面的delivery_re

2018-09-26 11:07:12

只需要在SHELL終端中輸入命令：w 16:16:06 up 12 min, 1 user, load average: 0.14, 0.18, 0.13 USER TTY FROM LOG

2018-09-19 10:26:48

本文采用distcp的方式遷移數據，有關distcp如何使用，請移步如下鏈接自行學習： https://hadoop.apache.org/docs/r3.1.0/hadoop-distcp/DistCp.html 關於distcp的幾點

2018-09-17 22:07:17

做PHP技術棧開發有4年有餘了，在此做個總結，送給即將轉入大數據的自己，希望對PHP技術棧從業者也有些許幫助！自從AI相關技術興起之後，互聯網的發展就進入了成熟與理性期，對於很多沒有學歷與一線公司背景的web從業者來說是

2018-09-15 01:36:46

一、下載安裝包 wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0/ambari-2.7.0.0-centos7.tar.gz wget

2018-09-15 01:36:46

shell輸入命令hive去連接，或者執行pyspark程序時，遇到以下錯誤，是因爲遇到權限問題了，只需要在命令行執行以下shell，然後再執行hive命令或者執行pyspark程序就可以了： [root@ ~]$ export HADO

2018-09-15 01:36:46

Configured Capacity: 0 Configured Remote Capacity: 0 B DFS Used: 0 KB (0%) Non DFS Used: 0 GB DFS Remaining: 0 GB (0%)

2018-09-15 01:36:46