scrapy cluster搭建實錄

一、環境依賴

python2.7
redis
kafka(zookeeper)
scrapy cluster

二、預備工作
我的操作系統爲Ubuntu

sudo ufw disable  #關閉防火牆
sudo apt-get install git #安裝git 下載scrapy cluster用
sudo apt-get install net-tools #我主要是用到ifconfig看ip用
sudo apt-get install python-pip python-scrapy  #不必多說
sudo apt-get install vim
sudo apt-get install openjdk-8-jdk-headless #kafka的依賴 還是不要用這個了 巨坑 自己下載java8源碼安裝,配置環境變量用
#dns映射
sudo vim /etc/hosts

三、redis搭建

wget http://download.redis.io/releases/redis-3.0.0.tar.gz #下載redis
tar xzvf redis-3.0.0.tar.gz #解壓
cd redis-3.0.0
make
make test #可能會報錯 根據錯誤指令 apt-get install tcl解決
src/redis-server redis.conf & #後臺運行redis服務

四、kafka搭建

wget http://apache.fayea.com/kafka/0.10.2.1/kafka_2.10-0.10.2.1.tgz
tar xzvf kafka_2.10-0.10.2.1.tgz
cd kafka_2.10-0.10.2.1
  1. zookeeper
vim config/zookeeper.properties#修改zookeeper配置文件,其中包括端口,dataDir等
nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties > logs/zookeeper.log 2>1 & #啓動zk logs文件夾自己建(2>1什麼鬼)
#查看zookeeper.log 沒有報錯即爲成功 (我掛在這裏  各種問題 可能是防火牆,可能是權限,確定了是java版本 按照前言說的做)
  1. kafka
cd config
cp server.properties server1.properties
cp server.properties server2.properties
vim #修改就不說了
cd ../
bin/kafka-server-start.sh config/server1.properties & #還有server2 看你要多少嘍(啓動成功)

bin/kafka-topics.sh start --create --zookeeper localhost:2181(按需) --replication-factor 1(可以按zk幾個節點來) --partitions 1 --topic test #創建topic

bin/kafka-topics.sh --describe --zookeeper localhost:2181(按需) --topic test

五、scrapy cluster

git clone http://github.com/istresearch/scrapy-cluster.git
cd scrapy-cluster
pip install -r requirements.txt #安裝所需插件,但是會出錯,需要自行安裝其他的
#sudo apt-get install libssl-dev openssl libxml2-dev libxslt-dev python-dev python-nose python-coverage
#pip install lxml
./run_offline_tests.sh #離線測試
./run_online_tests.sh #在線測試
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章