一. 案例介紹
爬取房天下(https://www1.fang.com/)的網頁信息。
二. virtualenv 創建和管理虛擬環境
virtualenv 的使用非常簡單,首先安裝 virtualenv,打開命令行工具,輸入下面的命令即可安裝 virtualenv:
pip install virtualenv
安裝成功後就可以開始創建虛擬環境,指定一個你喜歡的目錄,virtualenv 會把這個新的虛擬環境裝到你指定目錄下。例如我把它裝到 C:\Users\fxd.virtualenvs\ 目錄下,並將虛擬環境命名爲 sipder_env(也可以取任何你喜歡的名字)。在命令欄運行如下命令:
virtualenv C:\Users\fxd\.virtualenvs\sipder_env
虛擬環境已經創建好了,我們需要激活這個環境,進入到剛纔創建的虛擬環境的根目錄,運行 Scripts 目錄下的 activate 程序激活它:
cd C:\Users\fxd.virtualenvs\sipder_env
.\Scripts\activate
注意:
Linux 下沒有 Scripts 這個目錄,取而代之的是 bin/ 目錄。且激活命令爲:
shell $ source ./bin/activate
可以看到命令提示符前面多了 (sipder_env),說明我們已經成功激活了虛擬環境,接下來就可以開始安裝 Scrapy了。
windows下安裝:
pip install Scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
linux下安裝:
安裝依賴:
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
安裝scrapy:
pip3 install Scrapy
三. 創建項目
切換至項目將要存放的目錄下:
scrapy startproject fang
cd fang\
scrapy genspider sfw “fang.com”