AWS的EC2上構建一個爬蟲

第一章,創建一個EC2實例

首先需要註冊一個AWS的賬號,在賬號的服務中找到EC2。

可以看到我們的賬號裏面目前是沒有實例的。點擊橘黃色按鈕【啓動實例】

第一步,選擇操作系統,本人選擇Amazon Linux。點擊【下一步】

但是這個並不重要,選擇什麼操作系統都可以。只要你熟悉相應的操作系統就好。

第二步,選擇操作系統,本人選擇免費的那個,當然,這個配置也很低。土豪隨意。點擊【下一步】

第三四五步保持默認,全部點擊下一步。

到第六步。分配安全組,這裏面只有我一個用戶,因此就選現有的安全組就好了。點擊【審覈和啓動】。

第七步點擊啓動,會彈出對話框。

這裏面如果之前沒有創建過,可以先創建一個。密鑰名稱按照自己的想法輸入一個就好了。然後把密鑰的文件保存好。

成功

第二章,與EC2實例通信

本地的系統與EC2通信是需要SSH的。如果是MAC系統那麼可以直接通過命令行來搞就行了。如果是windows建議還是搞個工具,比如MobaXterm。

 

完成安裝後打開。

 

其中DNS如下圖所示。

在然後就會發現,咦,怎麼連不上呢???????????

我們去看看安全組的規則,驗證是否有允許流量從您的計算機到端口 22 (SSH) 的規則。

點擊後面的【default

可以看到,這裏面的來源需要更改一下,點擊編輯,可以根據自己的需求來設定。比如設置成【我的IP,那就會自動獲取你的IP,然後點擊保存。個人認爲設置成【任何位置】也是可以的。

 

然後在去重新連接

第三章,環境部署

首先看一下實例的類型是32位還是64位,

1.安裝Miniconda。

由於本人的工程是python3完成的,因此,選擇如圖所以

將下載好的文件傳入EC2

執行

bash Miniconda3-latest-Linux-x86_64.sh

然後將conda添加到環境變量

export PATH=~/miniconda3/bin:$PATH

輸入

conda list 測試一下是否安裝成功,如果有正常的一堆輸出那就是安裝好了。

2.開始安裝python的相關的環境,此處環境就需要自己配置了,本人用到的幾個常用的包。


conda create -n scrapy python=3.7.5

conda install scrapy

conda install beautifulsoup4

conda install lxml

conda install selenium


先安裝chrom。3.如果用到了webdriver的也要安裝webdriver。


wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

sudo yum install google-chrome-stable_current_x86_64.rpm

google-chrome-stable -version

查看version,找到與之對應的webdriver

http://chromedriver.storage.googleapis.com/index.html


將driver也拷貝到ec2中,記得將driver與自己的爬蟲結合起來

4.將工程拷貝到虛擬機的目錄下面。運行就可以了。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章