又面試了Python爬蟲工程師，碰到這麼幾道面試題，Python面試題No9

文章目錄

第1題：動態加載又對及時性要求很高怎麼處理？

如何知道一個網站是動態加載的數據？
用火狐或者谷歌瀏覽器打開你網頁，右鍵查看頁面源代碼，ctrl +F 查詢輸入內容，源代碼裏面並沒有這個值，說明是動態加載數據。

Selenium+Phantomjs
儘量不使用 sleep 而使用 WebDriverWait

第2題：python 爬蟲有哪些常用框架？

序號	框架名稱	描述	官網
1	Scrapy	Scrapy是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。用這個框架可以輕鬆爬下來如亞馬遜商品信息之類的數據。	https://scrapy.org/
2	PySpider	pyspider 是一個用python實現的功能強大的網絡爬蟲系統，能在瀏覽器界面上進行腳本的編寫，功能的調度和爬取結果的實時查看，後端使用常用的數據庫進行爬取結果的存儲，還能定時設置任務與任務優先級等。	https://github.com/binux/pyspider
3	Crawley	Crawley可以高速爬取對應網站的內容，支持關係和非關係數據庫，數據可以導出爲JSON、XML等。	http://project.crawley-cloud.com/
4	Portia	Portia是一個開源可視化爬蟲工具，可讓您在不需要任何編程知識的情況下爬取網站！簡單地註釋您感興趣的頁面，Portia將創建一個蜘蛛來從類似的頁面提取數據。	https://github.com/scrapinghub/portia
5	Newspaper	Newspaper可以用來提取新聞、文章和內容分析。使用多線程，支持10多種語言等。	https://github.com/codelucas/newspaper
6	Beautiful Soup	Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間	https://www.crummy.com/software/BeautifulSoup/bs4/doc/
7	Grab	Grab是一個用於構建Web刮板的Python框架。藉助Grab，您可以構建各種複雜的網頁抓取工具，從簡單的5行腳本到處理數百萬個網頁的複雜異步網站抓取工具。Grab提供一個API用於執行網絡請求和處理接收到的內容，例如與HTML文檔的DOM樹進行交互。	http://docs.grablib.org/en/latest/#grab-spider-user-manual
8	Cola	Cola是一個分佈式的爬蟲框架，對於用戶來說，只需編寫幾個特定的函數，而無需關注分佈式運行的細節。任務會自動分配到多臺機器上，整個過程對用戶是透明的。	沒找着~
9	很多	看自己積累	多百度

第3題： Scrapy 的優缺點?

優點：scrapy 是異步的

採取可讀性更強的 xpath 代替正則強大的統計和 log 系統，同時在不同的 url 上爬行支持 shell 方式，方便獨立調試寫 middleware,方便寫一些統一的過濾器，通過管道的方式存入數據庫。

缺點：基於 python 的爬蟲框架，擴展性比較差

基於 twisted 框架，運行中的 exception 是不會幹掉 reactor，並且異步框架出錯後是不會停掉其他任務的，數據出錯後難以察覺。

第4題： scrapy 和 request?

scrapy 是封裝起來的框架，他包含了下載器，解析器，日誌及異常處理，基於多線程， twisted 的方式處理，對於固定單個網站的爬取開發，有優勢，但是對於多網站爬取，併發及分佈式處理方面，不夠靈活，不便調整與括展。
request 是一個 HTTP 庫，它只是用來，進行請求，對於 HTTP 請求，他是一個強大的庫，下載，解析全部自己處理，靈活性更高，高併發與分佈式部署也非常靈活，對於功能可以更好實現。

第5題：描述下 scrapy 框架運行的機制？

從 start_urls 裏獲取第一批 url 併發送請求，請求由引擎交給調度器入請求隊列，獲取完畢後，調度器將請求隊列裏的請求交給下載器去獲取請求對應的響應資源，並將響應交給自己編寫的解析方法做提取處理，如果提取出需要的數據，則交給管道文件處理；
如果提取出 url，則繼續執行之前的步驟（發送 url 請求，並由引擎將請求交給調度器入隊列…)，直到請求隊列裏沒有請求，程序結束。

第6題：實現模擬登錄的方式有哪些？

使用一個具有登錄狀態的 cookie，結合請求報頭一起發送，可以直接發送 get 請求，訪問登錄後才能訪問的頁面。
先發送登錄界面的 get 請求，在登錄頁面 HTML 裏獲取登錄需要的數據（如果需要的話），然後結合賬戶密碼，再發送 post 請求，即可登錄成功。然後根據獲取的 cookie信息，繼續訪問之後的頁面。

第7題：你遇到過的反爬蟲的策略？

BAN IP
BAN USERAGENT
BAN COOKIES
驗證碼驗證
javascript渲染
ajax異步傳輸
等…

後續面試問題

你常用的反反爬蟲的方案？
你用過多線程和異步嗎？除此之外你還用過什麼方法來提高爬蟲效率？
有沒有做過增量式抓取？
對Python爬蟲框架是否有了解？

她專科學歷
27歲從零開始學習c，c++，python編程語言
29歲編寫百例教程
30歲掌握10種編程語言，
用自學的經歷告訴你，學編程就找夢想橡皮擦

歡迎關注她的公衆號，非本科程序員

又面試了Python爬蟲工程師，碰到這麼幾道面試題，Python面試題No9

文章目錄

第1題：動態加載又對及時性要求很高怎麼處理？

第2題：python 爬蟲有哪些常用框架？

第3題： Scrapy 的優缺點?

優點：scrapy 是異步的

缺點：基於 python 的爬蟲框架，擴展性比較差

第4題： scrapy 和 request?

第5題：描述下 scrapy 框架運行的機制？

第6題：實現模擬登錄的方式有哪些？

第7題：你遇到過的反爬蟲的策略？

後續面試問題

懶人暢聽網，有聲小說類目數據採集，多線程速採案例，Python爬蟲120例之23例

誰有粉？就爬誰！他粉多，就爬他！Python 多線程採集 260000+ 粉絲數據

這篇 python 文章，是過去你錯過的 python 細節知識點，滾雪球第4季第15篇

1. 滾雪球學Python第四季開啓，一需三喫，Python 函數式編程初識，面向過程，面向對象，函數式

用Python憶童年，最終還真把模擬器跑起來了

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

又面試了Python爬蟲工程師，碰到這麼幾道面試題，Python面試題No9

文章目錄

第1題：動態加載又對及時性要求很高怎麼處理？

第2題：python 爬蟲有哪些常用框架？

第3題： Scrapy 的優缺點?

優點：scrapy 是異步的

缺點：基於 python 的爬蟲框架，擴展性比較差

第4題： scrapy 和 request?

第5題： 描述下 scrapy 框架運行的機制？

第6題： 實現模擬登錄的方式有哪些？

第7題： 你遇到過的反爬蟲的策略？

後續面試問題

第5題：描述下 scrapy 框架運行的機制？

第6題：實現模擬登錄的方式有哪些？

第7題：你遇到過的反爬蟲的策略？