python爬蟲第一天

原創

2019-06-11 09:36

學習爬蟲我參考的是崔慶才爬蟲入門，昨天晚上安裝好了redis、mongodb等軟件，今天正式開始學習py爬蟲
一、介紹庫名：
1、urllib庫和re庫，安裝python時自動安裝
urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過代碼模擬瀏覽器發送請求。
re是一個正則庫
2、requests庫
equests是python實現的簡單易用的HTTP庫，使用起來比urllib簡潔很多
3、selenium庫
如果網頁中有js動態程序，那麼爬蟲就會遇到阻力，這時就要使用selenium庫，驅動瀏覽器推動瀏覽器渲染
（1） driver = webdriver.Chrome() 時報錯

這時我們需要安裝chromed’river包
4、plantomjs
chromedriver老是出來界面也很麻煩，這是我們需要一種軟件不顯示網站消息，
5、解析庫：lxml
有了網站源碼之後我們還需要解析源代碼，這時我們可以使用
6、解析庫：beautifulsoup
依賴lxml
7、解析庫：pyquery
也是一個網絡解析庫，語法和jquery一樣
8、存儲庫：pymysql
pymongo
redis
9、框架（類似java的springmvc、mybatis、。。。，是py的web框架）：flask
外部庫，用它來做代理的獲取、代理的存儲之類的
框架：django
Python下有許多款不同的 Web 框架。Django是重量級選手中最有代表性的一位。
外部服務器框架，提供接口路由模板管理引擎，分佈式爬蟲的維護，做一個管理系統：主機信息、
10： jupyter：相當與一個notebook，這個記事本功能強大，可以運行在網頁端，形成一個代碼記錄，實現在線運行代碼，並且支持markdown格式

問：我們通過request請求響應得到的原代碼和我們F12瀏覽器得到element是有差距的，原因就是這是經過js渲染的代碼，那麼我們怎麼解決這個問題呢？
答：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python 爬蟲求職計劃

現狀： 2019年之前從事C語言開發，現在剛接觸android開發，但是一直很喜歡Python，工作之餘有學習。目前的情況是Python基礎學過一遍，項目也有做，但總覺得有的地方沒喫透。離求職Python的崗位還是有點困難的。因此需要再鞏

2020-07-07 03:52:20

python3 selenium 登錄douban,獲取cookie

selenium登錄豆瓣流程: 1. 進入豆瓣登錄頁面 2. 切換到**子框架**,定位**用戶,密碼**輸入框. 並輸入數據,再**定位登錄**按鍵,點擊登錄. 3. 返回登錄成功後的cookies, 4. 關閉驅動瀏覽器.

2020-06-25 22:59:50

利用python編寫一個簡單的爬糗事百科熱圖爬蟲

python爬蟲，爬取糗事百科並保存到文件中以下是代碼實現部分，如果對你有幫助，留下一個贊 from urllib import request from lxml import etree from urllib import

赵北北北北北

2020-06-23 12:30:52

appium 尋找文本元素

1、通過文字尋找 find_element_by_android_uiautomator driver.find_element_by_android_uiautomator('text(\"按鈕\")').click()

2020-06-23 10:04:33

python + selemium 知識點總結

文章目錄1、元素查找 1、元素查找 (1)find_element_by_xpath 待續···

2020-06-23 10:04:32

selenium StaleElementReferenceException

在做自動化測試的時候，遇到此問題多次： StaleElementReferenceException: Message: stale element reference: element is not attached to th

2020-06-23 10:04:32

Chrome Driver 與 Chrome 版本對應表 / Ie

ChromeDriver Version Chrome Version 2.35 62-64 2.36 63-65 2.37 64-66 2.38 65-67 2.39 66-68 2.40 66

2020-06-23 10:04:32

python爬蟲工程師成長之路三 URLlib庫和URLError處理

文章目錄URLlib庫概述使用URLlib爬取網頁urllib常用方法瀏覽器僞裝獲取瀏覽器Headers屬性使用build_opener()修改報頭使用add_header()添加報頭超時設置http協議請求代理服務器設置Debu

2020-06-23 02:55:49

python爬蟲工程師成長之路七(二) Beautiful Soup4(二)

文章目錄遍歷文檔樹搜索文檔樹find_all(name,attrs,recursive,string,limit,**kwargs)find_all(name,attrs,recursive,string,**kwargs)fin

2020-06-23 02:55:49

python爬蟲工程師成長之路七(一) Beautiful Soup4(一)

文章目錄Beautiful Soup4 簡介Beautiful Soup4 解析器Beautiful Soup4 安裝Beautiful Soup4 解析器安裝Beautiful Soup4 簡單使用Beautiful Soup4

2020-06-23 02:55:48

python爬蟲工程師成長之路四正則表達式與Cookie

文章目錄正則表達式介紹正則表達式基礎原子元字符模式修正貪婪模式、懶惰模式常用函數re.match()re.search()全局匹配函數re.sub()Cookie介紹cookie處理——cookiejar 正則表達式介紹正則表達

2020-06-23 02:55:48

python爬蟲工程師成長之路六(一) 非結構化數據之XPath

文章目錄XPath 介紹XPath 節點XPath 語法路徑表達式謂語通配符選取若干路徑XPath 軸步(step)XPath 運算符 XPath 介紹 XPath(XML Path Language)是XML路徑語言用來，定

2020-06-23 02:55:48

python爬蟲工程師成長之路一初識爬蟲

文章目錄爬蟲簡介爲什麼要學習爬蟲爬蟲的結構爬蟲的類型聚焦爬蟲的工作原理和過程爬蟲常用功能搜索引擎介紹用戶爬蟲爬蟲簡介爬蟲，就是網絡爬蟲，也稱爲網頁蜘蛛、網絡機器人、網絡螞蟻等，可以根據我們制定的規則自動的瀏覽互聯網中的信息。

2020-06-23 02:55:48

python爬蟲工程師成長之路五(一) 爬取京東商城圖片

文章目錄爬取京東筆記本圖片爬取京東筆記本圖片選取爬取目標選取我們的爬取目標，電腦中的筆記本，我們發現url如下 https://list.jd.com/list.html?cat=670,671,672 構建

2020-06-23 02:55:48

python爬蟲工程師成長之路五(二) 多線程爬蟲

文章目錄多線程爬蟲介紹多線程介紹多線程爬蟲實戰多線程爬蟲介紹在之前博客裏(鏈接如下)爬取京東商品圖片時，爬取流程是依次進行的，這種執行流程稱爲單線程結構，單線程結構的爬蟲稱爲單線程爬蟲爬蟲實戰爬取京東商城圖片多線程

2020-06-23 02:55:48

24小時熱門文章

最新文章

最新評論文章