台部落LeeGe666

這次爬取的網站結構較爲簡單，適用於初學爬蟲！這次學習需要先把python和pip的環境配好，還需要引入一些包**（re,lxml,os,requests）** 直接在cmd中進行 pip install 包名就可以成功安裝啦。一、

2018-09-30 10:33:44

這次爬取圖片的示例網站是：鬥圖吧http://www.doutula.com/photo/list/ 用到的包是：pyquery，並非正則及其他的包，因爲比較操作簡單，易懂。首先就是得到該網址源代碼：特別需要注意，如果沒有user-a

2018-08-30 01:29:21

1241, ‘Operand should contain 1 column 我是在吧數據插入到MySQL的時候出現這個錯誤的，插入的語句，代碼都是對的還是報錯，所以願意只能是在某個數據出了問題，給個例子：這是我爬取某個公司的地址

2018-08-30 01:29:21

python學習中爬取網站視頻時由於python本身不能地址限制的原因，不能直接用response = requests.get(url)獲取到網頁源代碼，進而無法爬取網站信息。我以貓眼網爲例：訪問貓眼代碼如下： import re

2018-08-30 01:29:21

獲取網頁源代碼我們設置的關鍵字爲‘人’，第一步獲取源代碼函數裏面有一些捕獲異常的操作和用戶代理，主要是爲了順利獲取。 import requests from requests.exceptions import RequestExc

2018-08-30 01:29:21

天眼查：一個還有大量公司的信息的網站。所以反爬程度是相當高的，首先直接用requests.get(url)來獲取頁面源代碼，你會發現，明明顯示在頁面上的公司的一些數據都不在，他是利用其它的js的方法表達出來的，因爲這個網站有專門的反爬

2018-08-30 01:29:21

這是今日頭條上ajax中一個有關於圖片信息的變量： gallery: JSON.parse("{\"count\":6,\"sub_images\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origi

2018-08-30 01:29:20