原创 python之梨視頻網站視頻爬取及下載

這次爬取的網站結構較爲簡單,適用於初學爬蟲! 這次學習需要先把python和pip的環境配好,還需要引入一些包**(re,lxml,os,requests)** 直接在cmd中進行 pip install 包名就可以成功安裝啦。 一、

原创 python之pyquery爬取網站圖片並存儲到MongoDB

這次爬取圖片的示例網站是:鬥圖吧http://www.doutula.com/photo/list/ 用到的包是:pyquery,並非正則及其他的包,因爲比較操作簡單,易懂。 首先就是得到該網址源代碼:特別需要注意,如果沒有user-a

原创 [解決]scrapy操作mysql class 'pymysql.err.InternalError'(1241, 'Operand should contain 1 column(s)

1241, ‘Operand should contain 1 column 我是在吧數據插入到MySQL的時候出現這個錯誤的,插入的語句,代碼都是對的 還是報錯,所以願意只能是在某個數據出了問題,給個例子: 這是我爬取某個公司的地址

原创 python中requests模塊有些網站不能訪問解決方案

python學習中爬取網站視頻時由於python本身不能地址限制的原因,不能直接用response = requests.get(url)獲取到網頁源代碼,進而無法爬取網站信息。 我以貓眼網爲例: 訪問貓眼代碼如下: import re

原创 python之 正則+pyquery 爬取飛碟說所有視頻並下載

獲取網頁源代碼 我們設置的關鍵字 爲‘人’,第一步獲取源代碼函數裏面有一些捕獲異常的操作和用戶代理,主要是爲了順利獲取。 import requests from requests.exceptions import RequestExc

原创 python之Selenium+pyquery爬取有大量反爬蟲的天眼查

天眼查:一個還有大量公司的信息的網站。 所以反爬程度是相當高的,首先直接用requests.get(url)來獲取頁面源代碼,你會發現,明明顯示在頁面上的公司的一些數據都不在,他是利用其它的js的方法表達出來的,因爲這個網站有專門的反爬

原创 某些情況下json.loads報錯的問題

這是今日頭條上ajax中一個有關於圖片信息的變量: gallery: JSON.parse("{\"count\":6,\"sub_images\":[{\"url\":\"http:\\/\\/p3.pstatp.com\\/origi