網絡爬蟲（十一）

原創

2019-05-20 14:34

利用線程池進行視頻抓取

上圖是網頁的源碼分析，在首頁上ul標籤下面有4個li標籤，每個li標籤下是有包含視頻網頁的地址,因此先取li標籤,如:li_list=tree.xpath('//ul[@id="listvideoListUl"]/li')

以上是li標籤結構，所以視頻播放頁地址這樣取得 srcurl="https://www.pearvideo.com/"+li.xpath('./div/a/@href')[0]

def get_data(dic)是調用的函數。

mport requests
from lxml import etree
from multiprocessing.dummy import Pool
import re
#梨視頻體育網址
url="https://www.pearvideo.com/category_9"
# 設置user-agent用字典的形式
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}
#session=requests.Session()
res=requests.get(url=url,headers=headers).text
#print(res)
tree=etree.HTML(res)
li_list=tree.xpath('//ul[@id="listvideoListUl"]/li')
# print(li_list)
urls=[]
for li in li_list:
    srcurl="https://www.pearvideo.com/"+li.xpath('./div/a/@href')[0]
    name=li.xpath('./div/a/div[2]/text()')[0]
    name=name.replace(' ','')+'.mp4'
    #print(name)

    detail_page=requests.get(url=srcurl,headers=headers).text
    ex='srcUrl="(.*?)",vdoUrl' # 用正則是因爲視頻地址取自javascrip中
     #srcUrl="https://video.pearvideo.com/mp4/adshort/20190518/cont-1555912-13920965_adpkg-ad_hd.mp4",vdoUrl......
    url=re.findall(ex,detail_page)[0]

    dic={"url":url,"name":name}
    urls.append(dic)

def get_data(dic):
    url=dic["url"]
   # print(url)
    print("正在下載:",dic['name'])
    data=requests.get(url=url,headers=headers).content
    with open(dic['name'],'wb') as fp:
        fp.write(data)
        print("下載完成:", dic['name'])



pool=Pool(4)#建立有4個線程的線程池
pool.map(get_data,urls)#啓動線程
pool.close()#關閉線程
pool.join()#主進程要等待所有線程進行完，再關閉。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python15行代碼實現免費發送手機短信，推送消息

實現的功能：通過代碼定時給手機推送短信，短信內容可以自定義文字，當然你也可以去別的網站爬取每日心靈雞湯，天氣預報或其它信息進行推送。關於爬取數據可以參考：Python40行代碼實現天氣預報和每日雞湯推送本文主要講如何實現發送短

小清华的小哥哥

2020-07-07 23:16:08

解決報錯Process finished with exit code -1073741571 (0xC00000FD),修改棧大小

運行程序時程序意外終止，並返回提示： Process finished with exit code -1073741571 (0xC00000FD) 導致的原因是StackOverflow（棧區溢出）在一般情況下，　不同平臺默

小清华的小哥哥

2020-07-07 23:16:08

Python繪製一箭穿雙心動畫代碼

老規矩，先上運行效果，gif動圖：代碼超簡單，直接調用turtle庫中的各種畫圖函數： # 一箭穿心動畫代碼 import time import turtle # 需安裝turtle庫 turtle.color('bla

小清华的小哥哥

2020-07-07 23:15:57

Jupyter Notebook的初始路徑設置

第一種方法就是直接設置快捷方式的起始位置，找到Jupyter Notebook的快捷方式。直接右鍵Jupyter Notebook的屬性找到起始位置這個選項，修改成你想要的路徑，例如：G：\pythoncode 第二種方法找

2020-07-06 16:32:43

linux查看cpu、內存消耗

linux查看cpu、內存消耗CPU佔用最多的前3個進程：內存消耗最多的前3個進程： CPU佔用最多的前3個進程：按cpu佔用排序 // CPU佔用最多的前3個進程 ps auxw|head -1;ps auxw|sort -r

诗人的情人

2020-07-02 23:18:57

python來進行社團劃分

利用python來進行社團劃分，使用的是社團劃分裏面的GN算法。程序代碼如下 # -*- coding: utf-8 -*- """ Created on Sat Sep 14 18:01:27 2019 @author: A

2020-06-30 02:54:19

python求解接近中心性

求解網絡科學裏面的接近中心性 import matplotlib.pyplot as plt import networkx as nx import operator def get_closeness_centrality(

2020-06-30 02:54:19

python求度分佈的程序

使用python求度分佈的程序 # -*- coding: utf-8 -*- """ Created on Sun Jun 16 20:13:42 2019 @author: Administrator """ """ 這

2020-06-30 02:54:19

python的本地包下載地址

python的本地包下載地址 python本地包下載地址

2020-06-30 02:54:19

使用python來構造有向隨機網絡

使用python來構造有向隨機網絡 # -*- coding: utf-8 -*- """ @author: Administrator """ """ 隨機網絡是由一些節點通過隨機連接而組成的一種複雜網絡。隨機網絡有兩種

2020-06-30 02:54:19

python3實現查詢mysql生成excel並下載

#******************************接口調用部分************************************* def post(self, *args): sql = "select * fr

风儿吹花儿美

2020-06-22 20:33:22

Python exec 內置語句

描述exec 執行儲存在字符串或文件中的 Python 語句，相比於 eval，exec可以執行更復雜的 Python 代碼。語法以下是 exec 的語法:exec(object[, globals[, locals]])參數object

2020-06-22 07:57:13

python in實現

>>> from math import sqrt >>> scope={} >>> exec('sqrt=1',scope) >>> sqrt(9) 3.0 >>> scope['sqrt'] 1 >>>

2020-06-22 07:57:13

python中斷言的用法

assert 語句，在需要確保程序中的某個條件一定爲真才能讓程序運行的話就非常有用>>> age = 10>>> assert 0 < age < 10Traceback (most recent call last): File "<

2020-06-22 07:57:13

快速入門（完整）：Python實例100個（基於最新Python3.7版本）+ 源代碼

前言雪花兒要學Python，於是魚丸兒根據另一個CSDN老哥整理的完整版Python經典入門100例，加上了自己之前學習時的源代碼，整理了一下，也方便日後同學們的代碼取用。原文地址：快速入門（完整）：Python實例100個（

Python开发者_Ainley

2020-06-22 05:06:22

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章