第8課:非JS 動態網站的分析

@[TOC](Html 分析目錄:)

HTML 和 網站是什麼關係?

HTML 是一種超文本語言,是用來編寫前端網站的語言之一。我們也俗話把HTML 稱之爲 網站,網頁。

如何分析網站:

在這裏我們拿 上節課 《第7課: bs4 庫 的 BeautifulSoup 基礎學習》 的作業來做一個例子。

上節課的作業是 爬去 搜狐新聞的 文章標題。搜索網站網址:http://news.sohu.com/

分析網站用到的第一個工具:就是瀏覽器自帶的 調試工具。我這裏默認使用的是谷歌瀏覽器,我建議大家也使用 谷歌瀏覽器。

首先,我們要打開這個網站,進入到首頁後,需要 按<font color=#DC143C> F12</font> ,進入到調試模式。

在這裏插入圖片描述
按 F12 ,進入到調試模式,如下圖。

在這裏插入圖片描述
然後我們可以看到一些代碼,還有一個行工具欄。

在這裏插入圖片描述
工具欄中有 Elements ,Console ,Sourecs,Nerword,Perfornance,Memory,Application,Security,Lighthouse 。這些工具欄目。

在這裏插入圖片描述

爬蟲需要的欄目名稱 作用解釋
Elements 主要是用來查看需要爬去的數據的 HTML 標籤 屬性等信息
Nerword 【爬蟲最重要的】查看網站加載了 json文件,html 文件,媒體文件等等

其他的你們也不需要了解了,主要就是這四個,四個鍾,重要的是 Elements 和 Nerword 這兩個功能作用。

Elements 的使用:

1,打開瀏覽器進入 網站:http://news.sohu.com/ ,然後按 F12 ,點擊 瀏覽器的 Elements 。

在這裏插入圖片描述
點擊Elements ,我們就可以看到這個網站的一些 HTML 源碼。

比如我們需要爬去網站的標題,我們就需要用到 這個工具欄的最 左側的 箭頭。

在這裏插入圖片描述
如下動態圖【先點擊箭頭,在點擊你需要爬去的標題,我們就可以快速定位到需要爬去的標題所屬的HTM代碼啦】:
在這裏插入圖片描述
快速定位到標題 所在的 HTML 代碼後,我們就需要分析這個代碼。


在這裏插入圖片描述

分析HTML 代碼:

代碼截圖如下:

在這裏插入圖片描述
我將 上面的代碼複製了出來,代碼如下:

<a data-param="_f=index_chan08news_1" 
     href="https://www.sohu.com/a/433526374_115362?spm=smpc.news-home.top-news2.2.1606033856144w4nUMI3" 
     target="_blank" 
     title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏" 
     data-spm-data="2">
                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
            </a>

根據上節課 《第7課: bs4 庫 的 BeautifulSoup 基礎學習》的學習 HTML <font color=#DC143C><標籤名 屬性名=“屬性值”> 內容 </標籤名> </font>。

html 代碼 解釋
a 標籤
data-param 標籤的屬性名稱,= 號後面的是屬性值
href 標籤的屬性名稱,= 號後面的是屬性值
target 標籤的屬性名稱,= 號後面的是屬性值
title 標籤的屬性名稱,= 號後面的是屬性值
data-spm-data 標籤的屬性名稱,= 號後面的是屬性值

我們可以看到 a 標籤屬性有很多,data-param ,href ,target,title,data-spm-data 這些都是標籤的屬性。

html 的標籤屬性名分析:

在得到了 HTML 的標籤,屬性 後,我們就需要那些是能用在 BeautifulSoup 的 find_all 中。

標籤屬性名 分析
data-param 屬性名出現 - 橫杆的,在python 中是不支持的。【不可用,會直接報錯】
href 未出現不合規的命名規範,可以使用
target 未出現不合規的命名規範,可以使用
title 未出現不合規的命名規範,可以使用
data-spm-data 屬性名出現 - 橫杆的,在python 中是不支持的。【不可用】

當我們知道了這個標題是的 HTML 可用屬性後【我們只需要其中一個即可】,我們就可以用 BeautifulSoup 的 find_all 去爬去看是否能爬取到?

find_all 使用格式如下:
<font color=#DC143C> info = content.find_all(“標籤”,屬性名稱=“屬性值”)</font>

代碼
解釋
content 就是 content = BeautifulSoup(requ.text,'lxml')
find_all BeautifulSoup 類 中 的一個 函數 功能是查找所有
info content.find_all(“標籤”,屬性名稱=“屬性值”) 的名字

把 href 屬性和屬性值寫入代碼如下:

#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('a',href="https://www.sohu.com/a/433526374_115362?spm=smpc.news-home.top-news2.2.1606033856144w4nUMI3")
print(info)

得到結果如下:

D:\pro_py\venv\Scripts\python.exe D:/pro_py/教育學習/7.py
[]

Process finished with exit code 0

是一個空列表,並沒有的到數據。

把 target 屬性和屬性值寫入代碼如下:

#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('a',target="_blank")
print(info)

得到結果如下:

[<a href="http://news.sohu.com/s2018/guoqing69/index.shtml" target="_blank"></a>, <a href="http://news.sohu.com/" target="_blank">新聞首頁</a>, <a href="http://mp.sohu.com" target="_blank">
<li class="link shh">
<div class="icon"></div>
<div class="title">搜狐號</div>
</li>
</a>, <a href="https://www.sogou.com" target="_blank">
<li class="link sougou">
<div class="icon"></div>
<div class="title">搜狗搜索</div>
</li>
</a>, <a href="https://mail.sohu.com" target="_blank">
<li class="link sohu_email">
<div class="icon"></div>
<div class="title">搜狐郵箱</div>
</li>
</a>, <a href="http://www.sohu.com" target="_blank">首頁</a>, <a href="http://www.sohu.com/c/8/1460" target="_blank">時政</a>, <a href="http://www.sohu.com/c/8/1461" target="_blank">國際</a>, <a href="http://mil.sohu.com/" target="_blank">軍事</a>, <a href="http://police.news.sohu.com/" target="_blank">警法</a>, <a href="http://www.sohu.com/subject" target="_blank">專題</a>, <a href="http://gongyi.sohu.com/" target="_blank">公益</a>, <a href="http://wrj.sohu.com" target="_blank">無人機</a>, <a href="http://mp.sohu.com/profile?xpt=bGFubGFuZGUyMkBzb2h1LmNvbQ==" target="_blank">狐度</a>, <a href="http://mp.sohu.com/profile?xpt=NzJCMERBNUNDN0NEODJBOTkwMTZFMkM2NkU3REM3QjBAcXEuc29odS5jb20=" target="_blank">數字之道</a>, <a href="http://mp.sohu.com/profile?xpt=ZmVpbHUyMTAxMjdAc29odS1pbmMuY29t" target="_blank">知世</a>, <a href="http://mp.sohu.com/profile?xpt=c29odXptdHo1eXk3cEBzb2h1LmNvbQ==" target="_blank">神吐槽</a>, <a data-param="_f=index_chan08focus_0" href="https://www.sohu.com/a/433548388_362042" target="_blank" title="河南濱淮“貨車撞送葬人羣”事故引關注 有沙石貨車被指“可按月買通行證”">
<img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_320,h_213,g_faces/c_cut,x_0,y_0,w_600,h_400/os/news/b2db2ede84656c641487a71508264de8.jpg"/>
<span class="linear-box">
<em class="linear-bg"></em>
<em class="linear-txt">河南濱淮“貨車撞送葬人羣”事故引關注 有沙石貨車被指“可按月買通行證”</em>
</span>
</a>, <a data-param="_f=index_chan08focus_1" href="https://www.sohu.com/a/433479812_162758" target="_blank" title="1500萬年前的棗被發現 網友:好喫嗎?">
<img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_155,h_103,g_faces/c_cut,x_0,y_0,w_445,h_297/c_cut,x_-5,y_0,w_456,h_304/os/news/16df958d7180d1b5f4b14c86e63df866.jpg"/>
<span class="txt">1500萬年前的棗被發現 網友:好喫嗎?</span>
</a>, <a data-param="_f=index_chan08focus_2" href="https://www.sohu.com/a/433537687_162758" target="_blank" title="這地方發生“怪事”,天沒亮就有人扔錢進來">
<img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_155,h_103,g_faces/c_cut,x_0,y_0,w_600,h_400/os/news/c582b256589bf94b5cf1c8af2d4ad351.jpg"/>
<span class="txt">這地方發生“怪事”,天沒亮就有人扔錢進來</span>
</a>, <a data-clev="10220169" data-site="2" data-title="62歲大媽嫁26歲小夥" data-vid="224843656" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="62歲大媽嫁26歲小夥"><img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_320,h_160,g_faces/c_cut,x_0,y_0,w_320,h_160/os/news/984d02038d2ddb879c1d45a1116baacc.jpg"/><span class="linear-box video-txt"><em class="linear-bg"></em><em class="txt">62歲大媽嫁26歲小夥</em></span><i class="icon icon-video"></i></a>, <a data-clev="10220170" data-site="2" data-title="廣東一男子深夜被“浸豬籠” 全程求饒痛哭" data-vid="224848320" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="廣東一男子深夜被“浸豬籠” 全程求饒痛哭"><i class="icon icon-video"></i>廣東一男子深夜被“浸豬籠” 全程求饒痛哭</a>, <a data-clev="10220171" data-site="2" data-title="女兒傾慕男子爲其醉駕頂包 父親陪她去自首" data-vid="224847638" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="女兒傾慕男子爲其醉駕頂包 父親陪她去自首"><i class="icon icon-video"></i>女兒傾慕男子爲其醉駕頂包 父親陪她去自首</a>, <a data-clev="10220172" data-site="2" data-title="小夥邊開車邊高歌 下一秒忘詞看手機釀事故" data-vid="224914820" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="小夥邊開車邊高歌 下一秒忘詞看手機釀事故"><i class="icon icon-video"></i>小夥邊開車邊高歌 下一秒忘詞看手機釀事故</a>, <a data-clev="10220173" data-site="2" data-title="女子乘車因胖多佔座 被鄰座辱罵:你個死胖子" data-vid="224490510" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="女子乘車因胖多佔座 被鄰座辱罵:你個死胖子"><i class="icon icon-video"></i>女子乘車因胖多佔座 被鄰座辱罵:你個死胖子</a>, <a data-clev="10220174" data-site="2" data-title="長春冰凍雨雪天氣:汽車被冰封 開門拿鐵錘敲" data-vid="224483349" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="長春冰凍雨雪天氣:汽車被冰封 開門拿鐵錘敲"><i class="icon icon-video"></i>長春冰凍雨雪天氣:汽車被冰封 開門拿鐵錘敲</a>, <a data-clev="10220175" data-site="2" data-title="青島沿海公路遭海浪侵襲 海水湧上漫過路面" data-vid="224518573" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="青島沿海公路遭海浪侵襲 海水湧上漫過路面"><i class="icon icon-video"></i>青島沿海公路遭海浪侵襲 海水湧上漫過路面</a>, <a data-param="_f=index_chan08cpc_0" href="https://www.sohu.com/a/433504150_362042?code=cdcf021b63c28fe6ddc5ee179b591c4d" target="_blank" title="勠力戰疫共創未來 習近平倡議G20在這四方面發力">
<b>勠力戰疫共創未來 習近平倡議G20在這四方面發力</b>
</a>, <a data-param="_f=index_chan08cpc_1_0" href="https://www.sohu.com/a/433541143_429139?code=f55e7a26562d0b2ff47c6364267294d1" target="_blank" title="總書記闡述亞太合作中國方案">
<b>總書記闡述亞太合作中國方案</b>
</a>, <a data-param="_f=index_chan08cpc_1_1" href="http://m.news.cctv.com/2020/11/21/ARTI56CRYo1dPzW38COHRn0u201121.shtml?code=9ac3c2d783ff4956cc2f9774980cbb52" target="_blank" title="互聯網之光“點亮” 美好未來"><b>互聯網之光“點亮” 美好未來</b></a>, <a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433559317_115362" target="_blank" title="這個冬季,我國還會爆發疫情嗎?張文宏迴應">
<b>這個冬季,我國還會爆發疫情嗎?張文宏迴應</b>
</a>, <a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">

                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
            </a>, <a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433533027_119038" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈">
<i class="icon icon-video"></i>
......
Process finished with exit code 0

我們發現得到很多數據,但是並沒有精確到,我們需要的數據。所以這個屬性和屬性值,還是不行的。

把 title 屬性和屬性值寫入代碼如下:

#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('a',title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏")
print(info)

得到結果如下:

D:\pro_py\venv\Scripts\python.exe D:/pro_py/教育學習/7.py
[<a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">

                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
            </a>]

Process finished with exit code 0

從結果查看 得到了我們需要的 數據,但是我們需要的是多個這樣的數據,並非一個。所以這樣的添加 屬性是不對的。

看下下方的動圖,當鼠標移動到了 \<div class="list16" data-spm="top-news2">:這個時候右側文字,被陰影覆蓋,就表示這一塊區域就在 這個 div 標籤內。

<標籤名 屬性名=“屬性值”>內容</標籤名>

在這裏插入圖片描述

在下圖,我們可以看到,標籤是 div , 屬性是class="list16" data-spm="top-news2" 這兩個。

在這裏插入圖片描述

我們把這一塊區域的HTML 代碼複製下來:

<div class="list16" data-spm="top-news2">
        <ul>
            <li><a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433494879_313745?spm=smpc.news-home.top-news2.1.1606033856144w4nUMI3" target="_blank" title="上海新增1例、內蒙古新增2例 如何看待本土局地疫情的發生?" data-spm-data="1">
            <i class="icon icon-video"></i>
                <b>上海新增1例、內蒙古新增2例 如何看待本土局地疫情的發生?</b>
            </a></li>
            <li><a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362?spm=smpc.news-home.top-news2.2.1606033856144w4nUMI3" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏" data-spm-data="2">

                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
            </a></li>
            <li><a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433429855_119038?spm=smpc.news-home.top-news2.3.1606033856144w4nUMI3" target="_blank" title="天津新病例追蹤:確診後向朋友道歉 密接者信息泄露被騷擾" data-spm-data="3">

                天津新病例追蹤:確診後向朋友道歉 密接者信息泄露被騷擾
            </a></li>
            <li><a data-param="_f=index_chan08news_3" href="https://www.sohu.com/a/433533027_119038?spm=smpc.news-home.top-news2.4.1606033856144w4nUMI3" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈" data-spm-data="4">

                內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
            </a></li>
            <li><a data-param="_f=index_chan08news_4" href="https://www.sohu.com/a/433531007_115362?spm=smpc.news-home.top-news2.5.1606033856144w4nUMI3" target="_blank" title="金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲" data-spm-data="5">

                金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
            </a></li>
        </ul>
    </div>

從HTML 分析得到,所有的標題都在這個div 標籤中,在DIV標籤中 包含了 ul 標籤 又包含了 多個 li 標籤,li標籤裏面包含了a ,i b 等標籤。

在爬蟲的時候我們就要先定位到 這個DIV 標籤,縮小範圍。然後定位到 li 標籤,在li 標籤中直接就打印出 新聞標題。

<div class="list16" data-spm="top-news2">

分析 DIV 標籤的屬性:

屬性名 解釋
class 屬性可用,但是在Python中要寫成這樣 :class_ , 多加一個下劃線,區分內置的class 命名。【可用】
data-spm Python 不能以 - 橫杆命名。【不可用】

所以寫代碼如下 代碼如下:

#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('div',class_="list16")
print(info)

得到結果如下【是一個列表形式打印出來】:

[<div class="list16" data-spm="top-news2">
<ul>
<li><a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433559317_115362" target="_blank" title="這個冬季,我國還會爆發疫情嗎?張文宏迴應">
<b>這個冬季,我國還會爆發疫情嗎?張文宏迴應</b>
</a></li>
<li><a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">

                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
            </a></li>
<li><a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433533027_119038" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈">
<i class="icon icon-video"></i>
                內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
            </a></li>
<li><a data-param="_f=index_chan08news_3" href="https://www.sohu.com/a/433531007_115362" target="_blank" title="金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲">

                金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
            </a></li>
<li><a data-param="_f=index_chan08news_4" href="https://www.sohu.com/a/433557142_260616" target="_blank" title="黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶">

                黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶
            </a></li>
</ul>
</div>, <div class="list16" data-spm="top-news3">
<ul>
<li><a data-param="_f=index_chan08news_5" href="https://www.sohu.com/a/433445870_120388781" target="_blank" title="河北監獄管理局迴應罪犯獄中網戀詐騙:調查組進駐唐山監獄">
<b>河北監獄管理局迴應罪犯獄中網戀詐騙:調查組進駐唐山監獄</b>
</a></li>
<li><a data-param="_f=index_chan08news_6" href="https://www.sohu.com/a/433511153_114988" target="_blank" title="利用癌症晚期病人,毒販從醫院開出4000多片管制藥品">

                利用癌症晚期病人,毒販從醫院開出4000多片管制藥品
            </a></li>

            ......
            <li><a data-param="_f=index_chan08chuangyenews_5" href="http://www.sohu.com/a/433526516_115362" target="_blank" title="啓明創投主管合夥人梁頴宇:醫療健康領域發展機會展望">
                                啓明創投主管合夥人梁頴宇:醫療健康領域發展機會展望
                            </a></li>
Process finished with exit code 0

在結果中,我們看到了很多新聞標題了,也就是說這就是我們要的數據了。

然後在用 for 循環把這些數據一個一個打印出來,然後在用 find_all 進行查詢 li 標籤,進行再一次縮小範圍。
代碼如下:

#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('div',class_="list16")
for i in info:
    c = i.find_all('li')
    print(c)

得到結果如下【只複製了部分結果】:

[<li><a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433559317_115362" target="_blank" title="這個冬季,我國還會爆發疫情嗎?張文宏迴應">
<b>這個冬季,我國還會爆發疫情嗎?張文宏迴應</b>
</a></li>, <li><a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">

                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
            </a></li>, <li><a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433533027_119038" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈">
<i class="icon icon-video"></i>
                內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
            </a></li>, <li><a data-param="_f=index_chan08news_3" href="https://www.sohu.com/a/433531007_115362" target="_blank" title="金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲">

                金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
            </a></li>, <li><a data-param="_f=index_chan08news_4" href="https://www.sohu.com/a/433557142_260616" target="_blank" title="黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶">

                黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶
            </a></li>]

因爲得到的是一個 列表個格式的數據,所以我們需要再一次的用 for 把它打印輸出出來,然後直接取 其中的 字符串【標題】。

代碼如下:

#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('div',class_="list16") # 賽選 class=list6 的 div 標籤
for i in info: #循環遍歷 div 標籤賽選出來的所有值
    c = i.find_all('li') #在 div 標籤下查找所有 li 標籤
    for x in c : # 循環遍歷出li標籤所有的值
        newtitle = x.text # 打印出 li 標籤下的 內容。
        print(newtitle)

如果我們想得到 HTML 標籤中的內容,我們直接在後面加 .text 或者 .string 就行。

得到結果如下:

D:\pro_py\venv\Scripts\python.exe D:/pro_py/教育學習/7.py

這個冬季,我國還會爆發疫情嗎?張文宏迴應

                天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏

                內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈

                金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲

                黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶

河北監獄管理局迴應罪犯獄中網戀詐騙:調查組進駐唐山監獄

                利用癌症晚期病人,毒販從醫院開出4000多片管制藥品

                遼寧一村民家自來水可點燃?村幹部:已有專家到現場檢測

                於歡案律師:回家後他睡一兩小時就醒 以爲還在獄中

                國企董事長騙取國家工程款1.6億 房產遍及北京、海南、天津

又被共和黨人敦促“接受選舉結果” 特朗普:抱歉 我不能

                印媒:列城實控線附近發現中國坦克運輸車 解放軍並未放鬆警惕
                ......

Process finished with exit code 0

此致。我們就得到了我們需要的數據了,舉一反三,如果爬去其他的內容,也是一樣的方法,仔細多讀文章。今天的教程就到之類啦。
這裏是 HTML 靜態的網站 爬去的方法,如果是JS動態的,那麼他的數據,並不保存在 這個請求的鏈接下。

本期作業:

爬去 百度新聞的 標題:https://news.baidu.com/

第8課:非JS 動態網站的分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章