@[TOC](Html 分析目錄:)
HTML 和 網站是什麼關係?
HTML 是一種超文本語言,是用來編寫前端網站的語言之一。我們也俗話把HTML 稱之爲 網站,網頁。
如何分析網站:
在這裏我們拿 上節課 《第7課: bs4 庫 的 BeautifulSoup 基礎學習》 的作業來做一個例子。
上節課的作業是 爬去 搜狐新聞的 文章標題。搜索網站網址:http://news.sohu.com/
分析網站用到的第一個工具:就是瀏覽器自帶的 調試工具。我這裏默認使用的是谷歌瀏覽器,我建議大家也使用 谷歌瀏覽器。
首先,我們要打開這個網站,進入到首頁後,需要 按<font color=#DC143C> F12</font> ,進入到調試模式。
按 F12 ,進入到調試模式,如下圖。
然後我們可以看到一些代碼,還有一個行工具欄。
工具欄中有 Elements ,Console ,Sourecs,Nerword,Perfornance,Memory,Application,Security,Lighthouse 。這些工具欄目。
爬蟲需要的欄目名稱 | 作用解釋 |
---|---|
Elements | 主要是用來查看需要爬去的數據的 HTML 標籤 屬性等信息 |
Nerword | 【爬蟲最重要的】查看網站加載了 json文件,html 文件,媒體文件等等 |
其他的你們也不需要了解了,主要就是這四個,四個鍾,重要的是 Elements 和 Nerword 這兩個功能作用。
Elements 的使用:
1,打開瀏覽器進入 網站:http://news.sohu.com/ ,然後按 F12 ,點擊 瀏覽器的 Elements 。
點擊Elements ,我們就可以看到這個網站的一些 HTML 源碼。
比如我們需要爬去網站的標題,我們就需要用到 這個工具欄的最 左側的 箭頭。
如下動態圖【先點擊箭頭,在點擊你需要爬去的標題,我們就可以快速定位到需要爬去的標題所屬的HTM代碼啦】:
快速定位到標題 所在的 HTML 代碼後,我們就需要分析這個代碼。
分析HTML 代碼:
代碼截圖如下:
我將 上面的代碼複製了出來,代碼如下:
<a data-param="_f=index_chan08news_1"
href="https://www.sohu.com/a/433526374_115362?spm=smpc.news-home.top-news2.2.1606033856144w4nUMI3"
target="_blank"
title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏"
data-spm-data="2">
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
</a>
根據上節課 《第7課: bs4 庫 的 BeautifulSoup 基礎學習》的學習 HTML <font color=#DC143C><標籤名 屬性名=“屬性值”> 內容 </標籤名> </font>。
html 代碼 | 解釋 |
---|---|
a | 標籤 |
data-param | 標籤的屬性名稱,= 號後面的是屬性值 |
href | 標籤的屬性名稱,= 號後面的是屬性值 |
target | 標籤的屬性名稱,= 號後面的是屬性值 |
title | 標籤的屬性名稱,= 號後面的是屬性值 |
data-spm-data | 標籤的屬性名稱,= 號後面的是屬性值 |
我們可以看到 a 標籤屬性有很多,data-param ,href ,target,title,data-spm-data 這些都是標籤的屬性。
html 的標籤屬性名分析:
在得到了 HTML 的標籤,屬性 後,我們就需要那些是能用在 BeautifulSoup 的 find_all 中。
標籤屬性名 | 分析 |
---|---|
data-param | 屬性名出現 - 橫杆的,在python 中是不支持的。【不可用,會直接報錯】 |
href | 未出現不合規的命名規範,可以使用 |
target | 未出現不合規的命名規範,可以使用 |
title | 未出現不合規的命名規範,可以使用 |
data-spm-data | 屬性名出現 - 橫杆的,在python 中是不支持的。【不可用】 |
當我們知道了這個標題是的 HTML 可用屬性後【我們只需要其中一個即可】,我們就可以用 BeautifulSoup 的 find_all 去爬去看是否能爬取到?
find_all 使用格式如下: <font color=#DC143C> info = content.find_all(“標籤”,屬性名稱=“屬性值”)</font> 代碼 |
解釋 |
---|---|
content | 就是 content = BeautifulSoup(requ.text,'lxml') |
find_all | BeautifulSoup 類 中 的一個 函數 功能是查找所有 |
info | content.find_all(“標籤”,屬性名稱=“屬性值”) 的名字 |
把 href 屬性和屬性值寫入代碼如下:
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('a',href="https://www.sohu.com/a/433526374_115362?spm=smpc.news-home.top-news2.2.1606033856144w4nUMI3")
print(info)
得到結果如下:
D:\pro_py\venv\Scripts\python.exe D:/pro_py/教育學習/7.py
[]
Process finished with exit code 0
是一個空列表,並沒有的到數據。
把 target 屬性和屬性值寫入代碼如下:
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('a',target="_blank")
print(info)
得到結果如下:
[<a href="http://news.sohu.com/s2018/guoqing69/index.shtml" target="_blank"></a>, <a href="http://news.sohu.com/" target="_blank">新聞首頁</a>, <a href="http://mp.sohu.com" target="_blank">
<li class="link shh">
<div class="icon"></div>
<div class="title">搜狐號</div>
</li>
</a>, <a href="https://www.sogou.com" target="_blank">
<li class="link sougou">
<div class="icon"></div>
<div class="title">搜狗搜索</div>
</li>
</a>, <a href="https://mail.sohu.com" target="_blank">
<li class="link sohu_email">
<div class="icon"></div>
<div class="title">搜狐郵箱</div>
</li>
</a>, <a href="http://www.sohu.com" target="_blank">首頁</a>, <a href="http://www.sohu.com/c/8/1460" target="_blank">時政</a>, <a href="http://www.sohu.com/c/8/1461" target="_blank">國際</a>, <a href="http://mil.sohu.com/" target="_blank">軍事</a>, <a href="http://police.news.sohu.com/" target="_blank">警法</a>, <a href="http://www.sohu.com/subject" target="_blank">專題</a>, <a href="http://gongyi.sohu.com/" target="_blank">公益</a>, <a href="http://wrj.sohu.com" target="_blank">無人機</a>, <a href="http://mp.sohu.com/profile?xpt=bGFubGFuZGUyMkBzb2h1LmNvbQ==" target="_blank">狐度</a>, <a href="http://mp.sohu.com/profile?xpt=NzJCMERBNUNDN0NEODJBOTkwMTZFMkM2NkU3REM3QjBAcXEuc29odS5jb20=" target="_blank">數字之道</a>, <a href="http://mp.sohu.com/profile?xpt=ZmVpbHUyMTAxMjdAc29odS1pbmMuY29t" target="_blank">知世</a>, <a href="http://mp.sohu.com/profile?xpt=c29odXptdHo1eXk3cEBzb2h1LmNvbQ==" target="_blank">神吐槽</a>, <a data-param="_f=index_chan08focus_0" href="https://www.sohu.com/a/433548388_362042" target="_blank" title="河南濱淮“貨車撞送葬人羣”事故引關注 有沙石貨車被指“可按月買通行證”">
<img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_320,h_213,g_faces/c_cut,x_0,y_0,w_600,h_400/os/news/b2db2ede84656c641487a71508264de8.jpg"/>
<span class="linear-box">
<em class="linear-bg"></em>
<em class="linear-txt">河南濱淮“貨車撞送葬人羣”事故引關注 有沙石貨車被指“可按月買通行證”</em>
</span>
</a>, <a data-param="_f=index_chan08focus_1" href="https://www.sohu.com/a/433479812_162758" target="_blank" title="1500萬年前的棗被發現 網友:好喫嗎?">
<img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_155,h_103,g_faces/c_cut,x_0,y_0,w_445,h_297/c_cut,x_-5,y_0,w_456,h_304/os/news/16df958d7180d1b5f4b14c86e63df866.jpg"/>
<span class="txt">1500萬年前的棗被發現 網友:好喫嗎?</span>
</a>, <a data-param="_f=index_chan08focus_2" href="https://www.sohu.com/a/433537687_162758" target="_blank" title="這地方發生“怪事”,天沒亮就有人扔錢進來">
<img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_155,h_103,g_faces/c_cut,x_0,y_0,w_600,h_400/os/news/c582b256589bf94b5cf1c8af2d4ad351.jpg"/>
<span class="txt">這地方發生“怪事”,天沒亮就有人扔錢進來</span>
</a>, <a data-clev="10220169" data-site="2" data-title="62歲大媽嫁26歲小夥" data-vid="224843656" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="62歲大媽嫁26歲小夥"><img alt="" src="http://29e5534ea20a8.cdn.sohucs.com/c_fill,w_320,h_160,g_faces/c_cut,x_0,y_0,w_320,h_160/os/news/984d02038d2ddb879c1d45a1116baacc.jpg"/><span class="linear-box video-txt"><em class="linear-bg"></em><em class="txt">62歲大媽嫁26歲小夥</em></span><i class="icon icon-video"></i></a>, <a data-clev="10220170" data-site="2" data-title="廣東一男子深夜被“浸豬籠” 全程求饒痛哭" data-vid="224848320" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="廣東一男子深夜被“浸豬籠” 全程求饒痛哭"><i class="icon icon-video"></i>廣東一男子深夜被“浸豬籠” 全程求饒痛哭</a>, <a data-clev="10220171" data-site="2" data-title="女兒傾慕男子爲其醉駕頂包 父親陪她去自首" data-vid="224847638" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="女兒傾慕男子爲其醉駕頂包 父親陪她去自首"><i class="icon icon-video"></i>女兒傾慕男子爲其醉駕頂包 父親陪她去自首</a>, <a data-clev="10220172" data-site="2" data-title="小夥邊開車邊高歌 下一秒忘詞看手機釀事故" data-vid="224914820" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="小夥邊開車邊高歌 下一秒忘詞看手機釀事故"><i class="icon icon-video"></i>小夥邊開車邊高歌 下一秒忘詞看手機釀事故</a>, <a data-clev="10220173" data-site="2" data-title="女子乘車因胖多佔座 被鄰座辱罵:你個死胖子" data-vid="224490510" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="女子乘車因胖多佔座 被鄰座辱罵:你個死胖子"><i class="icon icon-video"></i>女子乘車因胖多佔座 被鄰座辱罵:你個死胖子</a>, <a data-clev="10220174" data-site="2" data-title="長春冰凍雨雪天氣:汽車被冰封 開門拿鐵錘敲" data-vid="224483349" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="長春冰凍雨雪天氣:汽車被冰封 開門拿鐵錘敲"><i class="icon icon-video"></i>長春冰凍雨雪天氣:汽車被冰封 開門拿鐵錘敲</a>, <a data-clev="10220175" data-site="2" data-title="青島沿海公路遭海浪侵襲 海水湧上漫過路面" data-vid="224518573" data-video-clicker="video3" href="javascript:void(0)" target="_blank" title="青島沿海公路遭海浪侵襲 海水湧上漫過路面"><i class="icon icon-video"></i>青島沿海公路遭海浪侵襲 海水湧上漫過路面</a>, <a data-param="_f=index_chan08cpc_0" href="https://www.sohu.com/a/433504150_362042?code=cdcf021b63c28fe6ddc5ee179b591c4d" target="_blank" title="勠力戰疫共創未來 習近平倡議G20在這四方面發力">
<b>勠力戰疫共創未來 習近平倡議G20在這四方面發力</b>
</a>, <a data-param="_f=index_chan08cpc_1_0" href="https://www.sohu.com/a/433541143_429139?code=f55e7a26562d0b2ff47c6364267294d1" target="_blank" title="總書記闡述亞太合作中國方案">
<b>總書記闡述亞太合作中國方案</b>
</a>, <a data-param="_f=index_chan08cpc_1_1" href="http://m.news.cctv.com/2020/11/21/ARTI56CRYo1dPzW38COHRn0u201121.shtml?code=9ac3c2d783ff4956cc2f9774980cbb52" target="_blank" title="互聯網之光“點亮” 美好未來"><b>互聯網之光“點亮” 美好未來</b></a>, <a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433559317_115362" target="_blank" title="這個冬季,我國還會爆發疫情嗎?張文宏迴應">
<b>這個冬季,我國還會爆發疫情嗎?張文宏迴應</b>
</a>, <a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
</a>, <a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433533027_119038" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈">
<i class="icon icon-video"></i>
......
Process finished with exit code 0
我們發現得到很多數據,但是並沒有精確到,我們需要的數據。所以這個屬性和屬性值,還是不行的。
把 title 屬性和屬性值寫入代碼如下:
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('a',title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏")
print(info)
得到結果如下:
D:\pro_py\venv\Scripts\python.exe D:/pro_py/教育學習/7.py
[<a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
</a>]
Process finished with exit code 0
從結果查看 得到了我們需要的 數據,但是我們需要的是多個這樣的數據,並非一個。所以這樣的添加 屬性是不對的。
看下下方的動圖,當鼠標移動到了 \<div class="list16" data-spm="top-news2">:這個時候右側文字,被陰影覆蓋,就表示這一塊區域就在 這個 div 標籤內。
<標籤名 屬性名=“屬性值”>內容</標籤名>
在下圖,我們可以看到,標籤是 div , 屬性是class="list16" data-spm="top-news2" 這兩個。
我們把這一塊區域的HTML 代碼複製下來:
<div class="list16" data-spm="top-news2">
<ul>
<li><a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433494879_313745?spm=smpc.news-home.top-news2.1.1606033856144w4nUMI3" target="_blank" title="上海新增1例、內蒙古新增2例 如何看待本土局地疫情的發生?" data-spm-data="1">
<i class="icon icon-video"></i>
<b>上海新增1例、內蒙古新增2例 如何看待本土局地疫情的發生?</b>
</a></li>
<li><a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362?spm=smpc.news-home.top-news2.2.1606033856144w4nUMI3" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏" data-spm-data="2">
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
</a></li>
<li><a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433429855_119038?spm=smpc.news-home.top-news2.3.1606033856144w4nUMI3" target="_blank" title="天津新病例追蹤:確診後向朋友道歉 密接者信息泄露被騷擾" data-spm-data="3">
天津新病例追蹤:確診後向朋友道歉 密接者信息泄露被騷擾
</a></li>
<li><a data-param="_f=index_chan08news_3" href="https://www.sohu.com/a/433533027_119038?spm=smpc.news-home.top-news2.4.1606033856144w4nUMI3" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈" data-spm-data="4">
內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
</a></li>
<li><a data-param="_f=index_chan08news_4" href="https://www.sohu.com/a/433531007_115362?spm=smpc.news-home.top-news2.5.1606033856144w4nUMI3" target="_blank" title="金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲" data-spm-data="5">
金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
</a></li>
</ul>
</div>
從HTML 分析得到,所有的標題都在這個div 標籤中,在DIV標籤中 包含了 ul 標籤 又包含了 多個 li 標籤,li標籤裏面包含了a ,i b 等標籤。
在爬蟲的時候我們就要先定位到 這個DIV 標籤,縮小範圍。然後定位到 li 標籤,在li 標籤中直接就打印出 新聞標題。
<div class="list16" data-spm="top-news2">
分析 DIV 標籤的屬性:
屬性名 | 解釋 |
---|---|
class | 屬性可用,但是在Python中要寫成這樣 :class_ , 多加一個下劃線,區分內置的class 命名。【可用】 |
data-spm | Python 不能以 - 橫杆命名。【不可用】 |
所以寫代碼如下 代碼如下:
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('div',class_="list16")
print(info)
得到結果如下【是一個列表形式打印出來】:
[<div class="list16" data-spm="top-news2">
<ul>
<li><a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433559317_115362" target="_blank" title="這個冬季,我國還會爆發疫情嗎?張文宏迴應">
<b>這個冬季,我國還會爆發疫情嗎?張文宏迴應</b>
</a></li>
<li><a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
</a></li>
<li><a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433533027_119038" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈">
<i class="icon icon-video"></i>
內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
</a></li>
<li><a data-param="_f=index_chan08news_3" href="https://www.sohu.com/a/433531007_115362" target="_blank" title="金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲">
金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
</a></li>
<li><a data-param="_f=index_chan08news_4" href="https://www.sohu.com/a/433557142_260616" target="_blank" title="黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶">
黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶
</a></li>
</ul>
</div>, <div class="list16" data-spm="top-news3">
<ul>
<li><a data-param="_f=index_chan08news_5" href="https://www.sohu.com/a/433445870_120388781" target="_blank" title="河北監獄管理局迴應罪犯獄中網戀詐騙:調查組進駐唐山監獄">
<b>河北監獄管理局迴應罪犯獄中網戀詐騙:調查組進駐唐山監獄</b>
</a></li>
<li><a data-param="_f=index_chan08news_6" href="https://www.sohu.com/a/433511153_114988" target="_blank" title="利用癌症晚期病人,毒販從醫院開出4000多片管制藥品">
利用癌症晚期病人,毒販從醫院開出4000多片管制藥品
</a></li>
......
<li><a data-param="_f=index_chan08chuangyenews_5" href="http://www.sohu.com/a/433526516_115362" target="_blank" title="啓明創投主管合夥人梁頴宇:醫療健康領域發展機會展望">
啓明創投主管合夥人梁頴宇:醫療健康領域發展機會展望
</a></li>
Process finished with exit code 0
在結果中,我們看到了很多新聞標題了,也就是說這就是我們要的數據了。
然後在用 for 循環把這些數據一個一個打印出來,然後在用 find_all 進行查詢 li 標籤,進行再一次縮小範圍。
代碼如下:
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('div',class_="list16")
for i in info:
c = i.find_all('li')
print(c)
得到結果如下【只複製了部分結果】:
[<li><a data-param="_f=index_chan08news_0" href="https://www.sohu.com/a/433559317_115362" target="_blank" title="這個冬季,我國還會爆發疫情嗎?張文宏迴應">
<b>這個冬季,我國還會爆發疫情嗎?張文宏迴應</b>
</a></li>, <li><a data-param="_f=index_chan08news_1" href="https://www.sohu.com/a/433526374_115362" target="_blank" title="天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏">
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
</a></li>, <li><a data-param="_f=index_chan08news_2" href="https://www.sohu.com/a/433533027_119038" target="_blank" title="內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈">
<i class="icon icon-video"></i>
內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
</a></li>, <li><a data-param="_f=index_chan08news_3" href="https://www.sohu.com/a/433531007_115362" target="_blank" title="金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲">
金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
</a></li>, <li><a data-param="_f=index_chan08news_4" href="https://www.sohu.com/a/433557142_260616" target="_blank" title="黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶">
黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶
</a></li>]
因爲得到的是一個 列表個格式的數據,所以我們需要再一次的用 for 把它打印輸出出來,然後直接取 其中的 字符串【標題】。
代碼如下:
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
requ = requests.get('http://news.sohu.com/')
content = BeautifulSoup(requ.text,'lxml')
info = content.find_all('div',class_="list16") # 賽選 class=list6 的 div 標籤
for i in info: #循環遍歷 div 標籤賽選出來的所有值
c = i.find_all('li') #在 div 標籤下查找所有 li 標籤
for x in c : # 循環遍歷出li標籤所有的值
newtitle = x.text # 打印出 li 標籤下的 內容。
print(newtitle)
如果我們想得到 HTML 標籤中的內容,我們直接在後面加 .text 或者 .string 就行。
得到結果如下:
D:\pro_py\venv\Scripts\python.exe D:/pro_py/教育學習/7.py
這個冬季,我國還會爆發疫情嗎?張文宏迴應
天津人冒嚴寒抗疫 網友卻被“贊上海貶天津”圖片帶節奏
內蒙古滿洲里2例本地確診病例系夫妻 活動軌跡公佈
金融委重磅發聲:嚴厲處罰各種“逃廢債”行爲
黃龍景區通報“遊客翻欄踩踏五彩池”:立即勸離鈣化保護地帶
河北監獄管理局迴應罪犯獄中網戀詐騙:調查組進駐唐山監獄
利用癌症晚期病人,毒販從醫院開出4000多片管制藥品
遼寧一村民家自來水可點燃?村幹部:已有專家到現場檢測
於歡案律師:回家後他睡一兩小時就醒 以爲還在獄中
國企董事長騙取國家工程款1.6億 房產遍及北京、海南、天津
又被共和黨人敦促“接受選舉結果” 特朗普:抱歉 我不能
印媒:列城實控線附近發現中國坦克運輸車 解放軍並未放鬆警惕
......
Process finished with exit code 0
此致。我們就得到了我們需要的數據了,舉一反三,如果爬去其他的內容,也是一樣的方法,仔細多讀文章。今天的教程就到之類啦。
這裏是 HTML 靜態的網站 爬去的方法,如果是JS動態的,那麼他的數據,並不保存在 這個請求的鏈接下。
本期作業:
爬去 百度新聞的 標題:https://news.baidu.com/