Python爬蟲精簡步驟 HTML基礎（上）

原創

2020-07-07 11:50

開門見山，HTML的學習可分爲三個層次。
讀懂，修改，編寫。
讀懂：只有讀懂了HTML，才能看得懂網頁結構，纔有可能運用Python的其他模塊去解析數據和提取數據。想寫爬蟲程序一定要先學好HTML基礎。
修改：在讀懂HTML文檔的基礎上修改HTML代碼。
編寫：如果達到了這個水平，那就可以去應聘前端工程師了，這是專業的程序員水平。
所以此篇只寫如何讀懂HTML、修改HTML文檔。

HTML概念
HTML（Hyper Text Markup Language）是用來描述網頁的一種語言，也叫超文本標記語言。

查看網頁的HTML代碼
首先，推薦使用這倆瀏覽器。

開始操作。
隨便打開一個網站。我這裏打開的是微信表情開放平臺。

在網頁任意地方點擊鼠標右鍵，然後點擊“顯示網頁源代碼”。
（Windows系統的電腦可使用快捷鍵ctrl+u來查看網頁源代碼）

瀏覽器會彈出一個新的標籤頁。如上圖。

這樣查看的好處是，整個網頁的源代碼都完整地呈現在你面前。
壞處是，在大部分情況下，它都會經過壓縮，導致結構不夠清晰，不太容易懂每行代碼的含義。而且，源代碼和網頁分開在兩個頁面展示。

更多時候，我們會用這樣一種方法：
在網頁的空白處點擊右鍵，然後選擇“檢查”（快捷方式是ctrl+shift+i）。
將鼠標放在HTML源不同行代碼上，你會發現，左邊網頁上有一些內容會被標亮。這其實就是這行代碼所描述的網頁內容，它們一左一右，相互對應。

HTML的組成
標籤和元素
首先，來看一個最簡單的HTML文檔。

<html>
 <head>
  <meta charset="utf-8"> 
 </head>
    <body>
        <h1>我是一級標題</h1>
        <h2>我是二級標題</h2>
        <h3>我是三級標題</h3>
        <p>我是一個段落。一級標題、二級標題和我，我們三個一起組成了body。
         </p>
    </body>
</html>

可以看到很多夾在尖括號<>中間的字母，它們叫做【標籤】。
標籤通常是成對出現的：前面的是【開始標籤】，比如 < body >；後面的是【結束標籤】，如< /body>。
不過，也有標籤是形單影隻地出現，比如第3行（定義網頁編碼格式爲 utf-8），就是此類。這些知道就好，大部分情況下用的都是成雙成對出現的標籤。
開始標籤+結束標籤+中間的所有內容，它們在一起就組成了【元素】。
這是幾個常見元素：

開始標籤	元素內容	結束標籤	用法
< h1>	一級標題	< /h1>	一級標題
< h2>	二級標題	< /h2>	二級標題
< p>	段落文本	< /p>	段落
< a>	描述鏈接的文本	< /a>	超鏈接
< div>	其他元素或文本	< /div>	塊

根據表格，回看一下上面那段HTML代碼，裏面就有< h1>，< h2>和< p>。對照看代碼的顯示結果，< h1>是一級標題，< h2>是二級標題，< p>是段落文本，它們一一對應。
注意：HTML標籤是可以嵌套標籤的，而且可以多層嵌套。
未完待續。
持續更新歡迎關注哦
網頁頭、網頁體等更多內容可點關注過一陣會出Python爬蟲精簡步驟3 HTML基礎（下）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲精簡步驟 HTML基礎（上）

Python爬蟲精簡步驟 HTML基礎（上）

計算機網絡第三章數據鏈路層基礎習題

計算機網絡第五章運輸層經典習題及解答

計算機網絡第六章應用層經典習題及解答

計算機網絡第一章計網概述第二章物理層基礎習題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結