Python爬蟲精簡步驟 HTML基礎(上)

開門見山,HTML的學習可分爲三個層次。
讀懂,修改,編寫。
讀懂:只有讀懂了HTML,才能看得懂網頁結構,纔有可能運用Python的其他模塊去解析數據和提取數據。想寫爬蟲程序一定要先學好HTML基礎。
修改:在讀懂HTML文檔的基礎上修改HTML代碼。
編寫:如果達到了這個水平,那就可以去應聘前端工程師了,這是專業的程序員水平。
所以此篇只寫如何讀懂HTML、修改HTML文檔。

HTML概念
HTML(Hyper Text Markup Language)是用來描述網頁的一種語言,也叫超文本標記語言 。

查看網頁的HTML代碼
首先,推薦使用這倆瀏覽器。
在這裏插入圖片描述

開始操作。
隨便打開一個網站。我這裏打開的是微信表情開放平臺。
在這裏插入圖片描述
在網頁任意地方點擊鼠標右鍵,然後點擊“顯示網頁源代碼”。
(Windows系統的電腦可使用快捷鍵ctrl+u來查看網頁源代碼)
在這裏插入圖片描述
瀏覽器會彈出一個新的標籤頁。如上圖。

這樣查看的好處是,整個網頁的源代碼都完整地呈現在你面前。
壞處是,在大部分情況下,它都會經過壓縮,導致結構不夠清晰,不太容易懂每行代碼的含義。而且,源代碼和網頁分開在兩個頁面展示。

更多時候,我們會用這樣一種方法:
在網頁的空白處點擊右鍵,然後選擇“檢查”(快捷方式是ctrl+shift+i)。
在這裏插入圖片描述將鼠標放在HTML源不同行代碼上,你會發現,左邊網頁上有一些內容會被標亮。這其實就是這行代碼所描述的網頁內容,它們一左一右,相互對應。

HTML的組成
標籤和元素
首先,來看一個最簡單的HTML文檔。

<html>
 <head>
  <meta charset="utf-8"> 
 </head>
    <body>
        <h1>我是一級標題</h1>
        <h2>我是二級標題</h2>
        <h3>我是三級標題</h3>
        <p>我是一個段落。一級標題、二級標題和我,我們三個一起組成了body。
         </p>
    </body>
</html>

可以看到很多夾在尖括號<>中間的字母,它們叫做【標籤】。
標籤通常是成對出現的:前面的是【開始標籤】,比如 < body >;後面的是【結束標籤】,如< /body>。
不過,也有標籤是形單影隻地出現,比如第3行(定義網頁編碼格式爲 utf-8),就是此類。這些知道就好,大部分情況下用的都是成雙成對出現的標籤。
開始標籤+結束標籤+中間的所有內容,它們在一起就組成了【元素】。
這是幾個常見元素:

開始標籤 元素內容 結束標籤 用法
< h1> 一級標題 < /h1> 一級標題
< h2> 二級標題 < /h2> 二級標題
< p> 段落文本 < /p> 段落
< a> 描述鏈接的文本 < /a> 超鏈接
< div> 其他元素或文本 < /div>

根據表格,回看一下上面那段HTML代碼,裏面就有< h1>,< h2>和< p>。對照看代碼的顯示結果,< h1>是一級標題,< h2>是二級標題,< p>是段落文本,它們一一對應。
注意:HTML標籤是可以嵌套標籤的,而且可以多層嵌套。
未完待續。
持續更新 歡迎關注哦
網頁頭、網頁體等更多內容可點關注 過一陣會出Python爬蟲精簡步驟3 HTML基礎(下)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章