今天是Andy學Python的第55 天哦!
大家好,我是Andy。
在抓取網頁特定數據之前,需要學習HTML基本知識。
01.
什麼是HTML語言
HTML的全名是“超文本標記語言”(HyperText Markup Language)。超文本標記語言(或超文本標籤語言)的結構包括“頭”部分和“主體”部分,其中“頭”部提供關於網頁的信息,“主體”部分提供網頁的具體內容。它具有簡易性、可擴展性、平臺無關性、通用性等特點。
1.1 HTML語言簡單,操作方便,打開速度非常快。
1.2 HTML可擴展性,目前HTML有着廣泛的應用。
1.3 HTML通用性,HTML是一種通用的語言,用戶可以創建圖文結合的頁面,可跨平臺使用,無論什麼瀏覽器,都可以訪問。
PS:瀏覽器的網頁開發,涉及三種技術:HTML、CSS 和 JavaScript。HTML 語言定義網頁的結構和內容,CSS 樣式表定義網頁的樣式,JavaScript 語言定義網頁與用戶的互動行爲。本節只學習HTML語言。
02.
HTML語言結構
HTML網頁是由許多不同的標籤( tag )構成。
標籤放在一對單書名號裏面(比如<title>),大多數標籤都是成對出現的,分成開始標籤和結束標籤,結束標籤在標籤名之前加斜槓(比如</title>)。少數標籤不是成對使用,而是隻有開始標籤,沒有結束標籤,比如<img src=”image.jpg”〉。
2.1 常用標籤語法
①:HTML文檔必須以類型聲明開始。
②HTML文檔寫在 和標籤之間。
③HTML文檔的可見部分寫在 和標籤之間。
④HTML頭使用
到
標籤定義。
⑤HTML段落使用
標籤定義。
⑥標籤名是大小寫不敏感,比如<title>和<TITLE>是同一個標籤。一般習慣使用小寫。
⑦HTML語言忽略縮進和換行,HTML 代碼中的所有連續的空格或空行(換行)都會被顯示爲一個空格,不管是內容還是標籤之間。
⑧HTML註釋以結尾,可單行也可多行。
2.2 標籤屬性
屬性是標籤的額外信息,使用空格與標籤名和其他屬性分隔。
<img src="demo.jpg" width="500">
其中,<img>標籤有兩個屬性:src和width。
2.3 基本標籤
符合語法標準的網頁,應該滿足下面的基本結構。
<!DOCTYPE html> # <html lang="en">
<head>
<meta charset="utf-8">
<title></title>
</head>
<body>
</body>
</html>
03.
標籤簡介
3.1 <!doctype>
網頁的第一個標籤通常是<!doctype>,表示文檔類型,告訴瀏覽器如何解析網頁。
一般來說,只要像下面這樣,簡單聲明doctype爲html即可。
<!doctype html>
3.2 <html>
一個網頁只能有一個<html>標籤。
該標籤的lang屬性,表示網頁內容默認的語言。
<html lang="en"> 默認英語
3.3 <head>
<head>標籤是一個容器標籤,用於放置網頁的元信息。它的內容不會出現在網頁上。
<head>是<html>的第一個子元素。如果網頁不包含<head>,瀏覽器會自動創建一個。
<head>的子元素一般有下面七個。
<meta>:設置網頁的元數據。
<link>:連接外部樣式表。
<title>:設置網頁標題。
<style>:放置內嵌的樣式表。
<script>:引入腳本。
<noscript>:瀏覽器不支持腳本時,所要顯示的內容。
<base>:設置網頁內部相對 URL 的計算基準。
3.4 <meta>
<meta>標籤用於設置或說明網頁的元數據,必須放在<head>裏面。一個<meta>標籤就是一項元數據,網頁可以有多個<meta>。
3.5 <title>
<title>標籤用於指定網頁的標題,會顯示在瀏覽器窗口的標題欄。
搜索引擎根據這個標籤,顯示每個網頁的標題。它對於網頁在搜索引擎的排序,有很大的影響,應該精心安排,反映網頁的主題。
<title>標籤的內部,不能再放置其他標籤,只能放置無格式的純文本。
3.6 <body>
<body>標籤是一個容器標籤,用於放置網頁的主體內容。瀏覽器顯示的頁面內容,都是放置在它的內部。
04.
查看網頁源代碼
谷歌瀏覽器“開發者工具”,快捷鍵是CTRL+SHIFT+I。
搜狗/QQ/IE/Firefox 瀏覽器瀏覽網站時,按下 F12 鍵就會打開網頁的開發者界面。
也可在網頁上單擊鼠標右鍵,在彈出的快捷菜單中點擊“查看網頁源代碼”。
51Day Day up!
向上向善,日進一步!
每天學習,努力成長!
定個小目標,開啓成長的旅程,遇見更好的自己。
這是我們和自己的約定,許諾自己不負韶華。
路雖遠,行則將至;事雖難,做則必成。
成長的最好時機,就是當下。