數據採集中HTML常見標籤及屬性如下:
標籤 | 說明 | 舉個栗子 |
---|---|---|
html | html文檔 | <html class="" lang="zh\-cmn\-Hans"> |
head | 頭部 | |
title | 文檔標題 | |
body | 文檔主體 | |
h1 | 標題 | " |
豆瓣電影 Top 250 | ||
" | ||
p | 段落 | " <p class=""""> |
導演: 弗蘭克·德拉邦特 Frank Darabont 主演: 蒂姆·羅賓斯 Tim Robbins | ||
1994 / 美國 / 犯罪 劇情 | ||
" | ||
br | 換行 | |
hr | 水平線 | |
a | 錨 | " <a class="“nav-login”" href="“https://accounts.douban.com/passport/login?source=movie”" rel="“nofollow”"> |
登錄/註冊 | ||
" | ||
link | 外部鏈接 | |
nav | 導航鏈接 | |
b | 粗體字 | |
abbr | 縮寫 | |
cite | 引用citation | |
blockquote | 長引用 | |
q | 短引用 | " <p class="“qrcode”"> |
掃碼直接下載 | ||
" | ||
fieldset | ||
meta | <meta content=“text/html; charset=utf-8” http-equiv=“Content-Type”/> | |
script | " <script type="“text/javascript”"> | |
var _body_start = new Date(); | ||
" | ||
em | 強調文本 | " <em class=""""> |
1 | ||
" | ||
節 | ||
style | 文檔樣式 | " <style type="“text/css”"> |
img { max-width: 100%; } | ||
" | ||
div | 文檔的節 | |
span | 文檔的節 | 更多 |
section | 區域 | |
article | 文章 | |
details | 元素細節 | |
dialog | 對話框 | |
多媒體 | ||
img | 圖像 | |
audio | 聲音 | |
source | 媒介源 | |
表單 | ||
form | 供輸入的表單 | |
input | 文本框 | |
框架 | ||
iframe | 內聯框架 | |
frame | 框架集的窗口或框架 | |
列表 | ||
ul | 無序列表 | |
ol | 有序列表 | |
li | 列表項目 | " <li class="“on”"> |
電影 | ||
" | ||
表格 | ||
table | 表格 | |
caption | 表格標題 | |
th | 表頭單元格 | |
tr | 表格行 | |
td | 表格單元 | |
thead | 表頭內容 | |
tbody | 表格主體內容 | |
col | 一列或多列的屬性值 |