爬蟲實戰筆記

一章 爬蟲基礎

1HTTP基本原理
URL:統一資源定位符
URI:統一資源標誌符

HTTP:Hyper Text Transfer Protocol 超文本傳輸協議
HTTPS: Hyper Text Transfer Protocol over Secure Socket Layer 即HTTP下加入SSL層

HTTP請求過程:
“檢查”項
第一列Name:請求的名稱
第二列Status:響應的狀態碼
第三列Type:請求的文檔類型
第四列Initiator:請求源
第五列Size:從服務器下載的文件和請求的資源大小
第六列Time:發送請求到獲取相應所用的總時間
第七列Waterfall:網絡請求的可視化瀑布流

請求:
1請求方法:
GET 請求頁面,並返回頁面內容
POST 大多用於提交表單或上傳文件,數據包含在請求體中
2請求的網址
3請求頭:用來說明服務器要使用的附加信息,比較重要的信息有Cookie,Referer,User-Agent,Content-Type
4請求體
content-type 提交數據的方式
application/x-www-form-urlencoded 表單數據
multipart/form-data 表單文件上傳
application/json 序列化JSON數據
text/xml XML數據

響應
1響應狀態碼
2響應頭
3響應體
網頁的源代碼,JSON數據等

2網頁基礎
網頁的組成
①HTML
②CSS Cascading Style Sheets 層疊樣式表
#head.s-ps. s-p{
position:absolute;
bottom:400px;
width:100%;
height:181px;}
大括號前面是一個CSS選擇器。選擇器的意思是選中id爲head且class爲s-ps的節點,再選中其內部的class爲s-p的節點
position指定爲絕對佈局 bottom指定元素下邊距爲40像素
width指定寬度爲100%佔滿父元素 height指定元素的高度
③Javascript
Javascript通常也是以單獨的文件形式加載的,後綴爲js,在HTML中通過script標籤即可引入,
例如:

<script src="jquery-2.1.0.js">   </script>

HTML定義了網頁的內容和結構 CSS描述了網頁的佈局 Javascript定義了網頁的行爲

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章