項目地址
爬蟲
:是一種自動獲取網頁內容的程序.是收索引擎的重要組成部分,因此搜索引擎優化很大程度上是針對爬蟲而做出的優化;
robots.txt
:是一個文本文件,robots.txt是一個協議,不是一個命令. robots.txt是爬蟲查看的第一個文件. robots.txt文件告訴爬蟲在服務器上的什麼文件按是可以陪查看的,搜索機器人就會安裝該文件中的內容來確定訪問的範圍.
配置爬蟲系統和開發環境
需要用到的模塊
- Express > node 環境最成熟的server模塊
- Request > 相當於前端ajax這樣的一個方法
- Cheerio > 可以讓把後端拉取過來的數據,可以像dom 一樣分析數據;且不用寫一句正則;
開始搭環境
- Express -cli 的搭鍵項目初始化;快速搭建看這裏
- npm install request cheerio request –save-dev
//使用代碼;可以放在路由頁;
var request = require('request');
var cheerio = require('cheerio');
/* GET home page. */
router.get('/', function(req, res, next) {
request('https://www.hao123.com/', function (error, response, body) {
if (!error && response.statusCode === 200) {
const $ = cheerio.load(body);
var classNum=$(".vip");
var data=[];
for(var i=0;i<classNum.length;i++){
data.push(classNum[i])
}
res.send({
'classNum':data
})
}
});
});
就這麼簡單扒取頁面DOM ;然後想jQuery那樣操作DOM 元素的值;