如何使用http模塊做一個簡單的爬蟲
- 簡單爬蟲實現
const https = require('https');
const fs = require('fs');
https.get('https://baidu.com',(res)=>{
res.setEncoding('utf8');
let html = '';
res.on('data',chunk => {
html += chunk;
})
res.on('end',()=>{
console.log(html)
fs.writeFile('./index.txt',html,(err) => {
if(err) throw err;
console.log('寫入成功')
})
})
})
- cheerio實現dom操作
- 安裝cheerio
npm install cheerio --save-dev
- 引入cheerio
const cheerio = require('cheerio')
- 通過title元素獲取其內容⽂文本
const $ = cheerio.load(html);//把html代碼加載進去,就可以實現jq的dom操作
console.log($('title').text());