node简单爬虫----爬取书籍

原創

易01

2020-07-01 04:53

平时喜欢看小说，但是有的站点小说比较少，就想着把各大站的小说集中在一起。所以就想着爬数据，第一次，万事开头难~

1. 爬虫地址

就爬捏了~笔趣阁全部小说

2. 新建server.js文件

3.下载所需依赖

添加request模块，用于请求所用

npm install request

添加cheerio模块，用于操作dom

npm install cheerio

添加iconv-lite模块，用于中文乱码，转码所用

npm install iconv-lite

4.关键代码

const request=require('request')
const cheerio = require('cheerio');
let url = 'http://www.xbiquge.la/xiaoshuodaquan/';
request({
    url: url,
    method: 'get',
    gzip:true
  }, (err, res, body) => {
      let html=body.toString()
      let $=cheerio.load(html)
      $('.novellist ul li a').each(function(i){
        console.log('书名',$(this).text()+",地址"+$(this).attr('href'));
      })
    }
  );

5.运行当前文件

node server.js

6.运行结果

已经解析出书籍以及其地址啦。

6.注意点

一开始解析出来的html是乱码的。主要注意两点即可
1.编码为utf-8的,且浏览器正常，但输出依然乱码

这个时候要注意其Response Headers是不是Content-Encoding: gzip

而这里的爬虫就是属于这种情况，所以请求加上gzip:true即可，那么iconv-lite暂时是用不上了。
2.编码为非utf-8的且非gbk和gbk123的，那么就需要iconv-lite
实际到底是不是请以charset的值为准，然后使用decode转码为gbk

多多关注~~，互相学习

千里之行，始于足下，

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

node简单爬虫----爬取书籍

1. 爬虫地址

2. 新建server.js文件

3.下载所需依赖

4.关键代码

5.运行当前文件

6.运行结果

6.注意点

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

前端工程化之plop的使用

輕量級的貨幣金額處理庫currency.js的使用

Vue .sync修飾符使用

下載文件，跨域獲取Response Headers中響應頭，以及IE無法下載文件

Vue cli3 插件開發併發布到 npm

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結