爬虫系统 & Robots 协议介绍

原創

2020-06-26 14:09

项目地址
爬虫:是一种自动获取网页内容的程序.是收索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化;
robots.txt:是一个文本文件,robots.txt是一个协议,不是一个命令. robots.txt是爬虫查看的第一个文件. robots.txt文件告诉爬虫在服务器上的什么文件按是可以陪查看的,搜索机器人就会安装该文件中的内容来确定访问的范围.

配置爬虫系统和开发环境

需要用到的模块

Express > node 环境最成熟的server模块
Request > 相当于前端ajax这样的一个方法
Cheerio > 可以让把后端拉取过来的数据,可以像dom 一样分析数据;且不用写一句正则;

开始搭环境

Express -cli 的搭键项目初始化;快速搭建看这里
npm install request cheerio request –save-dev

//使用代码;可以放在路由页;
var request = require('request');
var cheerio = require('cheerio');
/* GET home page. */
router.get('/', function(req, res, next) {
    request('https://www.hao123.com/', function (error, response, body) {
        if (!error && response.statusCode === 200) {
            const $ = cheerio.load(body);
            var classNum=$(".vip");
            var data=[];
            for(var i=0;i<classNum.length;i++){
              data.push(classNum[i])
            }
            res.send({

                'classNum':data
            })
        }
    });
});

就这么简单扒取页面DOM ;然后想jQuery那样操作DOM 元素的值;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬虫系统 & Robots 协议介绍

配置爬虫系统和开发环境

需要用到的模块

开始搭环境

公司刚入职了一名 Java 中级开发，短短 4 行代码居然凑齐了 3 个 bug！我哭了~~

公众号5月C#/.NET热文一览

git 下载大陆镜像地址

Javascript & QA 工程師 - 理論篇

Linux 命令 [持續更新....]

數據推送之 - WebSocket -暫未更新

數據推送之 SSE(Server-Send Event)

Node部署 - [反向代理 + 負載均衡 + 線上部署 + PM2 + 緩存策略] - 看我的就夠了

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結