爬蟲系統 & Robots 協議介紹

原創

2020-06-26 14:09

項目地址
爬蟲:是一種自動獲取網頁內容的程序.是收索引擎的重要組成部分,因此搜索引擎優化很大程度上是針對爬蟲而做出的優化;
robots.txt:是一個文本文件,robots.txt是一個協議,不是一個命令. robots.txt是爬蟲查看的第一個文件. robots.txt文件告訴爬蟲在服務器上的什麼文件按是可以陪查看的,搜索機器人就會安裝該文件中的內容來確定訪問的範圍.

配置爬蟲系統和開發環境

需要用到的模塊

Express > node 環境最成熟的server模塊
Request > 相當於前端ajax這樣的一個方法
Cheerio > 可以讓把後端拉取過來的數據,可以像dom 一樣分析數據;且不用寫一句正則;

開始搭環境

Express -cli 的搭鍵項目初始化;快速搭建看這裏
npm install request cheerio request –save-dev

//使用代碼;可以放在路由頁;
var request = require('request');
var cheerio = require('cheerio');
/* GET home page. */
router.get('/', function(req, res, next) {
    request('https://www.hao123.com/', function (error, response, body) {
        if (!error && response.statusCode === 200) {
            const $ = cheerio.load(body);
            var classNum=$(".vip");
            var data=[];
            for(var i=0;i<classNum.length;i++){
              data.push(classNum[i])
            }
            res.send({

                'classNum':data
            })
        }
    });
});

就這麼簡單扒取頁面DOM ;然後想jQuery那樣操作DOM 元素的值;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲系統 & Robots 協議介紹

配置爬蟲系統和開發環境

需要用到的模塊

開始搭環境

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

Javascript & QA 工程師 - 理論篇

Linux 命令 [持續更新....]

數據推送之 - WebSocket -暫未更新

數據推送之 SSE(Server-Send Event)

Node部署 - [反向代理 + 負載均衡 + 線上部署 + PM2 + 緩存策略] - 看我的就夠了

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結