特定場景的Cralwer

原創

2020-06-23 12:51

有時也叫Crawler。

今天整理電腦文檔的時候發現很早09年初自己寫的一個crawler的設計文檔，打開這個50多頁的文檔，裏邊N多的邏輯圖及規範定義的數據結構，才覺得真的好久沒有見過寫得那麼規範的文檔了（也許有點自誇，或者碼農都覺得自己的就是規範：）

將其中的總體設計圖分享給大家參考，確切的說，並不是一個完整的crawler，而是一個連通性檢查模塊，所以當中更增加了很多定製化的邏輯。

該設計中嚴格地區分了數據流及過程，也算是設計圖中的一種創新了。

設計時參考了Ming the Web: Discovering Knowledge from Hypertext Data》中的Crawler，其中完整架構如下：

此處也向大家推薦這本書《Ming the Web: Discovering Knowledge from Hypertext Data》，裏邊對於從spider 索引建立，ranking，檢索過程等搜索引擎相關的技術都有深入淺出的介紹，特別適合從事互聯網，特別是搜索的同學。

參考文檔：

Ming the Web: Discovering Knowledge from Hypertext Data

也可關注微博： weibo.com/dustinsea

或者直接訪問http://semocean.com

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

單場獎金池20萬！百度智能雲“千帆杯”教育生態行業賽邀你報名

自2024年百度智能雲“千帆杯”AI原生應用創意挑戰賽啓動以來，廣受開發者關注，更有百萬獎金激勵、千萬算力支持。 4月25日，百度智能雲攜手頭部高校、知名教育企業等多家單位，聯合發起千帆杯AI原生應用創意挑戰賽——教育生態行業賽，

百度開發者中心

2024-05-08 23:38:06

京東如何實現IT降本增效？—監控與FinOps和OpsGPT的落地和思考

“因爲我們做了提效，說白了就是提升大家的人力，計算出來，如果提升有30%，能給部門就能節省800多萬的工時的價值，能推廣起來。” （許澤明：Zabbix3.4-6.0操作文檔譯者，多次Zabbix中國峯會講師。本文整理自許澤明在2

2024-05-08 22:17:58

數據庫索引算法的威力：B-Tree 與 Hash 索引

數據庫索引是優化任何數據庫系統性能的關鍵組成部分。如果沒有有效的索引，您的數據庫查詢可能會變得緩慢且低效，從而導致用戶體驗不佳並降低生產力。在這篇文章中，我們將探討創建和使用數據庫索引的一些最佳實踐。作者：The Java Trail

2024-05-07 23:20:49

RAG 修煉手冊｜揭祕 RAG 時代的新向量數據庫

隨着對大型模型應用探索的深入，檢索增強生成技術（Retrieval-Augmented Generation）受到了廣泛關注，並被應用於各種場景，如知識庫問答、法律顧問、學習助手、網站機器人等。不過，有很多朋友對於向量數據庫和 RAG 的

2024-05-07 21:20:19

倒排索引關鍵點普及

倒排索引倒排索引是什麼？爲什麼es、hbase、doris、starrocks都有倒排索引？倒排索引（英文：Inverted Index），是一種索引方法，常被用於全文檢索系統中的一種單詞文檔映射結構。現代搜索引擎絕大多數的索引都是基

2024-03-21 00:14:06

用戶案例｜向量引擎在攜程酒店搜索中的應用場景和探索

加入 Zilliz AI 初創計劃 Zilliz AI 初創計劃是面向 AI 初創企業推出的一項扶持計劃，預計提供總計 1000 萬元的 Zilliz Cloud 抵扣金，致力於幫助 AI

2024-03-15 15:54:11

2024 年，向量數據庫的性能捲到什麼程度了？

本文作者爲 Zilliz 首席工程師 Alexandr Guzhva、Zilliz 首席工程師劉力對於數據庫（尤其是向量數據庫）而言，“性能”是一個十分關鍵的指標，其用於衡量數據庫是否能夠在有限資源內，高效處理大量用戶請求。對於向量數據

2024-02-22 21:27:05

語言大模型的現狀與未來趨勢

在過去的幾年裏，語言大模型已經成爲了人工智能領域最熱門的話題之一。從最早的基於規則的自然語言處理，到後來的基於統計的方法，再到現在的深度學習模型，語言大模型的發展歷程可以說是波瀾壯闊。語言大模型的現狀目前，語言大模型已經在許多領域得到了

2024-02-22 12:33:56

快速上手Tampermonkey（篡改猴aka油猴腳本）

首先怎麼安裝就不詳細說了，去火狐、chrome或edge的應用商店搜索Tampermonkey安裝即可。官網在此：https://www.tampermonkey.net 註解配置項說明配置說明配置項 (a-z

2023-12-12 21:40:03

利用ChatGPT提升測試工作效率——測試工程師的新利器(一) | 京東雲技術團隊

1、前言隨着ChatGPT的爆火，各個行業開始嘗試利用ChatGPT來提升工作效率。其中，測試工程師們也開始探索如何應用ChatGPT來加強測試工作。在本文中，我們將從測試工程師的角度出發，探討ChatGPT在測試工作中的應用。通過Ch

2023-10-11 11:47:10

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

項目需求作爲一款風靡全球的MOBA遊戲，《王者榮耀》擁有衆多精美絕倫的英雄角色。玩家們對於自己心愛的英雄角色總是充滿着熱情和好奇。他們渴望收集自己喜歡的英雄的圖片，用於做壁紙、頭像或者分享給朋友。然而，要手動一張一張地下載這些圖片實

2024-04-19 23:26:23

Scrapy 核心 API 提供了開發者訪問和集成 Scrapy 核心組件的接口

以下是 Scrapy 核心 API 的摘要： Scrapy 核心 API 提供了開發者訪問和集成 Scrapy 核心組件的接口。主要入口點是 Crawler API，通過 C

2024-02-23 00:29:18

centos7批量刪除redis指定key

需求: 刪除redis中以llan:crawler開頭的key 操作說明: redis的鑑權密碼爲: !Test123 如果無鑑權密碼則無需使用-a 因爲"!"在redis中數據特殊字符故需要使用轉義字符 \ redis-cli

2022-04-30 05:33:14

爬蟲系列之自動化運維(一):服務器管理(年中紅包派送中...)

年中福利大派送派送規則： 1：即日起三天內，關注本號的第25,50,75,100位網友； 2：已關注公衆號，歷史分享前三名； 3：已關注公衆號，歷史留言前兩名; 符合以上

2021-12-25 21:20:47

24小時熱門文章

最新文章

最新評論文章