反爬蟲監控系統-實現思路

原創

2020-07-03 19:13

反爬蟲監控系統

思路：

數據源

nginx 獲取客戶端的請求 lua腳本收集nginx獲取的請求的數據推送到kafka(ps:lua腳本在收集數據時採用’$CS#'進行拼接)
數據處理模塊：

數據處理

數據切分：獲取kafka的數據，按照’#CS#'進行切分，並封裝到AccessLog對象中(其中的jessionId和userId需要從http_cookie中單獨提取出來)
鏈路統計：1.計算每臺nginx的數據量->根據server_addr直接進行統計 2.統計活躍連接數->由於活躍連接數時遞增的，只需要取出最後一個值即可。reduceByKey((x,y)=>y),
最後需要將結果存入到redis中，並設置過期時間=24h
數據清洗：獲取mysql的過濾規則(過濾掉請求中不需要的文件，例如jpg,gif,png)，進行廣播。通過在redis中設置flag，對數據庫的規則實時監控，
當規則變化時，標誌發生變化，去更新規則，重新廣播。將從kafka獲取的數據進行規則匹配，過濾掉規則內的文件
數據脫敏：本項目中涉及的敏感數據爲：身份證，手機號。從過濾後的數據中對http_cookie進行
正則匹配，格式爲 ‘=phone;’ 和 ‘=IdCard;’ 進行md5加密，進行替換
數據分類：根據需求，數據分爲國內查詢(0,0)，國際查詢(1,0)，國內預定(0,1)，國際預定(1,1)
獲取數據庫中的分類規則，分別獲取到了四種規則，封裝到一個Map進行廣播
通過在redis設置flag，實時監控數據庫規則變化
通過request對規則進行匹配，打上對應的標籤封裝到 RequestType(代表查詢預定標籤)
通過對http_referer中的時間個數的判斷，打標籤(單程-> 0，往返-> 1)
數據解析：獲取數據庫中的解析規則(查詢規則和預定規則)，封裝到一個Map廣播並實時監控，根據上述打的對應的標籤對規則進行匹配，執行相應的解析

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

教你如何搞定springboot集成kafka

本文分享自華爲雲社區《手拉手入門springboot+kafka》，作者：QGS。安裝kafka 啓動Kafka本地環境需Java 8+以上 Kafka是一種高吞吐量的分佈式發佈訂閱消息系統，它可以處理消費者在網站中的所有動作流數據。

2024-05-16 22:58:25

O2OA平臺流程催辦怎麼做

O2OA平臺設計了靈活的消息提醒數據交互方式，開發者可以根據自己的需要，來消費消息提醒數據，也可以將消息提醒數據接入到Kafka消息中間件來實現消息的準實時提醒。本篇主要介紹如何在O2OA服務器中設置流程的催辦提醒消息。催辦

2024-05-16 22:48:44

Flink1.12 文檔

API 移除掉 ExecutionConfig 中過期的方法移除掉了 ExecutionConfig#isLatencyTrackingEnabled 方法, 你可以使用 ExecutionConfig#getLatencyTracki

2024-05-13 21:17:28

TiDB + ES：轉轉業財系統億級數據存儲優化實踐

以下文章來源於轉轉技術，作者戴美琪導讀本文詳細介紹了轉轉業財系統億級數據存儲優化的實踐。面對系統數據量大、慢查詢多等挑戰，轉轉業財採取了 TiDB 方案優化數據量問題，同時引入 Elasticsearch（ES）解決慢查詢難題。實踐表

2024-05-13 11:16:34

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

2024數據標註公司20強排行榜（附榜單）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

企業大模型如何成爲自己數據的“百科全書”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

多點 Dmall x TiDB：出海多雲多活架構下的 TiDB 運維實戰

作者：多點，唐萬民導讀時隔 2 年，在 TiDB 社區成都地區組織者馮光普老師的協助下，TiDB 社區線下地區活動再次來到成都。來自多點 Dmall 的國內數據庫負責人唐萬民老師，在《出海多雲架構，多點 TiDB 運維實戰》的主題分享

2024-05-15 10:48:37

神策數據付力力入選福布斯中國 30 Under 30 十週年名人堂

福布斯中國30 UNDER 30 持續關注青年才俊。在 U30 十週年之際，福布斯中國通過跟蹤、梳理、比較歷年Under 30們入選後的表現、社會影響力事件，以及創業精神詮釋，編制了福布斯中國U30名人堂名單。神策數據聯合創始人 & 技術

2024-05-14 21:51:58

企業IT架構治理之道

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早

京東雲開發者

2024-05-13 23:59:32

內嵌專業接口的RISC-V架構MCU，誰家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免費報名|Zabbix受邀出席上海開源技術沙龍，探討開源軟件賦能新質生產力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

神策數據：詳解保險 OMO 一體化的關鍵步驟

近年來，保險行業數字化發展相關政策陸續發佈，推動着保險行業基於業務與科技發展的實際需求，加速數字化轉型，將數字保險高質量發展持續提升至新的高度。本文將圍繞保險數字化，詳細解讀險企實現 OMO 一體化的關鍵步驟。一、洞察：雙利見底，

2024-05-11 22:04:29

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

neovim安裝(基於源碼進行安裝) git clone https://github.com/neovim/neovim.git cd neovim make CMAKE_BUILD_TYPE=Release sudo make in

2024-05-19 22:00:32

24小時熱門文章

最新文章

最新評論文章