台部落VM_Alike

筆者的目的是對已有的白名單進行細化處理。比如現在有常見域名名單（百度、騰訊、搜狐等等），筆者要做的是對每一個域名爬取其所有的子網站，比如騰訊對應的還有騰訊視頻、微信、QQ、騰訊新聞等等。筆者的輸入是一個包含常見域名白名單的xls文件，輸

2020-07-02 16:53:59

本博客僅用於技術討論，若有侵權，聯繫筆者刪除。此次的目的是爬取國內醫院的基本信息，並按省份存儲。爬取的黃頁是醫院列表。以下是結果圖：一、初始化數據初始化基本的數據，包括global變量，省份名稱等等。 import reque

2020-07-02 16:53:59

筆者在做Web敏感信息檢測功能時，需要用到NLP領域的文本情感分析，這裏用的是百度的預訓練模型Senta。一、下載預訓練模型百度提供的預訓練模型在GitHub上Senta，該模型所需環境是PaddlePaddle，這裏就不得不吐槽一下

2020-07-02 16:53:57

《A machine learning approach to detection of JavaScript-based attacks using AST features and paragraph vectors》《一種基於ja

2020-07-02 16:53:57

《JSAC: A Novel Framework to Detect Malicious JavaScript via CNNs over AST and CFG》《JSAC：一種基於AST和CFG的CNNs惡意JavaScript檢測

2020-07-02 16:53:57

筆者在本科階段想學卻一致沒有學的Python爬蟲，沒有想到研究僧階段剛進實驗室的第一週就被安排學習了。這周筆者主要學習的有：UA黑名單饒過、JS混淆和驗證碼認證。其中，驗證碼認證是花費時間最長的，問題及代碼如下：一、輸入式驗證碼用戶根

2020-07-02 16:53:57

筆者要做的是利用Angry IP Scanner對IP進行掃描。可是得到的不是IP，而是網段。筆者說的網段還不是*.*.*.*/X這種格式的，而是1.0.1.0,1.0.3.255這樣的。所以就不能用Python自帶的IIPY模塊。以下是

2020-07-02 16:53:57

自從六月份決定考研到考研結束，半年多沒碰過博客了。昨天考研結束，所以想趁熱把經歷和感想都記錄下來，希望可以對讀者有所幫助，也是對自己一段寶貴經歷的封存。先嘮叨嘮叨爲什麼選擇讀研吧。就個人原因的話：我想讀研，在本科接觸的這麼多項目中拓展了

2020-06-04 03:02:19

最近在做項目的敏感詞庫篩選更新。筆者最終的目標是通過百度API將現有的敏感詞庫篩選更新成。一、準備工作讀者需在百度智能雲登陸賬號，然後開通百度內容審覈功能，然後根據API Key和Secret Key可以獲得調用接口所需的access

2020-03-28 05:23:35

筆者這周在部署項目的時候面臨PaddlePaddle批量部署的問題，這就不僅要求是離線安裝，還要求安裝包不能過大。當時在網上沒有找到想要的教程，就去GitHub上提問PaddlePaddle的工程師了。GitHub問題鏈接，但是使用doc

2020-02-20 22:52:10

今天是屬於程序員的節日，所以筆者便寫篇博客記錄最近所學。筆者最近在學習傳統的機器學習方法，目前在看的主要是監督學習，總結如下：一、感知機感知機是二類分類的線性分類模型（即適用於二類分類），其輸入爲實例的特徵向量，輸出爲實例的類別，取值

2019-10-25 15:39:58

昨晚筆者被朋友問到馬雲爲什麼選擇退休的問題，理清了自己的見解後在此記錄下來（以下全是個人見解，具有主觀性）。在分析馬雲退休前我們首先看先看阿里巴巴的發展，支付寶帶來的移動支付在全國乃至整個世界都是領先的地位。可以這樣說，阿里在中國的發展

2019-09-15 15:22:09

筆者應實驗室的要求購買了八爪魚的“旗艦+”套餐，499元一月。看到網上關於這款軟件的問答還是比較少的，這裏想就這款軟件說說自己的看法。首先是這款軟件的定位。我覺得這款軟件雖然定位是爬蟲，但是不適合真正做爬蟲的程序員。因爲它屬於可視化的

2019-08-28 15:35:36

今天筆者進行數據爬蟲的時候遇到一個問題，所需要定位的input輸入框元素和button按鈕元素都沒有ID和此class等屬性。代碼如下： <div id="headerScaher" class="scaher hover">

2019-08-28 15:35:36

該博客僅用於技術討論，若有侵權，聯繫筆者刪除。之前筆者做的爬蟲基本都是獲取網頁代碼後就可直接獲取數據，或者用selenium進行模擬用戶。但是用selenium的速度是真心慢。這次筆者在爬取VenusEye威脅情報中心的時候，獲取代碼後

2019-08-28 15:35:36