原创 Python爬蟲實例:爬取某個網頁的子網頁

筆者的目的是對已有的白名單進行細化處理。比如現在有常見域名名單(百度、騰訊、搜狐等等),筆者要做的是對每一個域名爬取其所有的子網站,比如騰訊對應的還有騰訊視頻、微信、QQ、騰訊新聞等等。 筆者的輸入是一個包含常見域名白名單的xls文件,輸

原创 Python爬蟲實例:爬取國內所有醫院信息

本博客僅用於技術討論,若有侵權,聯繫筆者刪除。 此次的目的是爬取國內醫院的基本信息,並按省份存儲。爬取的黃頁是醫院列表。以下是結果圖: 一、初始化數據 初始化基本的數據,包括global變量,省份名稱等等。 import reque

原创 NLP:用Senta做文本情感分析

筆者在做Web敏感信息檢測功能時,需要用到NLP領域的文本情感分析,這裏用的是百度的預訓練模型Senta。 一、下載預訓練模型 百度提供的預訓練模型在GitHub上Senta,該模型所需環境是PaddlePaddle,這裏就不得不吐槽一下

原创 惡意JavaScript代碼檢測文獻閱讀(一)

《A machine learning approach to detection of JavaScript-based attacks using AST features and paragraph vectors》 《一種基於ja

原创 惡意JavaScript代碼檢測文獻閱讀(二)

《JSAC: A Novel Framework to Detect Malicious JavaScript via CNNs over AST and CFG》 《JSAC:一種基於AST和CFG的CNNs惡意JavaScript檢測

原创 Python爬蟲:驗證碼認證(輸入式驗證碼、滑動式驗證碼、點擊式驗證碼、宮格驗證碼)

筆者在本科階段想學卻一致沒有學的Python爬蟲,沒有想到研究僧階段剛進實驗室的第一週就被安排學習了。這周筆者主要學習的有:UA黑名單饒過、JS混淆和驗證碼認證。其中,驗證碼認證是花費時間最長的,問題及代碼如下: 一、輸入式驗證碼 用戶根

原创 Python網段轉IP,批量處理

筆者要做的是利用Angry IP Scanner對IP進行掃描。可是得到的不是IP,而是網段。筆者說的網段還不是*.*.*.*/X這種格式的,而是1.0.1.0,1.0.3.255這樣的。所以就不能用Python自帶的IIPY模塊。以下是

原创 考研經歷,川大(網絡空間安全)

自從六月份決定考研到考研結束,半年多沒碰過博客了。昨天考研結束,所以想趁熱把經歷和感想都記錄下來,希望可以對讀者有所幫助,也是對自己一段寶貴經歷的封存。 先嘮叨嘮叨爲什麼選擇讀研吧。就個人原因的話:我想讀研,在本科接觸的這麼多項目中拓展了

原创 百度內容審查做敏感詞庫篩選

最近在做項目的敏感詞庫篩選更新。筆者最終的目標是通過百度API將現有的敏感詞庫篩選更新成。 一、準備工作 讀者需在百度智能雲登陸賬號,然後開通百度內容審覈功能,然後根據API Key和Secret Key可以獲得調用接口所需的access

原创 PaddlePaddle離線安裝教程(不使用docker),Linux和Windows

筆者這周在部署項目的時候面臨PaddlePaddle批量部署的問題,這就不僅要求是離線安裝,還要求安裝包不能過大。當時在網上沒有找到想要的教程,就去GitHub上提問PaddlePaddle的工程師了。GitHub問題鏈接,但是使用doc

原创 機器學習:監督學習各方法特點及適用情況

今天是屬於程序員的節日,所以筆者便寫篇博客記錄最近所學。筆者最近在學習傳統的機器學習方法,目前在看的主要是監督學習,總結如下: 一、感知機 感知機是二類分類的線性分類模型(即適用於二類分類),其輸入爲實例的特徵向量,輸出爲實例的類別,取值

原创 爲什麼說馬雲退休是急流勇退?

昨晚筆者被朋友問到馬雲爲什麼選擇退休的問題,理清了自己的見解後在此記錄下來(以下全是個人見解,具有主觀性)。 在分析馬雲退休前我們首先看先看阿里巴巴的發展,支付寶帶來的移動支付在全國乃至整個世界都是領先的地位。可以這樣說,阿里在中國的發展

原创 八爪魚,那些我踩過的坑

筆者應實驗室的要求購買了八爪魚的“旗艦+”套餐,499元一月。 看到網上關於這款軟件的問答還是比較少的,這裏想就這款軟件說說自己的看法。 首先是這款軟件的定位。我覺得這款軟件雖然定位是爬蟲,但是不適合真正做爬蟲的程序員。因爲它屬於可視化的

原创 Python+Selenium爬蟲:定位元素無ID和class等屬性解決辦法

今天筆者進行數據爬蟲的時候遇到一個問題,所需要定位的input輸入框元素和button按鈕元素都沒有ID和此class等屬性。代碼如下: <div id="headerScaher" class="scaher hover">

原创 Python爬蟲,動態加載,JSON數據

該博客僅用於技術討論,若有侵權,聯繫筆者刪除。 之前筆者做的爬蟲基本都是獲取網頁代碼後就可直接獲取數據,或者用selenium進行模擬用戶。但是用selenium的速度是真心慢。這次筆者在爬取VenusEye威脅情報中心的時候,獲取代碼後