原创 Java網絡爬蟲--正則表達式之詳解貪婪、逐步、獨吐量詞

除過正則表達式的基本概念與特性還有使用方法之外,我們在解析html的時候,如果要進行字符串的匹配,必須還要熟悉正則表達式之中量詞的使用法則,今天我們就來談談貪婪、逐步、獨吐這三種量詞的使用。 貪婪量詞 我們先來看一下經常使用的貪

原创 Java網絡爬蟲(六)--JSON數據的解析

有時候,我們抓取下來一個html頁面,發現瀏覽器頁面可以顯示的東西在html源碼中卻沒有,這時候我們就要考慮服務器是以JSON格式將這部分數據發送到客戶端的,對於這種情況的處理方式我們一般是在chrome的開發者工具中找到對應的J

原创 Java網絡爬蟲(十一)--重構定時爬取以及IP代理池(多線程+Redis+代碼優化)

一直覺得自己之前寫的使用定時抓取構建IP代理池實在過於簡陋,並且有一部分的代碼寫的並不合理,剛好最近又在學習多線程,就將之前的代碼進行了重構,也方便對抓取代理ip有需求的人。之前自己寫的那篇文章就不刪除了,裏面用到了MySQL以及

原创 Java網絡爬蟲(十二)--使用tcpdump和Wireshark進行網絡抓包與分析

最近打算通過學校的某某系統抓取一下每個學生的個人信息,由於需要進行模擬登錄,所以就要對登錄頁面進行post參數的提交。但是在進行網絡抓包的過程中,使用chrome自帶的網絡抓包分析工具(也就是F12)發現每次在進行登錄提交表格之後

原创 Java網絡爬蟲(八)--使用多線程進行百度圖片的抓取

聲明:如需轉載本篇文章,請進行私聊並在文章首處註明出處,本代碼未經授權不可用於獲取商業價值,否則後果將由自己承擔。 這次的需求大概是從百度圖片裏面抓取任意的分類的圖片,考慮到有些圖片的資源不是很好,並且由於百度搜索越到後面相關度會

原创 Java併發--詳解this與Thread.currentThread()的區別

注:本系列博客參考《Java多線程編程核心技術》,主要是對書上的知識點進行總結,並記錄學習過程。 一直對併發這塊比較感興趣,也到了系統學習Java多線程的時間。目前所學習的書籍是《Java多線程編程核心技術》,買回來之後聽說這本書

原创 Java--this關鍵字

this調用所操作對象的引用 問題1:假如統一類型的兩個對象,分別是a和b,其中還有一個方法peel(),那麼我們怎麼才能分辨這個方法到底是被a調用還是被b調用呢? 其實,在這期間編譯器做了一些事後工作,它暗自把“所操作對象的引用

原创 操作系統--內存中的程序映像(printf函數的運算順序)

先來看看c語言printf函數運算順序爲什麼從右到左? 從彙編角度來看,函數的參數總是從高地址壓到低地址,而訪問參數的時候又是通過基址加偏移量來的,所以按照邏輯,偏移量爲0對應第一個參數,第一個參數在低地址,低地址最後壓入棧,相對

原创 JVM--Class類文件結構(二)

之所以將屬性表拿出來單獨進行講解,就是因爲在上一篇博客中我已經說過,在Class類文件中,最重要的當屬常量池與屬性表部分,而屬性表中的屬性目前已高達21項,當然我們不用全部記住它們,只需要熟悉其中的幾個關鍵屬性。 屬性表基本結構

原创 Servlet--Servlet進階API、過濾器、監聽器

Servlet初始化過程、ServletConfig 每個Servlet都必須由Web容器讀取Servlet設置的信息,初始化等,才能生成對應的Servlet實例。對於每個Servlet的設置信息,Web容器都會爲其生成一個Ser

原创 Linux 新建用戶、用戶組以及爲新用戶分配權限

useradd命令 useradd 選項 用戶名 -d 目錄,指定用戶主目錄,如果此目錄不存在,則同時使用-m選項,可以創建主目錄。 -g 用戶組,指定用戶所屬的用戶組。 -G 用戶組,指定用戶所屬的附加組。

原创 MySQL數據庫--MySQL數據庫語句、坑點總結

MySQL實用語句操作 1.清空數據庫表的同時將id的增長順序重新設爲從0開始: TRUNCATE TABLE 數據庫表名 2.在知道數據庫原密碼的時候進行修改密碼: mysqladmin -u root -p password

原创 Linux--記錄使用Centos 7 的坑點

設定防火牆開放指定端口 由於自己的騰訊雲突然無法訪問8080端口,在網上查閱了相關資料之後發現是防火牆的問題,因爲Centos 7防火牆默認是不開放任何端口的,所以我們要對防火牆進行設置。 Centos 7 不在使用以前的ipta

原创 IDEA--【Intellij Idea】Project Structure 講解

原文地址:【intellij idea】Project Structure 講解

原创 Web--Web緩存機制

注:文中的客戶端指瀏覽器(瀏覽器緩存)與緩存服務器,實際上緩存服務器是代理服務器的一種,在本文中將緩存服務器歸結至客戶端,服務端則指源服務器。 什麼是緩存Cache? 爲什麼人們要使用它? 一個使用緩存Cache的站點會監聽客戶端