史上最全虎撲爬蟲,帶你看網絡爬蟲下的步行街

前言

本項目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而來,之前爬過各大高校的百度貼吧,本人也是位小jr,想着玩玩虎撲步行街吧嘿嘿~這次的數據是國慶的時候爬下來的,介於工作太忙沒有寫帖子,數據截止時間大致在2018年10月6日,也就是說這個時間點以後的帖子和用戶不會出現在下面的統計中。

項目

項目爲springboot 1.5.7版本,提供數據持久化,前端採用echart做數據分析圖表展示。具體的技術棧如下:

GitHub:https://github.com/chenchaoyun0/hpspider,覺得有用給個start哈~

快速啓動

(1)克隆項目

git clone https://github.com/chenchaoyun0/hpspider.git

(2)修改數據庫連接配置,執行DB初始化腳本,maven構建項目

mvn clean install -DskipTests

(3)啓動爬蟲

啓動項目,訪問 http://127.0.0.1:5099/swagger-ui.html ,執行 startSpider (注:若數據庫中已有數據必須清空)

(4)配置

#爬取線程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解爲要爬多少個帖子,虎撲只能訪問到10200頁,有時候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取數據落庫配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000

虎撲爬蟲數據分析

爬取過程

待程序執行一段時間後,如果你spider.post.size配的太大,則爬取的時間會很長

博主爬的時候配的是10200,放在服務器上面跑,開啓爬蟲500個線程,落庫線程500,爬了有3天~~

帖子總數:120.7萬,回覆總數:1504.9萬,JR(用戶)總數:141.9萬,下面的數據分析就是用的這些數據進行處理,帖子回覆數點亮小於1就忽略掉了。

部分數據截圖

 

數據分析

訪問 http://127.0.0.1:5099 即可看到一個導航頁面

下面做下比較有趣的數據分析與圖形化展示

看看大家發帖經常使用的詞彙,水平、zt(到底是主題?還是轉帖?)、求助、女朋友哈哈,

由此看來,發帖的人佔了很少數呀

幾乎每個帖子都有JR回覆,果然是暖暖的一家人啊~~

當前,這裏的2018年還沒有過完,只是統計到2018年10月國慶期間

通過此圖可以看出,JRS在8月份的時候,熱情高漲hhh

JR在晚上10點的時候發帖最頻繁

JRS在中午11點最活躍哈?

其中有百分之82的人沒有填自己的歸屬主隊,再看一張圖把未知的去掉後

看圖說話~

廣東的JR是最多的哈~~~其次是北京,再看看女JR的情況

emmm,這裏比較懶,沒有做排序,當然,還是廣東女JR最多了

同樣,性別未知的就是不填性別的,有一半多,再看一張圖

實在是可憐~~~~不愧被稱爲直男一條街咳咳

原來大部分JR都想當程序員???emmm

哈哈,2018年的熱帖裏,wyf 出現的也太多了吧

歷史來是指,2016~2018的,2015的數據比較少,也比較久遠,爬不到了

skr  skr~~

張佳瑋先生~~我什麼時候能擁有你一半的粉絲。。。

  • 粉絲最多的女JR

 

emmm,這位大哥,竟然有快2億的訪問量。。。。可怕~~

安卓用戶和蘋果用戶不分上下哈~~

2015年是最巔峯的時期啊~~

綠化一條街,竟然沒"綠"字~~~我檢查下我的程序。。。。發現真的沒有,JR們都喜歡發圖吧 ~

愛字~~~~看來JRS跟我一樣,爲情所困,不知道到底選哪個女朋友好,愁死個人了~~~tx

 

 

over!!好累的說!歡迎步行街的猿兒JR給個start

本項目gitHub地址:https://github.com/chenchaoyun0/hpspider

博主郵箱:[email protected],歡迎JR騷擾與探討各種奇淫技巧~~

PS:我是一隻Java猿兒

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章