前言
本項目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而來,之前爬過各大高校的百度貼吧,本人也是位小jr,想着玩玩虎撲步行街吧嘿嘿~這次的數據是國慶的時候爬下來的,介於工作太忙沒有寫帖子,數據截止時間大致在2018年10月6日,也就是說這個時間點以後的帖子和用戶不會出現在下面的統計中。
項目
項目爲springboot 1.5.7版本,提供數據持久化,前端採用echart做數據分析圖表展示。具體的技術棧如下:
- springboot 1.5.7
- springMVC+Rest+EChart...
- mybatis 3.4.6
- hikari 連接池
- webmagic 0.7.3(修改版,修復https問題與log優化 下載地址:https://download.csdn.net/download/sinat_22767969/10703880)
- mysql 5.7.17 (支持utf8mb4字符編碼)
GitHub:https://github.com/chenchaoyun0/hpspider,覺得有用給個start哈~
快速啓動
(1)克隆項目
git clone https://github.com/chenchaoyun0/hpspider.git
(2)修改數據庫連接配置,執行DB初始化腳本,maven構建項目
mvn clean install -DskipTests
(3)啓動爬蟲
啓動項目,訪問 http://127.0.0.1:5099/swagger-ui.html ,執行 startSpider (注:若數據庫中已有數據必須清空)
(4)配置
#爬取線程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解爲要爬多少個帖子,虎撲只能訪問到10200頁,有時候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取數據落庫配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000
虎撲爬蟲數據分析
爬取過程
待程序執行一段時間後,如果你spider.post.size配的太大,則爬取的時間會很長
博主爬的時候配的是10200,放在服務器上面跑,開啓爬蟲500個線程,落庫線程500,爬了有3天~~
帖子總數:120.7萬,回覆總數:1504.9萬,JR(用戶)總數:141.9萬,下面的數據分析就是用的這些數據進行處理,帖子回覆數點亮小於1就忽略掉了。
部分數據截圖
數據分析
訪問 http://127.0.0.1:5099 即可看到一個導航頁面
下面做下比較有趣的數據分析與圖形化展示
看看大家發帖經常使用的詞彙,水平、zt(到底是主題?還是轉帖?)、求助、女朋友哈哈,
由此看來,發帖的人佔了很少數呀
幾乎每個帖子都有JR回覆,果然是暖暖的一家人啊~~
當前,這裏的2018年還沒有過完,只是統計到2018年10月國慶期間
通過此圖可以看出,JRS在8月份的時候,熱情高漲hhh
JR在晚上10點的時候發帖最頻繁
JRS在中午11點最活躍哈?
其中有百分之82的人沒有填自己的歸屬主隊,再看一張圖把未知的去掉後
看圖說話~
廣東的JR是最多的哈~~~其次是北京,再看看女JR的情況
emmm,這裏比較懶,沒有做排序,當然,還是廣東女JR最多了
同樣,性別未知的就是不填性別的,有一半多,再看一張圖
實在是可憐~~~~不愧被稱爲直男一條街咳咳
原來大部分JR都想當程序員???emmm
哈哈,2018年的熱帖裏,wyf 出現的也太多了吧
歷史來是指,2016~2018的,2015的數據比較少,也比較久遠,爬不到了
skr skr~~
張佳瑋先生~~我什麼時候能擁有你一半的粉絲。。。
- 粉絲最多的女JR
emmm,這位大哥,竟然有快2億的訪問量。。。。可怕~~
- 訪問量前十的女Jrs,看看哪位女jr
安卓用戶和蘋果用戶不分上下哈~~
2015年是最巔峯的時期啊~~
綠化一條街,竟然沒"綠"字~~~我檢查下我的程序。。。。發現真的沒有,JR們都喜歡發圖吧 ~
- JR暱稱詞雲
愛字~~~~看來JRS跟我一樣,爲情所困,不知道到底選哪個女朋友好,愁死個人了~~~tx
over!!好累的說!歡迎步行街的猿兒JR給個start
本項目gitHub地址:https://github.com/chenchaoyun0/hpspider
博主郵箱:[email protected],歡迎JR騷擾與探討各種奇淫技巧~~
PS:我是一隻Java猿兒