整理了自己的今年寫的爬蟲及其他項目代碼,裏面有的使用requests,也有的使用的scrapy爬蟲框架,抓取了以下這些網站,網站不更新的話代碼可以直接運行,裏面包含了網站的破解、抓取、解析
GitHub: https://github.com/Gscsd8527/AllProject
每個文件夾的名字都是對應的抓取網站,抓取各網站數據:
CCF : https://www.ccf.org.cn/qb/
Harvard: https://dataverse.harvard.edu/dataverse
Kaggle: https://www.kaggle.com
MicrosoftAcademic: https://academic.microsoft.com
Most: http://service.most.gov.cn/2015tztg_all
Stanford: http://snap.stanford.edu/data/index.html
Chinatech: https://www.chinatech.gov.hk
Wos: http://apps.webofknowledge.com
openKg: http://openkg.cn/dataset
Penking: http://opendata.pku.edu.cn
Zenodo: http://zenodo.org/
Scholarmate: https://www.scholarmate.com