知乎爬蟲項目記錄

這是一個知乎爬蟲項目

簡書地址 http://www.jianshu.com/p/da2cdf52c4a6

項目地址 https://github.com/rensuperk/javaSpider

根據知乎用戶爬取所有和用戶相關的數據

數據包括關注者,被關注者,文章,專欄,想法,提問,答案,和用戶相關的其他信息

應的框架有

  1. jdk1.8
  2. spring-boot –基本架構
  3. spring-data-elastic –elastic客戶端
  4. elasticsearch –搜索引擎,也用於存儲數據
  5. kinaba –數據展示和分析
  6. 爬取網頁用的spring提供的restTemplate

    說明

    1. 使用spring的resttemplate抓去知乎的接口
    2. 使用數據線程池實現多線程抓取
    3. 記錄上次停頓的位置實現連續抓取
    4. 控制抓取的數據類型
    5. 去重使用的是elsstic提供的upset方法,id的話,people使用url_token
    6. 當訪問被限制的時候切換本地的http代理,不想找線程池,所以一般只開兩個線程進行抓取,不得不說知乎反爬蟲做的挺好,只開一個線程的時候不會被屏蔽,多了就不行了
    7. 跑了一個星期大概抓取了200W的用戶數據和其他的一些
    8. 先爬取幾條記錄,然後代碼就會自動把記錄寫入任務隊列中
    9. 使用java.util.concurrent裏面的很多包進行多線程訪問的限制,比如緩存線程池,阻塞隊列,atomic原子操作類等

安裝和配置

  • elasticSearch5.5
    cd /apps/
    #下載
    wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.0.zip
    #解壓縮
    unzip
    cd elasticsearch-5.6.0
    #改變配置
    vim config/elasticsearch.yml
    #配置外網訪問
    network.host : 0.0.0.0
    #cluster名稱
    cluster.name: elasticsearch
    #節點名稱
    node.name: node-1
    #啓動 bin/elasticsearch -d
    #注意因爲安全設置elasticsearch不允許用root用戶訪問,所以新建一個用戶用於啓動這個服務
  • kibana安裝
#和上面差不多,略過了
  • jdk1.8安裝
#詳見網上ubuntu安裝jdk的教程,有很多,就不貼了
  • spring-boot版本的選擇
elasticsearch更新比較快
springboot-release版本可能不太適配
現在只能使用2.0.0.M3版本
如果用在正式環境中,可能需要降低elasticsearch,或者再等幾個月等springboot的適配
  • pom.xml
    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.0.0.M3</version>
    </parent>
     <dependency>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <build>
        <plugins>
            <plugin>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-maven-plugin</artifactId>
            </plugin>
        </plugins>
    </build>
  • 配置application.properties
spring.data.elasticsearch.cluster-nodes=192.168.56.101:9300
server.port=80
logging.level.root=info
logging.file=D://log.log
  • 啓動類和一些配置
@SpringBootApplication(scanBasePackages = "ren.superk")
@EnableElasticsearchRepositories(basePackages = "ren.superk")
public class ElasticSearchApplication implements CommandLineRunner {
    public static void main(String[] args) {
        SpringApplication.run(ElasticSearchApplication.class,args);
    }


    @Autowired
    private PeopleService peopleService;
    @Override
    public void run(String... strings) throws Exception {
        peopleService.initDataByThreadCount(2);
    }
}


@Configuration
public class RestTemplateConfig{
    @Bean
    public RestTemplate restTemplate(ClientHttpRequestFactory factory){
        return new RestTemplate(factory);
    }

    @Bean
    public ClientHttpRequestFactory simpleClientHttpRequestFactory(){
        SimpleClientHttpRequestFactory factory = new SimpleClientHttpRequestFactory();
        factory.setReadTimeout(5000);//ms
        factory.setConnectTimeout(15000);//ms
        return factory;
    }
}
  • 文件路徑
使用命令行工具 tree /F .\springboot-spider\src\main > d:/tree.txt 

├─java
│  └─ren
│      └─superk
│          └─zhihu
│              ├─action
│              │      PeopleAction.java    --action接口,寫了3個方法
│              │      
│              ├─config                      -- 配置
│              │      ElasticSearchApplication.java
│              │      ElasticSearchConfig.java
│              │      RestTemplateConfig.java
│              │      
│              ├─core                        --核心枚舉,和類型相關的參數都存在美劇中
│              │      SortEnum.java
│              │      ZhihuEnum.java
│              │      
│              ├─model                       --實體類
│              │      Answer.java
│              │      Article.java
│              │      Columns.java
│              │      Education.java
│              │      Employment.java
│              │      Fav.java
│              │      People.java
│              │      Pins.java
│              │      Question.java
│              │      Relation.java
│              │      Topic.java
│              │      ZhihuAnswerPager.java  --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuArticlePager.java --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuColumnsPager.java --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuFavPager.java     --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuPager.java
│              │      ZhihuPeoplePager.java  --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuPinsPager.java    --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuQuestionPager.java --這幾個本來設計的有用,但廢棄掉了
│              │      ZhihuTopicPager.java  --這幾個本來設計的有用,但廢棄掉了
│              │      
│              ├─repository
│              │      PeopleRepository.java  --elasticsearch-spring-data的從IDUS方法
│              │      RelationRepository.java
│              │      
│              └─service
│                  │  PeopleService.java    --服務
│                  │  PeopleUrlService.java --網絡服務
│                  │  
│                  └─impl
│                          PeopleServiceImpl.java  -- 主要的方法都寫在這裏面
│                          PeopleUrlServiceImpl.java
│                          test.java
│                          
└─resources
        application.properties  --配置

日誌

索引

一些簡單的分析,見笑了


索引

關注的人最多的人
索引

被關注的人最多的人

索引

感謝最多的

索引

學校 比較有趣

索引

回答問題最多,真勞模

索引

提問最多

索引

提問最多的主題,有趣
索引

職位,也很有趣

看圖把,我不貼了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章