爬蟲對比Java和Python

原創

2020-07-02 02:26

網絡爬蟲

網絡爬蟲（又稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱爲網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。通俗講就是將你在網頁上看到的信息通過代碼程序自動獲取到本地的過程。

常用框架：

java:webmagic,http://webmagic.io/docs/zh/

python:scrapy,http://blog.csdn.net/sunnyxiaohu/article/details/50787430

python

網絡功能強大，模擬登陸、解析javascript，短處是網頁解析
python寫起程序來真的很便捷，著名的python爬蟲有scrapy等

python流行起來，從某程序員聚集的網站來看 python爬蟲教程滿天飛。著名的scrapy便是python開發的。
python開發爬蟲非常靈活，最適合一次性採集數據，寫幾行代碼就可以把初步結構化的數據庫入庫。urllib、requests、beautifulsoup等模塊可以輕鬆構建一個基本的採集程序。
使用python時會遇到中文亂碼問題，window開發 Linux 部署亂碼問題會讓你感覺更棘手，最好統一開發部署環境，有錢公司用macbookpro,沒錢裝個ubuntu。

python遇到複雜的js是表現和java差不多，你都會想自己實現一個瀏覽器，phantomjs 不夠穩定，中介再加上一層selenium 寫寫demo還可以

java

java有很多解析器，對網頁的解析支持很好，缺點是網絡部分
java開源爬蟲非常多，著名的如 nutch 國內有webmagic
java優秀的解析器有htmlparser、jsoup

對於一般性的需求無論java還是python都可以勝任。

如需要模擬登陸、對抗防採集選擇python更方便些，如果需要處理複雜的網頁，解析網頁內容生成結構化數據或者對網頁內容精細的解析則可以選擇java。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲對比Java和Python

網絡爬蟲

python

java

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

爬蟲兩種繞過5s盾的方法

【轉】[C#] WebAPI 防止併發調用二（冥等性）

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

Java 獲取當前服務器公網IP

Idea Springboot修改內置Tomcat版本

jsoup之HTML解析器

Springboot項目配置阿里雲SSL證書

Java自帶工具包StringUtils詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

爬蟲 對比Java和Python

網絡爬蟲

python

java

爬蟲對比Java和Python