版權聲明:可以任意轉載,轉載時請標明文章原始出處-xjtushilei和作者信息:石磊
背景
和北京xx教育合作的知識圖譜項目,因爲xx升級了docker鏡像的管理,撤掉了之前的docker,導致服務全部癱瘓。雖然立馬就鎖定了問題,還是記錄一下吧,省的所有在centos下進行爬蟲的人debug時候找不到原因。
phantomjs
一個基於webkit內核的無頭瀏覽器,即沒有UI界面,即它就是一個瀏覽器,只是其內的點擊、翻頁等人爲相關操作需要程序設計實現。
提供javascript API接口,即通過編寫js程序可以直接與webkit內核交互,在此之上可以結合java語言等,通過java調用js等相關操作,從而解決了以前c/c++才能比較好的基於webkit開發優質採集器的限制。
提供windows、linux、mac等不同os的安裝使用包,也就是說可以在不同平臺上二次開發採集項目或是自動項目測試等工作。
它將非常方便的應用於模擬登陸,如微博、電商類,或是小米、火車票搶票等項目中,下一步計劃將其與上述項目結合,開發更有意思的項目。
官網
下載與安裝
我附個圖片算啦,支持各大平臺和各種語言。
坑
一般情況下,大家都是隻下載了驅動器,沒有注意到有些linux環境是沒有一些依賴的。比如我的ubuntu是有這些依賴的,但是docker的centos7裏是沒有的,這就是一個坑。
所以,解決辦法就是:
RUN yum install -y fontconfig