基於超星網頁閱讀的在線閱讀的書籍下載軟件,java實現。

最近在做一個超星圖書下載,由於早些年有位前輩破解超星之後,超星的保密工作變的更強了,當然我也看了那個前輩的文章不過不知道他是怎麼突破超星限制的,也不知道他是怎麼下載的。我之所以想做這個是老師需要的。本來打算通過程序下載學校的超星圖書館的圖書的,研究了一個星期發現沒法下手。後來轉向超星網上書店,由於超星網上也有很多圖書並且可以在線閱讀,仔細分析了一兩個星期的網頁源代碼終於找到一種可以下載的方法,雖然現在軟件還沒有完全實現。下面說下具體實現。

超星圖書網址:http://book.chaoxing.com .上面的圖書是可以在線試讀的即網頁閱讀,VIP圖書只能免費讀前17頁,有些還不能在線閱讀,當然不要這些不能在線閱讀的方式圖書。凡是能在線閱讀的圖書就能把內容抓取下來。

先介紹下實現原理:

網頁分析工具:JSOUP 1.7,具體介紹百度很多。正則表達式,我正則很差,大部分都是百度的。

由於開始我做的是基於整個的超星網站的所有的圖書的抓取,需要所有的圖書連接,其實想要下載特定的一本圖書是比較簡單的。只要知道圖書的連接就能下載下來。

整個網頁圖書連接的抓取:這個過程是採用網絡爬蟲程序進行的,通過對超星網頁的解析獲得每個分類,再根據分類去抓取該分類裏所有的圖書連接,我估計了下整個超星網站大約有20W本圖書。可能是我的多線程程序有錯誤了,連續跑了兩天才抓了10W本書的連接就不行了,不過這也夠用了。

先寫這些吧,發現思路好亂,整理整理思路再寫

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章