21、下載整個網站。

人記性太差,很容易忘事。
總結似乎很有必要,但是總結太累,無從入手,總結什麼呢。。。
總結之後貌似也沒啥成果,做起事來還是矇頭瞎轉,兩手抓黑。

緣由:
Teleport Ultra馬老師的“電子教案”,ppt的有,html教案下不下來。
html對應的鏈接是:
http://202.112.94.39/commit/courses/C11WEB/jiaoan/ja/sd1j.asp

谷歌:動態網頁 抓取
找到:動態網頁內容如何用python抓取 http://www.oschina.net/question/592497_61809

回答說用IEC:IEC.py - Automating Internet Explorer with Python http://www.mayukhbose.com/python/IEC/index.php

IEC 大概是那個哥們自己寫的函數封裝,需要pythonWin。大概是用python調用windows的某些函數來(叫API??)控制IE瀏覽器。
可以把IE打開的頁面的html或者頁面的txt保存下來。但是保存下來的沒圖片,沒格式,影響閱讀。

既然是調用windows裏的函數之類,谷歌:vbs 保存網頁
找到:【原創】調用IE的“另存爲”來保存網頁的VBS腳本 http://bbs.et8.net/bbs/showthread.php?t=861717

繞來繞去,代碼傻傻看不清楚。。。搞清楚你要幹什麼。。。
核心代碼就一句:oIE.ExecWB 4,1,讓瀏覽器彈出另存爲的對話框。

WebBrowser.ExecWB參數列表及簡要說明 http://hi.baidu.com/hellour/item/e74532e7eb5bf9aecf2d4f82

試試各種參數,不合邏輯啊,繞啊繞,無果。。。
浪費哥時間。。。。

迫不得已,放大招了。。。
谷歌:python  save the whole web page

英文果然靠譜多了,前幾個鏈接的相關度很高。。打不開,下goagent。。。

https://answers.yahoo.com/question/index?qid=20100805004810AAWpIhF
推薦httrack。httrack和py能結合起來用。。
後來試了,httrack.exe 貌似是不能登錄,設置裏有個瀏覽器頭什麼的。
googlecode裏httrack.py的貌似2007年之後就沒更新過,只有實例代碼。。。沒深究。。。

http://askubuntu.com/questions/20463/how-can-i-download-an-entire-website
推薦wget,wget能鏡像一個網站。wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
The Ultimate Wget Download Guide With 15 Awesome Examples http://www.thegeekstuff.com/2009/09/the-ultimate-wget-download-guide-with-15-awesome-examples/
不少人回答還有其他一些方法,,,

http://stackoverflow.com/questions/14516590/how-to-save-complete-webpage-not-just-basic-html-using-python
推薦selenium,selenium能發送按鍵信息給瀏覽器。

一個新py庫pycurl,貌似功能強大,但是使用複雜。


http://stackoverflow.com/questions/13854274/is-it-possible-to-get-complete-source-code-of-a-website-including-css-by-just-pr/13855315#13855315
貌似比較有含金量,說自己把html裏的img、css、js等下到本地來,就像瀏覽器一樣。
他說代碼他已經寫了,但是不會上傳。。。。。
說 PyCurl and HTTrack can do what you want. you can also use wget.
提到了BeautifulSoup , Scrapy,貌似比較牛逼的庫。


phantomjs,新軟件:“本質上是一個基於webkit內核的無界面瀏覽器,並可使用JavaScript或 CoffeeScript進行編程。由於沒有界面,它的使用就有點像curl, lynx之類的命令行式文本瀏覽器”

到bathome上提問: http://www.bathome.net/viewthread.php?from=notice&tid=30173
 VBS把網頁另存爲mht文件 http://bbs.bathome.net/thread-29456-1-1.html
mht感覺加載太慢。


最後自己寫了個,問題很多,勉強湊合用。。


總結:

  一個問題解決不了,注意下這個問題是不是一定要解決的,我到底要做什麼。。。要有跳出當前小問題,全局看問題的意識。。。

  學英語的重要性。看英文網站,讀英文幫助。。。。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章