21、下载整个网站。

人记性太差,很容易忘事。
总结似乎很有必要,但是总结太累,无从入手,总结什么呢。。。
总结之后貌似也没啥成果,做起事来还是蒙头瞎转,两手抓黑。

缘由:
Teleport Ultra马老师的“电子教案”,ppt的有,html教案下不下来。
html对应的链接是:
http://202.112.94.39/commit/courses/C11WEB/jiaoan/ja/sd1j.asp

谷歌:动态网页 抓取
找到:动态网页内容如何用python抓取 http://www.oschina.net/question/592497_61809

回答说用IEC:IEC.py - Automating Internet Explorer with Python http://www.mayukhbose.com/python/IEC/index.php

IEC 大概是那个哥们自己写的函数封装,需要pythonWin。大概是用python调用windows的某些函数来(叫API??)控制IE浏览器。
可以把IE打开的页面的html或者页面的txt保存下来。但是保存下来的没图片,没格式,影响阅读。

既然是调用windows里的函数之类,谷歌:vbs 保存网页
找到:【原创】调用IE的“另存为”来保存网页的VBS脚本 http://bbs.et8.net/bbs/showthread.php?t=861717

绕来绕去,代码傻傻看不清楚。。。搞清楚你要干什么。。。
核心代码就一句:oIE.ExecWB 4,1,让浏览器弹出另存为的对话框。

WebBrowser.ExecWB参数列表及简要说明 http://hi.baidu.com/hellour/item/e74532e7eb5bf9aecf2d4f82

试试各种参数,不合逻辑啊,绕啊绕,无果。。。
浪费哥时间。。。。

迫不得已,放大招了。。。
谷歌:python  save the whole web page

英文果然靠谱多了,前几个链接的相关度很高。。打不开,下goagent。。。

https://answers.yahoo.com/question/index?qid=20100805004810AAWpIhF
推荐httrack。httrack和py能结合起来用。。
后来试了,httrack.exe 貌似是不能登录,设置里有个浏览器头什么的。
googlecode里httrack.py的貌似2007年之后就没更新过,只有实例代码。。。没深究。。。

http://askubuntu.com/questions/20463/how-can-i-download-an-entire-website
推荐wget,wget能镜像一个网站。wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
The Ultimate Wget Download Guide With 15 Awesome Examples http://www.thegeekstuff.com/2009/09/the-ultimate-wget-download-guide-with-15-awesome-examples/
不少人回答还有其他一些方法,,,

http://stackoverflow.com/questions/14516590/how-to-save-complete-webpage-not-just-basic-html-using-python
推荐selenium,selenium能发送按键信息给浏览器。

一个新py库pycurl,貌似功能强大,但是使用复杂。


http://stackoverflow.com/questions/13854274/is-it-possible-to-get-complete-source-code-of-a-website-including-css-by-just-pr/13855315#13855315
貌似比较有含金量,说自己把html里的img、css、js等下到本地来,就像浏览器一样。
他说代码他已经写了,但是不会上传。。。。。
说 PyCurl and HTTrack can do what you want. you can also use wget.
提到了BeautifulSoup , Scrapy,貌似比较牛逼的库。


phantomjs,新软件:“本质上是一个基于webkit内核的无界面浏览器,并可使用JavaScript或 CoffeeScript进行编程。由于没有界面,它的使用就有点像curl, lynx之类的命令行式文本浏览器”

到bathome上提问: http://www.bathome.net/viewthread.php?from=notice&tid=30173
 VBS把网页另存为mht文件 http://bbs.bathome.net/thread-29456-1-1.html
mht感觉加载太慢。


最后自己写了个,问题很多,勉强凑合用。。


总结:

  一个问题解决不了,注意下这个问题是不是一定要解决的,我到底要做什么。。。要有跳出当前小问题,全局看问题的意识。。。

  学英语的重要性。看英文网站,读英文帮助。。。。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章