java Selenuim 的无头模式的HtmlUnitDriver的maven的jar包依赖和使用

原創

2020-06-19 04:38

<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.36.0</version>
</dependency>

webclient.getOptions().setUseInsecureSSL(true);
// 禁用css ，一般来说 css没啥用
webclient.getOptions().setCssEnabled(false);
webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
// 设置支持 js
webclient.getOptions().setJavaScriptEnabled(true);
// 不抛出异常
webclient.getOptions().setThrowExceptionOnScriptError(false);
webclient.getOptions().setDoNotTrackEnabled(true);
// 最好设置一下超时
webclient.getOptions().setTimeout(5*1000);
// 支持ajax
webclient.setAjaxController(new NicelyResynchronizingAjaxController());

如果简单的看，这样也就解决了，但是我们试着回想一下，当我们自己打开网页的时候是不是都得等半天(有一段时间，肯定不是半天)，于是问题来了，如果我们直接写代码。

HtmlPage page = webclient.getPage(url);

可以确定，如果是比较小的js操作，在你余下操作完成之前，js可能能够执行完成，如果是那种比较繁琐的js操作或者是ajax还需要去请求其他服务器的操作，多半在于你余下操作（例如解析html等）之前，js是无法执行完的，那么我们得到的就是不完成的网页。所以设置一个超时时间是很有必要的，也就是这样:

HtmlPage page = webclient.getPage(url);
// TODO: 2019/11/26 10秒钟是为了让js能够充分执行（特别是ajax）
webclient.waitForBackgroundJavaScript(10*1000);
webclient.setJavaScriptTimeout(5*1000);

将上诉代码放到项目中进行测试，我们可以发现可以得到结果了（这里只能说得到了结果，谁也不清楚正确的网页到底爬下来是怎么样的，这是为做一个通用的爬虫准备的，没人能够预测这些不同网站的网页里面的Js究竟会执行多久）。

于是，又出现了几个问题：
1、如何确定某类网站的js平均响应时间，一般来说，同种类型的网站（由于跟响应需求有关，有些网站没必要性能很好这个可以理解）可以算个js平均响应时间。这个时间用来设置 webclient.waitForBackgroundJavaScript webclient.waitForBackgroundJavaScriptwebclient.waitForBackgroundJavaScript 。
2、是否可以优化js 执行时间
3、如果每个页面都等待那么长时间（而且这种等待是必然每个页面都会等待），那么如果量比较大，比如爬取一千个不同的网站，该如何优化，使得整体的性能不至于非常差。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

java Selenuim 的无头模式的HtmlUnitDriver的maven的jar包依赖和使用

Springboot啓動https和http2

17、Kubernetes 調度器 - 調度說明

安裝和使用docker

2、SpringcloudAlibaba Nacos的基本的介紹

15、Kubernetes 存儲 Volumn

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結