博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HtmlUnit抓取js渲染页面
阅读量:4112 次
发布时间:2019-05-25

本文共 811 字,大约阅读时间需要 2 分钟。

需求:

需要采集js渲染的页面,有些网站的页面是js渲染的

实现:

基于HtmlUnit实现:

public static void getAjaxPage() throws Exception{	WebClient webClient = new WebClient();	webClient.setJavaScriptEnabled(true);	webClient.setCssEnabled(false);	webClient.setAjaxController(new NicelyResynchronizingAjaxController());	webClient.setTimeout(Integer.MAX_VALUE);	webClient.setThrowExceptionOnScriptError(false);	HtmlPage rootPage = webClient.getPage("http://tt.mop.com/read_14304066_1_0.html");	System.out.println(rootPage.asXml());}

maven依赖:

net.sourceforge.htmlunit
htmlunit-core-js
2.9
compile
net.sourceforge.htmlunit
htmlunit
2.9
compile

说明: 

Nutch插件:nutch-htmlunit用于替换Nutch自身的Http Fetch组件

 

转载地址:http://miqsi.baihongyu.com/

你可能感兴趣的文章
That Nice Euler Circuit UVALive - 3263
查看>>
7-9 拯救007
查看>>
7-3 古风排版
查看>>
7-14 最小生成树的唯一性
查看>>
7-11 肿瘤诊断
查看>>
7-8 整除光棍
查看>>
7-16 喊山
查看>>
7-13 地下迷宫探索
查看>>
Tree UVA - 548
查看>>
L2-006. 树的遍历
查看>>
L2-011. 玩转二叉树
查看>>
A - Buy or Build UVA - 1151
查看>>
B - Long Live the Queen SGU - 143
查看>>
Prince and Princess UVA - 10635
查看>>
ChiBi ZOJ - 3080
查看>>
L2-002. 链表去重
查看>>
L2-012. 关于堆的判断
查看>>
L2-004. 这是二叉搜索树吗
查看>>
A - Sherlock Bones Gym - 101350A
查看>>
Monkeying Around Gym - 101350F
查看>>