频 道 直 达 - 新闻 - 读书 - 培训 - 教程 - 前沿 - 组网 - 系统应用 - 安全 - 编程 - 存储 - 操作系统 - 数据库 - 服务器 - 专题 - 产品 - 案例库 - 技术圈 - 博客 - BBS
51CTO.COM_中国领先的IT技术网站
找资料:

无畏的Java浏览器HmlUnit2.1发布

作者: kyo100900 出处:中文JAVA技术网 2008-04-22 14:36    砖    好    评论   进入论坛
阅读提示:一款新的纯Java浏览器发布了,它可以采用更高级的方式来处理web页面.比如说:填写表单,点击超链接,访问页面某个指定元素(element)的属性或值时,不再需要你去用创建基于低级别的TCP/IP或HTTP的request来处理它们.只要调用getPage(url)方法就可以让所的HTML,JavaScript以及AJAX自动进行处理.

一款新的纯Java浏览器发布了,它可以采用更高级的方式来处理web页面.比如说:填写表单,点击超链接,访问页面某个指定元素(element)的属性或值时,不再需要你去用创建基于低级别的TCP/IP或HTTP的request来处理它们.只要调用getPage(url)方法就可以让所的HTML,JavaScript以及AJAX自动进行处理. HtmlUnit最大的亮点就是自动测试web页面,甚至还可以和一些复杂的JavaScript库协同工作.(比如说Google的WebToolkit1.4.60就已经通过测试验证了).某些场合下,还可以用来进行web scraping(注1)或下载网站的内容. HtmlUnit的2.0版本增加了很多新的特性:

·W3C的DOM实现l 
·Java5支持l     
·更好的支持XPathl      
· 增强对不合法的HTML处理能力(特别是抓数据的时候,个人觉得这个比较重要)l      
· 增强对JavaScript的支持

而最新的HtmlUnit2.1版本则主要是改善用户反应的一些性能问题.你可以通过HtmlUnit的官方网站了解更情况,他们期待你的反馈. 下面我们稍微来几个入门例子:

1、最普通的用法:

Java代码public void testHomePage() throws Exception {       final WebClient webClient = new

WebClient();       final HtmlPage page = (HtmlPage) webClient.getPage("http://htmlunit.sourceforge.

net");   assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());     }  public void

testHomePage() throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page = (HtmlPage) webClient.getPage("http://htmlunit.sourceforge.net");
assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());

}

2、 模拟FireFox2:

Java代码public void testHomePage() throws Exception {       final WebClient webClient =

new WebClient(BrowserVersion.FIREFOX_2);       final HtmlPage page = (HtmlPage) webClient

.getPage("http://htmlunit.sourceforge.net");       assertEquals("HtmlUnit - Welcome to HtmlUnit"

, page.getTitleText());     }  public void testHomePage() throws Exception {
final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_2);
final HtmlPage page = (HtmlPage) webClient.getPage("http://htmlunit.sourceforge.net");
assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());

 3、使用代理:

Java代码public void testHomePage() throws Exception {       final WebClient webClient = new

WebClient(BrowserVersion.FIREFOX_2, "http://myproxyserver", 8000);       final HtmlPage page

= (HtmlPage) webClient.getPage("http://htmlunit.sourceforge.net");       assertEquals("HtmlUnit

- Welcome to HtmlUnit", page.getTitleText());   }  public void testHomePage() throws Exception

{
final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_2, "http://myproxyserver"

, 8000);
final HtmlPage page = (HtmlPage) webClient.getPage("http://htmlunit.sourceforge.net");
assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());
}

4、 一个表单提交示例:

Java代码public void testHomePage() throws Exception {       final WebClient webClient =

new WebClient();         // Get the first page      final HtmlPage page1 = (HtmlPage)

webClient.getPage("http://some_url");         // Get the form that we are dealing with and

within that form,       // find the submit button and the field that we want to change.     

final HtmlForm form = page1.getFormByName("myform");         final HtmlSubmitInput button =

(HtmlSubmitInput) form.getInputByName("submitbutton");       final HtmlTextInput textField =

(HtmlTextInput) form.getInputByName("userid");         // Change the value of the text field 

textField.setValueAttribute("root");         // Now submit the form by clicking the button

and get back the second page.      final HtmlPage page2 = (HtmlPage) button.click();   }  public

void testHomePage() throws Exception {
final WebClient webClient = new WebClient();

// Get the first page
final HtmlPage page1 = (HtmlPage) webClient.getPage("http://some_url");

// Get the form that we are dealing with and within that form,
// find the submit button and the field that we want to change.
final HtmlForm form = page1.getFormByName("myform");

final HtmlSubmitInput button = (HtmlSubmitInput) form.getInputByName("submitbutton");
final HtmlTextInput textField = (HtmlTextInput) form.getInputByName("userid");

// Change the value of the text field
textField.setValueAttribute("root");

// Now submit the form by clicking the button and get back the second page.
final HtmlPage page2 = (HtmlPage) button.click();
}

上述代码非常简洁明了,如果你需要这样一个工具,那么让大胆尝试吧.   

【注1】Web scraper是一种与spider类似的技术,不过它具有更多合法性问题。scraper是一种spider,其目标是为了从Web上获取特定的内容,例如产品的成本或服务。scraper的一种用途是为了获得有竞争力的价格,从而确定给定产品的价格,以便能够制定出自己产品的合理价格或相应地进行宣传。scraper还可以从很多Web站点上搜集大量数据并将这些信息提供给用户。BTW:我曾经用java的URL类做过此类事情,但现在有了HtmlUnit会更得以应手.

【责任编辑:碧海蓝天 TEL:(010)68476606】

专题
Java实用开发全集
Java类的基础教程专题
Java发展动态专题
Java编程开发手册
Java基础教程
我也说两句

匿名发表

(如果看不清请点击图片进行更换)


中 国 领 先 的 IT 技 术 网 站 ·
技 术 成 就 梦 想
·中间件应用技术专题 (查看23922次)
·IIS 专题频道 (查看22434次)
·140个电脑小知识、小技巧 (查看21915次)
·FTP协议应用专题 (查看20765次)
·Apache技术专题 (查看16859次)
订阅技术快讯
电子杂志下载
名称:SQL Server数据库管理精品黄皮书
简介:书中文章经过精挑细选,便于用户能根据自己的实际工作和学习,快速在本书寻找到相关资料。内容涵盖了SQL Server的安装与升级、语句查询、数据备份和恢复、自动化任务、数据同步、数据字典、安全和预防、性能和优化、集群等各方面应用信息,以及DBA管理人员在数据库管理工作中
名称:2007路由技术大全
简介:《2007路由技术大全》由51CTO.com网站特别策划制作,该书包括路由器技术、路由器产品、路由器配置、安全设置、路由器故障处理、路由器密码恢复,以及广大网友在实践使用中的心得经验和技巧文章,内容注重实用性,适用于初学者入门,也适合多年从业者提高,是一本实践和理论完
名称:网络安全精品应用黄皮书
简介:《2007精品网络安全黄皮书》包括了9个大类24个小类, 800余篇文章,内容包含了熊猫烧香病毒、DDOS攻击、ARP病等热点问题的介绍及解决方案。从病毒查杀、防范、系统、数据等各方面的安全设置到黑客技术的了解、防范,涉及到了安全应用的全部领域, 由浅至深内容全面。
交换机故障解决指南
交换机故障解决指..
OSPF路由协议专栏
OSPF路由协议专栏
勇闯IT培训黑色围城
勇闯IT培训黑色围..
· 勇闯IT培训黑色围城
· 见证中国网络安全二十年
· 技术人求职简历完备手册
· 华为员工自杀频频拷问..
· 视频访谈:网管员如何踏..
· 首届中国IT工程师生态..
· 思科全球CEO钱伯斯第七..
· 北漂技术人90天求职纪实
· 2007年互联网大会
· 龙芯要做中国的“奔腾”
· IPv6协议--拓展网络无..
· 国际文档格式标准开战
· 微软出价446亿美元收购..
· 贝恩资本携手华为22亿..
· Linux——从菜鸟到高手
· SOA 面向服务架构
ARP攻击防范与解决方案
ARP攻击防范与解..
iSCSI应用与发展
iSCSI应用与发展
SQL Server 2008/2005全解
SQL Server 2008/..
· SQL Server 2008/2005..
· SOA 面向服务架构
· SQL Server 2008/2005..
· iSCSI应用与发展
· RAID——磁盘阵列基础
· 中间件应用技术专题
· SQL Server入门到精通
· 国际文档格式标准开战
· 路由器设置与口令恢复
· Linux防火墙
· 打造安全服务器
· SOA 面向服务架构
· PHP开发应用手册
· ADSL应用面面俱到
· 入侵防护系统(IPS)初探
· ADSL应用面面俱到
ARP攻击防范与解决方案
ARP攻击防范与解..
SQL Server 2008/2005全解
SQL Server 2008/..
iSCSI应用与发展
iSCSI应用与发展
· iSCSI应用与发展
· 中间件应用技术专题
· SQL Server入门到精通
· SQL Server 2008/2005..
· SOA 面向服务架构
· iSCSI应用与发展
· RAID——磁盘阵列基础
· 路由器设置与口令恢复
· SOA 面向服务架构
· 了解统一威胁管理(UTM)..
· ADSL应用面面俱到
· ADSL应用面面俱到
· PHP开发应用手册
· 中间件应用技术专题
· 交换机故障解决指南
· OSPF路由协议专栏