频 道 直 达 - 新闻 - 读书 - 培训 - 教程 - 前沿 - 组网 - 系统应用 - 安全 - 编程 - 存储 - 操作系统 - 数据库 - 服务器 - 专题 - 产品 - 案例库 - 技术圈 - 博客 - BBS
51CTO.COM_中国领先的IT技术网站
找资料:

如何构造一个C#语言的爬虫程序(1)

作者: 老痞子 出处:Csdn  (  ) 砖  (  ) 好  评论 ( ) 条  进入论坛
更新时间:2007-10-16 12:58
关 键 词:C#  爬虫  程序
阅读提示:本文讲解C#因为内置了HTTP访问和多线程,所以适合于构造蜘蛛程序中要解决的关键问题,供大家参考!

C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题:

(1)HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。
(2)页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘或者进一步分析处理。
(3)多线程:只有拥有多线程能力,蜘蛛程序才能真正做到高效。
(4)确定何时完成:不要小看这个问题,确定任务是否已经完成并不简单,尤其是在多线程环境下。

一、HTML解析

本文提供的HTML解析器由ParseHTML类实现,使用非常方便:首先创建该类的一个实例,然后将它的Source属性设置为要解析的HTML文档:

  ParseHTML parse = new ParseHTML(); 
parse.Source = "

Hello World

";

接下来就可以利用循环来检查HTML文档包含的所有文本和标记。通常,检查过程可以从一个测试Eof方法的while循环开始:

  while(!parse.Eof()) 
{
char ch = parse.Parse();
  
Parse方法将返回HTML文档包含的字符--它返回的内容只包含那些非HTML标记的字符,如果遇到了HTML标记,Parse方法将返回0值,表示现在遇到了一个HTML标记。遇到一个标记之后,我们可以用GetTag()方法来处理它。

  if(ch==0) 
{
HTMLTag tag = parse.GetTag();
}
 
一般地,蜘蛛程序最重要的任务之一就是找出各个HREF属性,这可以借助C#的索引功能完成。例如,下面的代码将提取出HREF属性的值(如果存在的话)。

  Attribute href = tag["HREF"]; 
string link = href.Value;
  
获得Attribute对象之后,通过Attribute.Value可以得到该属性的值。

二、处理HTML页面

下面来看看如何处理HTML页面。首先要做的当然是下载HTML页面,这可以通过C#提供的HttpWebRequest类实现:

  HttpWebRequest request = (HttpWebRequest)WebRequest.Create(m_uri); 
response = request.GetResponse();
stream = response.GetResponseStream();   
 
接下来我们就从request创建一个stream流。在执行其他处理之前,我们要先确定该文件是二进制文件还是文本文件,不同的文件类型处理方式也不同。下面的代码确定该文件是否为二进制文件。

  if( !response.ContentType.ToLower().StartsWith("text/") ) 
{
SaveBinaryFile(response);
return null;
}
string buffer = "",line;
  
如果该文件不是文本文件,我们将它作为二进制文件读入。如果是文本文件,首先从stream创建一个StreamReader,然后将文本文件的内容一行一行加入缓冲区。

  reader = new StreamReader(stream); 
while( (line = reader.ReadLine())!=null )
{
buffer+=line+"\r\n";
  
装入整个文件之后,接着就要把它保存为文本文件。

  SaveTextFile(buffer); 
 
下面来看看这两类不同文件的存储方式。

二进制文件的内容类型声明不以“text/”开头,蜘蛛程序直接把二进制文件保存到磁盘,不必进行额外的处理,这是因为二进制文件不包含HTML,因此也不会再有需要蜘蛛程序处理的HTML链接。下面是写入二进制文件的步骤。


共2页: 1 [2] 下一页
【内容导航】
 第 1 页:HTML解析  第 2 页:多线程
发表
查看
我也说两句

匿名发表

(如果看不清请点击图片进行更换)


中 国 领 先 的 IT 技 术 网 站 ·
技 术 成 就 梦 想
·Java基础教程 (查看53457次)
·UML类图详解 (查看47757次)
·Java编程开发手册 (查看25692次)
·UML统一建模语言 (查看25191次)
·C#技术开发指南 (查看23545次)
·Java编程开发手册 (1195个砖)
·Java基础教程 (429个砖)
·C#技术开发指南 (306个砖)
·PB开发教程 (221个砖)
·.NET开发手册 (218个砖)
·Java编程开发手册 (653个好)
·Java基础教程 (570个好)
·.NET开发手册 (253个好)
·PB开发教程 (210个好)
·Delphi开发技术手册 (174个好)
订阅技术快讯
电子杂志下载
名称:网络安全精品应用黄皮书
简介:《2007精品网络安全黄皮书》包括了9个大类24个小类, 800余篇文章,内容包含了熊猫烧香病毒、DDOS攻击、ARP病等热点问题的介绍及解决方案。从病毒查杀、防范、系统、数据等各方面的安全设置到黑客技术的了解、防范,涉及到了安全应用的全部领域, 由浅至深内容全面。
名称:Vista精品应用黄皮书
简介:《Vista精品应用黄皮书》囊括了Vista的各方面内容。此次的精简版,是将里面的内容做了提取,便于用户下载和使用。内容包含了各种Vista的安装与实施、技巧与解析以及各种Vista相关学习文档和相关软件的安全下载。该电子书是了解和应用Vista人员必备的工具手册,并且也是第一本
名称:2006中国IT论坛精品集合
简介:本书由“51CTO论坛推广联盟”制作完成。书中所有内容均来自各联盟成员的论坛(网站)。制作本书的目的是为了集中大家的优势资源,将更多更精彩的内容带给广大技术爱好者。本书是联盟成立以来制作的第一本书。
关键字阅读
频道精选
主编信箱 热线:010-66476606 告诉我们您想看的:专题 文章
关于我们 | 诚聘英才 | 联系我们 | 网站大事 | 意见反馈 | 网站地图
Copyright©2005-2007 51CTO.COM 版权所有