网络编程:网络蜘蛛的秘密-ASP-编程文档-人才家园--中国人才库
您所在的位置:中国人才库--人才家园--编程文档--ASP
网络编程:网络蜘蛛的秘密
来源: 编辑:duliying 更新日期:2008-6-10 11:33:04 浏览:331 次
大众网络报 张黎
  编者按:经常去雅虎、搜狐等网站搜索信息的读者一定有这样的疑问:如此庞大的网页信息,到底是如何被这 些网站所收集到的呢?难道都是人工登记并整理的吗?当然不是。这些搜索引擎能够快速地找到如此之多的信 息,和网络蜘蛛的应用是分不开的。   网络蜘蛛可以算得上是为Internet而开发的最有用处的工具之一。时至今日,要想从以千万计的各不相同 的站点中获取信息,舍网络蜘蛛之外,焉有他哉?

  一个典型的网络蜘蛛(例如雅虎)工作的方式,是查看一个页面,并从中找到相关信息, 然后它再 从该页面的所有链接中出发,继续寻找相关的信息。以此类推,直至穷尽。很快地,就可以在数据库中获得成 千上万的页面和信息。这样的工作方式就如同一张向外发散的蜘蛛网,这正是“网络蜘蛛”这个名称的由来。

  接下来让我们看看如何建立一个网络蜘蛛。在此之前,我们先要了解几个概念。

一、基本原理

  我们可以用网络蜘蛛搜寻很多东西。事实上,现在有一些特别用途的商用网络蜘蛛,这些软件为它们的开 发者赚取了大把的钞票,比如Altavista科技的一份许可证,就价值30万美元。以下是一个网络蜘蛛的基础原 理:

  * 从各个消息来源收集信息

  从技术角度讲,一个网络蜘蛛应该可以不受限制地从任意来源获取信息。来源多多益善。

  * 准确度

  不管是谁,遇见这样的事情肯定都会崩溃——搜索引擎向你返回了一百万个结果,可是,只有最后两个是 你需要的(这还算好的,如果是中间的两个呢?)。所以好的网络蜘蛛对其返回的结果应该有足够的准确度, 而且在有些情况下,还要有特定的功能,也就是说,只返回特定类型的信息——比如www.enfused.com的专为 搜索游戏设计的网络蜘蛛,就只返回与游戏相关的东西。

  * 相对更新

  这依赖于你所使用的技术(下面我们会专门提到),网络蜘蛛应该找回更新后的信息,或者至少是比较新 的信息。如果网络蜘蛛总是找回一些几年前的陈芝麻烂谷子,那你一定会比系统先一步崩溃。

  * 相对快速

  这就不用多说了,如果没有足够的速度,那你的网络蜘蛛再怎么准确,也是白搭。
二、基本技术

  有好几种方法可以构建网络蜘蛛。第一种,称之为常规网络蜘蛛,只是简单地进行页面寻找,搜索并获得 你想要的东西。例如,用一个短语作为关键词进行搜索。第二种,特殊网络蜘蛛,只寻找页面的特定部分。这 种网络蜘蛛在某些特定场合很有用(比如,你只想获得某一个站点内的新闻标题)。

  常规网络蜘蛛是两者中相对简单的一种。首先,你不需要预先知道目标页面的情况。只需要
 第1页/总5页  第一页 上一页 下一页 最后一页     【发表评论】
昵   称:  (不填写则显示为匿名)
标   题:
内   容:
 
免责声明:网友对此资源信息的评论仅代表个人观点,中国人才库有权删除违乱评论信息!
石家庄广通印刷学校