搜索引擎蜘蛛,有时被称为爬虫,被互联网搜索引擎用来收集关于网站和单个网页的信息。搜索引擎需要来自所有网站和页面的信息;否则它们就不知道在响应搜索查询时应显示哪些页面,也不知道它们的优先级。
搜索引擎蜘蛛爬行互联网,创建待进一步调查的网站队列。当一个特定的网站被蜘蛛覆盖时,蜘蛛会阅读所有文本、超链接、元标签(元标签是专门格式化的关键词,以一种便于蜘蛛查找和使用的方式插入到网页中)和代码。利用这些信息,蜘蛛会向搜索引擎提供一个配置文件。然后,蜘蛛通过跟踪网页上的超链接收集额外信息,这使其能更好地收集有关这些页面的数据。这就是为什么在您的网页上设置链接——甚至更好的是,有其他网页链接到您的网页——对于让搜索引擎找到您的网站如此有用的原因。
广告
蜘蛛有四种基本的信息收集模式。一种蜘蛛仅用于创建供其他蜘蛛搜索的网页队列。这种以“选择”模式工作的蜘蛛,会优先处理哪些页面,并检查某个页面的早期版本是否已被下载。第二种模式是专门设计用来处理已被其他蜘蛛爬取过的页面的蜘蛛。这种模式被称为“重新访问”。有些搜索引擎担心某个页面被其他蜘蛛爬取得过于彻底,因此它们会使用一种称为“礼貌”的蜘蛛模式,限制对过度工作的页面的爬取。最后,“并行化”允许蜘蛛与其他正在爬取同一页面的搜索引擎蜘蛛协调其数据收集工作。