元标签
元标签允许页面所有者指定页面的关键词和概念,以便索引。这会很有帮助,尤其是在页面上的词语可能具有双重或三重含义的情况下——元标签可以指导搜索引擎选择这些词语的几个可能含义中的正确含义。然而,过度依赖元标签存在风险,因为粗心或不道德的页面所有者可能会添加与页面实际内容无关但符合非常热门主题的元标签。为了防止这种情况,网络爬虫会将元标签与页面内容相关联,拒绝与页面内容不匹配的元标签。
所有这一切都基于一个假设:页面所有者确实希望其页面被包含在搜索引擎的搜索结果中。很多时候,页面所有者不希望它出现在主流搜索引擎上,或者不希望网络爬虫访问该页面。例如,考虑一个游戏,每次显示页面部分或点击新链接时都会构建新的活跃页面。如果网络爬虫访问其中一个页面,并开始跟踪所有新页面的链接,游戏可能会将此活动误认为是高速人类玩家,从而失控。为了避免此类情况,**机器人排除协议**应运而生。该协议在网页开头的元标签部分实现,它告诉网络爬虫不要理会该页面——既不要索引页面上的词语,也不要尝试跟踪其链接。
广告