搜索引擎识别重复网页的基本算法:
1、使用分词的方式
搜索引擎如果使用分词的方式提取关键词,通常先对已经抓取过的重复页面进行归类处理,一般会在索引之前与分词之后进行,有时也会在分词之前进行。每个网页都有特征指纹,当搜索引擎新抓取的网页关键词指纹与已经检索网页关键词指纹相重合时,该新网页估计就会被搜索引擎视为重复内容,从而放弃检索,这样对站长来说是很残酷的。
2、使用连续切割的方式
搜索引擎如果使用连续切割的方式提取关键词,还会对指纹进行计算。这种方式就是以单个字向后移动的方式进行切割,就是单个字向后移动的方式进行切词,从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。
虽然百度一般会根据重复网页的网站权重而适当放宽检索标准,但是站长在发布网站内容时,一定要根据用户需求的角度去建设,坚持原创内容,也要对站内的页面进行全面检查,杜绝重复的内容,定期去重,增加站内用户体验度,从而也有利于提升网站权重。
以上介绍的都是关于搜索引擎识别重复网页的基本算法,当然还有很多其他的算法。