广州网站优化，翻页式网页搜索引擎是如何抓取的/广州捷胜网络有限公司

捷胜是谁

以捷胜树立诚信人格，用思维创造崭新明天。
捷胜理念

捷胜为您创作出一流的品牌互联网形象！

德百利

德百利 - 精致装饰,美妙生活
白手起家网

创业改版命运

捷胜商城解决方案

今天的中国互联网是全新的超级大市场，谁先找准切入点，谁就掌握先机。
捷胜移动电商

捷胜电商提供全段位移动电商产品，可根据企业自身情况作出最佳选择。

定制化建设方案

定制属于您的专项解决方案，让您脱颖而出
移动端网站建设方案

定制化强化企业品牌，随时随地抓住用户眼球

捷胜网

捷胜网新版上线，飞越梦想，大展宏图
捷胜理念

我们的理念是：创新，创新，创新，创新，创新

捷胜网

捷胜网新版上线，飞越梦想，大展宏图
捷胜理念

我们的理念是：创新，创新，创新，创新，创新

广州网站优化，翻页式网页搜索引擎是如何抓取的

发布时间：2015-12-8 点击：2995 发布者：捷胜网络

广州网站优化，Spider系统的目标就是发现并抓取互联网中一切有价值的网页，百度官方也明确表示蜘蛛只可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力，也就是说蜘蛛不会抓取所有网站的所有页面，对此蜘蛛有很多的抓取策略来尽量快而全的发现资源链接，提高抓取效率。只有这样蜘蛛才能尽量满足绝大部分网站，这也是为什么我们要做好网站的链接结构，接下来木木SEO就只针对一种蜘蛛对翻页式网页的抓住机制来发表一点看法。(本文暂不考率其它抓取机制，单从一个点分析)
　　为什么需要这个抓取机制?
　　当前大多数网站都用翻页的形式来有序分布网站资源，当有新文章增加时，老资源往后推移到翻页系列中。对蜘蛛来说，这种特定类型的索引页是爬行的有效渠道，但是蜘蛛爬行频率和网站文章更新频率不尽相同，文章链接很有可能就被推到翻页条中，这样蜘蛛不可能每天从第1个翻页条爬到第80个，然后一个文章一个文章的抓取，到数据库对比，这样太浪费蜘蛛时间，也浪费你网站的收录时间，所以蜘蛛需要对这种特殊类型的翻页式网页来一个额外的抓取机制，从而保证收录资源的完全。
　　如何判断是否是有序翻页式页面?
　　判断文章是否按发布时间有序排布是这类页面的一个必要条件，下面会说到。那么如何判断资源是否按发布时间有序排布呢?有些页面中每个文章链接后面跟随着对应的发布时间，通过文章链接对应的时间集合，判断时间集合是否按大到小或小到大排序，如果是的话，则说明网页中的资源是按发布时间有序排布，反之亦然。就算没写发布时间，蜘蛛写可以根据文章本身的实际发布时间进行判断。
　　该抓取机制原理?
　　针对这种翻页式页面，蜘蛛主要是通过记录每次抓取网页发现的文章链接，然后将此次发现的文章链接与历史上发现的链接作比较，如果有交集，说明该次抓取发现了所有的新增文章，可以停止对后面翻页条的抓取了;否则，说明该次抓取并未发现所有的新增文章，需要继续抓取下一页甚至下几页来发现所有的新增文章。
　　听起来可能有点不大懂，木木seo来举个很简单的例子，比如在网站翻页目录新添加了29篇文章，也就是说上次最新一篇是第30篇，而蜘蛛是一次性抓取10篇文章链接，这样蜘蛛第一次进行抓取时抓了10篇，与上次并没有交集，继续抓取，第二次又抓10篇，也就是一共抓20篇了，还是与上一次没有交集，然后继续抓取，这一次就抓到了第30篇，也就是和上次的有交集了，这就说明蜘蛛已经抓取了从上次抓取到这次网站更新的全部29篇文章。
　　建议
　　当前百度蜘蛛对网页的类型，网页中翻页条的位置，翻页条对应的链接，以及列表是否按照时间排序都会做相应的判断，并根据实际的情况进行处理，但是蜘蛛毕竟不能做到100%的识别准确率，所以如果站长在做翻页条时不要用JS，更不要用FALSH，同时要有频率的进行文章更新，配合蜘蛛的抓取，这样就可以极大地提高蜘蛛识别的准确率，从而提高蜘蛛在你网站的抓取效率。
　　再次提醒大家本文只是从蜘蛛一个抓取机制进行的解说，不代表蜘蛛就此一种抓取机制，在实际情况中是很多机制同时进行的。

了解更多：http://www.angwowl.com/