最新消息:阳江小偉SEO提供百度搜索引擎关键词快速排名优化教程,新站整站排名优化的学习平台。

从爬取到索引分析为什么网页抓取但不收录

百度排名优化 小偉SEO 浏览 评论编辑:小偉SEO
  从爬虫抓取到索引期间到底经过了哪些步骤,为什么网页抓取但不收录?今天小偉SEO数据化说说为什么你的页面爬虫爬了1000次,就是不收录!
 
  从之前优化过的页面取一个案例某个详情页(/35950345.html),我描述下正常页面收录的路径:
 
  1、大站布局优势资源生成爬虫抓取,抓取IP段:220.181.108.146
 
  2、百度站长后台手动提交,爬虫蜘蛛基本5分钟以内会抓取提交链接,抓取IP段:123.125.71.40,高级UA的IP:111.206.221.89
 
  3、3个小时以后,又来抓取IP段:220.181.108.144,高级爬虫抓取IP段:————111.206.198.43————111.206.198.109
 
  4、熊掌号后台主动提交,第二次抓取时间在3个小时以后,抓取IP段:220.181.108.99
 
  5、高级爬虫抓取IP段:111.206.221.27————111.206.198.125
 
  6、最后完成收录,抓取IP段:220.181.108.99
 
  7、高级UA的IP:111.206.221.27————111.206.198.125(快照时间)
 
  备注:由于页面涉及加密JS,所以多了一个步骤:百度高级蜘蛛解密;同时也说明了三层目录的详情页,通过后台主动提交能快速完成页面收录(页面内容可能为采集内容)
 
  对于爬虫蜘蛛UA和IP段不理解,可以看看国内主流搜索引擎UA和对应的蜘蛛IP段
 
  说完正面的案例以后,说下为什么页面爬了1000次还是不收录,先来看下面这个优化案例:URLpathname:/news/t-35950346.html
 
  一篇二级目录文章详情页,内链非常丰富,百度蜘蛛共抓取816次(平均每天100次),IP段和抓取路径完全没有问题,但结果就是不收录。
 
  蜘蛛爬虫抓取到收录的日志分析
 
  问题分析1:将标题放到百度去搜索,搜索结果飘红全部是站内链接到该详情页的锚文本,但是在内容页找不到锚文本,于是打开百度快照,疑问就解开一部分了
 
从爬虫抓取到索引分析为什么页面不收录
 
  分析结果1:由于爬虫首次抓取到的内容与第二次抓取内容页面不一致(多见于网站详情页内链数量不够多),可以查查PC页面与M站页面收录综合比较(PC收录,M站不收)。
 
  解决办法1:优化内部链接,符合站内更新频率(有时候可能需要更改子目录,常用于大站)
 
  --------------华丽分界线--------------
 
  问题分析2:同样问题,如果不存在页面不一致的情况,分析高级爬虫UA,看看页面是否包含动态参数或者JS渲染隐藏数据,导致页面不一致,可以通过请求数据大小进行判断
 
从爬虫抓取到索引分析为什么页面不收录
 
  分析结果2:具体看看页面JS对页面主体内容有多大影响,动态URL参数优化同样重要,同样把PC端和M端数据分开对比效果更佳明显。
 
  解决方法2:优化页面JS或者针对爬虫做展示优化。
 
  大站页面不收录细节分析——还可能存在的问题:页面主体内容布局、以及内容可读性。
 
  如果你觉得难度有点太大,可以看看简单的逻辑分析:蜘蛛爬行还是不收录原因

    本站声明:

    稿件来源内容均属于转载;如转载稿涉及版权问题,请作者联系小偉SEO,小偉SEO将第一时间删除;

    转载请注明出处:http://www.seomj.com/bdpmyh/532.html

    与本文相关的文章

    发表我的评论
    取消评论

    表情

    您的回复是我们的动力!

    • 昵称 (必填)

    网友最新评论