搜索引擎不抓取页面服务器端的五个问题

阅读 · 发布日期 2018-12-17 11:09 · admin

　搜索引擎不抓取页面服务器端的五个问题　

1、错误的封禁

　　在百度的robots.txt的更新上，如果多次点击“检测并更新”就会出现时常可以更新，但是又时常无法更新的问题。如此一来：不应当被收录的东西，在robots.txt上禁止的被收录了，又删除就很正常了。那么它的问题是什么呢？并非服务器负载过度，而是因为防火墙错误的将部分Baiduspider列入了黑名单。

　　2、服务器异常

　　常规的服务器就不说了，大家都知道的，北上广的一般都不错。不过有一些特殊服务器，想必绝大多数的站长都不知道吧？例如西部数码的“港台服务器”就很有趣，真的是港台的吗？本身机房在国内，还算什么港台？为了逃避备案而用一个港台的IP，数据全部在国内。

　　这样有什么不好呢？我们会发现：站点的服务器是经过CDN的，哪怕是你上传的一张图片，都会显示为“302状态码”，访问速度是提升上去了，可是这样利于SEO吗？

　　3、获取不到真实IP

　　规模较大的网站，一般都会使用CDN加速，但是有些站点不仅仅对“设备”使用了CDN加速，而且还对Spider使用了加速功能。后的结果是什么呢？如果CDN节点不稳定，那么对网站spider来讲，这个问题将是致命的。

　　很多大型站点开放CDN的原因就是容易被攻击，这个时候如果不做“蜘蛛回源”就可想而知了。你的站点做了CDN了吗？请登录百度站长平台查看一下spider是否可以抓取真实IP地址吧!

　　4、频繁的50X类错误

　　这样的链接其中一个共同的特点是：当打开后，全部都是正常的，那么Spider为什么会报错提醒呢？只是因为在爬虫发起抓取的那一刻，httpcode返回了5XX"，你的站点是否频繁有这样的问题呢？有的话需要立即安排技术，或者通报IDC服务商做解决了!

　　5、错误的抓取比例

　　任何网站都做不到100%不出问题，但是万事有一个度：我们认为，这个比例不超过5%，对网站基本上是无影响的，且这样的错误不应当每天都出现。常见的抓取错误一般都是连接超时："抓取请求连接建立后，下载页面速度过慢，导致超时，可能原因服务器过载，带宽不足"这种情况：

　　A：尽量在不影响图片质量的情况下，对图片进行压缩，上传的时候就进行了压缩。
　　B：减少如JS脚本文件类型的使用，或者进行合并
　　C：页面大小进行控制，尤其是一些浏览量、抓取量较高的页面，不建议超过2MB。
　　D：增加网站的带宽，提升下载速度，或者更换服务器。

搜索引擎不抓取页面服务器端的五个问题