百度会收录网站里的每一个页面吗?查询网站是否被百度抓取的方法

YHY硬核云

发布时间:06-2218:10

编者按:网站优化时,都会将所有网站的页面链接放置网站地图(Sitemap,专门单独为搜索引擎设置的XML页面)中,并提交给搜索引擎,让搜索引擎能抓取到每一个链接,确保网站的每一个页面都会被搜索引擎给收录。

你的网站/网页是否被百度抓取,以及被抓取的频率,影响你的排名。

01、如何查看网站被抓取的情况?

首先我们要知道,百度抓取一个网页,用到的工具程序是Baiduspider(百度蜘蛛),它的行为动作会被记录在网站日志中,我们可以从网站日志里Baiduspider(百度蜘蛛)的活跃度:抓取频率,以及抓取后返回的HTTP状态码来查看网站被百度抓取的情况。所以下一步是要找到网站日志的内容。

02网站日志在哪?如何查看

通常一个网站日志文件在管理后台的logofiles文件夹下面。登陆“FTP”账号,找到一个文件扩展名是.log的日志文件,下载并解压,并将文件改为记事本,这就是网站日志,记录着网站有没有被Baiduspider(百度蜘蛛)抓取,是否抓取成功的情况。

接下来,笔者以这样一段代码来介绍如何进行log日志分析。

例:时间 GET /images/index5_22.gif-- IP地址 HTTP/1.1 浏览器和操作系统 200 360

其中,“GET /images/index5_22.gif”代表的是:从服务器上抓取到“/images/index5_22.gif

这个页面或者是文件;

HTTP/1.1浏览器和操作系统--网站--200 360,代表的是:抓取后返回的状态(是否成功,抓取数量)

200,状态码,表示成功抓取;

360,体积,表示抓取了多少字节,360个字节;

常见的状态码

200:表示服务器成功地接受了客户端请求。这是最佳的,表示网站页面正常。

301:表示用户所访问的某个页面已经做了301重定向(永久性)处理。

302:则是暂时性重定向。如果网站日志分析发现有过多的302,需要确认是否将301做错为302。如果是,赶紧修改,搜索引擎不喜欢302重定向。

404:则代表所访问的页面已经不存在,或者是访问的url根本就是错误的。

500:服务器的错误。

03百度蜘蛛的活跃度:抓取频率是什么?

Baiduspider(百度蜘蛛)的活跃度:抓取频率

记录每天的日志里,Baiduspider(百度蜘蛛)抓取网站的次数,再将多日的日志进行对比,来判断当前Baiduspider(百度蜘蛛)的活跃度的高低。活跃度越高,抓取次数越多,说明网站优化有效果,网站排名自然就有所提升。

返回顶部