也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了。。。别人建议查看网站的日志文件,分析蜘蛛的爬取情况。可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件,找出网站可能出现的问题等等。
一般我们的服务器是可以开启蜘蛛爬取记录文件的,如果没有开启这功能,可联系空间商要求开通此功能,通过分析web log,找出自己站的问题所在。
日志文件一般是log为扩展名的文件,有的是GZ压缩后的文件,没有关系,我们下载下来,可以直接用记事本打开log文件,可看到里面的爬取记录。
格式大致都是如下这种:
220.181.108.175 – – [25/Jul/2012:11:54:58 -0700] “GET /sitemap.xml HTTP/1.1” 304 0 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
说明:第一个IP是蜘蛛的IP地址,依次为抓取时间,get的文件名,协议,状态码,百度蜘蛛。
请特别注意一下,状态码,如果网站出现很多404,需要在robots里屏蔽或者汇总提交给站长工具至搜索引擎,否则网站在搜索引擎眼里就是个很不正常的站点,而且网站的抓取也很有问题,需要正视这个问题,因为不少人的站点都是这个原因引起的,而自己却浑然不知。
当然状态码只是一个方面,我们可以分析,蜘蛛每次来的时间大概是什么时候,每次蜘蛛来网站后共抓取多少个页面,每次在网站上停留多少时间。通过汇总一个时间段的web log,可以分析出自己页面的哪些目录还没有被搜索引擎抓取到,自己是否可以在适当的位置展示这些页面,或者通过站长工具的sitemap提交,多做些高质量的外链来达到收录效果。
相信我,利用好web log会让你受益无穷!
文档信息
最后修改时间:
2012年08月26日 23:44:24
看了此文的人貌似还看了这些:
∴2012-08-11
∴2012-07-29
∴2012-08-11
∴2012-07-28
∴2012-07-28
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/34285.html