网站日志怎么分析,手把手教你

网站日志怎么分析,手把手教你

2019-12-16

  网站日志是站长的得力助手,能从网站日志中获取大量的信息和数据,比如什么时候将要收录网站,有没有恶意攻击的信息等等,这些在网站日志中都看的一清二楚的,那么应该怎么进行分析呢?只是光有理论是不可行的,还要会进行实战!

  一、网站日志可以为我们做什么?

  1、 可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面 的抓取频率);

  2、排查网站页面中存在的404错误页面,500服务器错误等;

  3、页面重要内容是否被爬虫完整爬到并且快速遍历;

  4、正确分辨蜘蛛爬虫

  二、常见HTTP状态码解读

  1、200代码,表示蜘蛛爬取正常

  2、404代码,访问的这个链接是错误链接

  3、301代码,永久重定向

  4、302代码,表示临时重定向

  5、304代码,客户端已经执行了GET,但文件未变化

  6、500代码,表示网站内部程序或服务器有错

  日志里的含义,可以大家看下网站日志中各个数据都代表什么意思,总之这个文件是记录的一天发生在网站上的一些行为。当我们拿到这么一个网站日志,我们就可以审视我们的日志,并且通过对日志文件分析解决网站存在的问题;

  三、日志代码解读

  从日志文件当中可以解读出两个部分内容:

  1、搜索引擎抓取情况

  从日志文件中,可以大家看到搜索引擎抓取了一些404页面及低质量重复页面(噪音行为)

  备注:可以通过nslookup ip 识别蜘蛛的真假

  /date-2016-01.html(低质量重复页面)

  /author-1.html(低质量重复页面)/downloads/(低质量页面)/contact.html(死链接接),但这里有个问题,这个页面返回的状态码为200而不是404,但页面却跳转到404页面,从中可以发现服务器设置一定有问题;

  所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。爬虫纠偏,让爬虫花更多的精力放在我的详情页面上。

  网站日志的存在有它一定的道理,能很好的保护网站,并且能对搜索引擎的喜好进行分析,也能知道真假蜘蛛,防止别人恶意攻击自己的网站,网站如果没有日志的话,那么前行和发展起来就好像缺少了指南针,只能闷头自己找方向,是非常不利的(图文来自网络版权归原作者所有如有侵权请联系本站!)