收藏本站|设为首页

您现在的位置: 首页 > 新闻中心 > 建站经验 > 详细内容

网站日志具体剖析体例

2012-10-10 14:45 来源: 卓杰科技 www.zhuojie.cc [ ]

一次偶然的机缘,听了龙哥的录音,发现讲的很是棒,而这些又是免费的录音,后知估量下载的人不会太多,所以这就是“免费的就是最贵的”,良多人可能感受免费培训录音就跟其他泛泛的培训似的。其实错了,这个让我把龙哥授课的录音都下载了,这段时刻在进修,今天就和巨匠分享下日志剖析。记住,数据剖析的目的是进行调整策略和进一步提高,而不是为了剖析而剖析。

我们应该年夜哪几个维度来进行数据的清算剖析呢?我们年夜基本信息、目录抓取、时刻段抓取、IP抓取、状况码几点分布给巨匠讲解。

第一、基本信息

我们年夜日志中能够获取哪里基本信息呢?总抓取量、勾留时刻(h)及访谒次数这三个基本信息,可以年夜光年日志剖析工具中统计出来。然后,经由过程这三个基本信息算出:平均每次抓取页数、单页抓取勾留时刻。然后用我们的MSSQL提取蜘蛛独一抓取量,按照以上的数据算出爬虫一再抓取率。

年夜本月清算来看,爬虫的抓取量是下降的,一再抓取率是上升的。综合剖析,需要年夜站内链接和站外的链接进行调整。站内的链接尽量的带锚文本,如不美观不能带的话,可以举荐其他页面的超链接,让蜘蛛尽可能的深条理的抓取。站外链接的话,需要多方面的发布。今朝平台太少了,如不美观深圳新闻网、商国互联等站点呈现一丝差错的话,我们站点将受到严重影响。站外平台要广,发布的链接要多样话,不能直发首页的,栏目及文章页面需要加鼎力度。今朝,来讲站外平台太少,快要10w的外部链接,集中在几个平台上。

平均每次抓取页数=总抓取量/访谒次数

单页抓取勾留时刻=勾留时刻*3600/总抓取量

爬虫一再抓取率=100%—独一抓取量/总抓取量

在剖析日志的时辰需要用到的工具:光年日志剖析工具、web log explorer、MSSQL。还有一点,做好数据的剖析excel是必备的,比来在看阿莫举荐的一本书,写的挺好的《你早该这么玩excel》,举荐巨匠看看,基本的应用仍是要会的。

爬虫单页的勾留的时刻,国平教员曾经写过那篇网页加载速度是怎媚暌拱响seo流量的文章,巨匠应该看过吧。提高网页加载速度,削减爬虫单页勾留时刻,可觉得爬虫的总抓取做出进献,进而增添网站收录,年夜而提高网站整体流量。在16号至20号摆布处事器呈现一些问题,之后进行调整后,速度较着变快,单页勾留时刻也响应的下来了。

这个基本表是上个月的日志的根基信息,我们需要看它的整体趋素来调整,哪些处所需液增强。

而以上这些数据,我们需要统计出一段时刻的数据,看这个时刻的整体趋向是怎么样的,这样才能够发现问题,才能够调整网站的整体策略。下面就以一站点上个月的日志基本信息为例。

年夜这个整体走势来看出,爬虫的抓取总量整体是不才降的,这个就需要我们进行一些响应的调整。

整体来看,网站一再抓取率是有点上升的,这个就需要一些细节,多一些为抓取的进口和使用一些robots及nofollow技巧。

而对此进行响应调整如下:

注:相关网站培植技巧阅读请移步到建站教程频道。