收藏本站|设为首页

您现在的位置: 首页 > 新闻中心 > 建站经验 > 详细内容

关于WordPress的robots.txt文件的那些事

2012-09-17 15:25 来源: 卓杰科技 www.zhuojie.cc [ ]

安装完wordpress站点后关于robots.txt文件的书写一向懊恼着良多站长,Robots.txt文件和谈又叫搜索引擎机械人和谈,搜索引擎爬虫在爬取网站的时辰,首先会看网站根目录下是否有robots.txt文件,然后遵循robots.txt和谈爬取网站主但愿搜索引擎爬取的内容。robots.txt文件意在告诉搜索引擎爬虫哪些页面可以爬取,哪些页面不能爬取,可以有用的呵护用户的隐私,同时也有利于节约蜘蛛的带宽,年夜而让蜘蛛爬取加倍轻易,促进收录。

#这意思是不抓取中包含?的url,动态url特征是有?#

先来简单的说下robots.txt文件的轨则:

1、许可所有的搜索引起爬取任何内容

User-agent:*

Disallow:

这个意思就是许可所有的搜索引擎爬取所有的页面,虽然Disallow是不许可的意思,可是后面是放空状况,这意思是没有不许可爬取的页面。

2、屏障其一一种或者几种搜索引擎的爬取,以比来斗劲火的360综合搜索为例

Disallow:

再来说下wordpress的robots.txt文件书写,其实wordpress的robots文件很简单,首要看3个要点:

User-agent:360spider

Disallow:/

首先开首的斜杠是必然要的,结尾有斜杠的话意思是这个目录下的所有页面,如不美观没有斜杠那屏障的既有搜罗斜杠的,也有不搜罗斜杠的,好比/wp-admin.html,/wp-admin.php等等页面(举例)。这是两个分歧的概念,必需按照需要考虑后面是否加上斜杠。

Sitemap:http://www.zhuojie.cc/?/sitemap.xml

User-agent:*

User-agent:*

Disallow:/wp-admin/

3、不许可搜索引擎抓取其中的某些页面,这边以不许可所有搜索引擎爬取wordpress的打点后台页面为例

至于不许可百度爬取后台,许可其他搜索引擎爬取后台,或者不许可360综合搜索爬取后台,许可其他搜索引擎爬取后台等等组合,请参考以上三点内容进行组合。

首先设置不让搜索引擎抓取wordpress后台页面,这几乎是每个站长设置robots.txt文件首要的目的,不仅局限于wordpress,当然,分歧的类型网站后台页面地址页面的文件夹名称纷歧样。

除了每行的首字母之外,其他都必需小写。

2、静态化后,动态url不要蜘蛛爬取

wordpress的url最好仍是静态化下,因为过多的动态参数晦气于蜘蛛的爬取。但良多站长在静态化url之后,每次发布文章时,搜索引擎收录总会同时收录静态的url和动态的url,这样较着会导致文章页面权重的分手,而且会导致一再页面过多最终受到搜索引擎的赏罚,其实避免这种情形的体例很简单,那就是在robots.txt文件琅缦沔设置,让蜘蛛不爬取动态url,这样动态的url就不会被百度收录。

于是,最简单的wordpress的robots.txt的书写如下

3、结尾加上xml名目的网站地图

1、网站后台不要蜘蛛爬取

在robots.txt的结尾加上网站地图,可以让网站地图在蜘蛛爬取网站的时辰第一时刻被抓取,更利于页面的收录。

前两行的意思是不许可360综合搜索蜘蛛爬取任何页面,后面的诠释见第一点。同理,如不美观除了屏障360综合搜索也想屏障百度蜘蛛,那就在开首继续添加。

User-agent:*

去失踪含有#的那行,以及将sitemap中的yourdomain改成你的域名即可,这样一个wordpress的robots.txt文件就完成了,最后将这文件上传到根目录下即可。

我们都知道,wordpress的打点后台在根目录下的wp-admin文件夹琅缦沔,在disallow后面加上/wp-admin的意思就是不许可搜索引擎蜘蛛爬取。

Disallow:/wp-admin/

Disallow:/*?*

Robots.txt文件书写还有几点需要注重的:

1、斜杠问题

2、巨细写问题

3、Disallow和Allow

其实对于良多新手站长来说,把握其一一种的写法足以,因为同时被灌注贯注这两种写法很轻易导致混绕,所以如不美观你是新手,那么robots.txt文件最好只使用一种体例即可,防止混绕造成错误。