小鑫优化:robots是什么有什么作用

宜家网
宜家网
宜家网
6605
文章
57
评论
2020年8月14日05:21:17
评论

简言之,robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,尽管只要放在根域名目录下,未设置系统级目录访问权限的文件爬虫都可以抓取的到,但网站跟搜索引擎间如果没有协议,将使不可预知的大量信息泄露到网上,这不是双方愿意看到的。这种约定说到本质是人与人之间的君子约定。除此外,它还有跟nofollow一样提升SEO效率的功用,后面江太公展开来说。

小鑫优化:robots是什么有什么作用

为何说robots有助提高SEO效率呢?其一,它的有条件限制抓取可以起到集中蜘蛛资源到用以展示的有价值页面上去,不浪费蜘蛛资源。比如动态页跟静态页共存,如果不加限制就是重复抓取,浪费资源,其二对搜索引擎不友好,重复页面会导致整站质量下降,流量受损,由于程序原因或其他原因造成的404也是很不友好的的种页面类型,需要屏蔽。让搜索引擎需要花时间耗资源处理低质内容很显然不是个好主意。如果占比超过某一限度,就会降低站点评分。其三robots中也体现着经营策略,可能有不以搜索引擎为业务来源的页面,屏蔽掉是对自我的保护以及集权到依靠SEO的页面去。等。对于小站点,robots很好设置,但对于大型站点,robots本身都体现着对整站架构,经营策略的合理评估及资源的科学配置,成本的有效控制。这并非耸人听闻。想想淘宝无数的子站点形成的站群,可不能随随便便应付一个robots。

robots的实际运用,写法

通常,除打算展示给访客外的所有文件都需要在robots中进行屏蔽。写法规则:

1.文件路径全部小写。

2.规则名首字母大写。

3.规则名关键词:User-agent,Disallow,Allow。

4.

1> User-agent: *【定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot】。

2> Disallow 【禁止爬取】

3> Allow 【允许】

4> $ 结束符【Disallow: .aspx$ 这句话就是屏蔽所有的以.aspx结尾的文件,不管它前面是什么样子】。

5> * 【0或多个任意字符。Disallow: *?* 这个是屏蔽所有带“?”的文件,可以这样屏蔽所有的动态路径】。

5.robots文件里语法的顺序是从上到下匹配

,先允许后禁止,禁止写在前会使Allow失效。另外注意:User-agent,Allow,Disallow的“:”后面有一个字符的空格。

6.robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)。

7.robots文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。

User-agent:该项的值用于描述搜索引擎robot的名字。在'robots.txt'文件中,如果有多条User-agent记录说明有多个robot会受到'robots.txt'的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在'robots.txt'文件中,'User-agent:*'这样的记录只能有一条。如果在'robots.txt'文件中,加入'User-agent:SomeBot'和若干Disallow、Allow行,那么名为'SomeBot'只受到'User-agent:SomeBot'后面的 Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀, 以Disallow项的值开头的URL不会被 robot访问。例如'Disallow:/help'禁止robot访问/help.html、/helpabc.html、/help/index.html,而'Disallow:/help/'则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。'Disallow:'说明允许robot访问该网站的所有url,在'/robots.txt'文件中,至少要有一条Disallow记录。如果'/robots.txt'不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如'Allow:/hibaidu'允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用'*'and'$':Baiduspider支持使用通配符'*'和'$'来模糊匹配url。

'*' 匹配0或多个任意字符

继续阅读
宜家网
  • 本文由 发表于 2020年8月14日05:21:17
  • 转载请务必保留本文链接:https://www.yjro.com/23513.html
【seo外链】行业用品网站怎样建设外链? seo问答

【seo外链】行业用品网站怎样建设外链?

建设外链是新站、小站SEO必不可少的。常用的外链建设方法可以参考很久以前的帖子怎样增加外部链接,现在其实还是那些方法。常用方法既然常用,大家又都能用,其效果必然下降。效果最好的外链建设方法是大家经常谈...
新网站如何快速收录教程? seo问答

新网站如何快速收录教程?

让新网站如何快速收录的方法教程较为简单,实施较为复杂。简单之处在于做好内容与外链(推荐友情链接),做好基础的url推送以及站内的优化设置即可。复杂在于几句简单的话语,在实施的时候困难不小,新站不易做友...
seo和java哪个更好 seo问答

seo和java哪个更好

代码优化,一个很重要的课题。可能有些人觉得没用,一些细小的地方有什么好修改的,改与不改对于代码的运行效率有什么影响呢?这个问题我是这么考虑的,就像大海里面的鲸鱼一样,它吃一条小虾米有用吗?没用,但是,...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: