您现在的位置是：首页 > SEO学习 > 入门阶段 > 名词解释 > 9、robots协议名词解释

9、robots协议

晴天 2019-11-02【名词解释】人已围观

简介网络爬虫其实是一种灰色产业！没有法律规定爬虫是违法的，也没有法律规定爬虫不违法，主要看爬取数据的类型，如：高度敏感数据：行踪轨迹信

【https://www.hui-blog.com--名词解释】

网络爬虫其实是一种灰色产业！没有法律规定爬虫是违法的，也没有法律规定爬虫不违法，主要看爬取数据的类型，如：

高度敏感数据：行踪轨迹信息、通信内容、征信信息、财产信息；
敏感数据：住宿信息、通信记录、健康生理信息、交易信息；
其他个人信息：高度敏感数据和敏感数据。

一般来说，高度敏感的数据根本爬不了；如果是公司要求爬的，那出了事情就是公司的责任。

如果有些东西您不能确认是不是违法，可以向身边律师朋友咨询或者百度谷歌，切莫存侥幸心理！

屏幕前面的您心里一定要有杆称，搞爬虫真的可能会坐牢的。信息犯罪好像是直接坐牢的，而且不是按天算的，毕竟玫瑰金手铐可摆在那里呢！

这杆称就是 Robot.txt 协议。不过，Robot.txt 对学习聚焦型爬虫的我们帮助不大，就当一个常识学一下，也可以根据 Robot.txt 协议列出的网页作为指标，Robot.txt 协议允许的网页我们就能爬，不允许的就不爬呗。

Robots 协议是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉通用型爬虫，哪些页面是可以抓取的，哪些不可以。

大多数网站都有 Robots 协议，那如何查看网站的 Robots 协议呢？

很简单，在网站的根目录域名后加上/robots.txt就可以了。例如，通过 https://www.taobao.com/robots.txt 这个链接可以查看淘宝的 Robots 协议。

User-agent:  Baiduspider    #百度爬虫
Allow:  /article            #允许访问 /article.htm
Allow:  /oshtml             #允许访问 /oshtml.htm
Allow:  /ershou             #允许访问 /ershou.htm
Allow:  /$                  #允许访问根目录，即淘宝主页
Disallow:  /product/        #禁止访问/product/
Disallow:  /                #禁止访问除 Allow 规定页面之外的其TA所有页面

User-Agent:  Googlebot      #谷歌爬虫
Allow:  /article
Allow:  /oshtml
Allow:  /product            #允许访问/product/
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow:  /$
Disallow:  /                #禁止访问除 Allow 规定页面之外的其TA所有页面

......                      #文件太长，省略了对其TA爬虫的规定，想看全文的话，点击上面的链接

User-Agent:  *              #除了指定的爬虫之外，其TA通用型爬虫
Disallow:  /                #禁止访问所有页面(歧视啊)

在截取的部分，可以看到淘宝对百度和谷歌这两个爬虫的访问规定，以及对其TA通用型爬虫的规定。

因为网站上的目录其实就是电脑里的文件夹，robots.txt 协议处于网站的根目录下，任何人都可以直接输入路径打开并查看里面的内容，就可以比较清楚的了解网站的结构。

【robots协议介绍二】

好的网络爬虫，首先需要遵守Robots协议。Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

在网站根目录下放一个robots.txt文本文件（如 https://www.taobao.com/robots.txt ），里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面，指定的页面由正则表达式表示。网络爬虫在采集这个网站之前，首先获取到这个robots.txt文本文件，然后解析到其中的规则，然后根据规则来采集网站的数据。

1. Robots协议规则

注意: 一个英文要大写，冒号是英文状态下，冒号后面有一个空格，"/"代表整个网站

2. Robots协议举例

禁止所有机器人访问
    User-agent: *
    Disallow: /
允许所有机器人访问
    User-agent: *
    Disallow: 
禁止特定机器人访问
    User-agent: BadBot
    Disallow: /
允许特定机器人访问
    User-agent: GoodBot
    Disallow: 
禁止访问特定目录
    User-agent: *
    Disallow: /images/
仅允许访问特定目录
    User-agent: *
    Allow: /images/
    Disallow: /
禁止访问特定文件
    User-agent: *
    Disallow: /*.html$
仅允许访问特定文件
    User-agent: *
    Allow: /*.html$
    Disallow: /

【吴铃辉个人总结】

robots协议
spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。

robots.txt文件放在哪里?
robots.txt文件应该放置在网站根目录下。

首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件

robots格式
User-agent: *
Disallow:
allow:

"*"和"$"的含义
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

不存在robots协议没有robots协议 robots协议是什么