找回密码
 加入SEO研究中心

QQ登录

只需一步,快速开始

搜索
  • TA的每日心情
    郁闷
    6 天前
  • 签到天数: 31 天

    [LV.5]常住居民I

    22

    主题

    50

    帖子

    0

    威望

    VIP会员

    VIP学员帅哥站长

    robots协议的理解与写法教程

    51 1
    2019-4-22 15:06:51
    显示全部楼层

    马上注册,结交更多SEO好友,可查看高清图片。

    您需要 登录 才可以下载或查看,没有帐号?加入SEO研究中心

    x
    robots协议的理解与写法教程

      robots协议是指搜索引擎与网站之间的协议文件,也就是爬虫协议,用于指定spider在网站上的抓取范围。其作用是可以屏蔽对网站对搜索引擎不友好的链接,比如动态和静态链接同时存在时屏蔽任务任何不想被收录的页面。

      robots协议是引导蜘蛛抓取网站地图,也用来保护网站数据和敏感信息,确保用户个人信息和隐私不被侵犯。存在于网站根目录正,以robots.txt格式存在,注意robots.txt文件名不能随便更改。

      写法:1.User-agent:表示针对某个爬虫,

      2.Disallow:表示禁止抓取

      3.Allow:允许抓取

      4.*通配符,表示所有

      5.$结束符,表示以什么结尾

      6、/根域下是指网站根目录

      注:冒号是英文状态下的,并且后面有一个空格,首字母需要大写。

      例:

      1、

      User-agent:*

      Disallow:/

      针对所有爬虫禁止抓取根目录下的所有链接

      2、

      User-agent:Baiduspider

      Disallow:/

      禁止百度蜘蛛抓取网站所有连接

      3、

      User-agent:*

      Disallow:/a/

      针对所有的爬虫禁止抓取网站根目录下的a目录

      4、

      User-agent:*

      Disallow:/a

      针对所有的爬虫禁止抓取网站根目录下以“a”开头的文件

      5、

      User-agent:*

      Disallow:/*?*(?表示动态符)

      禁止抓取网站根目录下带?号的动态链接

      6、

      User-agent:*

      Disallow:/*.js$

      禁止抓取网站根目录下面以.js结尾的文件

      7、

      User-agent:*

      Disallow:/a/

      Allow:/a/b/

      禁止抓取网站根目录下面“a”,允许抓取“a”目录下面的“b”目录。

      8、

      User-agent:*

      Disallow:/a/

      Allow:/a/b

      禁止抓取网站根目录下面“a”目录,允许抓取“a”目录中以“b”开头的文件


    来源: robots协议的理解与写法   119-05 量具制造
  • TA的每日心情
    开心
    2019-4-22 15:43
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    2

    主题

    50

    帖子

    0

    威望

    四级

    2019-4-22 15:47:19
    显示全部楼层
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 加入SEO研究中心