Robot 是什么 网站robot.txt文件如何设置

建站知识 2023-11-23 08:10www.168986.cn长沙网站建设
Robot英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。
 
有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。
 
SEO中常说的这个探测器(Robot)是什么?
 
搜索引擎用来抓取网页的工具。它是一个软件或者说一系列自动程序(显然,不是一部机器)。
 
不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。
 
谷歌:googlebot  百度:baiduspider   MSN:MSNbot   Yahoo:Slurp  (yahoo家的这位比较特殊,没有带“姓”,并且用的是一个拟声词。Slurp,中文理解是机器人吃东西时发出的啧啧的声音)
 
关于Robot,需要关心的主要是Robots.txt,以及网站日志中包含的以上几个名字。



什么是robot.txt文件,robot.txt文件有什么用?

robot.txt是在网站根目录下的一个文件,搜索引擎通过一种程序“蜘蛛”(又称spider),自动访问互联网上的网页并获取网页信息,而搜索引擎爬行网站第一个访问的文件就是robots.txt文件,所以我们可以在这个文件中声明该网站中不想被蜘蛛访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎访问和收录了,也可以通过robots.txt指定使搜索引擎只收录指定的内容。

 

 

如何设置robot.txt文件:

可以直接在网站根目录创建命名为robot.txt文件,米拓建站系统自带robot.txt文件,且设置如下:

 

User-agent: *                              允许所有搜索引擎访问抓取

 

Disallow: /admin/                          禁止抓取台管理员登陆文件夹

 

Disallow: /cache/                          禁止抓取网站缓存页面

 

Disallow: /config/                         禁止访问网站数据配置页面

 

Disallow: /include/                        禁止抓取老版本系统方法目录

 

Disallow: /public/                         禁止抓取系统公共文件

 

Disallow: /install/                        禁止抓取网站安装页面

 

Disallow: /templates/                      禁止抓取模板文件

 

Disallow: /upload/                         禁止抓取上传文件页面

 

Disallow: /member/                         禁止抓取会员中心页面

 

 

 

Sitemap: https://www.metinfo.cn/sitemap.xml  允许蜘蛛爬行的网站地图

 

注意:后台管理员登陆文件夹修改后,robot.txt文件中的后台文件夹名称不会自动修改,目的是为了不泄露后台登陆地址,从而确保网站安全。

 

 

 

使用用法介绍:

米拓建站系统提供一个直接在网站后台修改robot.txt文件的应用插件,可以直接在线修改,无需通过FTP工具链接到网站服务器操作,简单方便快捷。

 

到网站可视化后台——增值服务——官方商城——应用中搜索robots

图片

 

 

安装好后,打开应用即可在线编辑

图片

 

 

 

了解设置方法:

 

1、禁止所有搜索引擎访问网站的任何部分

 

User-agent: *

 

Disallow: /

 

2、允许所有的robot访问

 

User-agent: *

 

Disallow:

 

(或者也可以建一个空文件 “/robots.txt” file)

 

3、禁止某个搜索引擎的访问

 

User-agent: BadBot

 

Disallow: /

 

4、允许某个搜索引擎的访问

 

User-agent: Baiduspider

 

Disallow:

 

User-agent: *

 

Disallow: /

 

5、假设某个网站有三个目录对搜索引擎的访问做了限制,可以这么写:

 

    User-agent: *

 

    Disallow: /admin/

 

    Disallow: /cache/

 

    Disallow: /config/

 

需要注意的是,对每一个目录必须分开声明,而不要写成:“Disallow: /admin/ /config/”。


上一篇:辽宁网站建设 下一篇:阿里分销官网

Copyright © 2016-2025 www.168986.cn 狼蚁网络 版权所有 Power by

长沙网络推广|微博营销|长沙seo优化|视频营销|长沙网络营销|微信营销|长沙网站建设|口碑营销|软文营销