robots文本文件里加入网站地图
- 学无止境
- 发布时间:2021-07-04 22:42:17
- 人已阅读
robots文本概念:这个文件主要是给搜索引擎看的,搜索引擎在进入网站时,首先会访问FTP服务器里的robots.txt文本,你需要在文本里设置推荐给搜索引擎看的网页或者目录,以及拒绝搜索引擎收录的网页或者目录(拒绝这一项是我们经常做的)。
重要的一点:robots文本制作好后,一定是放在FTP的根目录。
下面我们来看一下robots.txt文本的制作:
1)手工制作(不是很难):
1. User-agent: *(*通配符/代表所有搜索引擎)
Disallow: / (否定前缀/不允许)
Allow: / (允许)
2. User-agent: baiduspider (蜘蛛名称/百度/网站日志查询)
Disallow: /
User-agent: googlebot (蜘蛛名称/谷歌/网站日志查询)
Disallow: /
3. User-agent: * AB
Allow: /目录1/目录2.html(容许访问目录2中的网页)
Disallow: /目录1/
举例:
User-agent: * A邀请B来A家去玩
Disallow: /A/ 得罪B
Allow: /目录1/目录2.html(容许访问目录2中的网页)
4. 其他解释:
Disallow: /?* 不要爬行以?开头的页面或者是文件夹
Disallow: /*?* 不要爬行网站内的动态页面
特别提示:目前百度的算法已经非常精明,不必再为动态、静态的事情犯愁,百度官方指南明确里面,动态和静态页面,都一样收录。
下面是我们今天要提的重点内容:
先看一个范例:
User-agent: *
Disallow: /目录1/1.html
Disallow: /目录3/
Disallow: /目录5/
Sitemap: /sitemap.xml(推荐地图)
Sitemap: /sitemap.html(推荐地图)
将网站地图加入robots.txt文本中,可促进网页更好的收录,试想一下,搜索引擎首先看的是robots.txt文本文件,你把网站地图直接放在里面,让搜索引擎自己去点击,去看,相信比任何激发蜘蛛的方法都要好吧!
网站收录情况很差,自己分析不出原因,不妨看看robots.txt文本这一项是否设置对了。
2) 利用工具自动创建robots.txt文本文件(非常简单):
现在有很多站长工具类网站可以自动创建robots.txt文本,站长只需输入目录或者网页即可在线生成robots.txt文本。
举例说明:站长robot检测
使用”*”和”$”: Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。
robots.txt文件用法举例:
1. 允许所有的robot访问
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$