robots文本文件里加入网站地图

robots文本概念:这个文件主要是给搜索引擎看的,搜索引擎在进入网站时,首先会访问FTP服务器里的robots.txt文本,你需要在文本里设置推荐给搜索引擎看的网页或者目录,以及拒绝搜索引擎收录的网页或者目录(拒绝这一项是我们经常做的)。

重要的一点:robots文本制作好后,一定是放在FTP的根目录。

下面我们来看一下robots.txt文本的制作:

1)手工制作(不是很难):

1.  User-agent: *(*通配符/代表所有搜索引擎)

Disallow: /    (否定前缀/不允许)

Allow: /        (允许)

 

2.  User-agent: baiduspider (蜘蛛名称/百度/网站日志查询)

Disallow: /

User-agent: googlebot (蜘蛛名称/谷歌/网站日志查询)

Disallow: /

 

3.  User-agent: *  AB

Allow: /目录1/目录2.html(容许访问目录2中的网页)

Disallow: /目录1/

 

举例:

User-agent: *  A邀请B来A家去玩

Disallow: /A/  得罪B

Allow: /目录1/目录2.html(容许访问目录2中的网页)

4.  其他解释:

Disallow: /?* 不要爬行以?开头的页面或者是文件夹

Disallow: /*?* 不要爬行网站内的动态页面

特别提示:目前百度的算法已经非常精明,不必再为动态、静态的事情犯愁,百度官方指南明确里面,动态和静态页面,都一样收录。

 

下面是我们今天要提的重点内容:

先看一个范例:

User-agent: *

Disallow: /目录1/1.html

Disallow: /目录3/

Disallow: /目录5/

 

Sitemap: /sitemap.xml(推荐地图)

Sitemap: /sitemap.html(推荐地图)

将网站地图加入robots.txt文本中,可促进网页更好的收录,试想一下,搜索引擎首先看的是robots.txt文本文件,你把网站地图直接放在里面,让搜索引擎自己去点击,去看,相信比任何激发蜘蛛的方法都要好吧!

网站收录情况很差,自己分析不出原因,不妨看看robots.txt文本这一项是否设置对了。

2) 利用工具自动创建robots.txt文本文件(非常简单):

现在有很多站长工具类网站可以自动创建robots.txt文本,站长只需输入目录或者网页即可在线生成robots.txt文本。

举例说明:站长robot检测

使用”*”和”$”: Baiduspider 支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。

robots.txt文件用法举例:
 

1. 允许所有的robot访问
 

User-agent: * Allow: / 或者 User-agent: * Disallow:

2. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6. 允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7. 使用”*”限制访问url

禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

8. 使用”$”限制访问url

仅允许访问以”.htm”为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /

例9. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

10. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

11. 仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

12. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

文章评论

Top