大家都知道,做网站优化要注重细节。今天青岛网站优化【http://www.qingdao-seo.com】在这里给大家解读一下网站优化细节之一robots.txt文件的作用和写法。
一、什么是robots.txt?
robots.txt是放在网站根目录下的一个纯文本文件。文件名必须是全部小写字母【robots.txt】,此文件是声明给搜索引擎哪些文件不能被引擎收录。

二、robots.txt怎么使用?

1.SEO中引导搜索引擎蜘蛛抓取网站地图,更好的收录网站页面

现在好多搜索引擎都已经支持在robots.txt文件里指明sitemap文件的链接,在引擎蜘蛛访问robots.txt文件时告诉他们网站地图所在的位置,以便更好的收录网站页面。使用语法是sitemap: http://www.qingdao-seo.com/sitemap.xml(谷歌)
2.禁止搜索引擎蜘蛛抓取网站

假如你的网站刚刚上线,但外面已经有外链了,又需要修改框架,这时你就可以禁止蜘蛛抓取你的网站。禁止所有搜索引擎蜘蛛抓取任何页面的语法为:
User-agent: *
Disallow: /


3.禁止搜索引擎蜘蛛抓取特定的某些目录。

有些没有必要让搜索引擎抓取的目录,私密性质的,这些我们可以指定这些目录禁止抓取。
例如:
User-agent: *
Disallow: /seo/qingdao-seo.asp
Disallow: /qingdao
Disallow: /news/seo


4.单独禁止某一个搜索引擎

假如你的网站很牛,牛的跟淘宝是的,不让想百度收录,或者你跟抵制它,那么你可以学习马云禁止百度收录,语法是:
User-agent: baiduspider
Disallow: /


5.指定某一个搜索引擎收录

我们网站流量主要来自几大主要的搜索引擎,你如果你不想让国外的或者国内的其他搜索蜘蛛、流氓蜘蛛来你服务器抓取的话,那么我们就会用到以下语法了,只允许指定的搜索引擎:
User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /

请注意检查书写正确,百度的蜘蛛:baiduspiderGoogle的蜘蛛: Googlebot腾讯Soso:SosospiderYahoo的蜘蛛:Yahoo SlurpMsn的蜘蛛:Msnbot


6.禁止所有搜索引擎抓取您的网站特定类型文件
例如允许搜索引擎抓取网页,禁止抓取任何图片。语法:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

如果想禁止特定的搜索引擎,把通配符*改成特定的蜘蛛名就行了。


7.禁止搜索引擎在搜索结果中显示网页快照,而只对网页索引。
语法:
百度支持通过网页的meta设置。防止快照。
要防止所有搜索引擎显示您的你的快照。
meta name="robots" content="noarchive">
要允许其他引擎显示,仅防百度显示
<meta name="Baiduspider" content="noarchive">
<META NAME="googlebot" CONTENT="index,follow,noarchive">【谷歌的】


总结:很多朋友都启用了网站日志功能,用来分析蜘蛛爬行情况,当蜘蛛来寻找robots.txt文件时,如果找不到,服务器就会记录一条404错误,为了减少log文件,去除无用的信息,建议你把网站目录下也添加robots.txt。


您好,原创文章如转载,请注明:转载自青岛SEO[http://www.qingdao-seo.com/ ]
点击复制本文地址:http://www.qingdao-seo.com/post/17.html