欢迎来到非尔思科技
咨询,就免费赠送域名与服务器,咨询热线:18670727589当前位置: seo优化公司 > seo优化 > seo技术 >
联系我们
电话咨询:13760252015
邮箱:service@ec-8.cn
公司地址:深圳市宝安区松岗街道办佳裕大厦15楼1501-1502

什么是robots.txt?robots.txt爬虫协议的正确写法

来源:robots.txt协议知识 日期:2019-01-09 18:31 作者:非尔思科技
今天seo优化公司在这里和大家来探讨一下,seo技术中的关于robots.txt爬虫协议的正确写法问题,我们知道在百度算法中的工作原理有一个去重原理,意思是百度蜘蛛来到你的网站进行爬取内容的时候,它抓取了内容,但是它会放进索引库去进行筛选的,比如:一些重复的内容、一些没有意义的内容,像qq、留言、注册信息等等,然后才会去给您的内容去进行建库,所以robots.txt协议对于我们的重要性就非常的重要了,因为我们可以通过这个协议去限制一些不必要的东西,那么robots.txt协议究竟是什么呢?它的正确的写法又是怎样的呢?接下来我们就一起来看看。
 
robot协议
 
1)允许所有搜索引擎访问网站的所有部分robots.txt写法如下:User-agent:*Disallow:或者User-agent:*Allow:/注意:1.第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。2)禁止所有搜索引擎访问网站的所有部分robots.txt写法如下:User-agent:*Disallow:/3)只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引 robots.txt写法如下: User-agent: * Disallow: /css/ Disallow: /admin/ Disallow: /images/
 
注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽 4)屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main robots.txt写法如下: User-agent: * Disallow: /templets Allow: /main 5) 禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录) robots.txt写法如下: User-agent: * Disallow: html/*.php 6) 仅允许访问某目录下某个后缀的文件,则使用“$” robots.txt写法如下: User-agent: * Allow: .html$ Disallow: / 7)禁止索引网站中所有的动态页面 比如这里限制的是有“?”的域名,例如index.php?id=1 robots.txt写法如下: User-agent: * Disallow: /*?* 8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加) 有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。 robots.txt写法如下: User-agent: * Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$
 
robots.txt协议写法
 
robots.txt要注意的地方1.第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。  2.斜杠:/代表整个网站  3.如果“/”后面多了一个空格,则屏蔽整个网站  4.不要禁止正常的内容  5.生效时间是几天到两个月
 
seo优化公司总结:对于robots.txt协议,是seo技术中比较关键的,因为如果你没有写好,那么可能会导致网站的蜘蛛,不收录你的网站,如果你能合理的应用,那么可以让你的网站可以达到权重的集中,希望以上的内容介绍可以帮助大家。百度资源详细介绍地址:https://ziyuan.baidu.com/college/courseinfo?id=267&page=12#h2_article_title28