Google蜘蛛抓取协议robots文件的正确写法

现在全球的各大搜索引擎,不管是Google还是百度,亦或是必应和没落的雅虎,都在遵循统一的robots协议,所以我们在写robots文件的时候,只需要针对Google去写就可,其他搜索引擎也一样适用。那robots文件是什么,它的正确写法又该是怎样的呢?根据以往的谷歌SEO经验,我们会将其撰写技巧分享给大家。

一、什么是robots文件

robots文件也称为蜘蛛协议文件,通常用记事本的格式将其创建在网站的根目录,即robots.txt。robots是用来告诉搜索引擎蜘蛛,网站什么地方可以抓取,什么地方不能抓取。搜索引擎蜘蛛在进入网站后通常首先会访问robots文件,然后再根据文件里所规定抓取范围去抓取,但是也有极少数情况,蜘蛛可能并不会百分百遵守robots蜘蛛协议。

二、robots的正确写法

robots文件有很多命令是用代码表示,具体如下:

通配符*:代表全部

User-agent:蜘蛛名称

disallow:不允许抓取

Allow:允许抓取

$:表示某一类型文件后缀,如.html$ .jpg$

Google蜘蛛:Googlebot

百度蜘蛛:BaiduSpider

robots文件撰写示例:

User-agent: Googlebot

disallow: /wp-includes/

disallow: /*?*

Allow: .html

Sitemap: https://www.dustSEO.com/sitemap.xml

以上示例的意思为:针对谷歌蜘蛛,禁止其抓取wp-includes文件夹的内容禁止抓取网站中带“?”参数的链接;允许抓取后缀为.html的链接;告诉蜘蛛网站地图的路径,引导其抓取Sitemap网站地图

要注意的是,robots文件中使用的冒号是英文格式,即“:”,而且冒号后面记得加上空格,指令的首写字母也必须为大写,否则不符合robots的书写规范。

三、robots的作用

robots的作用主要是给搜索引擎蜘蛛一个清晰的网站可抓取范围,让搜索引擎蜘蛛更有效率地抓取网站,减少服务器资源的消耗。如果站长们有什么文件是不想搜索引擎抓取的(例如用户数据等机密),可以使用robots进行屏蔽;如果有想让蜘蛛快速发现并抓取的(例如网Sitemap站地图),可写入robots文件

四、关于谷歌蜘蛛

既然说到robots,那也补充一下关于谷歌搜索引擎蜘蛛的相关知识,常见的谷歌蜘蛛有两种:

一种是谷歌搜索引擎用的,叫做Googlebot,它会访问抓取网页,收集该网页上的链接,而且会顺着这些链接抓取其他的网页,然后收录进谷歌系统的数据库中,建立网页索引。

另外一种叫做Mediabot,这种蜘蛛也是谷歌的,它的目的是抓取网页来匹配与Google Ads相关广告的。

对于SEO排名来说最重要的还是Googlebot这种蜘蛛,不过有做Google Ads的网站,如果网页里有放Google Ads广告代码,那么Mediabot抓取网页内容会补充给谷歌搜索引擎,这些网页的收录会更加快。

总结

书写正确的robots,能让谷歌搜索引擎更有效率抓取你的网站,如果网站长时间不被谷歌收录,记得第一时间检查robots文件是否有错误,是否屏蔽了谷歌搜索引擎蜘蛛的抓取。

相关文章

网站流量短时间内的少量波动一般来说是正常现象。当流量波动...
持续输出原创优质内容,获得更多的用户点击与认可,会提高网...
百度信息流配置为用户的自然流量,即会根据用户属性和配置的...
百度搜索的索引量与流量有什么关系?百度搜索的索引量与流量...
随着手机移动端的快速崛起,慢慢的占领了大部分用户的访问入...
首先说下SSR,最近很热的词,意为ServerSideRendering(服务...