网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?

发布时间:2020-03-19 整理:脚本之家
脚本之家收集整理的这篇文章主要介绍了网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?脚本之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随脚本之家小编过来看看吧!

下面是脚本之家 jb51.cc 通过网络收集整理的代码片段。脚本之家小编现在分享给大家,也给大家做个参考。

有些站长比较喜欢将站点上线测试(不喜欢在本地测试),但是又不想被百度等搜索引擎抓取,那么应该怎么暂时屏蔽呢?今天 boke112 就跟大家简单介绍几种方法。

方法一:

WordPress 站点可以直接登录站点后台 >> 设置 >> 阅读 >> 勾选“建议搜索引擎不索引本站点”并点击【保存更改】即可。


方法二:

直接在网站根目录中新建一个 robots.txt 文件,然后在文件中添加以下代码:

User-Agent: *

Disallow: /

方法三:

通过 noindex 标记来禁止,直接在站点的头文件 header.php 文件中添加以下代码:

<meta name="robots" content="noindex" >

方法四:

通过 PHP 代码禁止(wordpress 站点为例),将以下代码添加到主题目录的 functions.php 当中:

ob_start("Deny_Spider_Advanced");

function Deny_Spider_Advanced() {

$UA = $_SERVER['HTTP_USER_AGENT'];

$Spider_UA = '/(spider|bot|)/i'; //定义需要禁止的蜘蛛 UA,一般是 spider 和 bot

//如果检测到 UA 不为空而且发现是蜘蛛则返回 404

if($UA && preg_match_all($Spider_UA,$UA)) {

header('HTTP/1.1 403 Forbidden');

header("status: 403 Forbidden");

}

}

可以自行替换或添加以上的 spider|bot,多个用|隔开即可。

方法五:

Nginx 禁止,在 server{}中添加以下代码:

#如果抓取的 UA 中含有 spider 或 bot 时返回 403

if ($http_user_agent ~* "spider|bot") {

return 403; #如果是删除已收录的,则可以返回 404

break;

可以自行替换或添加以上的 spider|bot,多个用|隔开即可。

方法六:

Apache 禁止,在.htaccess 中添加以下代码:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (^$|spider|bot) [NC]

RewriteRule ^(.*)$ - [F]

可以自行替换或添加以上的 spider|bot,多个用|隔开即可。

总结

理论上以上 6 种方法都有效,建议找适合自己站点的一种办法来使用即可。一般采用方法二比较普遍,如果能够结合方法五或六来使用估计效果更佳。

以上是脚本之家(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。如果觉得脚本之家网站内容还不错,欢迎将脚本之家网站推荐给程序员好友。

总结

以上是脚本之家为你收集整理的网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?全部内容,希望文章能够帮你解决网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?所遇到的程序开发问题。

如果觉得脚本之家网站内容还不错,欢迎将脚本之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢交流学习经验,点击链接加入脚本之家官方QQ群:1065694478
脚本之家官方公众号

微信公众号搜索 “ 程序精选 ” ,选择关注!

微信公众号搜索 “ 程序精选 ”
精选程序员所需精品干货内容!