相信许多个人站长都在纠结一件事:是否应该屏蔽GPTBot?我自己也纠结了一段时间。
如果是为了给GPT这类AI LLM大模型喂食自己的文章和经验,是可以选择开启,但是对小站的个人站长来说,同意GPTbot的访问实在是非常糟糕的体验。
1.是否应该屏蔽GPTBot
例如,本站上午尝试允许GPTBot的访问,谁不愿意自己写的文章可以帮助到更多的人呢?但是疯狂的GPTbot以10秒一次的频率,一整天都在高频全量访问网站所有的页面。
这种掠夺式的访问不亚于一次DDOS攻击,也会影响普通用户的正常访问速度。
这对现在小web站站长来说,既浪费带宽为Openai这样的大型企业提供了语料库,又不能得到任何形式的回馈。
这就像你可以选择帮助别人,但如果有人站在门口逼你帮助他,而且他还是比你有权有势的大企业代表,而且他每十秒钟敲一次门要求看看你家里面的东西,那你完全可以选择不帮助。
以下是多个GPTBot全天高频访问的记录
74.7.227.174 - - [30/Oct/2025:08:31:26 +0800] "GET /?p=1297 HTTP/2.0" 200 26828 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.174 - - [30/Oct/2025:08:32:01 +0800] "GET /?p=1140 HTTP/2.0" 200 22498 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.174 - - [30/Oct/2025:08:32:33 +0800] "GET /?p=1667 HTTP/2.0" 200 16325 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"……………………………………………………
74.7.227.128 - - [30/Oct/2025:13:41:27 +0800] "GET /?tag=extended-reality HTTP/2.0" 200 14552 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.128 - - [30/Oct/2025:13:41:37 +0800] "GET /?feed=rss2&tag=vietnam HTTP/2.0" 200 277 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.128 - - [30/Oct/2025:13:41:49 +0800] "GET /?feed=rss2&tag=celeron HTTP/2.0" 200 277 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.128 - - [30/Oct/2025:13:42:03 +0800] "GET /?feed=rss2&tag=windows HTTP/2.0" 200 277 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
……………………………………………………74.7.227.128 - - [30/Oct/2025:15:34:44 +0800] "GET /index.php?rest_route=/wp/v2/posts/2827 HTTP/2.0" 403 146 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.128 - - [30/Oct/2025:15:34:54 +0800] "GET /index.php?rest_route=/wp/v2/posts/2429 HTTP/2.0" 403 146 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
74.7.227.128 - - [30/Oct/2025:15:35:04 +0800] "GET /index.php?rest_route=/wp/v2/posts/2263 HTTP/2.0" 403 146 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"
2.GPTBot的种类和名称
在GPTbot的官方页面,有关于GPTbot的介绍:
1. OAI-SearchBot
OAI-SearchBot 用于搜索。OAI-SearchBot 用于在 ChatGPT 的搜索功能的搜索结果中链接和呈现网站。它不用于抓取内容来训练 OpenAI 的生成式 AI 基础模型。为确保您的网站能出现在搜索结果中,我们建议在您网站的 robots.txt 文件中允许 OAI-SearchBot,并允许来自我们下方发布的 IP 地址范围的请求。
完整的用户代理字符串将包含:OAI-SearchBot/1.0; +https://openai.com/searchbot
zhBot公开的 IP 地址:https://openai.com/searchbot.json
2. ChatGPT-User
ChatGPT-User 用于 ChatGPT 和自定义 GPT 中的用户操作。当用户向 ChatGPT 或自定义 GPT 提问时,它可能会以 ChatGPT-User 用户代理访问网页。ChatGPT 用户也可能通过 GPT 操作与外部应用程序交互。ChatGPT-User 不用于以自动方式爬取网络,也不用于为生成式 AI 训练抓取内容。
完整的用户代理字符串:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Bot公开的 IP 地址:https://openai.com/chatgpt-user.json
3. GPTBot
GPTBot 用于使我们的生成式 AI 基础模型更有用、更安全。它用于抓取可能用于训练我们生成式 AI 基础模型的内容。禁止 GPTBot 即表示网站内容不应用于训练生成式 AI 基础模型。
完整的用户代理字符串:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Bot公开的 IP 地址:https://openai.com/gptbot.json
3.如何屏蔽GPTBot
所以说,如果是无理的访问,建议个人站长屏蔽GPTBot。
GPTbot主要分为三种,分别是:OAI-SearchBot、ChatGPT-User、GPTBot。对于普通站长来说,只需要屏蔽高频采集的GPTBot即可。但是建议放行OAI-SearchBot。
具体屏蔽GPTBot的方法,可以通过宝塔面板——网站——设置——配置文件——将下面的代码放置在网站配置文件内。放置的位置可以在“#SECURITY-START 防盗链配置”之后,注意缩进与上下保持一致。
注意:if一定要和Location保持在同一行缩进
# User-Agent拦截
if ($http_user_agent ~* (SemrushBot|ClaudeBot|DotBot|GPTBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup|serpstatbot)) {
return 403;
}
这样可以有效避免一些SEO扫描器和AIBot来扫描你的服务器,后续也可以根据实际被骚扰的情况来增加或删除里面的屏蔽名单。节省网站有限的带宽,保证普通人正常访问的速度。