Photo by Joshua Woroniecki on Unsplash

Cloudflare研究人员声称，尽管AI机器人阻断，Perplexity仍在抓取网站数据

阅读时间: 1 分钟

首次发布于： Aug 6, 2025

自发布之日起已更新 2 次

作者 Andrea Miliani 前科技新闻专家
翻译本地化和翻译团队 本地化和翻译服务

互联网基础设施提供商Cloudflare的研究人员声称，AI系统Perplexity一直在未经许可的情况下从网站上抓取内容，即使出版商已经实施了AI机器人阻挡。

赶时间？这里有快速事实：

Cloudflare声称Perplexity未经许可就从各网站擅自抓取内容。
即使发布者实施了AI机器人阻止措施，研究人员也证实了Perplexity的“隐形爬行”行为。
Perplexity的一位发言人称Cloudflare的报告为“公关噱头”。

根据周一Cloudflare分享的报告，Perplexity 使用其默认的用户代理来爬取网站，并切换其身份以绕过这些阻止。Cloudflare的专家们证实了这种“隐形爬取”行为。

“我们持续发现证据表明，Perplexity不断修改他们的用户代理并更改他们的源ASN以隐藏他们的爬取行为，同时忽视——或有时甚至未能获取——robots.txt文件，”研究人员写道。

爬虫应该要透明，清晰地说明其用途，并尊重网站的偏好，但研究人员声称Perplexity并未遵循这些信任原则。这个结论是在收到客户投诉后进行的调查中得出的。

“我们收到了客户的投诉，他们既在他们的robots.txt文件中禁止了Perplexity的爬虫活动，又专门创建了WAF规则来阻止Perplexity声明的两个爬虫：PerplexityBot和Perplexity-User，”研究人员写道。“这些客户告诉我们，即使他们看到其机器人成功地被阻止，Perplexity仍然能够访问他们的内容。”

Cloudflare的研究人员表示，他们通过复制阻止操作并进行多次测试来验证这些说法，以观察爬虫的行为。在一次测试中，他们创建了尚未被索引并且包含robots.txt文件以阻止“尊重性机器人”的新域名。后来，他们向Perplexity查询了关于这些受限域名的特定信息，并发现这个AI驱动的答案引擎仍然提供了关于网站的详细和准确的信息。

“这个反应出乎我们的预料，因为我们已经采取了所有必要的预防措施，防止他们的爬虫能够检索到这些数据，”研究人员补充说。

Perplexity的发言人Jesse Dwyer在向The Verge发表声明时，将这项研究称为“公开噱头”。Dwyer补充说，Cloudflare的报告中存在一些“误解”。

Cloudflare一直在开发多种工具，帮助出版商防止未经授权的AI爬虫。今年3月，Cloudflare发布了“AI迷宫”，这是一种将未经授权的爬虫重定向到AI生成的内容迷宫中的工具。上个月，它推出了“按爬取付费”系统，对AI机器人访问出版商的内容进行收费。

Cloudflare研究人员声称，尽管AI机器人阻断，Perplexity仍在抓取网站数据

我们很高兴您喜欢我们的作品！